Spamdexing
Con il termine spamdexing si definiscono azioni il cui fine è l'acquisizione di visibilità nei motori di ricerca utilizzando metodologie e/o tecniche ritenute illecite o comunque apertamente in contrasto con i termini d'uso dei motori di ricerca[1][2].
Esempi di spamdexing sono l'uso di testo nascosto, lo sviluppo di pagine web il cui unico obiettivo è l'acquisizione di visibilità (dette doorway pages), e comunque lo sviluppo di contenuti che non sono destinati agli utenti ma solo ai motori di ricerca: in pratica se una pagina non è presentabile ad un utente, è da ritenersi spam e quindi un'azione di spamdexing che può portare all'estromissione dagli indici dei motori di ricerca.
Le tecniche comuni di spamdexing possono essere classificate in due grandi classi: content spam (o term spam) e link spam[3][4].
Content spam
[modifica | modifica wikitesto]Keyword stuffing e meta tag stuffing
[modifica | modifica wikitesto]Si tratta di una tecnica che prevede la scrittura della pagina web pregna di parole chiave per altri ambiti, non correlati al tema stesso della pagina (per esempio, con meta tag a sfondo sessuale) e contenuti nascosti sempre non attinenti al tema della pagina web che, ricevendo molte visite anche grazie all'indicizzazione su diversi temi nei motori di ricerca, scala molte posizioni nelle SERP[5].
Contenuti nascosti o invisibili
[modifica | modifica wikitesto]Contenuti inseriti fuori dalla visuale della pagina oppure sotto altri contenuti attraverso il codice CSS[6].
Metodi penalizzati da Google[7]:
- Modifica del colore del carattere del testo in modo simile al colore di sfondo della pagina.
- Aggiunta del testo dietro le immagini o altri file multimediali.
- Individuazione del testo al di fuori della schermata utente utilizzando
z-index
, classe di posizione assoluta o proprietàmargin
. - Utilizzo di CSS (Cascading Style Sheets) per nascondere la visibilità del testo.
- Modifica la dimensione del carattere del testo a zero.
- Nascondere il testo all'interno del linguaggio di scripting lato server (come PHP, ASP.NET, JSP, Perl, Node.JS).
- Alterando l'opacità del testo e portando il livello di trasparenza a zero (%).
- A sinistra una pagina web visibile su qualsiasi dispositivo. A destra un contenuto che si trova al di fuori della visuale del dispositivo.
- Testo nascosto sotto un'immagine (tag IMG) o un video (tag VIDEO) attraverso la proprietà "z-index".
Pagine doorway o gateway
[modifica | modifica wikitesto]Non hanno un vero contenuto, ma sono create per essere indicizzate dai motori e “spingere” altre pagine interne del sito stesso o di un altro sito[8].
Web scraping
[modifica | modifica wikitesto]Il web scraping è una tecnica che permette l'estrazione di informazioni dai siti web; spesso include la trasformazione di dati non strutturati di pagine web in database per l'analisi o il riutilizzo del contenuto[9].
Article spinning
[modifica | modifica wikitesto]L'article spinning comporta la riscrittura di articoli esistenti, anziché la semplice rimozione di contenuti da altri siti, per evitare sanzioni imposte dai motori di ricerca per contenuti duplicati. Questo processo viene intrapreso da scrittori assunti o in modo automatizzato utilizzando un database di thesaurus[10].
Traduzione automatica
[modifica | modifica wikitesto]Analogamente all'article spinning, alcuni siti utilizzano la traduzione automatica per pubblicare i loro contenuti in diverse lingue, senza modifiche umane, creando testi incomprensibili che tuttavia continuano ad essere indicizzati dai motori di ricerca, attirando così traffico.
Link spam
[modifica | modifica wikitesto]Link farms
[modifica | modifica wikitesto]Le link farm sono reti fitte di siti Web che si collegano tra loro al solo scopo di giocare con gli algoritmi di ranking dei motori di ricerca. Queste sono anche note scherzosamente come società di mutua ammirazione. L'utilizzo di link farm è stato notevolmente ridotto dopo che Google ha lanciato il primo Panda Update nel febbraio 2011, che ha introdotto miglioramenti significativi nel suo algoritmo di rilevamento dello spam[11].
Reti di blog private
[modifica | modifica wikitesto]Le reti di blog (PBN) sono un gruppo di siti Web autorevoli utilizzati come fonte di collegamenti contestuali che puntano al sito Web principale del proprietario per ottenere un posizionamento sui motori di ricerca più elevato. I proprietari di siti Web PBN utilizzano domini scaduti o domini di aste con backlink da siti Web di alta autorità. Google ha preso di mira e penalizzato gli utenti PBN in diverse occasioni con diverse massicce campagne di de-indicizzazione dal 2014[12].
L'attacco di Sybil è un attacco informatico dove i sistemi di reputazione sono sovvertiti falsificando le identità di una persona in una rete p2p[13].
I blog di tipo spam sono blog creati esclusivamente per la promozione commerciale e il passaggio dell'autorità di collegamento ai siti di destinazione. Spesso questi "splog" sono progettati in modo fuorviante che darà l'effetto di un sito Web legittimo, ma un'attenta ispezione rivela che spesso è scritto utilizzando software automatico o avrà un contenuto scritto in modo molto scadente e appena leggibile.
Invece lo "spam nei blog" è l'inserimento o la richiesta di collegamenti in modo casuale su altri siti, inserendo una parola chiave desiderata nel testo del collegamento ipertestuale del collegamento in entrata. I guest book, i forum, i blog e qualsiasi sito che accetti i commenti dei visitatori sono gli obiettivi di questo metodo e sono spesso vittime di spamming drive-by in cui il software automatizzato crea post senza senso con collegamenti che di solito sono irrilevanti e indesiderati.
Guest blog spam
[modifica | modifica wikitesto]Il processo di inserimento dei guest post sui blog al solo scopo di ottenere un collegamento a un altro sito Web. Sfortunatamente questi vengono spesso confusi con forme legittime di guest blogging. Questa tecnica è stata resa famosa da Matt Cutts, che ha pubblicamente dichiarato "guerra" a questa forma di link spam[14].
Acquisto di domini scaduti
[modifica | modifica wikitesto]Alcuni spammer di link utilizzano software crawler di domini scaduti o monitorano i record DNS per i domini che scadranno a breve, quindi li acquistano quando scadono e sostituiscono le pagine con link alle loro pagine. Tuttavia, è possibile, ma non confermato, che Google reimposti i dati del collegamento sui domini scaduti.
Cookie stuffing
[modifica | modifica wikitesto]Il cookie stuffing implica l'inserimento di un cookie di tracciamento affiliato sul computer di un visitatore del sito web a sua insaputa, che genererà quindi entrate per la persona che esegue il cookie stuffing. Questo non solo genera vendite fraudolente di affiliazione, ma ha anche il potenziale per sovrascrivere i cookie di altri affiliati, essenzialmente rubando le loro commissioni legittimamente guadagnate[15].
Utilizzo di pagine scrivibili in tutto il mondo
[modifica | modifica wikitesto]I siti Web che possono essere modificati dagli utenti possono essere utilizzati dagli spamdexer per inserire collegamenti a siti di spam se non vengono prese le misure anti-spam appropriate.
Gli spambot automatici possono rendere rapidamente inutilizzabile la parte modificabile dall'utente di un sito. I programmatori hanno sviluppato una serie di tecniche automatiche di prevenzione dello spam per bloccare o almeno rallentare gli spambot.
Comment spam
[modifica | modifica wikitesto]Lo spam nei commenti è una forma di link spam che si è verificato nelle pagine Web che consentono la modifica dinamica degli utenti come wiki, blog e guestbook. Può essere problematico perché è possibile scrivere agenti che selezionano automaticamente in modo casuale una pagina Web modificata dall'utente, ad esempio un articolo di Wikipedia, e aggiungono collegamenti di spamming[16].
Wiki spam
[modifica | modifica wikitesto]Lo spam Wiki è una forma di link spam nelle pagine wiki. Lo spammer utilizza la modificabilità aperta dei sistemi wiki per inserire collegamenti dal sito wiki al sito di spam[17].
Referrer log spamming
[modifica | modifica wikitesto]Si verifica quando un autore di spam o un "facilitatore" accede a una pagina web (l'arbitro o referee), seguendo un collegamento da un'altra pagina web (il referer), in modo che l'arbitro riceva l'indirizzo del referrer dal browser Internet della persona[18].
Altri tipi
[modifica | modifica wikitesto]Siti web speculari (mirror)
[modifica | modifica wikitesto]Un sito mirror è l'hosting di più siti Web con contenuti concettualmente simili ma che utilizzano URL diversi. Alcuni motori di ricerca assegnano un posizionamento più elevato ai risultati in cui la parola chiave cercata appare nell'URL[19].
Il reindirizzamento dell'URL (URL redirect) è il reindirizzamento dell'utente a un'altra pagina senza il suo intervento, ad esempio utilizzando tag di aggiornamento META, Adobe Flash (obsoleto dal 31 dicembre 2020[20]), JavaScript, Java o reindirizzamenti lato server. Tuttavia, il reindirizzamento 301, o reindirizzamento permanente, non è considerato un comportamento dannoso[21].
Il cloaking è una tecnica informatica mediante la quale, grazie a particolari script, è possibile mostrare ai motori di ricerca un contenuto differente da quello che realmente il sito internet propone agli utenti, consentendo così al sito stesso di ottenere migliori posizionamenti all'interno delle SERP[22].
Contromisure
[modifica | modifica wikitesto]Dal manutentore del motore di ricerca
[modifica | modifica wikitesto]Le pagine con spamdexing vengono talvolta eliminate dai risultati del motore di ricerca.
Dall'utente del motore di ricerca
[modifica | modifica wikitesto]Gli utenti possono utilizzare operatori di ricerca per il filtraggio. Per Google una parola chiave preceduta da "-" (meno) ometterà i siti che contengono la parola chiave nelle loro pagine o nell'URL delle pagine dai risultati di ricerca. Ad esempio, la ricerca "<-sito indesiderato>" eliminerà i siti che contengono la parola "<sito indesiderato>" nelle loro pagine e le pagine il cui URL contiene "<sito indesiderato>"[23].
Estensione di Google Chrome
[modifica | modifica wikitesto]La stessa Google ha lanciato l'estensione di Google Chrome "Personal Blocklist (by Google)[24]" nel 2011 come parte delle contromisure contro l'agricoltura dei contenuti. A partire dal 2018, l'estensione funziona solo con la versione PC di Google Chrome[25][26].
Note
[modifica | modifica wikitesto]- ^ SearchEngineLand, Danny Sullivan's video explanation of Search Engine Spam, October 2008 Archiviato il 17 dicembre 2008 in Internet Archive. . Retrieved 2008-11-13.
- ^ "Word Spy - spamdexing" (definition), March 2003, webpage:WordSpy-spamdexing Archiviato il 18 luglio 2014 in Internet Archive..
- ^ Alexandros Ntoulas, Mark Manasse, Marc Najork e Dennis Fetterly, Detecting Spam Web Pages through Content Analysis, in The 15th International World Wide Web Conference (WWW 2006) May 23–26, 2006, Edinburgh, Scotland., New York, NY, ACM Press, 2006, ISBN 1-59593-323-9.
- ^ Zoltán Gyöngyi e Hector Garcia-Molina, Web spam taxonomy (PDF), in Proceedings of the First International Workshop on Adversarial Information Retrieval on the Web (AIRWeb), 2005 in The 14th International World Wide Web Conference (WWW 2005) May 10, (Tue)-14 (Sat), 2005, Nippon Convention Center (Makuhari Messe), Chiba, Japan., New York, NY, ACM Press, 2005, ISBN 1-59593-046-9.
- ^ Glossario SEO: Keyword stuffing | Blog di Roberto Serra, su Roberto Serra. URL consultato il 25 febbraio 2021 (archiviato dall'url originale il 2 dicembre 2021).
- ^ (EN) Ranjan Acharya, Hidden Text and Links in Website – SEO Guide – Search Engine Laws, su searchenginelaws.com. URL consultato il 25 febbraio 2021.
- ^ Testo e link nascosti | Centro Ricerca Google, su Google Developers. URL consultato il 25 febbraio 2021.
- ^ David Segal, The Dirty Little Secrets of Search, in The NY Times, 13 febbraio 2011. URL consultato il 3 luglio 2012.
- ^ Avvocato Spedicato IP ICT Privacy, Quando la tecnica del web scraping diventa illegale?, su macros web agency. URL consultato il 25 febbraio 2021 (archiviato dall'url originale il 7 maggio 2021).
- ^ (EN) What is Article Spinning? Will it help to SEO my Website?, su Energise Web, 14 ottobre 2012. URL consultato il 25 febbraio 2021.
- ^ Ann Smarty, What Is BlackHat SEO? 5 Definitions, in Search Engine Journal, 17 dicembre 2008. URL consultato il 5 luglio 2012.
- ^ (EN) Google Targets Sites Using Private Blog Networks With Manual Action Ranking Penalties, in Search Engine Land, 23 settembre 2014. URL consultato il 12 dicembre 2016.
- ^ L'Attacco Sybil, su Binance Academy. URL consultato il 25 febbraio 2021.
- ^ The decay and fall of guest blogging for SEO, su mattcutts.com, 20 gennaio 2014.
- ^ Cookie stuffing, la truffa del marketing di affiliazione: cos’è e come difendersi, su Cyber Security 360, 6 febbraio 2020. URL consultato il 25 febbraio 2021.
- ^ Gilad Mishne, David Carmel e Ronny Lempel, Blocking Blog Spam with Language Model Disagreement (PDF), in Proceedings of the First International Workshop on Adversarial Information Retrieval on the Web, 2005. URL consultato il 24 ottobre 2007.
- ^ Wiki spam - Meta, su meta.wikimedia.org. URL consultato il 25 febbraio 2021.
- ^ Referrer spam: modelli di attacco e contromisure, su IONOS Digitalguide. URL consultato il 25 febbraio 2021.
- ^ (EN) What is mirror site? - Definition from WhatIs.com, su SearchStorage. URL consultato il 25 febbraio 2021.
- ^ Flash & The Future of Interactive Content | Adobe Blog, su web.archive.org, 2 dicembre 2017. URL consultato il 25 febbraio 2021 (archiviato dall'url originale il 2 dicembre 2017).
- ^ Reindirizzamenti URL, su Squarespace. URL consultato il 25 febbraio 2021.
- ^ Sneaky redirects - Search Console Help, su support.google.com.
- ^ How to exclude a website from a Google search - Quora, su quora.com. URL consultato il 25 febbraio 2021.
- ^ Personal Blocklist(not by Google), su chrome.google.com. URL consultato il 25 febbraio 2021 (archiviato dall'url originale il 3 febbraio 2021).
- ^ Google検索結果の悪質なサイトを非表示&通報し検索品質アップに貢献できるGoogle公式Chrome拡張機能「Personal Blocklist」, su gigazine.net.
- ^ New: Block Sites From Google Results Using Chrome's "Personal Blocklist" - Search Engine Land, su searchengineland.com, 14 febbraio 2011.