Spam de blog

Un spam de blog ou pourriel dans un blogue est un commentaire affiché dans un blog qui a pour objectif, non pas de commenter l'article du blog, mais bien de faire la promotion d'une idée, d'un produit, d'un site Web ou d'afficher un hyperlien vers un site dans le but d'améliorer le positionnement de ce site dans les résultats des moteurs de recherche.

Lorsque le spam dans un blogue contient un hyperlien dans le but de tromper les moteurs de recherche, il s'agit de référencement abusif qui peut entraîner le déclassement ou la suppression du site des résultats de recherche si le moteur de recherche démasque la manœuvre.

Ce type de spam est apparu originellement dans les livres d'or Internet, où des spammeurs inscrivaient des hyperliens vers les sites qu'ils voulaient promouvoir pour améliorer leur positionnement dans les résultats des moteurs de recherche, sans y inscrire de commentaires ou en incluant un commentaire générique comme beau site, félicitations pour ce site, etc.

En 2003, les spammer ont commencé à tirer avantage de l'introduction de commentaires ouverts dans les blogs comme Movable Type pour y inscrire des liens vers les sites qu'ils voulaient promouvoir. Jay Allen a alors créé un plug-in gratuit appelé MT-BlackList pour s'attaquer à cette pollution dans les blogs Movable Type[1].

Aujourd'hui, les logiciels de blogs contiennent des algorithmes pour tenter de détecter et d'éliminer ces spams. L'apparition de ces algorithmes a déclenché une guerre entre les spammeurs et les blogs, les premiers tentent de contourner les défenses des blogs alors que ceux-ci tentent de bloquer les failles exploitées.

Mesures de prévention

[modifier | modifier le code]

Les mesures suivantes sont mises en place à différents degrés sur les blogs, les forums, les livres d'or, et les autres outils où les internautes sont invités à laisser des commentaires pour éliminer, ou à tout le moins, réduire les spams.

Interdiction d'hyperliens dans les commentaires

[modifier | modifier le code]

La très grande majorité des spams de blog contiennent des hyperliens. On peut éliminer ces commentaires indésirables en interdisant les hyperliens dans les commentaires. Malheureusement, cette technique réduit considérablement la qualité des commentaires.

Interdiction de commentaires en rafale

[modifier | modifier le code]

Les spammeurs soumettent parfois de multiples commentaires sur le même article ou soumettent des commentaires sur leurs propres commentaires[2]. Il est possible de bloquer certains de ces commentaires en rafale en interdisant les commentaires multiples en provenance de la même adresse IP.

Cette mesure a toutefois des effets secondaires indésirables et elle n'est pas très efficace. En effet, cette mesure affectera aussi des utilisateurs légitimes situés derrière le même serveur mandataire (proxy) qui veulent commenter le même article. De plus, les spammeurs peuvent soumettre leurs commentaires en simulant de fausses adresses IP et ainsi déjouer l'interdiction de commentaires en rafale[3].

Une variante de cette mesure consiste à exiger un certain laps de temps entre deux commentaires, ce qui perturbe les bots informatiques qui soumettent un grand nombre de commentaires dans un court laps de temps.

Blocage de mots-clés

[modifier | modifier le code]

Le blocage de mots-clés est une des méthodes les plus simples et les plus efficaces pour réduire le spam dans les blogs. En effet, une grande quantité de spams peut être éliminée simplement en bannissant les commentaires contenant des noms de produits pharmaceutiques populaires (Viagra, Cialis, etc.) ou des noms de casino en ligne.

Cette mesure est d'autant plus efficace que les spammeurs n'ont pas intérêt à modifier l'orthographe de ces mots, car alors ils ne seraient pas reconnus par les moteurs de recherche.

Certains logiciels de blog permettent d'accéder à un flux RSS des commentaires récents. En ajoutant un détecteur de mots-clés indésirables au lecteur de flux, un blogueur peut être avisé de commentaires contenant ces mots-clés et il peut les supprimer rapidement.

Utilisation de l'attribut rel="nofollow"

[modifier | modifier le code]

Au début de 2005, Google a annoncé que les hyperliens avec l'attribut rel="nofollow" seraient ignorés par son moteur de recherche, c'est-à-dire que ces liens ne seraient pas suivis et n'influenceraient pas le positionnement des résultats de recherche[4].

Aujourd'hui, la plupart des logiciels de blogs marquent les hyperliens des commentaires soumis par des internautes avec l'attribut rel="nofollow". Certains blogs plus sophistiqués n'incluent pas l'attribut dans les commentaires des internautes de confiance (par exemple, ceux qui sont inscrits au blogue depuis une longue période de temps).

Certains blogueurs n'apprécient pas l'ajout de l'attribut rel="nofollow" aux commentaires parce qu'ils estiment que

  • cet attribut diminue la valeur des commentaires légitimes[5]
  • et, malgré l'ajout de cet attribut, les spammeurs continuent à insérer des spams dans les blogs dans le but d'inciter les lecteurs à visiter les sites publicisés par leurs commentaires.

Validation de l'humanité du commentateur

[modifier | modifier le code]

La très grande majorité des spams dans les blogs sont soumis par des bots informatiques (programmes informatiques) et non par des humains. Il est possible de réduire ces commentaires indésirables en obligeant le commentateur à résoudre un problème qui peut facilement être résolu par un humain, mais qu'un robot peut difficilement résoudre. Un test CAPTCHA est souvent utilisé à cet effet. Il s'agit d'un test où il faut copier une liste de lettres déformées. Un humain peut lire les lettres relativement facilement alors qu'un bot informatique peut difficilement le faire.

Malheureusement, les webmestres ont constaté que les commentaires légitimes diminuent lorsque des tests sont ajoutés au formulaire de soumission de commentaires. Comme les spams dans les blogs contiennent presque toujours des hyperliens, on peut réduire l'effet dissuasif des tests d'humanité en proposant un formulaire de commentaire sans test au visiteur et en le soumettant à un test uniquement si le commentaire qu'il a soumis contient un hyperlien.

Plutôt que d'inclure l'hyperlien proposé directement dans un commentaire, le site peut inclure un hyperlien vers un script sur son site qui redirigera vers l'hyperlien proposé. L'hyperlien proposé sera alors sans effet sur l'algorithme de positionnement des résultats des moteurs de recherche. Cette solution a donc un effet semblable à l'attribut rel="nofollow". Cette méthode a l'avantage additionnel de permettre au script de compter le nombre de lecteurs cliquent sur des hyperliens externes lors de leur visite.

Utilisation de numéro de série

[modifier | modifier le code]

Les blogs peuvent inclure un numéro de série dans le formulaire de commentaire soumis à un visiteur et accepter un seul commentaire par numéro de série valide. Cela complique la vie des spammeurs qui génèrent des commentaires en rafale sans demander un formulaire de commentaire pour chaque commentaire soumis.

Modération des commentaires

[modifier | modifier le code]

Plusieurs blogs modèrent les commentaires avant de les publier, c'est-à-dire que les commentaires sont revus et approuvés par un humain avant d'être affichés. D'autres blogs modèrent les commentaires après publication, c'est-à-dire que les commentaires sont affichés sans revue, mais un modérateur revoit régulièrement les commentaires et élimine les commentaires indésirables. Dans certains cas, les blogs demandent à leurs visiteurs d'agir comme modérateurs et de signaler les commentaires indésirables.

Il est évidemment possible d'utiliser une combinaison des mécanismes mentionnés précédemment. Par exemple, les commentaires d'un visiteur régulier ou enregistré peuvent être affichés sans revue alors que les commentaires d'un nouveau visiteur seront revus avant d'être publiés.

Enregistrement des commentateurs

[modifier | modifier le code]

La quasi_totalité des blogs n'acceptent des commentaires que des personnes enregistrées. Lors de l'enregistrement, divers tests peuvent être effectués pour s'assurer que le commentateur n'est pas un bot informatique : CAPTCHA, question de connaissance usuelle comme quelle est la couleur de la neige ?, envoi d'un courriel avec demande de confirmation d'enregistrement, etc.

Certains administrateurs revoient même individuellement les demandes d'enregistrement avant de les autoriser. Dans ces cas, les administrateurs valident attentivement les demandes d'enregistrement provenant de domaines (comme .ru, .br, .biz) ou de pays (comme la Russie) d'où proviennent beaucoup de spams.

Utilisation obligatoire d'Ajax

[modifier | modifier le code]

Certains blogs permettent uniquement la soumission de commentaires à travers une requête Ajax, donc d'une requête venant d'une page Web et non d'un bot informatique.

Pour le moment cette technique est efficace. Toutefois, comme il s'agit d'une technique de sécurité par l'obscurité, elle pourra être contournée lorsqu'elle deviendra populaire étant donné qu'il s'agit essentiellement d'une différente façon de coder le commentaire.

Techniques antispam spécifiques à des applications

[modifier | modifier le code]

Comme les spammeurs attaquent plus particulièrement les blogs populaires comme Movable Type et MediaWiki, ces blogs ont développé leurs propres techniques antispam. Ces techniques incluent plusieurs des techniques mentionnées plus haut comme des listes blanches, des listes noires et des filtres et des tests. Le but de ces techniques est de bloquer les commentaires indésirables tout en ne compliquant pas la vie des visiteurs légitimes et en permettant les hyperliens qui constituent une partie importante des commentaires.

Approche coopérative

[modifier | modifier le code]

Une approche coopérative apparue vers 2004 donne aujourd'hui de bons résultats. Pour ne pas éveiller les soupçons, les spammeurs laissent souvent un seul hyperlien indésirable dans un blogue. Il est difficile pour le blogue de conclure que l'hyperlien est indésirable avec si peu d'information. Par contre, un programme informatique qui aurait accès à plusieurs des commentaires publiés par le spammeur identifierait rapidement la répétition des hyperliens indésirables et pourrait informer les blogs de supprimer les commentaires contenant ces hyperliens.

Cette approche coopérative a été implantée dans divers logiciels comme LinkSleeve[6], Akismet[7], et TypePad AntiSpam.

Références

[modifier | modifier le code]
  1. (en) « MT-Blacklist - A Movable Type Anti-spam Plugin », Jayallen.org (consulté le )
  2. (en) « Matthew1471's ASP BlogX - 5 things you probably did not know about the spammers who spam your website », Blogx.co.uk, (consulté le )
  3. IIsForInclude.org - Blog spam gets ramped up.
  4. (en) « Links in HTML documents », W3.org (consulté le )
  5. (en) Posted by jzawodn at May 30, 2006 06:59 AM, « Nofollow No Good? (by Jeremy Zawodny) », Jeremy.zawodny.com, (consulté le )
  6. (en) « SLV : Spam Link Verification », LinkSleeve (consulté le )
  7. (en) « WordPress › Blog » WordPress 2 », Wordpress.org (consulté le )