“Miscellanées”

internet | movable type

Une réponse au spam : “NoFollow”

L’information s’était déjà diffusée [Simon Willison], et vient juste d’être officialisée [sur le blogue de Google : Preventing comment spam] : le nouvel attribut rel=”nofollow” va être soutenu par les principaux moteurs de recherche et outils de publication sur le Web.

Désormais, tout lien html (“a href”) portant l’attribut rel=”nofollow” n’entrera plus en compte dans le calcul du Page Rank du site mis en lien, ni ne lui apportera aucune valorisation particulière. Le message donné par l’attribut au robot est : “prière de ne pas tenir compte de ce lien”.

Ceci a pour but de décourager les spammeurs de polluer les lieux d’expression publique sur le Web, comme les commentaires et les rétroliens des blogues, mais aussi les wikis (autres grandes victimes du spam). L’initiative de Google est soutenue par Six Apart (Movable Type, TypePad, LiveJournal), Blogger, WordPress, Flickr, Buzznet, Blojsom et Blosxom.

Deux autres poids lourds du moteur de recherche se joignent déjà à l’initiative : Yahoo [A Defense Against Comment Spam] et MSN search [Working Together Against Blog Spam]. Les moteurs de recherche ont en effet un intérêt tout particulier à ne pas voir la pertinence de leurs résultats polluée pas des manoeuvres de spamming.

Un plug-in pour Movable Type est dès maintenant disponible : Movable Type ’NoFollow’ plugin.

Si, à court terme, cette nouveauté très attendue ne devrait pas tarir le flot de spam, l’adoption par la quasi-totalité des acteurs des outils de blogage devrait à moyen terme faire diminuer considérablement cette fatigante pollution. Par ailleurs, son utilisation devrait dépasser largement le cadre de la blogopshère. Mais les spammeurs et autres experts en SEO (Search Engine Optimisation) cherchent déjà la parade…

P.S. Pour les “neuneux”, explications en français chez Padawan : NoFollow contre le spam.

1. Le 19 janvier 2005,
Maxime R.

Vu l’expérience que j’ai des spammeurs, ca changera rien au problème de spam, mais risque de deréférencer certains blogs : http://maxime.ritter.eu.org/une-solution-anti-spam-a-la-con-de-plus-breve150.html

2. Le 19 janvier 2005,
Laurent

Tu écris dans ton billet : “Mais je n’ai jamais vu un seul spammeur s’intéresser à son pagerank !”

C’est visiblement que tu n’as pas vu assez de spammeurs et que tu connais bien mal le phénomène sur les blogues et les wikis, parce que dire cela, ça, c’est une connerie. ;-)

Ainsi, la nouvelle mode du spam de blogue, c’est le commentaire unique avec au moins une cinquantaine de liens en vrac, saucissonnés de mots clés sans queue ni tête, absolument imbuvable et illisible pour un lecteur humain et souvent posté au plus vieux des archives jamais lues par personne. (J’en ai encore reçu aujourd’hui même).

(La stratégie du spam de referrers est très différente et n’obéit pas aux mêmes motivations).

Tu récidives : “Aucun spammeur n’agit dans le but d’augmenter son pagerank. Ils spamment dans le but d’augmenter leurs visites, en espérant profiter des lecteurs du blog. Et non pas pour leurs pageranks.”

Cela est (pour au moins 90 % du spam de blogue) complètement faux, et limite risible pour quiconque a dû le subir sur son site.

Tu écris encore : “Oui, les blogs, y compris dans leurs commentaires, ont l’habitude de générer de nombreux liens entre eux. A commente sur le site de B, qui a son tour commente sur le site de A. Cela s’appelle un échange de liens entre gens qui s’apprécient, et cela permet de faire monter le pagerank des 2 sites. De la sorte, les blogs finissent fort bien référencés. En rajoutant ce tag aux liens mis dans les commentaires, on casse une bonne partie du mécanisme permettant aux blogs d’être bien référencés.”

Mais non, les liens dans les commentaires sont tout à fait marginaux dans le phénomène (du fait même de leur rareté en dehors du spam — et pour exemple, tu n’as même pas fait l’effort de mettre un “a href” sur le lien de ton billet…). Quant aux liens sur les noms d’auteurs de commentaires, ça fait longtemps que d’importants logiciels et plates-formes le traitent avec une redirection pour bloquer les robots.

La “valorisation” des blogues vient essentiellement des blogolistes et, dans une moindre mesure, des liens publiés dans les articles.

D’autre part, le “Nofollow” sera très utile en utilisation ponctuelle dans des billets pour des sites dont on ne souhaite pas assurer un meilleur référencement.

3. Le 19 janvier 2005,
Maxime R.

« C’est visiblement que tu n’as pas vu assez de spammeurs et que tu connais bien mal le phénomène sur les blogues et les wikis »

J’ai déjà vu la soupe infâme que cela donnait : pleins de commentaires avec juste des mots-clefs, en général autour d’activités que la morale judéo-chrétienne réprouve. C’est vrai qu’à priori on pourrait penser que les spammeurs s’attaquent au pagerank, mais il faut savoir que cela attire aussi le regard humain : ce sont des commentaires gros, nombreux, qui occupent 90% de la page. Aussi bien google que le visiteur ne pourra pas les louper. Mettre un petit commentaire anonyme et/ou écrire un petit texte, cela se verrait moins pour l’humain aussi. Du moins, il y a de nombreux cas où je ne les aurais pas vu. Spammer l’end-user ou le moteur de recherche, même combat. Or tant qu’il sera possible de spammer l’end-user, on n’arrêtera pas le spam.

Si les spammeurs de commentaires utilisent les mêmes noms de domaines un certain temps, les filtres anti-spams sont faciles à utiliser : on utilise SURBL ou équivalent pour bloquer les commentaires douteux. Pas la peine de passer par google. Il doit bien y avoir déjà quelqu’un a avoir fait un tel plugin pour les CMS qui sont victimes de spams, non ?

« souvent posté au plus vieux des archives jamais lues par personne. »

Les plus vieilles pages sont aussi celles que google est le moins susceptibles de rafraichir aussi. Sans compter que vu les démonstrations de conneries informatique que m’ont fait certains spammeur (dans mon mail), il n’est pas interdit de penser que le fonctionnement du robot spammeur ne porte pas attention à l’âge du post.

« Mais non, les liens dans les commentaires sont tout à fait marginaux dans le phénomène »

La part des commentaires apporte une part assez importante aussi. Sur un site comme linuxfr (ok, ce n’est pas un blog), ce sont même dans les commentaires qu’apparaissent le plus de liens.

« et pour exemple, tu n’as même pas fait l’effort de mettre un “a href” sur le lien de ton billet…»

Je l’aurais fait s’il y avait eu une notice sur comment marche la mise en page. Entre ceux qui filtrent tout le HTML, ceux qui transforment en lien tout ce qui ressemble à une URL, ceux qui demandent une syntaxe HTML, ceux qui demandent une syntaxe wiki, on s’en sort pas toujours. Oups, pardon, je l’avais pas vu, il y a bien marqué “(vous pouvez utiliser du html)”. Mea culpa.

« D’autre part, le “Nofollow” sera très utile en utilisation ponctuelle dans des billets pour des sites dont on ne souhaite pas assurer un meilleur référencement. »

Ce que je disais justement, ca fait un petit plus par rapport à ce qui est possible à robots.txt. Mais comme antispam, bof.

4. Le 19 janvier 2005,
Laurent

“Il doit bien y avoir déjà quelqu’un a avoir fait un tel plugin pour les CMS qui sont victimes de spams, non ?”

Oui, c’est le principe de pas mal de plugins efficaces, comme MT BlackList par exemple, avec cette liste noire : MT-Blacklist Master Copy.

5. Le 19 janvier 2005,
Laurent

“Or tant qu’il sera possible de spammer l’end-user, on n’arrêtera pas le spam.” C’est évident, hélas.

6. Le 19 janvier 2005,
romu

il me semble que wp utilise un plugin qui est proche de ca

http://weblogtoolscollection.com/archives/…

7. Le 19 janvier 2005,
Stéphane

Nicolas a implémenté les liens nofollow sur Joueb.com et ViaBloga. :-)

8. Le 19 janvier 2005,
Laurent

Quelle star ce Nicolas… :-)

9. Le 20 janvier 2005,
romu

plugin wp no follow

http://alex.halavais.net/news/index.php?p=1021

10. Le 20 janvier 2005,
be-rewt

Laurent : Même un me complimentant, je refuse de suivre le mème. ;)

11. Le 20 janvier 2005,
Cyrille

Là, effectivement, je n’ai rien compris. Du coup je ferme ma gueule. Capito.

Amicalement

Cyrille (jeune blogueur mignon et navrant à la fois)

12. Le 25 janvier 2005,
lithium

rel=”nofollorentgloaguen”… ça marche pas !!!

13. Le 30 janvier 2005,
karl

Et bien l’initiative nofollow, je ne suis pas sur de son efficacité réelle, car comme il a été dit ce n’est pas une solution contre le SPAM mais contre le ranking. Et c’est là que cela me pose le problème. En pervers polymorphe, que je suis, j’aime bien les utilisations détournées et la première que je vois pour le nofollow, c’est le jugement de valeur du lien.

Je n’approuve pas ce site et je ne veux pas lui donner de Google Karma, je mets donc un nofollow. En quoi, c’est génant, c’est qu’il n’y a pas que Google qui va suivre l’implémentation de cet attribut, mais également Technorati (de plus en plus mauvais) et d’autres sites du même acabit. Et ainsi il y aura des nofollow bombs comme il y a du des google bombs.

En gros, on créé un attribut non pas pour régler le problème du spam mais bien pour corriger un effet induit par Google lui-même. Dans le genre, je me mords la queue, j’en fais porter la conséquence à tout le monde et en plus je créé d’autres problèmes en cascade derrière. :))))

Donc je ne supporte pas cette initiative.

14. Le 1 février 2005,
karl

et si vous n’êtes toujours pas convaincus que cela ne va rien changer : l’interview d’un spammer par Register.

nofollow non merci.

15. Le 1 février 2005,
Diego Bériot

[Commentaire hors-sujet. Désolé.]

16. Le 1 février 2005,
Laurent

Karl : c’est clair que l’attribut “NoFollow” souligne les limitations/incompétences des moteurs de recherche.

Pour le reste, je n’y vois pas plus qu’un “Robots Exclusion Protocol” au réglage plus fin. J’aurai d’ailleurs préféré un système qui permette d’écarter de l’indexation une portion de HTML, plutôt que de n’affecter que le lien.

(Je me suis parfois privé de faire des liens vers des sites que je ne souhaitais pas lier pour diverses raisons, quitte à publier l’URL sans faire le “a href”… Bonjour l’utilisabilité… Avec “NoFollow”, le problème ne se pose plus.)

17. Le 2 février 2005,
karl

au risque de dire ce qui semble évident : Le Robot Exclusion Protocol permet de limiter l’accès à SON site et non pas au site d’une AUTRE personne.

Mais ne t’inquiètes pas, je prêche dans le désert, car cela sera appliqué et qu’il faudra bien le normaliser à un moment ou un autre. Un monde de compromis… ou de compromission. M’enfin.

18. Le 3 février 2005,
Negrito

La solution de 20six Uk me satisfait pour l instant mais bon, une solution globale serait meilleure. En tout cas j’étais content de te rencontrer hier, et en fait je connaissais ton blog :-D

19. Le 15 mars 2006,
karl

:) voila, cela fait un peu plus d’un an… Est-ce que cela a changé quelque chose au problème ?

J’en ai pas l’impression du tout.

20. Le 15 mars 2006,
Damien B

En effet, c’est un peu le glas du microformat “nofollow”. Et Technorati qui n’était pas très pertinent avant ça, ne s’est pas vraiment amélioré depuis.

Blah ?