The NITLE Blog Census
Maciej Ceglowski a publié la méthodologie qui préside à son outil de statistiques linguistiques de la blogosphère (cf. Les polonais sont bavards).
Il s’agit de trouver le plus grand nombre de blogues actifs et de déterminer son langage principal (pas facile avec les blogs bilingues ou encore trilingues) et l’outil de publication utilisé.
Une fois trouvé un lien vers ce qui pourrait être un blogue, la première tâche consiste à déterminer s’il s’agit bien d’un blogue. La probabilité est donnée par l’origine de l’URL :
- trouvée sur un site style Weblogs.com,
- correspondant à un hébergeur de blogues (BlogSpot, Joueb.com, etc.),
- la page contient un META tag identifiant le Generator, ou encore un “Powered by…”, ou encore du code propre à un outil (les commentaires de Movable Type par exemple),
- le site contient au moins cinq fois le mot blog,
- le site possède un fil RSS,
- etc.
Ces différents tests confèrent à l’URL un degré de “bloguitude”.
Ensuite, il reste à déterminer le langage à l’aide d’un module qui examine les trigrammes (suites de trois lettres) et leur fréquence/distribution. Cette étape semble plus aisée que la précédente.
L’outil est encore en développement et les résultats s’affinent au fil des pérégrinations de ses robots et des perfectionnements de l’algorithme.
L’opération est soutenue par l’employeur de Maciej : the National Institute of Technology and Liberal Education.
À ce jour, les résultats pour la langue utilisée sont les suivants :
Le quinté dans l’ordre : anglais, portugais, polonais, farsi (Iran), Espagnol.
On notera aussi les langues régionales comme le catalan, le basque, le breton, le romanche. Et aussi l’espéranto, et même le latin (cogito ergo sum ?). (Le tagalog est une des langues des Philippines.) Et toujours cette sur-représentation polonaise qui m’avait fait dire que les polonais étaient bavards ;-)
I find it fascinating that there seems to be no rhyme or reason distinguishing those language communities going crazy for weblogging (English, Farsi, Polish, Icelandic, Portuguese) from the ones that are still barely getting started (Spanish, French, Russian, Arabic). There doesn’t seem to be any relationship between the number of speakers and their adoption rate for blogging. [Maciej]
Pour les techniciens : XML-RPC Methods for the NITLE Blog Census. Il y a même une mailing-list.
Maria Milonas (PL)
Je ne peux me priver de ce plaisir…
oui, moi, polonaise de chair et sang, je me sens flattee d’etre dans les langues les plus representees (je pense que ca va changer, car je compte sur les francophones et leur amour de la langue francaise, que j’essaye d’ailleurs de partager)
mais as-tu remarque que notre bavardise sur les blogs nous permet de rester calmes et sereins dans le reel, quand “d’autres” nous disent bien trop souvent ce qu’ils pensent de nous et je ne fait allusion en aucun cas a ce cher Jacques…
Laurent
Jacques a perdu une bonne occasion de se taire tant il semble que ses déclarations aient heurté les sensibilités polonaises. Je crois que certains Français pensent que les Polonais bazardent leur francophilie au profit de l’américanophilie… et que ce n’est pas avec des déclarations blessantes qu’on inversera le processus.
Maria Milonas (PL)
Et sais-tu que en 2001, dans un sondage d’opinion publique annuel, pour la premiere fois c’etaient les Francais qui avaient la premiere place, juste avant les Americains, dans une liste de nos nations preferees???
maintenant les Francais sont trop souvent sujets de blagues et d’ironie…
Morgazilla
Maudits francais !
Pierre CARION
Travail interessant! Mais Selon Maciej, nous avons: 1206 blogs en Francais
Selon Mediatic, (http://mediatic.blogspot.com/20030501mediaticarchive.html#200299203) Nous avons, en ne comptant que les blogs des principaux hebergeurs francais … 22714 blogs
Pres de 20 fois plus …
Je comprends bien sur que les outils de Maciej sont en cours d’elaboration, cela veut dire qu’il faut encore relativiser… et tenir compte du principe d’incertitude d’Heisenberg dans cette mesure ;-)
Laurent
Tu peux déjà enlever les 17649 skyblogs… (pas pris en compte aujourd’hui et sont-ce vraiment des blogues?) ;-) et tous les inactifs… ça ramène à la modestie.
Et je cite JLR : “Le tout est de savoir combien de carnets web sont réellement actifs… Pour les Skyblog, en faisant des statistiques sur une dizaine de pages de l’annuaire, seuls 10 à 15 % d’entre eux ont été mis à jour depuis un mois !”
Idem pour monblogue.com…
Laurent
Je cite encore JLR (une source inépuisable) : “Ma methodologie est claire : allez voir les solutions : soit compter, soit se baser sur les chiffres indiques… ce qui est tres marquant, c’est la difference notoire entre blogs actifs ou non… parfois, cela represente une difference enorme par rapport a la totalite… Apres, on peut reflechir sur ce qu’est un blog et dire, non cette solution n’’est pas une “solution blogs” ; mais dans ce cas-la, je serai encore a me demander qu’est-ce que je comptabilise ou pas. C’’est un débat que je néglige pas.”
Un Autre
Maria, quand tu écris “quand ’d’autres’ nous disent bien trop souvent ce qu’ils pensent de nous”, dois-je me sentir visé ? Si oui, pourquoi ?
Maria Milonas (PL)
:) bien sur que oui. et tu veux que je te dise, hein, tu veux? et bien je ne te dirai pas!!!!
Laurent
Héhé… :-)
Pierre
Tout a fait d’accord sur le fait que certains blogs ne sont pas tres actifs, ou qu’ils sont a la limite de la definition du blog. D.accord.
Mais,
Est-ce que les stats de Maciej prennent cela en compte ? est-ce que l’on est sur que les 11000 blogs polonais de sont pas des ’skyblogs’ , sans parler des 60000 blogs anglais ?
Maciej Ceglowski
Ce sont de bonnes questions, et je me demande comment proceder au niveau de méthodologie pour arriver aux chiffres réels. Pour l’instant, il s’agit de trouver le nombre maximum de blogs, mais après il faudra isoler les blogs ’actifs’. Mais ça veut dire quoi, ’actif’? Faut-il compter le nombre de liens vers le blog? Ou le nombre de semaines depuis la dernière mise à jour?
Voilà pourquoi je veux partager la base de données avec tout le monde. Comme ça on pourra y appliquer de nombreuses critères, et de nombreuses méthodologies. Dès que j’arrive à un chiffre important (environ 1 million) de blogs, je mettrai cette base sur le serveur NITLE (début juin?). En attendant, j’aimerais bien entendre des suggestions au niveau méthodologie! Je n’ai point d’expertise, moi.
(entre guillaumets, ca me rend bien triste de voir cette petite annonce en anglais, ici en bas, et de savoir qu’il a fallu la mettre)
Laurent
(je crois que je vais pouvoir l’enlever maintenant, cela date de la guerre contre l’Irak, la passion semble être un peu retombée aujourd’hui, les américains ont d’autres sujets de préoccupation…)
Steph
35 blogs en romanche? permettez-moi de trouver cela pour le moins… incroyable.
Bon, c’est peut-être une école qui a mis ça sur pied?
(pour info: le romanche est /vraiment/ une langue qui n’est pas parlée par une foule de personnes, et en plus c’est dans des zones quand même relativement rurales. De plus, si j’ai trouvé à tout casser une quarantaine de blogs suisses en /français/ — je ne les ai pas tous trouvés, c’est clair, mais quand même…)
Laurent
J’avoue que le 43 blogues en breton m’étonnent aussi… Si déjà j’en trouvais un seul…
Un Autre
Ben Maria, c’est qu’il me semble que je n’ai rien dit à propos des polonais :) Je viens de faire une recherche “chez moi” et je n’ai rien trouvé, alors je me demande …
Maria Milonas (PL)
c’est tres bien de se poser des questions.. ca n’a jamais fait de mal a personne… Tu as regarde les archives, mais es-tu sur de ce que tu vas dire demain, ou apres-demain? Oui “Matrix reloaded”.
Maciej Ceglowski
A propos des langues comme Breton et Romansche - ce n’est pas forcement fiable, parfois c’est la confusion pour le pauvre logiciel qui doit tout identifier, surtout quand on trouve des blogs qui sont bilingues ou qui contiennet un grand nombre de termes techniques. Je suis en train d’examiner ces trouvailles ’exotiques’ pour mieux adapter les modeles. Cet été, j’aurai une étudiante pour m’aider aussi avec des statistiques sur la qualité niveau identification.
Cela dit, il faut aussi dire que le Basque et l’Esperanto sont pour de vrai, au moins!
Un Autre
Maria, on dirait que tu me fais un procès d’intentions ! :-)
Maria Milonas (PL)
tu poses des questions, j’y reponds… rien de plus simple. :) c’est quoi l’adresse de ton blog?
Blah ? Touitter !