Journal de bord

vendredi 16 mai 2003

The NITLE Blog Census

Maciej Ceglowski a publié la méthodologie qui préside à son outil de statistiques linguistiques de la blogosphère (cf. Les polonais sont bavards).

Il s’agit de trouver le plus grand nombre de blogues actifs et de déterminer son langage principal (pas facile avec les blogs bilingues ou encore trilingues) et l’outil de publication utilisé.

Une fois trouvé un lien vers ce qui pourrait être un blogue, la première tâche consiste à déterminer s’il s’agit bien d’un blogue. La probabilité est donnée par l’origine de l’URL :
- trouvée sur un site style Weblogs.com,
- correspondant à un hébergeur de blogues (BlogSpot, Joueb.com, etc.),
- la page contient un META tag identifiant le Generator, ou encore un “Powered by…”, ou encore du code propre à un outil (les commentaires de Movable Type par exemple),
- le site contient au moins cinq fois le mot blog,
- le site possède un fil RSS,
- etc.
Ces différents tests confèrent à l’URL un degré de “bloguitude”.

Ensuite, il reste à déterminer le langage à l’aide d’un module qui examine les trigrammes (suites de trois lettres) et leur fréquence/distribution. Cette étape semble plus aisée que la précédente.

L’outil est encore en développement et les résultats s’affinent au fil des pérégrinations de ses robots et des perfectionnements de l’algorithme.

L’opération est soutenue par l’employeur de Maciej : the National Institute of Technology and Liberal Education.

À ce jour, les résultats pour la langue utilisée sont les suivants :

statistiques langage blogosphère

Le quinté dans l’ordre : anglais, portugais, polonais, farsi (Iran), Espagnol.

On notera aussi les langues régionales comme le catalan, le basque, le breton, le romanche. Et aussi l’espéranto, et même le latin (cogito ergo sum ?). (Le tagalog est une des langues des Philippines.) Et toujours cette sur-représentation polonaise qui m’avait fait dire que les polonais étaient bavards ;-)

I find it fascinating that there seems to be no rhyme or reason distinguishing those language communities going crazy for weblogging (English, Farsi, Polish, Icelandic, Portuguese) from the ones that are still barely getting started (Spanish, French, Russian, Arabic). There doesn’t seem to be any relationship between the number of speakers and their adoption rate for blogging. [Maciej]

Pour les techniciens : XML-RPC Methods for the NITLE Blog Census. Il y a même une mailing-list.

1. Le 16 mai 2003,
Maria Milonas (PL)

Je ne peux me priver de ce plaisir…

oui, moi, polonaise de chair et sang, je me sens flattee d’etre dans les langues les plus representees (je pense que ca va changer, car je compte sur les francophones et leur amour de la langue francaise, que j’essaye d’ailleurs de partager)

mais as-tu remarque que notre bavardise sur les blogs nous permet de rester calmes et sereins dans le reel, quand “d’autres” nous disent bien trop souvent ce qu’ils pensent de nous et je ne fait allusion en aucun cas a ce cher Jacques…

2. Le 16 mai 2003,
Laurent

Jacques a perdu une bonne occasion de se taire tant il semble que ses déclarations aient heurté les sensibilités polonaises. Je crois que certains Français pensent que les Polonais bazardent leur francophilie au profit de l’américanophilie… et que ce n’est pas avec des déclarations blessantes qu’on inversera le processus.

3. Le 16 mai 2003,
Maria Milonas (PL)

Et sais-tu que en 2001, dans un sondage d’opinion publique annuel, pour la premiere fois c’etaient les Francais qui avaient la premiere place, juste avant les Americains, dans une liste de nos nations preferees???

maintenant les Francais sont trop souvent sujets de blagues et d’ironie…

4. Le 16 mai 2003,
Morgazilla

Maudits francais !

5. Le 16 mai 2003,
Pierre CARION

Travail interessant! Mais Selon Maciej, nous avons: 1206 blogs en Francais

Selon Mediatic, (http://mediatic.blogspot.com/20030501mediaticarchive.html#200299203) Nous avons, en ne comptant que les blogs des principaux hebergeurs francais … 22714 blogs

Pres de 20 fois plus …

Je comprends bien sur que les outils de Maciej sont en cours d’elaboration, cela veut dire qu’il faut encore relativiser… et tenir compte du principe d’incertitude d’Heisenberg dans cette mesure ;-)

6. Le 16 mai 2003,
Laurent

Tu peux déjà enlever les 17649 skyblogs… (pas pris en compte aujourd’hui et sont-ce vraiment des blogues?) ;-) et tous les inactifs… ça ramène à la modestie.

Et je cite JLR : “Le tout est de savoir combien de carnets web sont réellement actifs… Pour les Skyblog, en faisant des statistiques sur une dizaine de pages de l’annuaire, seuls 10 à 15 % d’entre eux ont été mis à jour depuis un mois !”

Idem pour monblogue.com…

7. Le 16 mai 2003,
Laurent

Je cite encore JLR (une source inépuisable) : “Ma methodologie est claire : allez voir les solutions : soit compter, soit se baser sur les chiffres indiques… ce qui est tres marquant, c’est la difference notoire entre blogs actifs ou non… parfois, cela represente une difference enorme par rapport a la totalite… Apres, on peut reflechir sur ce qu’est un blog et dire, non cette solution n’’est pas une “solution blogs” ; mais dans ce cas-la, je serai encore a me demander qu’est-ce que je comptabilise ou pas. C’’est un débat que je néglige pas.”

8. Le 16 mai 2003,
Un Autre

Maria, quand tu écris “quand ’d’autres’ nous disent bien trop souvent ce qu’ils pensent de nous”, dois-je me sentir visé ? Si oui, pourquoi ?

9. Le 16 mai 2003,
Maria Milonas (PL)

:) bien sur que oui. et tu veux que je te dise, hein, tu veux? et bien je ne te dirai pas!!!!

10. Le 16 mai 2003,
Laurent

Héhé… :-)

11. Le 16 mai 2003,
Pierre

Tout a fait d’accord sur le fait que certains blogs ne sont pas tres actifs, ou qu’ils sont a la limite de la definition du blog. D.accord.

Mais,

Est-ce que les stats de Maciej prennent cela en compte ? est-ce que l’on est sur que les 11000 blogs polonais de sont pas des ’skyblogs’ , sans parler des 60000 blogs anglais ?

12. Le 17 mai 2003,
Maciej Ceglowski

Ce sont de bonnes questions, et je me demande comment proceder au niveau de méthodologie pour arriver aux chiffres réels. Pour l’instant, il s’agit de trouver le nombre maximum de blogs, mais après il faudra isoler les blogs ’actifs’. Mais ça veut dire quoi, ’actif’? Faut-il compter le nombre de liens vers le blog? Ou le nombre de semaines depuis la dernière mise à jour?

Voilà pourquoi je veux partager la base de données avec tout le monde. Comme ça on pourra y appliquer de nombreuses critères, et de nombreuses méthodologies. Dès que j’arrive à un chiffre important (environ 1 million) de blogs, je mettrai cette base sur le serveur NITLE (début juin?). En attendant, j’aimerais bien entendre des suggestions au niveau méthodologie! Je n’ai point d’expertise, moi.

(entre guillaumets, ca me rend bien triste de voir cette petite annonce en anglais, ici en bas, et de savoir qu’il a fallu la mettre)

13. Le 17 mai 2003,
Laurent

(je crois que je vais pouvoir l’enlever maintenant, cela date de la guerre contre l’Irak, la passion semble être un peu retombée aujourd’hui, les américains ont d’autres sujets de préoccupation…)

14. Le 17 mai 2003,
Steph

35 blogs en romanche? permettez-moi de trouver cela pour le moins… incroyable.

Bon, c’est peut-être une école qui a mis ça sur pied?

(pour info: le romanche est /vraiment/ une langue qui n’est pas parlée par une foule de personnes, et en plus c’est dans des zones quand même relativement rurales. De plus, si j’ai trouvé à tout casser une quarantaine de blogs suisses en /français/ — je ne les ai pas tous trouvés, c’est clair, mais quand même…)

15. Le 17 mai 2003,
Laurent

J’avoue que le 43 blogues en breton m’étonnent aussi… Si déjà j’en trouvais un seul…

16. Le 17 mai 2003,
Un Autre

Ben Maria, c’est qu’il me semble que je n’ai rien dit à propos des polonais :) Je viens de faire une recherche “chez moi” et je n’ai rien trouvé, alors je me demande …

17. Le 17 mai 2003,
Maria Milonas (PL)

c’est tres bien de se poser des questions.. ca n’a jamais fait de mal a personne… Tu as regarde les archives, mais es-tu sur de ce que tu vas dire demain, ou apres-demain? Oui “Matrix reloaded”.

18. Le 19 mai 2003,
Maciej Ceglowski

A propos des langues comme Breton et Romansche - ce n’est pas forcement fiable, parfois c’est la confusion pour le pauvre logiciel qui doit tout identifier, surtout quand on trouve des blogs qui sont bilingues ou qui contiennet un grand nombre de termes techniques. Je suis en train d’examiner ces trouvailles ’exotiques’ pour mieux adapter les modeles. Cet été, j’aurai une étudiante pour m’aider aussi avec des statistiques sur la qualité niveau identification.

Cela dit, il faut aussi dire que le Basque et l’Esperanto sont pour de vrai, au moins!

19. Le 20 mai 2003,
Un Autre

Maria, on dirait que tu me fais un procès d’intentions ! :-)

20. Le 20 mai 2003,
Maria Milonas (PL)

tu poses des questions, j’y reponds… rien de plus simple. :) c’est quoi l’adresse de ton blog?

Blah ? Touitter !

IE 6…

Je suis en train de passer l’un de mes sites du modèle “soupe de balises HTML 4.0 et moult tables” au modèle “XHTML 1.0 et CSS” (des nouvelles de ce site prochainement ici-même).

Je carbure à Mac OS X (et à Mac OS depuis que j’ai abandonné le C/PM+ et le DOS au profit du Système 1.1 du Mac 512). Je navigue avec Safari (et Camino pour les sites maltraités par Safari).

C’est donc dans mon environnement Mac que je teste mon nouveau site :
- sous Safari 1.0 beta 2 v73 (Konqueror), aucun problème,
- sous Camino 0.7 (Gecko), aucun problème,
- sous Mozilla 1.1 (Gecko), aucun problème,
- Sous Internet Explorer 5.2.2 (Tasman), aucun problème.

Sous Netscape 4.5 / OS 9, pas de problème non plus, puisque j’ai pris le soin de désactiver le rendu CSS à l’aide de la fonction import qui n’est pas gérée par 4.x. C’est donc le site tout nu, version débuts du web (liens en bleu sur fond gris…).

Touche finale, je valide la syntaxe de ma feuille de style. Tout est OK.

C’est donc très naïvement que je me suis dit que si mon site fonctionnait parfaitement avec autant de moteurs de rendu différents, c’est qu’il n’y avait pas de souci à se faire pour l’essentiel des internautes.

Dramatique erreur. Par curiosité, je me suis rendu au service comptabilité de ma société, un terrain hostile où je ne me rends que très rarement et dont la tâche principale semble être de m’empoisonner la vie (Tes notes de frais ! Tes RTT en retard ! Ta TVA ! Tes achats en dollars ! Tes tickets resto ! L’affectation de la ligne machin au compte truc bidule ! Ton dépassement de budget !) et qui est fréquenté de gens venus d’une autre planète. Terrain d’autant plus hostile que c’est le seul de l’entreprise peuplée de boîtes au style immonde qui tournent sous Windows (ceci expliquant peut-être le comportement teinté d’aberration des comptables). Me voilà donc devant un écran gracieusement prêté sous Windows XP et IE 6.

Catastrophe, tous mes textes débordent à droite hors de la fenêtre, sans compter les listes en vrac, et d’autres menus détails. Je suis abattu.

IE6 est pleins de gros bogues, et on ne m’avait rien dit !

Moralité : j’ai commandé Virtual PC XP Professional.

1. Le 16 mai 2003,
Un Autre

Et ouais :( La plupart des sites sous MT (XHTML + CSS) sont super laids quand ils s’affichent sur mon navigateur IE6 (trop larges en général). Sans parler des sélections de texte qui foirent complètement, ou des curseurs de souris qui ne prennent pas la bonne apparence (netlex par exemple). Au delà de HTML 4.01, c’est l’aventure !

Mais je me demande aussi à quoi cela peut servir de passer un site sur la dernière norme pondue par le W3C alors qu’un nombre important d’internautes ont des navigateurs “anciens”. Pourquoi ne pas rester sur une version répandue de la norme ? Evidemment, si c’est nécessaire de coller à la dernière norme (ex: contrainte fonctionnelle), la question ne se pose pas …

2. Le 16 mai 2003,
Laurent

Premier point, c’est loin d’être des normes toutes nouvelles. CSS est déjà ancien (level 2, 12 mai 1998) par exemple.

Second point, s’il n’y a pas des “early adopters”, il n’y aura jamais de suiveurs, et on a avancera pas bien vite. D’autant plus que les gens ne verront pas l’intérêt d’avoir un navigateur conforme et à jour.

Troisième point, le gain de temps de maintenance du site est très important.

3. Le 16 mai 2003,
Shift

Je ne peux que plusoyer Laurent.

Moi aussi je suis passé au XHTML + CSS et c’est franchement du bonheur. Et je pense qu’il est temps de pousser les normes vers le haut plutôt que d’essayer d’être compatible avec des navigateurs anciens buggués et non respectueux des normes.

Tout le monde devrait faire la même chose pour pousser les nouveaux navigateurs à supporter les standards.

4. Le 16 mai 2003,
Shift

Je ne peux que plusoyer Laurent.

Moi aussi je suis passé au XHTML + CSS et c’est franchement du bonheur. Et je pense qu’il est temps de pousser les normes vers le haut plutôt que d’essayer d’être compatible avec des navigateurs anciens buggués et non respectueux des normes.

Tout le monde devrait faire la même chose pour pousser les nouveaux navigateurs à supporter les standards.

5. Le 16 mai 2003,
karl

Les autres,

Le problème ce n’est pas XHTML, le problème c’est l’implémentation de merde^H^H^H^H^H olé-olé que MS a fait dans IE 6 Windows.

Tu auras le même problème en faisant du HTML 4.01

6. Le 16 mai 2003,
Le lapin

On peut pas faire comme si IE 6 Windows n’existait pas dans le merveilleux monde webique. Vive Virtual PC (maintenant propriété de Microsoft) pour les pauvres utilisateurs de Mac qui doivent créer des sites pour le Net.

p.s. Et oui, tu enrichis Bill…

7. Le 16 mai 2003,
Laurent

Oui, je sais, c’est déprimant…

8. Le 16 mai 2003,
Shift

Moi j’ai pas de Mac mais j’ai pas de Windows non plus. J’ai un Linux et je payerais pas un sou pour tester mon site-web sous IE

Heureusement je peux tester au taff sur des IE5. Maintenant si IE régresse c’est pas mon problème :)

9. Le 16 mai 2003,
Un Autre

Laurent, j’entends tes arguments, mais comme le fait si justement remarquer Lapin : “On peut pas faire comme si IE 6 Windows n’existait pas” …

Si ton site a pour but de t’aventurer au sein de la modernité, je comprends que tu te coupes de ton potentiel de 99% visiteurs IE.

Je ne parle pas ici de “course à l’audience” mais d’accessibilité et d’habitude quand on publie quelque contenu, c’est souvent pour qu’il soit [vl]u :)

Si ton site à la vocation d’être lu par plus ou moins n’importe qui, c’est alors MS/IE qui fait la loi, que l’on apprécie ou que l’on déteste les concepts socio-politico-monetico-technico-philosophiques qui viennent avec.

D’ailleurs, d’autres navigateurs comme Netscape ont tenté de se mettre en travers du chemin de IE sur les postes Wintel, mais leur défaut à eux, c’était d’être tellement mal codés qu’ils explosaient tout le temps (j’ai essayé différents Netscape, un seul Mozilla). Sans parler du temps de démarrage, des fuites de mémoire, etc … Quoi qu’on en dise, mon IE6 n’explose pour ainsi dire jamais et ne bouffe pas toute ma mémoire … Je ne surfe pas non plus sur input-type-crash.com :)

Ainsi, selon moi, la norme est établie par le marché (le vrai monde de la vraie vie) et pas par le W3C (le monde meilleur de nos rêves de développeurs esthètes) …

Okie, c’est dommage, ça serait mille fois mieux si c’était différent, et tout ça, mais on parle de décisions concrètes et pragmatiques : “souhaite-je rendre mon service/site accessible à 2% d’internautes où bien à 99.x % ?”

Enfin, j’entends très bien l’argument “ça se code plus vite, plus simplement” mais si le site n’est pas accessible à tous, ça n’est pas forcément un bénéfice … Autrefois-jadis, certains développeurs se demandaient s’ils devaient coder en modèle segmenté ou en modèle flat :)

Je reprends autrement : “Quel est mon but avec ce site ?” [ ] Rendre mon contenu disponible pour le plus large public [ ] Rendre mon contenu le plus performant possible pour un public qui pourra le visionner

:-(

PS pour Karl : Il ne faut pas entendre que je pense que les normes sont des daubes inutiles, bien au contraire. Je dis juste que l’adoption de la dernière norme en vigueur ne dépend que des objectifs que l’on se fixe.

10. Le 16 mai 2003,
Laurent

Laurent, j’entends tes arguments, mais comme le fait si justement remarquer Lapin : “On peut pas faire comme si IE 6 Windows n’existait pas” …

C’est exactement ce dont je me suis rendu compte, on ne peut pas faire l’impasse d’un test IE6 tant il est pleins de bogues. Des choses qui vont de soi dans Konqueror, Tasman et Gecko, ne fonctionnent pas dans IE6.

Si ton site a pour but de t’aventurer au sein de la modernité, je comprends que tu te coupes de ton potentiel de 99% visiteurs IE.

Je ne souhaite absolument pas me couper de 90 % (soyons plus modeste) des gens. C’est bien pour cela que je viens d’acheter Virtual PC, justement pour tester mes sites dans la configuration la plus courante aujourd’hui. Je trouve seulement un peu dommage d’en arriver là, à cause de bogues graves de Microsoft.

Si ton site à la vocation d’être lu par plus ou moins n’importe qui, c’est alors MS/IE qui fait la loi…

Ce sont les standards du web qui devraient être la loi…

D’ailleurs, d’autres navigateurs comme Netscape ont tenté de se mettre en travers du chemin de IE sur les postes Wintel, mais leur défaut à eux, c’était d’être tellement mal codés qu’ils explosaient tout le temps…

Je préférerai que les utilisateurs de Windows utilisent l’excellent Gecko de Netscape, je n’aurais pas besoin de faire des tests sous Windows (beurk ;-) ou encore le moteur Tasman, justement développé par Microsoft. Je me demande pourquoi Microsoft travaille toujours mieux sur Mac que sur PC…

Ainsi, selon moi, la norme est établie par le marché (le vrai monde de la vraie vie) et pas par le W3C (le monde meilleur de nos rêves de développeurs esthètes)…

Là, excuse-moi, mais je crois que tu es un peu à côté de la plaque… Si la norme établie par le marché dans l’alimentation moderne hors-domicile, c’est Mc Donald’s… beurk! En fait, il n’y a pas de normes du marché, la position d’Explorer est plus précaire qu’on ne pense. Ca peut changer très vite, alors refaire son site à nouveau parce que spécifique IE? De plus, je n’apprécie pas la promotion du moins-disant… je veux le meilleur, et pour tout le monde.

“souhaite-je rendre mon service/site accessible à 2% d’internautes où bien à 99.x % ?”

Je veux être accessible à 99,9 % des internautes, c’est bien pour cela que j’ai 36 navigateurs sur mon disque dur. Et refaire un site pour un I-cab ou un Omniweb, pas question. Mais pour IE6, c’est (hélas) incontournable. On peut faire des sites qui fonctionnent malgré tout sous IE6 avec le couple XHTML/CSS (navire.net n’en est-il pas la preuve?).

Aparté : depuis que je surfe sur IE6/XP, mon dieu que tous les sites sont moches ! Quand on a connu Camino ou Safari avec le rendu des polices Quartz…

Je reprends autrement : “Quel est mon but avec ce site ?” [ ] Rendre mon contenu disponible pour le plus large public [ ] Rendre mon contenu le plus performant possible pour un public qui pourra le visionner

Les deux bien sûr !!!

11. Le 17 mai 2003,
Shift

Ainsi, selon moi, la norme est établie par le marché (le vrai monde de la vraie vie) et pas par le W3C (le monde meilleur de nos rêves de développeurs esthètes) …

Beurk :-(

Heureusement que non. C’est à nous de ne pas utiliser ce qui n’est pas standardisé pour éviter de dire à Microsoft “Continue ta tambouille, on en mangera toujours même si c’est pas bon”. Et puis si on prends ta phrase on a l’impression que tout ce qui a le monopole est la norme :( Le chinois, le capitalisme, se raser, les baskets, le C, les documents Word,…

Ca serait chiant comme monde :)

12. Le 17 mai 2003,
Laurent

Tu ne te rases pas Shift ? ;-)

13. Le 17 mai 2003,
Shift

Si je me rase quand j’ai envie :)

Une à deux fois par semaine. Le problème c’est que je vais avoir du mal à trouver un lapin si je suis tout pas beau avec ma barbe ;)

14. Le 17 mai 2003,
Vincent

J’ai rencontré les mêmes problèmes sur le site que j’ai fait (rapidement) pour des amis en grève.

La plupart étant sous Mac, je ne m’étais pas aperçu du désordre esthétique (problème d’interprétation du CSS par IE sous Windows). Bien évidement, il a suffit de deux énergumènes sous XP pour casser la bonne ambiance: Eux: “Ouais, le site s’affiche s’affiche mal chez moi, faudra donc le refaire.” Moi:” Mais ce n’est qu’un problème d’ordre esthétique et qui ne touche qu’ Explorer sous Windows.” Eux:” Ok, mais chez nous cela ne va pas, et puis la majorité des gens surfent comme nous avec IE sous Windows.” Moi:” Ok. Mais pourquoi devrais-je revoir le site pour un navigateur alors que cela fontionne correctement pour 99 % d’entre eux.Et les navigateurs, ce n’est pas ce qui manque.” Eux:”Mais on a nos habitudes avec lui.” Moi:”Mauvais navigateur, changer navigateur. Mais (en mentant), je verrais, quand j’aurais un peu de temps, ce que je pourrais faire pour adapter le site à IE.” Eux:”Merci.”

Moralité: lorsqu’un produit est livré par défaut et en masse, il est difficile d’en faire changer, même s’il y a meilleur ailleurs. Nous sommes par nature conservateurs (ou faignants) et seules la patience, l’information, l’éducation, … peuvent faire évoluer les choses. C’est pourquoi des sites comme Openweb, … sont importants.

Au fait, je n’ai toujours pas modifier le site, par contre j’en connais qui ont changé de navigateurs.

15. Le 17 mai 2003,
elie

Juste pour mettre mon grain de sel…IE6 = environ 50% des internautes, pas 99%…beaucoup de gens utilisent encore d’autres variations de Internet Exploder. Maintenant, quant à savoir s’il faut ajuster son site, eh bien, ça dépend si on veut rejoindre ces internautes ou non. Personnellement, je teste avec IE 6 sous Linux (qui roule directement avec Codeweavers’ Crossover Office) quand je fais des modifs…j’ai d’ailleur eut droit à une belle surprise la dernière fois…heureusement, il y a toujours moyen de coder pour que ça sorte bien sur IE 6 et sur le reste des plate-formes…

16. Le 18 mai 2003,
Bouil

Juste pour ajouter qu’en général, d’apres les quelques site que j’ai pu faire, IE6 windows est “moins pire” que les version précédentes du meme navigateur, sur la meme plateforme.

Enfin, c’est pas gagné, et malheureusement, la plupart du temps, on a pas le choix, on est bien obligé de s’adapter…

17. Le 21 mai 2003,
francis

je suis sous Windows XP et I.E. 6.0 et je n’ai aucun défaut (à mes yeux) quand je butine sur navire.net . tu pourras constater le rendu sur le lien mentionné dans mon commentaire.

suite à un article sur alistapart.com j’inclus désormais le meta “MSSmartTagspreventparsing” positionné à “true” pour interdire I.E. 6.0 de parser mes pages webs…

Blah ? Touitter !