Je véronise...

Hommage en nuage

2013-10-08T23:55:00.001+02:00

Nuage arboré du blog de Jean Véronis

C'est sur son blog qu'étaient apparus pour la première fois ces nuages de mots organisés autour d'un arbre. Et tant d'autres choses qui m'avaient épaté, inspiré, motivé. Attiré vers le TAL pendant mon master (les excursions à Orsay, les samedis de l'ATALA), mon doctorat (les collaborations à l'interface avec les sciences humaines), et aujourd'hui encore dans mon activité de recherche et d'enseignement. Poussé à récolter des données, expérimenter, programmer, puis diffuser codes sources, outils, et résultats préliminaires, sur un mode plus souple, plus réactif, que celui de la publication scientifique.

Dans les hommages que j'ai pu lire après cette triste journée de rentrée, j'ai constaté à quel point les personnes qui ont croisé la route de Jean dans diverses occasions ont été marquées et inspirées, pour des raisons variées. Cet arbre des thématiques du blog Aixtal peine à représenter la diversité de ses travaux, et ne dit rien de son enthousiasme communicatif. Il lui manque probablement quelques rayons de soleil provençal... et le bruit des cigales !

Pour alimenter le débat sur les blagues Carambar

2013-03-27T16:37:00.000+01:00

Quelques liens pour ceux qui auraient lu cet article du Monde :

deux billets sur ce blog :

une parodie d'article scientifique sur le sujet
et un diaporama de présentation.

Ma madeleine personnelle, en ce moment, c'est de retrouver du temps pour bloguer... A bientôt sur ces pages ?

Le vocabulaire des entreprises pour booster son CV

2011-06-12T17:20:00.001+02:00

Utiliser le vocabulaire de l'entreprise est un conseil donné aux jeunes diplômés de l'université en recherche de leur premier emploi, ou aux jeunes docteurs qui veulent s'orienter dans le privé après la thèse. CV, lettre de motivation, entretien, pour tout cela il faut s'adapter au langage de son interlocuteur. Sans pour autant parler uniquement en jargon d'entreprise, mots moches compris.

C'est suite à une sensibilisation à cette problématique par Naïma Maybel lors d'un P'tit Déj' d'information de Contact, l'association des doctorants et docteurs de l'Académie de Montpellier, que nous nous sommes lancés avec Paola Salle, la présidente de l'asso, dans la conception d'un site web qui aide à connaître ce vocabulaire spécifique en l'extrayant des offres d'emploi du site de l'APEC.

En fait, boosterCV.fr va plus loin, en offrant des outils d'exploration des offres d'emploi (par région, par entreprise, par métier) qui manquent un peu au site de l'APEC, conçus par Paola. Ce n'est qu'un début, n'hésitez pas à nous signaler des fonctionnalités que vous aimeriez voir sur le site, ou à laisser vos coordonnées pour recevoir des informations sur les prochaines mises à jour. On envisage aussi de faire le même travail avec les offres d'emploi de ProfilCulture, à destination des étudiants, doctorants et docteurs en sciences humaines et sociales, pour qui les offres de l'APEC peuvent sembler inadaptées.

Bien sûr, ce site web n'est pas la solution miracle, et les doctorants les mieux préparés pour poursuivre leur carrière en entreprise sont ceux qui s'y sont intéressés dès le début de leur thèse. Formations doctorales pour être en contact avec des professionnels du secteur privé, échanges avec des chefs d'entreprise ou des responsables de ressources humaines dans les rencontres docteurs/entreprises (le mois dernier à Montpellier, bientôt à Bordeaux et Paris), valorisation des travaux de thèse sur les pages web des doctorants ou sur HAL (utilisé par les structures de transfert technologique pour répondre à des besoins des entreprises)... Tout cela permet de mettre un pied dans l'entreprise, et peut déboucher sur un emploi pour un docteur, ou une mission d'expertise pour un doctorant.

Participer, à distance, à la compilation des CV des participants à la Rencontre Docteurs Entreprises de Montpellier m'a permis de constater, cette année, à quel point les doctorants et docteurs savent mettre en valeur leurs compétences en utilisant le vocabulaire de l'entreprise. Evidemment, il faut qu'ils y aient été sensibilisés (ce qui était le cas pour la plupart des participants à cette rencontre), et qu'ils aient un petit coup de pouce : contrairement à l'an dernier nous avons imposé cette année des CV d'une page, en fournissant un exemple (version OpenOffice). Cela a conduit à une grosse majorité de documents très professionnels, dont voici le nuage arboré :

Notez les compétences transversales dans le sous-arbre en haut à gauche (qui correspondent assez bien à la demande) et les compétences linguistiques et bureautiques dans celui en haut à droite. En bas à droite, les compétences techniques, bien marquées par le grand nombre de jeunes chercheurs en chimie ou biologie-santé parmi les participants de cette année.

Pour compléter sur ce sujet, pour les spécialistes, j'ajouterai que la classification arborée de la centaine de CV reçus, selon une distance intertextuelle, a également très bien fonctionné pour faire apparaître quatre sous-arbres : sciences du vivant, sciences chimiques, sciences de l'ingénieur, et sciences humaines et sociales... en utilisant un anti-dictionnaire approprié ! En effet, les participants ayant utilisé le CV fourni en exemple se retrouvaient initialement dans un même sous-arbre à cause des mots "loisirs", "intérêts" ou encore "sports" qui causaient ce rapprochement. En fait, la classification thématique était améliorée en enlevant l'ensemble des mots attendus dans ces CV de doctorants et docteurs montpelliérains, je vous dévoile ici l'anti-dictionnaire utilisé.

Je termine ce billet par un dernier outil à destination des doctorants et docteurs attirés par une poursuite de carrière dans le secteur privé, un répertoire des compétences généralement acquises au cours du doctorat, sous les deux formes les plus intéressantes que j'ai pu trouver à ce jour (en espérant que l'enquête d'ADOC Talent Management débouchera sur un document qui les complétera utilement) :

- une liste structurée de compétences acquises par l'expérience de la recherche, ou l'expérience personnelle de la thèse (source : Florent Olivier, Yann Cadiou, Philippe Larrue, Elisabeth Zaparucha & Aubépine Dahan, Compétences professionnelles des doctorants et des docteurs, 2007, p.49),

- un tableau de correspondance des compétences acquises pendant le doctorat et recherchées par les recruteurs (source : Anne-Flora Morin-Poulard, Insertion des jeunes docteurs, 2005, p.45).

Compléter sa CD-thèque : Set Cover pour une intégrale Dvorak ?

2011-02-28T22:51:00.002+01:00

Un peu de programmation linéaire en nombres entiers aujourd'hui, appliquée à la constitution d'une collection de CD. Depuis son édition intégrale des oeuvres de Mozart en 2005, Brilliant Classics a récidivé avec Bach en 2006, Chopin et Beethoven en 2007, Brahms et Haydn et Rachmaninov en 2008. A chaque fois avec des prix canons. Pour Schubert et Dvorak, en revanche, il faut être patient, et ça m'embête bien...

Alors comment réunir une intégrale d'un compositeur en achetant le minimum de CD (sans pirater bien sûr !) ? Cela correspond précisément au problème SetCover. Les données : des éléments (les oeuvres), et des ensembles de ces éléments (les CD qui réunissent une ou plusieurs oeuvres). Le problème : sélectionner un minimum de ces ensembles pour couvrir tous les éléments. Si vous voulez optimiser non pas le nombre de CD mais le prix total, il faut considérer la version pondérée du problème, en attribuant à chaque CD un poids qui correspond à son prix, et en cherchant à couvrir tous les éléments par des ensembles dont la somme des poids est minimale.

Illustrons cela sur les 9 symphonies de Dvorak. Le graphe biparti ci-dessous représente les CD sur la ligne du haut, les symphonies sur la ligne du bas, et chaque CD est relié aux symphonies qu'il contient.

La solution est montrée en rouge. Comment l'ai-je trouvée ? Le problème est NP-complet, il n'existe donc probablement pas d'algorithme rapide (qui s'exécutera en temps polynomial par rapport à la taille de l'entrée du problème) pour le résoudre. Cependant, il existe un moyen rapide en pratique pour de petites instances du problème : le coder par un programme linéaire en nombres entiers (cette expression barbare est déjà apparue dans le billet précédent). Vulgarisons un peu pour montrer comment ça fonctionne, en utilisant les mêmes notations que l'article Wikipedia sur SetCover : il s'agit d'associer à chaque CD appelé S une variable binaire c(S) qui prend la valeur 1 si le CD fait partie de la solution, 0 sinon. En appelant x(S) le coût du CD S, pour calculer le coût total de la solution, que l'on cherche à minimiser, il faut faire la somme (pour tout S) des x(S)*c(S). On ajoute des contraintes pour assurer que chaque symphonie est bien présente dans un des CD de la solution : pour toute symphonie e, la somme des c(S), pour l'ensemble des CD S qui contiennent la symphonie e, est supérieure ou égale à 1.

Et maintenant que le problème est ainsi formulé de manière mathématique, comment trouver les valeurs solutions pour les variables c(S) ? En théorie, on résout rapidement une relaxation du problème (c'est-à-dire la version du problème où on laisse prendre à c(S) n'importe quelle valeur entre 0 et 1, comme si on avait le droit d'acheter des portions de CD...), puis une fois cette solution trouvée, on va essayer d'en déduire (et c'est cette étape qui risque de prendre du temps) une solution où les c(S) prennent soit la valeur 0, soit la valeur 1. En pratique, on utilise par exemple le programme GLPK qui est gratuit, et s'installe aussi sous Windows. On commence par s'inspirer du fichier exemple (ou on lit la doc') pour formuler le problème dans le langage voulu, et on obtient le fichier de paramètres dvorak.mod. On exécute alors GLPK avec la ligne de commande :
"C:\Program Files\GnuWin32\bin\glpsol.exe" -m "C:\Program Files\GnuWin32\bin\examples\dvorak.mod"
La réponse s'affiche : "Optimal set cover has cost 4460 with 3 elements with sets: 3 8 16", ce qui correspond à ma solution en rouge qui coûte donc 44 euros 60.

Vous allez me dire que dans une bonne intégrale de musique classique, le prix n'est pas votre critère de sélection. Vous voulez assurer une certaine cohérence dans votre collection, en achetant toutes les symphonies enregistrées par le même orchestre ? Dans ce cas regroupez en un seul tous les ensembles qui correspondent à ces enregistrements. Vous voulez ajouter un critère de qualité ? N'utilisez pas le simple prix comme pondération, mais, par exemple, divisez-le par votre score de qualité pour chaque CD, score d'autant plus élevé que vous appréciez le CD.

Pour Dvorak, malheureusement, cette modélisation n'a pas suffi à résoudre ma quête d'une intégrale en CD, tout simplement parce que certaines oeuvres ne sont à ma connaissance pas enregistrées. En voici la liste, au cas où vous voudriez vous lancer dans des "world premiere recordings", les numéros de référence correspondent au catalogue Burghauser :

B11 intégrale des chants du cycle Cyprès,
B13 22 Songs,
B16 Alfred,
B22/B43 Potpourri on King and Charcoal Burner,
B48b Nocturne in B major (piano 4 mains),
B113 Festival Song,
B119 Gallop in E major,
B125 Josef Kajetán Tyl,
B143 Hymn of the Czech Peasants,
B204 Song of the Smith of Lešetín.

A défaut des enregistrements, je suis preneur d'infos sur les partitions ! Et je vous laisse découvrir le reste de son oeuvre sur le site francophone de référence sur Antonin Dvorak.

Mème : Scrabble international

2011-01-23T23:41:00.006+01:00

Nouvelle chaîne dans ma boîte mail, nouvelle analyse de mème sur ce blog (après la F-list, et fait-ou-pas) : le "Scrabble International".

Il s'agit d'une liste de mots de 6 lettres, à laquelle on doit ajouter un mot français :

- de 6 lettres pas encore présent dans la liste

- ayant exactement une lettre de différence avec le mot précédent (dont les lettres sont éventuellement réordonnées).

Sont ajoutés le prénom et la ville du participant, ainsi que sa date de participation. Voilà l'exemple de la liste que j'ai reçue (209 mots). J'en ai trouvé quatre autres sur le net, de 124, 85, 216 et 89 mots, qui montre que la liste a voyagé (par mail, pas sur la blogosphère apparemment) en Belgique d'où elle est partie, en France, en Algérie, en Suisse, au Canada, au Maroc... L'arbre de diffusion à gauche résume l'historique de ces listes.

Je me suis demandé quelle taille pourrait atteindre cette liste, en théorie. Eh oui, car en pratique, comme pour tous les mèmes, les participants ne suivent pas toujours les règles, éviter et tourbe sont deux fois dans la première liste, piéger et pingre dans la cinquième, et je ne parle pas de ceux qui oublient d'inscrire la date, ou prennent un malin plaisir à changer le format pour que je ne puisse pas récupérer toutes les infos facilement avec un script.

Bref, supposons que tout le monde suive les règles, le jeu correspond à construire un chemin qui ne repasse jamais pas le même sommet (en bleu dans l'illustration ci-dessous) dans un graphe :

- dont les sommets sont les mots français de 6 lettres

- dont les arêtes rejoignent deux mots qui ont une lettre de différence.

Quelles sont les propriétés de ce graphe ? Quelle est la taille du plus long chemin qu'il contient ? Est-ce que 6 lettres est la taille de mots la plus adaptée pour assurer le succès de ce mème ? Voici les quelques questions auxquelles je vais tenter de répondre dans ce billet, avant une suite éventuelle qui sera dédiée à une analyse des données des les 5 listes récoltées.

Première chose à faire, construire ce graphe à partir d'une liste de tous les mots français. Je récupère ça chez un collègue marseillais, regroupe les mots par taille en passant tout en minuscules et en enlevant les lettres accentuées : 2 mots de taille 1, 81 de taille 2, 427 de taille 3, 1799 de taille 4, 5897 de taille 5, 13931 de taille 6... Tiens tiens, ça augmente comme ça jusqu'à 50097 (taille 10) avant de redescendre. Mais la longueur du plus long chemin n'est pas directement reliée à la taille du graphe : certes, celui des mots de 10 lettres a plus de sommets, mais il est moins dense (moins d'arêtes), et contient donc probablement moins de longs chemins. Grâce à quelques scripts en Python, voici les réseaux obtenus pour les mots de taille 3, 4, 5, 6, 7, 8 (18 Mo pour le dernier...).

Première chose à faire, calculer les composantes connexes, les parties du graphes où toute paire de sommets est reliée par un chemin. Pour cela (merci Anaïs !) la bibliothèque iGraph en R fait tout le boulot. Téléchargez-la, installez-la (install.packages("igraph")), puis lancez le code suivant :

library(igraph)

g<-read.graph("http://philippe.gambette.free.fr/Blog/2011Scrabble/Mots6.graph.txt",format="ncol")

cc<-clusters(g)

cc$csize

On obtient une composante connexe de taille 13865, et 5 de taille 2. Pour avoir la composition des cinq paires :

V(g)[which(cc$membership==1)-1]

V(g)[which(cc$membership==2)-1]

...

Les 5 paires sont donc : {rococo, corozo}, {hiboux, bijoux}, {puffin, muffin}, {okoume, loukoum}, {zozota, zozote}.

Et la distribution des degrés ?

dd <- degree.distribution(g)

plot(dd)

On obtient l'image ci-contre, qui sent le Poisson...

Quelle est la taille du plus long chemin dans ces graphes ? Eh bien ce problème est NP-complet (difficile à résoudre pour un ordinateur), et je n'ai pas encore essayé de le soumettre (pour les mots de taille 3, car je doute qu'il arrive à traiter un graphe à 10000 sommets et 400000 arêtes) au programme linéaire en nombres entiers récemment ajouté par Nathann dans Sage (au moins j'ai - enfin - installé le logiciel). En revanche j'ai programmé un script qui lance un millier de chemins au hasard, en partant d'un sommet également choisi au hasard, et enregistre la taille de chacun des chemins obtenus.

J'obtiens les valeurs moyennes suivantes : la longueur maximale parmi tous les chemins trouvés augmente jusqu'à 8 lettres inclus (je n'ai pas testé les graphes pour les mots de taille supérieure), en revanche la longueur moyenne des chemins atteint un maximum pour le graphe des mots de sept lettres (cliquez sur le graphique pour voir la distribution des longueurs de chemins obtenue) :

Vous me direz qu'en calculant simplement le degré moyen des sommets du graphe, on obtenait justement un maximum pour une taille de mots de 6, avec un nombre moyen de voisins de 28,7 qui correspond à peu près à la valeur où le pic de la loi de Poisson est atteint ci-dessus... J'aimerais bien savoir comment Eliane de Bruxelles a choisi la taille de 6 quand elle a conçu ce jeu. En tout cas c'était bien trouvé, et il ne reste plus qu'à trouver quelques milliers de participants pour commencer à rendre le jeu difficile... A moins que vous ne vouliez vous lancer dans une stratégie de blocage du jeu, en l'orientant vers un "cul-de-sac", soit en faisant revenir le chemin vers des sommets déjà visités, soit vers des sommets de faible degré...

Si vous avez participé au mème, et que vous avez une liste différente de celles montrées ci-dessus, ça m'intéresse, dans la perspective d'un prochain billet sur le sujet : indiquez en commentaire une adresse de page web où vous l'avez placée, ou envoyez-la moi par courriel en indiquant dans le sujet "Scrabble International". Et si vous voulez lancer le mème sur la blogosphère, faites-vous plaisir, en citant des blogs pour les inciter à propager la chose ! Plutôt des blogs féminins, au vu des prénoms dans mes listes...

Classement Wikio Sciences Humaines

2010-12-03T08:04:00.002+01:00

En ce début décembre, de nouveaux classements thématiques de blogs fleurissent sur Wikio. Claire, qui travaille dans leur département marketing, m'a proposé de diffuser celui des blogs en les sciences humaines. Alors ça y est, les informaticiens ont encore frappé, et leurs évaluations à la sauce bibliométrique touchent désormais la blogosphère française de la recherche en SHS ? Allez, pour se faire pardonner, on va organiser à Montpellier en juillet 2011 en satellite de TALN, un colloque (Doctorants, Informatique et Sciences Humaines) où les doctorants en informatique se mettront au service des doctorants en sciences humaines qui leur soumettront des problématiques traitables par l'outil informatique (plus de nouvelles bientôt sur ce blog et sur les canaux habituels de diffusion...).

Sans plus attendre, voilà ce Top 20 :

1	Scriptopolis
2	Baptiste Coulmont
3	Ecrans de veille en éducation
4	Évaluation de la recherche en SHS
5	Mapping Expert
6	Socio-informatique et argumentation
7	Les émotions au Moyen Âge
8	AGORA / sciences sociales
9	Mexique ancien
10	Je véronise...
11	Mame & fils
12	Archéologie poitevine
13	Les découvertes archéologiques
14	Le blog archeomellois
15	DemoSocio
16	Femmes au travail
17	Paris Design Lab - ENSCI Les Ateliers
18	Making Science Public*
19	Bafouillages
20	Amades

Classement réalisé par Wikio

Comme tout classement, ce qui importe est ce qu'on en fait ! Alors évidemment, le jour où l'ANR commencera à l'utiliser pour attribuer ses financements on pourra se faire du souci. Je le vois plutôt comme une façon de mettre en avant une communauté de blogueurs, et faire découvrir quelques carnets de notes virtuels qui méritent le détour (il est possible de consulter la suite du classement sur Wikio), de manière plus pertinente que la F-list et ses déclinaisons thématiques par exemple. On pourra s'étonner de l'absence de certains grands blogs français de SHS, ils sont peut-être à chercher du côté de la section Sciences de l'information. Si vous repérez d'autres grands absents, vérifiez si Wikio les connaît, signalez-les si non, et citez-les dans vos blogs si oui !

Une autre remarque : dans ce Top 20, on trouve pas moins de 8 carnets de recherche hébergés chez Hypotheses.org. Cela souligne un beau succès de cette plateforme, et je souhaite à Plume! la même réussite avec la plateforme-réseau de blogs de vulgarisation scientifique qu'ils viennent de lancer ("scientifique" inclut bien évidemment les sciences humaines !).

Et comme je n'aime pas faire uniquement du relai d'informations, j'en profite pour diffuser un autre classement polémique, fait maison : celui des villes universitaires françaises, en fonction des demandes de mutation des professeurs d'université et maîtres de conférences. Eh oui, les mathématiciens, dans leur grande bonté, ont dédié une Machine Ouverte aux Universitaires qui Veulent Echanger, qui mentionne les souhaits de mutation. On récupère tout dans un fichier tableur OpenOffice, on fait la différence pour chaque ville des demandes d'arrivée moins les demandes de départ, et on obtient, tada, un Top 15 des villes attractives pour les enseignants-chercheurs :

Pour dissuader ceux qui seraient tentés de l'utiliser de manière sérieuse, je précise que MOUVE propose aussi d'indiquer des régions souhaitées, que je n'ai pas prises en compte ici (pour une raison autre que vouloir faire figurer en tête la ville où j'ai obtenu mon doctorat : ceux qui indiquent vouloir déménager en "région parisienne" sont-ils vraiment prêts à prendre un poste indifféremment au centre de Paris, ou dans les diverses banlieues ?), et que je n'ai même pas pris le temps de refaire l'expérience sur des données à jour (celles-ci datent de mai 2010).

1000 chercheurs parlent d'avenir

2010-10-22T23:43:00.002+02:00

La Fête de la Science a commencé, elle est marquée cette année par la projection sur les murs du Panthéon de 1000 portraits de chercheurs accompagnés d'une phrase sur leur vision de l'avenir (et de vidéos sur le site du CNRS). Pierre Maraval, le photographe à l'origine de ce projet, dévoile les 1000 phrases sur son site web. Voici une visualisation des mots les plus fréquents construite avec le logiciel NuageArboré sur treecloud.org, glissez la souris sur chaque mot pour voir son nombre d'occurrences :

Image SVG

Les distances entre mots calculées ci-dessus le sont d'après les cooccurrences dans des fenêtres glissantes de 10 mots. Mais ces fenêtres peuvent concerner la fin de la phrase d'un chercheur, et le début de la phrase du suivant. Pour éviter cela, il faut télécharger TreeCloud et utiliser la fonction "séparateur" afin que la distance entre mots dans l'arbre reflète le nombre de chercheurs qui les utilisent ensemble dans leur phrase. Si l'on classe chaque chercheur en "sciences exactes", "sciences de la vie" et sciences humaines" (comme dans ce fichier tableur OpenOffice), voici les nuages obtenus par TreeCloud et SplitsTree :

Le voisin du mot "recherche" dans chacun des nuages arborés (respectivement "liberté", "passion", "sauvons") me semble intéressant (même s'il n'est pas nécessairement celui qui est le plus cité conjointement avec "recherche"). Les mots des sous-arbres autour d'"avenir" d'une part et "recherche" d'autre part, me semblent intéressants pour esquisser des visions contrastées de ces domaines. On peut aller plus loin en cherchant le vocabulaire statistiquement sur-représenté dans un domaine par rapport aux deux autres. D'après les calculs de spécificité de Lexico 3, les mots (non vides) sur-représentés sont les suivants :

sciences exactes (total de 501 phrases) : univers, Terre, énergie, demain, futur
sciences de la vie (total de 379 phrases) : recherche, espoir, mieux, chercher
sciences humaines (total de 120 phrases) : pas, passé

A partir du prénom, j'ai également tenté de repérer les mots sur-représentés dans les phrases de 331 chercheuses par rapport à celles de 599 chercheurs. Pas de grosses différences : seuls service (systématiquement dans l'expression "au service de" chez les femmes), recherche et pour, sont sur-représentés chez les femmes alors que plus est sous-représenté par rapport aux hommes.

N'hésitez pas à commenter ces résultats, et proposer d'autres méthodes d'analyse de ce corpus !

Mathématiques des papillotes (2/2) Carambars

2010-09-14T17:09:00.002+02:00

La question du nombre de blagues Carambar était restée sans réponse à la fin de l'épisode 1 de mon étude du nombre de citations de papillotes. El Jj s'y est collé sur son blog Choux romanesco, vache qui rit et intégrales curvilignes. De mon côté j'ai également fini de recueillir les blagues (séquences reconstituées ci-contre) de 3 paquets de Carambar qui traînaient depuis un an (j'en suis visiblement moins friand que des papillotes...), qui me permettent d'apporter quelques nouvelles précisions sur les obstacles à l'application de la "méthodologie-papillotes" à l'estimation du nombre de blagues Carambars, et de proposer des méthodes alternatives. J'avais évoqué ces deux problèmes, et El Jj mentionne également dans son billet, en les négligeant toutefois pour le calcul :

certaines blagues sont plus longues que d'autres
certaines blagues sont présentes avec des doublons, c'est-à-dire qu'elles apparaissent à plusieurs endroits dans la "chaîne de blagues" (entourées de blagues voisines différentes)

A cause de ces deux phénomènes, toutes les blagues ne sont pas équiprobables. Une remarque sur les données permet de se débarrasser du second problème : en regardant attentivement les emballages, on se rend compte que le recto coïncide toujours avec le verso. Je m'explique : si l'on tombe deux fois sur la même blague au recto, le verso, visible par transparence, est toujours calé au même niveau vertical... sauf quand la blague apparaît en doublon (avec un voisinage différent) ! Ainsi, si l'on trouve une blague en double avec un calage vertical différent pour les motifs au verso, on peut les considérer comme des blagues différentes lors du calcul. Ces doublons sont indiqués par les cadres de couleur dans le scan des séquences de blagues.

Quant aux autres méthodes d'estimation de tailles d'une population (de blagues), je les dois à Cécile qui m'a indiqué celle de la capture-recapture, aussi appelée mark-recapture en anglais (comme quoi une mi-temps d'Uruguay-Allemagne peut aussi être scientifiquement enrichissante). Elle est basée sur l'indice de Lincoln-Petersen, le second l'ayant utilisée en 1894 sur des poissons, et le premier en 1930 sur des oiseaux. Elle consiste à capturer M animaux, à les marquer puis à les relâcher. S'il y a un total de N animaux dans le périmètre choisi, et que chaque animal a la même probabilité d'être capturé, on a une probabilité de M/N de recapturer un animal marqué. Ainsi, si l'on effectue une seconde capture de n animaux, on s'attend à en obtenir nM/N marqués. En appelant m le nombre d'animaux marqués effectivement recapturés, on s'attend donc à avoir m=nM/N, et donc on estime le nombre total d'animaux à nM/m (indice de Lincoln-Petersen).

Appliquons la méthode sur les blagues Carambar, en prenant par exemple M=10. Mangez assez de Carambar pour trouver 10 blagues différentes. Mangez alors n Carambars et comptez ceux dont la blague associée faisait partie des 10 choisies au départ. Vous vous attendez à obtenir m=nx10/N, et donc le nombre estimé de blagues différentes est 10n/m.

Ce cours sur la biodiversité évoque également, page 6, une estimation du nombre d'espèces par une détermination graphique de l'asymptote de la courbe qui indique le nombre total d'espèces observées en fonction du temps d'observation. L'avantage est que pour cette méthode il n'y a pas besoin de faire d'hypothèse sur l'équiprobabilité d'observer chaque espèce, contrairement à celles présentées précédemment. Toutefois elle semble peu précise, et très dépendante du modèle de régression choisi. Quant à l'application aux Carambars, il suffit de l'utiliser sur la courbe du nombre total de blagues trouvées en fonction du nombre de Carambars mangés (en rouge sur la diapo 17 ici).

Vous voilà prêts à faire vos estimations avec ces méthodes, en évaluer la fiabilité (m'indiquer de la littérature sur le sujet ?), ou en proposer d'autres... A vous de jouer !

Le billet d'El Jj : ¡ Ay, Carambar !

Le premier billet de la série : Mathématiques des papillotes (1/2)
Un article du Monde suite à la blague du retrait des blagues Carambar : Nos petites madeleines

Nuages arborés en ligne

2010-08-31T23:11:00.004+02:00

Vous avez vu le concept apparaître sur le blog de Jean, et quelques exemples sur ce blog, mais ça fait quelque temps que je n'en ai pas parlé ici, des nuages arborés de mots. Après quelques semaines de test d'une interface web de construction de ces outils de visualisation, il est temps de dévoiler le nouveau site web de TreeCloud : treecloud.org !

Grâce à Jean-Charles, étudiant en licence d'informatique à la Faculté des Sciences de l'Université de Montpellier 2, qui a programmé tout ça sur son temps libre, cette méthode de visualisation qui n'était alors disponible que sous forme d'un logiciel libre un peu contraignant à installer (il y a encore des problèmes sous Mac pour cette version en développement référencée par le Projet Plume), est maintenant offerte sous forme d'une interface web que vous pouvez installer sur votre site web, sous le nom NuageArboré. Ce que j'ai fait pour treecloud.org, après des petites modifications pour adapter les paramètres par défaut, et voilà le tout prêt à utiliser en un clic !

Alors quelle utilité pour ces nuages de mots grimpés aux arbres ? Simple aperçus esthétiques du contenu d'un texte ? Eh bien pas seulement, comme nous l'avons montré avec Delphine, ma co-autrice dans notre article présenté en juin aux JADT 2010 à Rome. C'est maintenant dans la foire aux questions de TreeCloud, ces visualisations peuvent également servir à analyser des textes dans le cadre d'une démarche assistée par ordinateur :

en suscitant, en formalisant et en étayant des hypothèses de travail,
en comparant des textes selon leur représentation arborée,
en hiérarchisant l'utilisation d'autres outils textométriques,
en représentant les résultats de l'analyse.

Je vous laisse lire notre article ou découvrir notre présentation aux JADT pour en savoir plus.

Et maintenant, à vous de jouer, pour trouver d'autres usages ! Contactez-moi si ça vous donne des idées, ou suscite des questions. En tout cas ces nouvelles visualisations sous forme de nuages de mots sont à la mode, et des chercheurs d'IBM et de Microsoft qui ont évoqué les nuages arborés dans des articles à InfoVis l'an dernier et cette année planchent sur de nouvelles améliorations et de nouveaux usages des nuages de mots.

Je terminerai en remerciant le projet ANR PhylAriane qui a financé la présentation des travaux sur les nuages arborés à IFCS l'an dernier et aux JADT cette année. En effet, cet outil de visualisation construit grâce à des méthodes issues de la bioinformatique, conçu pour des problématiques de sciences humaines, va bientôt trouver des applications en bioinformatique. Plus de détails à venir, dans un certain Chapitre 4...

Densité des idées

2010-06-30T13:17:00.001+02:00

La rencontre de doctorants Osidmesh (évoquée précédemment sur ce blog) a débouché sur un joli projet qui a déjà donné ses premiers résultats, que mes coautrices vont présenter cette semaine et le mois prochain. Petit coup de projecteur, donc, sur ces travaux liés à la thèse d'Hyeran sur le langage des malades d'Alzheimer.

En octobre dernier, elle m'avait parlé du logiciel CPIDR qui permet d'estimer, pour un texte en anglais, sa "densité des idées". Le concept de ce score linguistique, qui correspond au nombre d'idées exprimées en 10 mots, nous vient de la psycholinguistique. La densité des idées représente une certaine qualité informative des phrases d'un texte, et les psycholinguistes soupçonnent que sa dégradation est liée à un déclin de l'activité cognitive. Ainsi, Hyeran cherchait à vérifier que les malades d'Alzheimer avaient généralement une densité des idées inférieure aux personnes non atteintes, première étape avant d'utiliser ce critère pour des applications plus poussées comme le diagnostic de la maladie, ou l'analyse précise des dégradations de la capacité langagière en vue de proposer des exercices de rééducation adaptés.

Nous avons donc réutilisé la méthode du logiciel CPIDR pour le calcul de la densité des idées d'un texte : on détermine la nature grammaticale de tous les mots (par exemple de façon automatique avec TreeTagger), et on utilise cette information comme base pour déterminer si le mot peut être considéré comme représentant une idée ou non. En fait, les mots comptant pour une idée sont principalement les verbes, les adverbes et adjectifs, ainsi que les prépositions et conjonctions. Des règles linguistiques permettent d'ajuster ce principe de base et de traiter certains cas particuliers, éventuellement spécifiques au discours oral.

Nous avons donc codé dans un logiciel libre en Python, Densidées, ce principe de base et quelques premières règles grammaticales, qui nous ont permis d'obtenir assez rapidement une approximation intéressante des valeurs de densité des idées trouvées manuellement. Et par un prompt renfort de deux étudiantes lyonnaises en orthophonie, Constance et Elsa, un joli corpus étiqueté manuellement (le rêve de tout TALeux !) a été constitué, permettant d'améliorer le logiciel en comparant les résultats de l'analyse automatique et manuelle, pour trouver les nouvelles règles à ajouter pour réduire le taux d'erreur. Nous arrivons finalement à de très bons résultats, comme détaillé dans cet article à RECITAL 2010 et montré dans le graphique de corrélation entre analyse manuelle et automatique ci-contre.

Deuxième étape, vérifier que la densité des idées, en particulier celle calculée par Densidées, est effectivement plus faible chez les malades d'Alzheimer. Les résultats du mémoire d'Elsa et Constance pour un groupe de 22 personnes (dont 11 malades), sont confirmés dans notre poster à CEDIL 2010 pour un groupe de 40 personnes.

Hyeran va poursuivre la constitution de son corpus, et elle a d'autres pistes de critères linguistiques pouvant jouer le rôle d'indices de la maladie d'Alzheimer, mais la partie de son travail à laquelle j'ai eu la chance de participer a précisé de manière très concrète l'image que j'esquissais dans le billet précédent de recherches en sciences humaines d'une grande qualité malgré la faiblesse, ou l'absence, des financements. La motivation et le travail d'une doctorante, en lien avec une équipe d'étudiantes énergiques et passionnées, et un bon encadrement de thèse, sont visiblement des clés pour compenser la faiblesse des moyens pour la recherche en sciences humaines. Mais jusqu'à quand si les financements n'arrivent pas à la suite des bons résultats obtenus ? Le minimum vital est de pouvoir les présenter, afin de recueillir l'avis et les suggestions de la communauté scientifique. Pour l'article de RECITAL (à Montréal cette année avec TALN), nous remercions le laboratoire Praxiling et l'école doctorale 58, ainsi que l'ATALA et l'école doctorale I2S pour leur soutien financier.

A très vite pour évoquer un autre logiciel libre et une autre collaboration à l'interface avec les sciences humaines...

Graphe orienté et politique : le cercle vertueux

2010-05-31T01:25:00.007+02:00

Les graphes apparaissent rarement sur ce blog, alors qu'ils constituent l'une de mes thématiques de recherche. Une utilisation dans le cadre du débat politique me donne l'occasion d'en parler aujourd'hui.

Combats de chiffres parfois, d'égos souvent, de mots toujours, les débats politiques s'enlisent bien souvent sans faire apparaître clairement le fond du problème, sorte de plus petit commun désaccord. Des outils informatiques de brainstorming et de web-débat commencent à voir le jour pour structurer les discussions et les confrontations. Mais ceux que je connaissais ne me satisfaisaient pas au moment où nous avons commencé avec d'autres doctorants des universités montpelliéraines à débattre sur la future charte des thèses.

Un peu d'éléments de contexte avant d'aborder l'outil proposé. La charte des thèses existe dans les établissements d'enseignement supérieur pour donner un cadre à la préparation du doctorat. Ces chartes détaillent de façon plus ou moins poussée les droits et devoir des doctorants, de leurs encadrants, et des structures liées au doctorat. Selon les universités et les domaines de recherche, elles assurent aux doctorants un statut clair de professionnel de la recherche recruté sur un projet précis (en affirmant par exemple que tout doctorant doit être rémunéré) ou bien restent plus vagues, pour diverses raisons. Raisons historiques, contextuelles, et scientifiques se mélangent bien souvent dans les explications, il est difficile de faire le tri. Face à cette confusion, la Confédération des Jeunes Chercheurs tient un discours clair, argumenté et documenté sur le sujet.

J'ai donc essayé de regrouper l'ensemble de ces arguments dans une synthèse qui ferait apparaître la cohérence d'ensemble de ce discours, et permettrait rapidement de mettre le doigt sur les points de désaccord. Les arguments étant souvent liés les uns les autres, il semblait apparaître une sorte de cercle vertueux, et c'est cet aspect que j'ai essayé de mettre en valeur dans un graphe orienté (un ensemble de points reliés par des flèches), à l'occasion d'une pause MacDo par un sombre dimanche d'hiver. Les flèches s'interprètent comme des implications logiques, mais comme tout modèle mathématique, il s'agit d'une simplification de la réalité, où les flèches doivent plutôt être interprétées comme "conduisent à" ou "favorisent".

Il fallait ensuite passer de l'ébauche sur carnet Moleskine au document clair et utilisable, ça a été fait grâce à l'outil de dessin de Google Docs (afin de laisser la possibilité à d'autres participants de notre groupe de réflexion de modifier la figure), et aux conseils esthétiques de Paola et Alban pour mieux faire ressortir le cercle vertueux, et faire apparaître la charte des thèses, et ses effets sur le cercle, en position centrale :

Etape suivante, rendre la figure entièrement cliquable pour expliquer les flèches et les cases dans une interface très navigable. L'outil de création de maps HTML d'OpenOffice a permis de faire ça très rapidement, le résultat se trouve ici.

Résultat sur les discussions et le débat ? On y gagne une vision d'ensemble assez claire : ce cercle fonctionne bien actuellement pour les doctorants en sciences exactes, en revanche c'est moins le cas pour les doctorants en sciences humaines. La clé du débat est alors de savoir comment l'amorcer : en imposant de nouvelles contraintes sur les doctorants (obligation de financement pour s'inscrire en thèse, durée limitée de façon stricte à 3 ans), ou bien en améliorant les conditions d'encadrement et de travail en équipe ? La réponse est vite trouvée, et correspond à l'évolution en cours dans les écoles doctorales montpelliéraines en sciences humaines : EDEG, 58 et 60. Pour Droit et sciences sociales, le chemin à parcourir semble plus important...

C'est justement dans cette école doctorale qu'on nous dit que le "cercle vertueux" est inadapté, en ciblant les cases et les flèches qui ne sont pas correctes. L'insertion professionnelle dans le privé aurait peu de lien avec le bon déroulement de la thèse, en droit, et serait même à l'origine d'un grand nombre d'abandons de thèse. De plus, le rapport personnel et subjectif du doctorant à son sujet de thèse et aux textes de sa bibliographie, ainsi que la maturation de la réflexion nécessaire à produire un résultat de recherche intéressant, seraient à l'origine d'une impossibilité de borner une thèse à une durée maximale de trois ans. Là, toute la question est de savoir s'il s'agit d'un principe qui fait consensus en droit voire dans d'autres domaines scientifiques (philosophie ? littérature ?), ou si elle concerne seulement certains sujets de thèse exceptionnels qui demandent des durées adaptées en conséquence... auquel cas une simple exception à la règle, bien encadrée dans la charte des thèses, suffirait.

Verdict attendu suite aux discussions dans les écoles doctorales et les conseils scientifiques... En tout cas la phase de réflexion des doctorants est en train d'aboutir, grâce à une consultation de l'ensemble des doctorants montpelliérains, et ce graphe orienté aura contribué à faciliter le débat et sa synthèse.

Edit du 19/08/2010 : une autre utilisation des graphes orientés en politique...

Sous-titrage xkcd : 100% !

2010-04-20T00:14:00.005+02:00

J'ai eu le plaisir de valider ce matin la 729ème traduction en français d'une vignette xkcd, qui a permis d'atteindre les 100% dans la petite barre de progression d'xkcd.free.fr !

En à peine moins de 500 jours, avec un total de 100 participants (dont les 20 plus actifs ont réalisé 90% des traductions), toutes les vignettes de xkcd ont été sous-titrées en français. Merci donc à useless, Djool, Antoine, justt, Manutaust, I5, pascal, Zuiter, Kith, Yun-Kang, PH TRIVIER, Jmfork, Mutte, Lolouf, François, Quark, Arnaud R, Eniotna, Anouck, Anonyme, Di@bl@l, Nicomm, Tejgad, Malta, relaurelius, Nitrec, LS, cwoodin, Romain, Lagierl, anonyme, Iain, Pierre Ligot, brazzmonkey, Jules.LT, Xavier, Phersv, Kasui, Oaz, iuchiban, GG, neurone, Christophe, Alice, Carrot, Le pti yo, Fanch, crox, Romu, Takhiarel, Sioc, CaptainDangeax, egogramme, azerwhite, ianux, Thieums, Yves, Alexis, P., Nightgeek, DVLish, DenisQC, Bab, Niaatan, J. Ruaud, irqy, Cynoid, Baudelaire, Bernard Tribot, PL, wed, cerca, Wen, Philippe MacKay, Yves Roumazeilles, Arnaud, Johngeek, medard, AmideLanval, Delphine, Padreik, RJL, Egogramme, Guilac, seb, Ozh, oDn, Aelfgar, Nic, Em, Christophe Thill, Fractal, raph, dgryski, Ha3, Christophe S., mrlargo, Krom et kercoz.

Le graphique ci-dessous montre l'évolution de la traduction. J'ai indiqué pour les 14 plus gros contributeurs le moment où ils avaient particulièrement participé :

Je précise tout de même que ce graphique n'indique pas la difficulté de la contribution. En participant dès le début, j'ai pu traiter les plus simples et donc participer sur une grosse quantité. Au contraire, ceux arrivés plus récemment ont eu le courage de s'attaquer à quelques gros morceaux (je pense par exemple à Nicomm pour le 24, Manutaust pour la Blogofractale, ou encore brazzmonkey pour le 472).

Merci également à ceux qui ont fait connaître ce projet, en particulier Astrid Girardeau dont l'article dans Libération/Ecrans a bien augmenté le nombre de visiteurs, ou encore MacGeneration et CommentCaMarche.

Le projet peut maintenant passer dans une autre phase. Outre bien sûr la traduction au jour le jour, il faut désormais améliorer les traductions existantes (j'ai un gros mois de retard sur la modération de ces améliorations), et passer de cette version sous-titrée à une version "en VF", traduite directement sur l'image. Heureusement, Phiip a commencé ce travail sur xkcd.lapin.org de façon indépendante il y a quelques semaines, il avance vite et bien, et pourra utiliser ou améliorer les traductions d'xkcd.free.fr.

Deux flux RSS à ajouter donc : celui d'xkcd.free.fr pour continuer à recevoir les textes des traductions le jour de leur sortie, et celui d'xkcd.lapin.org pour recevoir les images au fur et à mesure de leur traduction !

Encore une fois bravo et merci à tous, l'aboutissement (relatif) de ce projet d'équipe constitue une excellente motivation pour en terminer un autre, qui m'occupe depuis près de 3 ans... Et bon courage pour les traducteurs allemands (145/729), espagnols (204/729) et russes (422/729) !

xkcd77 sur xkcd.free.fr et sur xkcd.lapin.org :

Episodes précédents : traduction d'xkcd et loi de Pareto (31 mars 2009), xkcd en français (13 décembre 2008)

Comment translater les titres de films (2)

2010-03-31T23:14:00.005+02:00

J'avais proposé dans un billet précédent une petite typologie de la traduction des titres de films, et je vois ressortir ce sujet un peu partout, en particulier au début du mois dans un article de Julien Jouanneau pour Le Post. Il y notait en particulier une utilisation assez importante du mot "enfer" dans les traductions de titres anglais et américains.

Dès 2007, je m'étais lancé dans la récupération d'un corpus de titres et leur étiquetage selon cette typologie. Il est temps de mettre à disposition mes données et mes premiers résultats, même si leur quantité et leur qualité est améliorable, je pense qu'il y a des choses intéressantes à en tirer.

Quelques infos sur ces données pour commencer (n'hésitez pas à me demander le droit d'édition du fichier en commentaires si vous voulez participer à l'étiquetage !). Elles ont été récupérées automatiquement sur le site Allociné, ce qui est à l'origine de quelques erreurs sur la date de sortie : celle mentionnée est la date de dernière sortie cinéma en France, ce qui peut être une date de reprise. J'ai donc le projet de corriger cela un de ces jours...

Les films ont alors été étiquetés de la manière suivante :

- F pour un titre français,

- O pour un titre anglais gardé en français,

- D pour une traduction littérale de l'anglais,

- T pour une traduction un peu plus subtile voire complètement différente,

- A pour une traduction "fashion", de l'anglais vers autre chose en anglais,

- N pour une traduction "note du traducteur", où le titre anglais est gardé mais complété par des mots en français,

- C pour une traduction "censure", où le titre anglais est tronqué,

- S pour une traduction "sans the", où le titre anglais est gardé mais en enlevant le premier "the" (Da Vinci Code, Last Kiss, etc.).

- la lettre ci-dessus doublée quand il s'agit du même phénomène avec une autre langue que l'anglais.

Bref, j'arrive à une base étiquetée de plus de 1600 titres traduits de films dont la dernière sortie a eu lieu dans les années 1967-1974, 1982-1984, 1994, ou 2002-2006 : vous devinez que j'ai recherché des évolutions dans les habitudes de traduction... Et effectivement il semble avoir des variations, avec de plus en plus de titres gardés sous leur forme originale et de moins en moins de traductions littérales, et peut-être également un engouement ces dernières années pour les traductions "fashion" et "sans the". A confirmer quand la qualité et la quantité des données sera améliorée bien sûr.

Pour voir si d'autres mots comme "enfer" étaient particulièrement choisis dans les traductions subtiles, on peut extraire toutes les traductions subtiles d'une part (549 dans la colonne F), toutes les traductions littérales d'autre part (283 dans la colonne G), et comparer le vocabulaire qu'elles utilisent.

J'extrais donc la liste des mots les plus fréquents dans chacune de ces deux catégories avec Dico, puis je les compare en les explorant avec un multinuage de mots (les tailles des mots en bleu reflètent le nombre d'occurrences dans le corpus des traductions littérales, en rouge dans celui des traductions subtiles) :

Attention toutefois un corpus a une taille deux fois plus importante que l'autre, il faut donc visualiser les fréquences, avec Lexico3 par exemple, voici les mots du nuage avec les différences de fréquences les plus significatives :

Le mot "roi" est donc moins utilisé dans les traductions subtiles, alors que "mort", "enfer", "affaire" et "secret" y sont plus souvent employés. Attention toutefois : si l'on calcule les spécificités avec Lexico3, aucun de ces mots n'apparaît comme statistiquement sur-représenté dans un des deux corpus. Le fait qu'"enfer" ne soit pas présent dans les traductions littérales et 6 fois dans les traductions subtiles peut donc être dû au hasard. Plus de données permettra peut-être de conclure... avis aux amateurs qui voudraient participer à l'étiquetage du reste de la base !

En tout cas voilà les titres à traduction subtile contenant le mot "mort" : Side Street (La rue de la mort), I'll Sleep When I'm Dead (Seule la mort peut m'arrêter), The Bourne Supremacy (La mort dans la peau), Touching the Void (La mort suspendue), Kiss of Death (Le carrefour de la mort), Double Indemnity (Assurance sur la mort), Stepping Razor - Red X (La vie et la mort de Peter Tosh), Battletruck (Le camion de la mort), Still of the Night (La mort aux enchères).

D'ailleurs, le mot avait bien été gardé pour la traduction officielle du titre du film Deathproof de Tarantino. A sa sortie, TFM Distribution avait lancé un concours de traduction, je ne sais pas quel titre avait finalement gagné, mais le titre officiel "Boulevard de la mort" fait bien apparaître ce fameux mot-clé, et a apparemment conquis Tarantino, même s'il a fait causer des dizaines de cinéphiles.

Miss Google 2010

2010-02-24T00:23:00.000+01:00

Avez-vous déjà invité une brésilienne à votre soirée d'anniversaire ? Paola me raconte que ça suffit à obséder certains jeunes hommes que j'imagine charmés par les sonorités de l'accent brésilien ou de la langue portugaise. A moins que la brésilienne ait un statut particulier dans l'imaginaire collectif français...

C'est l'hypothèse que j'ai testée en allant récupérer le nombre de réponses Google de "belle brésilienne", "jolie brésilienne", et en faisant de même pour un total de 152 nationalités. Je suis fan de ce genre de tests, tout comme xkcd. Et mon petit FuryPopularity fonctionne toujours aussi bien pour effectuer des requêtes Google en masse (contrairement aux requêtes Yahoo, qui a encore changé d'apparence récemment)... en imposant un délai d'une vingtaine de secondes entre deux requêtes, pour éviter d'être détecté comme robot (il y a quelques mois 8 secondes suffisaient, argh).

Les résultats sont dans ce document tableur partagé.

Top 10 des belles : françaises, japonaises, marocaines, brésiliennes, chinoises, roumaines, mexicaines, allemandes, italiennes, américaines.
Top 10 des jolies : françaises, thaïlandaises, russes, indiennes, anglaises, italiennes, américaines, brésiliennes, espagnoles, allemandes.

Première remarque en se penchant un peu plus sur les résultats chiffrés : en les passant au logarithme on obtient une droite, excepté une irrégularité pour les nombres de résultats compris entre 10 et 40. Je ne serais pas étonné que ce soit le palier au delà duquel Google ne fournit pas les nombres exacts de résultats, mais seulement des approximations. En revanche je suis un peu étonné de ne pas tomber sur une loi de puissance comme ça a si souvent été le cas sur ce blog.

Deuxième remarque, il y a une forte corrélation entre les résultats pour "belle" et ceux pour "jolie" (coefficient de corrélation 0.88), qui tendrait à indiquer qu'effectivement ces résultats correspondent à une tendance commune, et qu'on pourrait donc les interpréter comme un inconscient collectif (ou médiatique ?) d'association de la beauté féminine avec certaines nationalités.

Mais j'entends déjà poindre les premières critiques : belles françaises, italiennes, allemandes et américaines... Google Images nous confirme qu'on ne parle pas là que des habitantes de ces pays, mais aussi de leurs voitures. Les allemands ont semble-t-il un peu moins tendance à personnifier leurs voitures (encore que, les motos peut-être un peu), j'ai donc également lancé l'expérience également avec "schöne" et "hübsche", avec les gentilés allemands trouvés ici.

Les résultats sont différents, mais tout de même un peu corrélés aux français (0.72 et 0.75). Voilà le top 10 pour "schön" : sud-africaines, russes, allemandes, italiennes, suédoises, danoises, françaises, indiennes, polonaises, autrichiennes ; et pour "hübsch" : japonaises, brésiliennes, allemandes, polonaises, françaises, chinoises, suédoises, italiennes, américaines, norvégiennes. Avec toujours une bonne corrélation entre les deux listes de résultats (0.86).

Vous remarquez le point à droite, très "schön" mais moyennement "hübsch" ? Il s'agit de l'Afrique du Sud, représentée, pour les allemands, par Charlize Théron qui truste les résultats de la requête. Elle me permet de remarquer une fois de plus combien les nombres de résultats Google sont variables du jour au lendemain, car il y a aujourd'hui beaucoup moins de résultats qu'hier soir quand j'ai récupéré les données.

N'hésitez pas à réutiliser le protocole pour obtenir des résultats plus solides (en réitérant les requêtes sur plusieurs jours pour éviter les résultats fantaisistes parfois fournis par Google), ou bien dans d'autres langues, ou sur les hommes plutôt que les femmes. Et peut-être, en testant assez de langues, pourrez-vous trouver le pays où français et française sont les mieux cotés ! Ou bien tout cela vous donnera envie de voyager un peu dans les pays du milieu et du bas du classement pour constater l'absurdité de ces stéréotypes.

Données : document tableur OpenOffice.

Prénom et profession

2010-01-31T23:45:00.016+01:00

Ca fait un certain temps que traînent sur mon ordinateur les données des prénoms et professions de plus de 100 000 signataires d'une pétition que j'évoquais dans des billets précédents. Alors que je me suis récemment plongé dans la passionnante Initiation aux méthodes de la statistique linguistique de Charles Muller (sur un conseil avisé) pour un autre projet dont je parlerai bientôt ici, j'en profite pour appliquer ce que je viens d'y apprendre sur les écarts réduits. Les commentaires de vrais statisticiens sont les bienvenus...

J'ai donc à disposition un tableau de 294 prénoms qui apparaissent plus de 40 fois chacun parmi les signataires, et pour chacun la répartition en 15 professions (étudiant, informaticien, ingénieur, employé, chercheur, auteur, cadre, enseignant, lycéen, retraité, profession, libérale, chômeur, fonctionnaire, bibliothécaire, journaliste). J'aimerais alors pour chaque profession savoir quels prénoms sont sous-représentés et sur-représentés. Une première approche consisterait à calculer simplement le pourcentage de représentation de chaque prénom. Par exemple, sur 1304 Philippe, il y a 33 étudiants (soit 2,5%), alors que sur 103312 signataires, il y a 14881 étudiants (soit 14,4%). Ainsi, parmi les Philippe, les étudiants seraient sous-représentés ?

Malheureusement, ce raisonnement ne conduit qu'à une intuition et n'est pas encore confirmé statistiquement. Pour évaluer si cette sous-représentation est statistiquement significative, il faut calculer les écarts réduits, et pour cela abandonner les pourcentages pour revenir aux valeurs théoriques et valeurs observées. Comme il y a 14881 étudiants, 1304 Philippe et un total de 103312 personnes, le nombre théorique d'étudiants qui s'appellent Philippe est 14881/103312*1304 = 188 (environ). Le critère pour évaluer si cet écart absolu de -155 (=33-188) est bien significatif s'appelle l'écart réduit, il consiste à diviser l'écart absolu par l'écart-type.

Là, j'ai cru comprendre qu'on prend l'hypothèse d'une loi normale pour calculer l'écart-type théorique comme la racine du nombre d'individus considérés (de Philippe, soit 1304) multiplié par la probabilité qu'ils soient étudiants (soit p=14881/103312=0,144) multiplié par la probabilité qu'ils ne le soient pas (1-0,144=0,856). Pour l'instant tout ça m'a l'air un peu magique, mais ça semble avoir un rapport avec le théorème de Moivre-Laplace (qui demande que n soit suffisamment grand, d'où ma restriction initiale à des prénoms représentés plus de 40 fois, j'espère que c'est suffisant).

Enfin bref, on trouve donc un écart réduit de -12,21 ce qui est statistiquement significatif, car la probabilité qu'un tirage au hasard (d'étudiants tirés à probabilité 0,144 avec 1304 tirages) conduise à un tel écart type est tellement faible qu'elle n'est même pas dans la table de référence des écarts réduits du bouquin de Muller page 175 (qui s'arrête à un écart réduit de 4,5 qui est atteint ou dépassé avec proba 0,000006. Cette opération peut être répétée pour tous les prénoms et conduit à ce fichier tableur OpenOffice (les écarts réduits sont sur la feuille 2, si vous avez la chance de trouver votre prénom parmi les 294 sélectionnés...), et en particulier cet histogramme des écarts réduits pour Philippe (on considère que les écarts réduits sont significatifs en dessous de -2 et au-dessus de 2) :

On peut aussi faire un Top 10 des prénoms significativement sur-représentés dans diverses professions, en appliquant des calculs similaires (en feuille 3 du document tableur). Je les dispose ci-dessous sous forme de nuages construits avec TagCloudBuilder (il y a visiblement encore des progrès à faire vis à vis de la parité, regardez les nuages des ingénieurs, chercheurs, cadres, et employés... Notez aussi les excès de Jean-Quelquechose chez les ingénieurs et les cadres.).

Etudiants :

Informaticiens :

Ingénieurs :

Employés :

Chercheurs :

Cadres :

Enseignants:

Lycéens :

Retraités :

Professions libérales :

Chômeurs :

Fonctionnaires :

Bibliothécaires :

Journalistes :

A vous de les utiliser pour nommer vos enfants (je sens que je vais me reconvertir en consultant en prénoms). Toutefois, pas de chance, vous noterez qu'aucun prénom n'est significativement sous-représenté dans le groupe des chômeurs...

Edit du 2 février : pour amoindrir l'effet de l'âge, Vincent me propose de refaire les calculs en enlevant des données les étudiants, lycées et retraités. Résultats ce soir ou demain soir... Mise à jour du 4 février : en fait ça méritera un billet séparé un peu plus long, car ces nouveaux résultats m'inspirent de nouvelles hypothèses et tests, pour les impatients les nouveaux nuages se trouvent ici et les données là...

Des lectures sur le même thème :

Mathématiques des papillotes (1/2)

2009-11-29T18:28:00.006+01:00

A l'approche des fêtes de fin d'année, c'est l'occasion pour moi de vous parler d'un problème qui m'obsède depuis le collège, et que j'ai enfin résolu, celui de l'estimation du nombre de citations de papillotes (oui, oui, trois compléments du nom successifs, c'est moche).

Alors je ne parle pas des papillotes en tissu de Linette ou de celles brodées par Brodstitch pour les fêtes, encore moins de la meilleure façon de préparer le poisson, mais de cette délicieuse friandise en chocolat enrobée d'un petit papier contenant blague ou citation, le tout dans un papier extérieur brillant. Ce concept (associé en plus à la charmante légende du sieur Papillot et de son apprenti chocolatier) m'a toujours passionné, et je lis toujours la citation avec autant d'attention que je mastique le chocolat (je ne suis visiblement pas le seul dans ce cas). Et c'est assez frustrant de retomber sur une citation déjà lue quelques papillotes plus tôt. Voilà pourquoi j'ai commencé à enquêter sur le nombre total de citations de papillotes différentes, pour celles de la marque Révillon (traditionnelle dans ma famille au moment des fêtes, vous comprendrez pourquoi en comparant avec d'autres... et non, ce billet n'est pas sponsorisé :p).

C'est comme ça que depuis le collège, chaque année, j'essaie plus ou moins de garder les citations de papillotes au moment des fêtes, pour résoudre ce problème, avec les moyens du bord. Alors comme sur un papier, on arrive à lire deux citations (au moins partiellement), après avoir remarqué que deux citations qui se suivaient dans un papier étaient systématiquement consécutives, j'ai commencé par les scotcher pour espérer reconstruire un jour la séquence intégrale des citations. Au gré des déménagements, ces données ont été perdues, retrouvées, et une année j'ai constaté avec horreur que la consécutivité d'une année précédente n'était plus respectée : la liste de citations avait changé et tout le travail était à refaire !

En licence, devant quelques éléments de proba, je me suis dit qu'il serait certainement possible d'estimer mathématiquement la probabilité de trouver plusieurs fois une même citation en tirant un certain nombre de papillotes, et que ceci me permettrait certainement d'évaluer le nombre total de papillotes en comparant la probabilité théorique et celle trouvée en pratique. C'est seulement l'an dernier que j'ai trouvé une meilleure façon de formuler le problème en terme de probabilités, et j'ai pu finir les calculs cette année. C'est cette approche que je vais maintenant présenter (qui pourrait donner un sympathique exo de khôlle de math sup), j'évoquerai aussi une approche statistique qui donne les mêmes résultats. Pour mes lecteurs qui veulent éviter l'indigestion mais sont intéressés par le résultat de cette enquête mathématique, n'hésitez pas à sauter les paragraphes plus formels pour aller à la réponse en fin de billet, juste après l'image de la courbe.

L'idée consiste à évaluer la probabilité P_d,k(n) de tirer d citations différentes, parmi un total de n citations, au bout de k tirages de citations (en supposant que le tirage de chaque citation a la même probabilité). Par la dégustation de papillotes, on obtient un échantillon de citations où on connaît d et k, et la stratégie va consister à trouver la valeur de n qui maximise P_d,k(n) . Il faut donc calculer trouver une expression de cette valeur, que l'on peut exprimer en terme de mots dans un alphabet. En considérant chaque papillote comme une lettre, et chaque tirage de k papillotes comme un mot de k lettres, la probabilité P_d,k(n) est égale au nombre a_d,k(n) de mots de k lettres contenant d lettres différentes divisé par le nombre de mots de k lettres (les lettres étant choisies dans un alphabet de n lettres), c'est à dire n^k.

Estimation du nombre de citations de papillotes et de blagues Carambar publié par pgambette

J'ai un peu bloqué sur le calcul de a_d,k(n) : on peut le définir de manière récursive, ce qui permet de faire les calculs pour des valeurs assez petites de n, je le détaille dans ce document, mais une remarque de Gergely m'a permis de faire les calculs de manière plus élégante. Ce nombre a_d,k(n) peut en effet s'exprimer uniquement en fonction de a_d,k(d) : puisque le mot a d lettres différentes, on peut en effet se restreindre à un alphabet de d lettres, en multipliant le résultat par le nombre de projections possibles de ces d lettres sur les n lettres de l'alphabet original (un exemple pour comprendre ça est donné en slide 9 de ce diaporama). Ainsi :

a_d,k(k)=a_d,k(d).C_n^d

Et là, magie, comme on cherche uniquement à trouver le maximum par rapport à n et que a_d,k(d) ne dépend pas de n (si vous voulez savoir comment calculer a_d,k(d), allez voir par là) :

max_n (P_d,k(n)) = max_n (a_d,k(n) / n^k) = max_n (C_n^d / n^k)

Gilles m'a expliqué comment modéliser le problème par une approche statistique, en considérant que le tirage suit une loi multinomiale, et en considérant comme statistique de l'échantillon le n-uplet donnant pour chaque citation son nombre de tirages. Le calcul d'un estimateur de maximum de vraisemblance pour la valeur de n fournit le même résultat, mais cette approche permettrait d'aller plus loin en calculant non seulement une valeur ponctuelle du maximum de vraisemblance mais également un intervalle de confiance. Je ne me suis toutefois pas encore plongé assez longtemps dans le Fourgeaud & Fuchs pour comprendre comment procéder.

Cette formule permet d'effectuer facilement les calculs (même si je bloque encore pour trouver une expression directe de ce maximum) pour localiser le maximum de vraisemblance, en traçant par exemple dans un tableur la courbe de C_n^d / n^k en fonction de n. L'an dernier, après dégustation de 52 papillotes, j'avais trouvé 40 citations différentes. J'ai voulu compléter mes données, mais les papillotes Révillon ne sont pas vendues au printemps et en été (ils arrêtent apparemment la production à cette période) et j'ai dû patienter jusqu'à cet hiver pour acheter et engloutir deux paquets (ma ligne aura un peu pâti de cette expérience, mais bon... je sers la science et c'est ma joie) : le premier m'a fourni 33 citations différentes sur 42, le second 33 différentes sur 41, l'union des deux 58 citations différentes sur 83. Ceci me donne les quatre courbes suivantes pour P_40,52, P_33,42, P_33,41 et P_58,83 en fonction de n :

Le maximum de la courbe est atteint respectivement à 93, 81, 89 et 107. Remarquez que plus l'échantillon est grand, plus le pic est fin : la précision de la méthode s'améliore...

Après avoir obtenu mes premières données, j'avais contacté Révillon pour demander confirmation de l'ordre de grandeur de 93. Ils m'ont répondu qu'il y a en fait 108 citations différentes pour les paquets de la collection "Festive" que j'avais testés. Mes collages font apparaître des cycles de 18 citations, j'ai pu en reconstituer 3 sur 6 :

Bien sûr, j'aimerais appliquer cette méthode d'estimation à d'autres données, par exemple les billets en euros (le site EuroBillTracker permet de récupérer le nombre total, et le nombre de billets différents, de l'échantillon constitué par les billets relevés par les participants au site) ou les blagues Carambar que j'évoque dans cette présentation :

Toutefois, pour ces deux estimations, outre le problème technique de calcul de très grands coefficients binomiaux pour le premier (je cherche un document de référence sur la méthode qui consiste à utiliser des logs pour ce type de calculs sur des grands nombres !), une hypothèse raisonnable (si si, Guyslain !) pour les papillotes ne fonctionne plus : le tirage de chaque billet, ou blague Carambar, n'est pas équiprobable. En effet, pour les billets, je pense que les visiteurs d'EuroBillTracker notent sur le site une plus grosse proportion de la totalité des billets de 5 euros, que de la totalité des billets de 500 euros imprimés. Pour les Carambars, le problème est que les blagues n'ont pas le même nombre de lignes. Ainsi, les blagues les plus longues ont une plus forte probabilité d'apparaître, et donc créent plus de paires que prévu dans un modèle équiprobable...

Données et documents de calcul : image des citations du paquet 1, de celles du paquet 2, document tableur OpenOffice, liste des citations trouvées.

Episode 2 : les Carambars !

L'informatique de mêche avec les sciences humaines

2009-10-27T23:45:00.003+01:00

Mes véronisations donnent généralement un aperçu de l'utilisation possible d'outils informatiques en sciences humaines, et j'ai essayé d'en savoir plus sur les liens réels entre ces deux domaines en participant vendredi dernier à la journée OSIDMESH (Outils Statistiques et Informatiques pour Doctorants Montpelliérains En Sciences Humaines) organisée par le LIRMM et l'Association Contact. Le bilan en est plutôt positif : un intérêt est sensible de la part des doctorants en sciences humaines, même si tous ne le ressentent pas au même niveau (problèmes techniques liés à la rédaction de la thèse, maîtrise d'outils généraux de traitement des données ou bien prise en main de logiciels spécialisés). La rencontre a en tout cas permis de présenter quelques possibilités permises par des logiciels existants ou des projets en cours, et de se mettre en contact pour un travail en commun plus poussé.

De mon côté j'ai fait des présentations sur deux sujets déjà apparus sur ce blog, qui me donnent l'occasion de mentionner quelques nouveautés à leur propos.

Si TreeCloud (cité dans l'article sur Wordle de chercheurs du formidable Visual Communication Lab d'IBM, mazette !) a déjà fait son apparition dans le coin, je n'ai pas encore dédié de billet à la version Python disponible depuis mars. Ce ne sera pas encore le cas, même si cette présentation montre quelques nouvelles fonctionnalités (sur le corpus Pantel), en particulier l'interface graphique (pour les allergiques à la ligne de commande) et la coloration ciblée en fonction de la cooccurrence autour d'un mot (une belle idée que j'ai récupérée dans AstarTex de Jean-Marie Viprey). Attendez encore une petite semaine si vous voulez télécharger une belle version : dans la prochaine, plus besoin de s'embêter avec les espaces dans les noms de fichiers, et quelques autres fonctions supplémentaires (coloration personnalisée, liste de mots du nuage personnalisée). Il sera alors temps de préciser quelques problématiques d'analyse textuelle (voire littéraires !) pour lesquelles la visualisation en nuage arboré montre son intérêt.

Je conclus cette seconde présentation avec l'exemple de la carte interactive de Lisbonne par Pessoa pour illustrer une utilisation possible de l'API Google Maps (attention, pour la France, on pourra lui préférer l'API Geoportail qui a l'air drôlement chouette). C'est l'occasion de citer un autre projet que j'ai dérivé de celui de Lisbonne, le recensement de tous les lieux barcelonais cités dans l'oeuvre d'Eduardo Mendoza (aussi réalisé en préparation d'un charmant voyage). Pas de dialogue direct entre la carte et le texte intégral, cette fois (je laisse le facétieux Eduardo encaisser ses droits d'auteur), mais j'ai pu réutiliser directement mes petits scripts permettant de créer automatiquement une carte imprimable (avec numéros) à partir de données d'une carte personnalisée Google Maps.

Je dois avouer que cette journée m'a permis, à ma grande honte, de découvrir moi aussi des outils informatiques qui me faciliteraient la vie. Zotero (merci Isabelle !) a l'air d'être ce dont j'ai toujours rêvé pour gérer mes favoris web, ma biblio et mes pdf d'articles... Une vidéo pour saliver en page d'accueil de leur site ici.

Et une question pour finir : vous connaissez un outil pour créer, à partir d'une thèse, ou d'un article, un index des auteurs cités avec, pour chacun, des mots-clés qui le caractérisent ? J'ai en tête une petite application du nuage arboré pour faire ça de façon semi-automatisée, mais peut-être qu'une solution (entièrement automatique ?) existe déjà...

Bilan du questionnaire fait-ou-pas

2009-09-04T10:31:00.008+02:00

Un questionnaire circule depuis plus de deux ans sur la blogosphère française, il consiste à mettre en gras ce qu'on a fait dans sa vie, parmi une liste d'une centaine de propositions. Après l'analyse du mème de la F-list, voilà donc celle du mème "fait-ou-pas".

De nombreuses caractéristiques du mème F-list (dont évidemment celles qui compliquent la récupération et l'analyse des données) se sont retrouvées dans celui-là : origine américaine (j'en trouve une trace dès juin 2004), erreurs de transmission du mème (oubli de questions, modifications d'intitulés), changement des règles du jeu (ajout d'une question à la fin du questionnaire), diffusion communautaire (blogs de gastronomie, puis blogs de loisirs, un passage par les blogs cinéma et les blogs littéraires), transmission virale non arborée (questionnaire repris chez plusieurs sources), formats divers selon la plate-forme de blog. Et ce cas de blogueuse qui répond au questionnaire, puis à une version un peu modifiée l'année suivante...

Malgré ces obstacles, j'ai réussi à identifier une liste globalement conservée de 130 questions chez 163 blogueurs ou de commentateurs de blogs (en recherchant sur Google ou Blogsearch certaines questions du questionnaires). Parmi celles-ci, 127 avaient reçu une réponse de tous ces participants (les questions 50 et 55 ont été omises par certains participants, la 16 a été modifiée...). Ces données sont disponibles ici dans un beau tableau à double entrée de 0 et de 1 (1 si fait, 0 sinon, blogueurs en colonnes, questions en lignes... je vous laisse imaginer le nombre de films que j'ai vu cet été en parallèle de cette ingrate tâche d'acquisition manuelle de données).

Quel est l'intérêt de ces données ? Bah, pour commencer ça a bien une petite valeur de sondage, même si l'échantillon n'est certainement pas représentatif de la blogosphère française. Parmi ceux qui ont répondu en tout cas, 5% ont piloté une Ferrari, 7% ont touché un iceberg, 17% vu des baleines. 42% ont sauté à l'élastique... Euh, comment ça ? La version cour d'école, ou bien l'autre un poil plus vertigineuse ? Eh oui là aussi la polysémie du français vient nous jouer des tours. Certains se permettent aussi d'interpréter les questions de façon assez large pour pouvoir répondre positivement.

Qu'est-ce qui obtient les plus gros pourcentages ? 96% pour "Se sentir vraiment heureux, même un court moment", et "faire une bataille de boules de neige". A l'inverse, personne n'a conduit de gondole à Venise et seuls deux ont visité "tous les" continents : marieestdanssonassiette "par la pensée, la gastronomie, la musique du monde et en lecture" (quand je vous disais que ça triche un peu :)...), et les Fenouillard (dans la version "olympique" à 5 continents). Le reste des pourcentages se trouve dans la troisième colonne de ce tableau.

Et là, vous vous dites que vous aimeriez bien savoir quels blogueurs ont fait les trucs les plus exceptionnels. Comment évaluer ça ? Le nombre d'actions réalisées comme le propose Nostaledonie en commentaire chez les Fenouillard ? Non, certaines sont visiblement plus extraordinaires que d'autres. Une idée est alors de considérer chaque pourcentage comme une probabilité p d'effectuer l'action. Il y a donc aussi probabilité 1-p de ne pas effectuer cette action. Et finalement, la probabilité d'effectuer une certaine liste de ces 130 actions est le produit des probabilités correspondantes pour chaque action. Bon, certes, en faisant une simple multiplication, je considère que ces probabilités sont indépendantes, ce qui est peu raisonnable (répondre oui à "élever des enfants" n'est pas indépendant de répondre oui à "changer la couche d'un bébé" par exemple). On supposera toutefois qu'elles le sont pour simplifier le calcul. Pour simplifier la lisibilité également, on prendra le log du résultat (c'est plus facile de lire "-10" que "0.0000000001", voir la troisième ligne de ce tableau). Voici donc la liste des 5 blogueurs (blogueuses ?) ayant la vie la plus extraordinaire, parmi ceux qui ont répondu :

la famille Fenouillard (loin devant)
Marie est dans son assiette ! (citée plus haut...)
Tout Silo
Poppyrose
Leeloolène

Vous remarquez la présence de la fameuse n°2 du top Wikio, et de la 149. Tiens tiens, et si les blogueurs à la vie la plus exceptionnelle étaient aussi les plus lus et cités ? Eh bien non, après vérification, pas de corrélation. La récupération de données Wikio fournit en revanche d'autres conclusions. Déjà, que leur liste de blogs référencés est loin d'être complète. Elimination des blogs inactifs, refus d'indexation de la part des blogueurs ? Ceci n'explique pas que plus de 55% des blogs recensés dans cette étude ici échappent à Wikio. Leur catégorisation, bien qu'imparfaite (1/4 des blogs catégorisés ici le sont par "divers"), permet de constater que le mème s'est répandu de façon impressionnante sur la communauté gastronomie au printemps 2007. Puis, en novembre 2007 et février 2008, passage dans la communauté loisirs (remarquez qu'au même moment que la croissance de la courbe "loisirs", "divers" et "non catégorisés" augmentent également très fort, voilà un vivier de blogs loisirs à ajouter à Wikio !). Littérature et cinéma en août 2008. En tout cas ces courbes en paliers me semblent décrire très joliment une diffusion virale par communautés successives, et je rêve d'une visualisation interactive de la diffusion sur la wikiopole...

Il reste une dernière visualisation à extraire de ces données, les lecteurs fidèles de ce blog se doutent bien que je n'allais pas garder une belle matrice de 0 et de 1 sous la main sans la transformer en arbre. Eh oui, tentons de rapprocher les questions qui ont obtenu des réponses similaires :
L'ACP donnait un résultat assez moche, alors que là quelques jolis sous-arbres apparaissent (la correspondance entre les étiquettes de l'arbre et les questions précises se trouve dans la 2° colonne de ce tableau). J'ai ajouté des couleurs pour améliorer la lisibilité : quand des feuilles sont proches et ont la même couleur, elles sont dans le même sous-arbre, et constituent donc un cluster de questions auxquelles les gens ont répondu de manière similaire. Quelques clusters pas très étonnants qui permettent de valider cette classification : {se marier, acheter une maison, élever des enfants} {avoir un piercing, un tatouage} {sauter à l'élastique, faire de l'escalade} {danser sans se soucier de qui regarde, danser avec un inconnu} {manger du kangourou, manger du requin} {marcher sur le Golden Gate, visiter Las Vegas} ou encore {porter un agneau, aider un animal à donner naissance, traire une vache}. Pour certains regroupements, on soupçonne une histoire cachée derrière : {faire un art martial, se casser un os, passer à la télé} {avoir un accident, maigrir fortement, dormir 30 heures, jeûner 5 jours}. Mais pour préciser tout ça, et surtout comprendre les étonnants {manger des sushis, faire une balade nocturne sur la plage} ou {vendre ses créations, utiliser une arme à feu}, je cherche à utiliser d'autres techniques de fouilles de données ou classification. Les règles d'association me paraissent prometteuses, notamment, et si j'arrive à en tirer quelque chose vous en aurez des nouvelles sur ce blog.

Multinuage des programmes aux élections européennes

2009-05-11T00:05:00.011+02:00

Le logiciel TagCloud Builder de construction de nuages de mots, présenté ici il y a déjà quelque temps, a bénéficié d'une mise à jour la semaine dernière : il permet désormais de représenter les mots de plusieurs textes au sein d'un seul nuage, en attribuant une couleur à chaque texte.

Cette idée m'a été proposée par Kirsten Talbot, qui termine son master en sciences sociales en Afrique du Sud, et voulait représenter ainsi ses données sur les stéréotypes communautaires dans l'Afrique du Sud post-apartheid. En attendant de pouvoir découvrir ses visualisations et ses résultats, voici un exemple d'utilisation de cette visualisation en multinuage de mots, sur les programmes (ou ce qui y ressemble le plus...) des quatre partis français en tête dans les sondages pour les européennes selon Ipsos :

Je trouve que le résultat obtenu est bien meilleur que la simple juxtaposition de nuages créés pour chaque texte, comme celle que j'avais tentée pour les programmes PS et UMP des présidentielles il y a deux ans. Mentalement, on peut soit se focaliser sur une couleur, et bien voir les mots qui apparaissent pour celle-ci, soit lire le nuage "linéairement", et comparer pour chaque mot à quelle taille il apparaît dans chaque couleur (cette deuxième lecture permet donc le contraste des deux nuages, sans se préoccuper de trouver une bonne formule de contraste). Il manque la possibilité de cliquer sur un mot pour voir ses occurrences dans un concordancier - comme Jean l'avait fait ici pour la constitution européenne par exemple - ça ne devrait pas tarder.

Et le style n'est pas aussi chouette que les nuages Wordle. Si quelqu'un connaît (ou programme) une implémentation libre de cette méthode de visualisation (l'algorithme de placement est pour l'instant © IBM), je suis très intéressé !

En ce qui concerne les améliorations arborées des nuages de mots, voici une présentation en français du principe et des détails techniques, donnée la semaine dernière au séminaire doctorants de mon labo. Ca vous donnera peut-être envie de tester TreeCloud qui est maintenant disponible avec une interface graphique facilitant son utilisation et un manuel d'utilisateur.

Données utilisées : détaillées ici.

Edit : merci à Vincent pour la correction du lapsus sur l'année !

D'autre part je n'ai pas commenté le nuage, qui me semble pourtant intéressant sur le fond : voici quelques mots (ou absences de mots) qui peuvent surprendre (ou au moins mériter d'aller examiner les contextes) : croissance, femme, identité, développement, énergie, nouvelle, et d'autres tendances plus attendues : droite, dumping, social, automobile, biologique, mobilité, citoyen, coopération, ambition, décidé, histoire, sociale, protection, turquie, libéralisme-capitalisme.

Ah, tiens, IBM a un truc similaire dans ManyEyes, mais apparemment limité à deux textes.

Cartographie au Figaro

2009-04-17T10:03:00.008+02:00

Hier soir, le Figaro a "révélé" le "le palmarès 2008 des violences, sur la base des données officielles de l'Observatoire national de la délinquance (OND)", et choisit de l'illustrer avec la carte des atteintes volontaires à l'intégrité physique en titrant "La nouvelle carte de France de l'insécurité". Buzz assuré, une centaine de commentaires en quelques heures...

Mais que nous apprend la carte ? Comparons-la avec celle des densités par département :

Elles se ressemblent, hein ? On peut le vérifier précisément en faisant un graphique du taux d'atteintes volontaires à l'intégrité physique en fonction du log de la densité :La corrélation est assez claire, on a un coefficient de 0.67 (et 0.81 en omettant la Guyane). Bref, la carte n'est pas très utile, et servirait au mieux à illustrer le principe bien connu par les chimistes que des concentrations élevées favorisent les chocs... L'auteur de l'article aurait pu au moins mentionner cette remarque basique et concentrer son analyse sur les exceptions à cette règle, ou bien choisir une autre carte un peu plus riche en informations, par exemple celle des atteintes aux biens, accessible par un clic sur la carte interactive des atteintes à l'intégrité physique.

Données liées à ce billet : fichier tableur OpenOffice.

Edit de midi : tiens, je lis sur Twitter qu'en plus ils ont confondu Martinique et Guadeloupe sur la carte.

Candidats en 2012 : courbes Google et revue de presse

2009-04-07T20:16:00.001+02:00

Depuis juillet dernier, je suis régulièrement la progression de plusieurs candidats potentiels aux présidentielles de 2012 d'après Google (ma liste initiale s'est complétée avec les "candidats possibles" listés sur le site d'Alain Mourguy). Les "nombres Google" sont peu généralement peu fiables, mais un suivi régulier permet malgré tout d'identifier quelques tendances. Voici les courbes récupérées pour quelques figures majeures à gauche et à droite, où l'on peut remarquer le pic récent de Villepin qui refait parler de lui :

Certains pics semblent correspondre à du bruit (ou des secousses annonciatrices ?), mais la plupart des variations significatives des courbes peuvent être mises en relation avec l'actualité de ces diverses personnalités politiques et leurs interventions médiatiques, ou des articles sur leur possible candidature en 2012 (certaines ne sont pas dans les graphiques ci-dessus mais apparaissent dans mes données) :

mars 2008 : Christine Boutin, question
Boutin candidate en 2012 ?
27 avril 2008 : Laurent Fabius, possibilité
Fabius n'exclut pas d'être candidat pour 2012.
22 juin 2008 : Alain Juppé, possibilité
Présidentielle 2012 : Alain Juppé n'est "fermé à rien".
12 octobre 2008 : Dominique de Villepin, possibilité
Sarkozy fait pression sur le parquet pour écarter De Villepin en 2012.
25 novembre 2008 : Martine Aubry, contexte
« Être sur tous les terrains pour défendre les Français ».
28 novembre 2008 : Jean-François Copé, possibilité
J.F. Copé : candidat en 2012 ?
22 décembre 2008 : Martine Aubry, possibilité
Martine Aubry candidate en 2012 ?.
14 janvier 2009 : Dominique Strauss-Kahn, question
2012: "un jour, on revient en France", dit Strauss-Kahn.
26 janvier 2009 : Jacques Chirac, canular
Jacques Chirac pourrait se présenter en 2012 (voir aussi sur Le Post, Les Inrocks).
7 février 2009, Olivier Besancenot, contexte
Naissance officielle du Nouveau parti anticapitaliste de Besancenot.
12 février 2009, François Hollande, possibilité
Confidentiel : François Hollande, candidat en 2012.
14 février 2009 : Martine Aubry, possibilité
Face au "dilemne" Sarkozy ou Aubry en 2012, Le Pen pencherait pour Aubry.
25 mars 2009, Dominique Strauss-Kahn, contexte
DSK, un petit tour à Paris (aussi sur Le Post).
2 avril 2009, Dominique de Villepin, possibilité
Dominique de Villepin candidat en 2012?
11 avril 2009, Alain Juppé, contexte
Juppé veut un ministère (conclusions sur Le Post et ici)

Cette mini-revue de presse s'ajoute à celle, plus fournie, du site presidentielle2012.net. En fait, elle la complète, en y ajoutant des éléments, notamment des vidéos ou des articles publiés seulement sur internet (vidéos Dailymotion, articles de blogs ou du Post...). De plus, elle précise le type de lien avec une possible candidature en 2012 : question quand l'intéressé n'y répond pas clairement, possibilité s'il se déclare intéressé, contexte s'il est seulement pressenti par les observateurs, ou canular si c'est dans un cadre humoristique. Et surtout, elle ne représente que les informations qui ont eu un effet sur le web assez fort pour être détecté par Google.

Et pour ceux qui s'intéressent déjà à 2017, quelques ambitions se dessinent, et les courbes commencent aussi à se construire...

Traduction d'xkcd et loi de Pareto

2009-03-31T23:45:00.009+02:00

Le projet de traduction d'xkcd, conçu en un week-end et lancé début décembre, a plutôt bien démarré : 2/3 des planches de Randall Munroe sont maintenant traduites en français ! C'est plus que les versions russe (299/562) et espagnole (150/562)... pour une raison simple : le projet est collaboratif ! (Bon, et on traduit en dessous, et pas sur les images, aussi, hein, il faut reconnaître que c'est plus rapide). Une trentaine de personnes a participé : quelques amis, et une majorité d'internautes que je ne connais pas (vous pouvez vous signaler en commentaire de ce post afin que j'ajoute un petit lien sous votre pseudo dans la liste des traducteurs ;)).

Voici quelques données sur l'avancement du projet, au cas où vous voudriez vous lancer dans une aventure similaire. Tout d'abord, la chronologie de l'avancement du projet. J'ai indiqué par une bande rouge une période d'indisponibilité de l'interface de traduction (du 21 février au 13 mars) qui avait échappé à mon attention, le reste du site étant fonctionnel. La forme de la courbe en escaliers correspond à l'arrivée de participants motivés, qui se lassent au bout d'un moment, ou ont fini de traduire tout ce qui les intéressait (ou pensent que le site est cassé, à partir du 21 février :s).

Passons justement à la distribution des contributions. Pour la Wikipedia anglaise, Aaron Swartz nous apprenait en 2006 que 2% des contributeurs font presque 75% des modifications de l'encyclopédie. Pour la traduction d'xkcd, les pourcentages de participation des divers traducteurs se trouvent ici (quand plusieurs collaborateurs ont contribué à la traduction d'une planche, je leur attribue naturellement l'inverse du nombre de contributeurs et je divise finalement ces scores par le nombre total de planches en anglais pour obtenir les pourcentages). Notons que ces pourcentages ne prennent pas en compte la longueur des traductions réalisées (tout comme l'étude d'Aaron Swartz d'ailleurs), ce qui ne rend pas vraiment compte, par exemple, du travail de Kith sur la série à propos du Ministre de l'Internet. Toujours est-il que ces données font apparaître une loi classique : la loi de Pareto ! 20% des utilisateurs (les 6 plus gros collaborateurs) ont réalisé 80% des traductions. Ce soir, le nombre précis est même 79.62%, ce qui semblerait donc moins "élitiste" que la Wikipedia !

En fait, on voit même apparaître une distribution de Pareto (une loi de puissance qui vérifie la règle des 80-20), comme nous le montre la courbe log-log ci-contre.

On peut aussi avoir un aperçu des horaires et des jours de la semaine où les traducteurs montrent le plus d'activité (j'ai exclu les valeurs me concernant) : valeurs anormalement élevées le dimanche, à midi, et en pleine nuit, tout ça rappelle les habitudes de surf des étudiants.
Un petit aperçu de ces traductions, maintenant, avec le nuage arboré des mots apparaissant plus de 10 fois, ci-dessous. Je ne l'ai pas annoncé en grande pompe, j'attends une jolie interface web pour ça, mais ça y est (enfin), un outil pour créer des nuages arborés avec plein de paramètres personnalisés est disponible sur www.treecloud.fr (ou treecloud.org pour les anglophones). Attention, c'est un outil en ligne de commande, qui nécessite un détour par le manuel d'utilisation, en anglais. Mais ça en vaut la peine : le programme permet d'obtenir de jolis résultats, en particulier grâce à la coloration "chronologique" : les mots du nuage arboré ci-dessous apparaissent plutôt rouge s'ils se trouvaient dans les premières planches de xkcd, plutôt bleu s'ils sont beaucoup présents dans les planches récentes. On est en train, avec Jean, de tenter d'ajouter à ça des informations sur la dispersion des mots : plus de nouvelles quand ce sera prêt !
Et si ce nuage arboré vous intrigue, allez jeter un oeil à ces traductions de xkcd, ou abonnez-vous au flux RSS pour recevoir les dernières traductions dès qu'elles sont validées ! A propos, petit aparté sur le spam : les robots n'ont pas tardé à trouver le site et envoyer des traductions bien peu fiables, incitant plutôt à l'achat de petites pilules bleues, mais le flux reste faible (un spam par jour en moyenne) et la procédure de modération manuelle permet d'éviter de les laisser passer.

Pour finir, un grand merci à tous les participants à la traduction ! Internet est de plus en plus collaboratif, alors si vous avez un peu de temps, profitez-en pour vous lancer dans quelques aventures. C'est l'occasion de faire un peu de pub pour les JeuxDeMots, et Pti Clic, qui, dans le genre de Google Image Labeler ou VideoTagName, sont en train de construire petit à petit un magnifique réseau sémantique, à faire pâlir Wordnet. Les données récoltées sont en plus mises à disposition en format brut, ou consultables par des interfaces web, qui peuvent déjà être utilisées pour retrouver, par association d'idées, ces mots qu'on a sur le bout de la langue. Le premier jeu permet d'aider le système à apprendre des relations sémantiques entre mots (synonyme, contenu/contenant, lieu d'une action, etc), et le second (dont on devient vite accro, même en jouant au touchpad...) de renforcer ou préciser ces relations. Le meilleur moyen pour comprendre le principe est de tester en mode invité, et le meilleur moyen pour comprendre l'utilité des données produites est de les utiliser dans des applications diverses... ce qui ne manquera pas d'être fait bientôt sur ce blog !

Comme toujours, les données liées à ce billet sont disponibles : dans ce fichier tableur Open Office. Et le nuage arboré à ouvrir avec SplitsTree pour pouvoir zoomer, etc. Il a été construit par SplitsTree et TreeCloud avec une stoplist française, et les options distance=hyperlex minnb=11 window=100 unit=1 color=chronology.

Episodes précédent et suivant.

Rétroingéniérie de la tarte "bouquet de roses"

2009-02-14T00:57:00.003+01:00

Histoire d'embrouiller un peu plus l'algorithme de classification thématique de Wikio qui n'est toujours pas parvenu à affecter ces pages à la catégorie Science, un peu de gastronomie, aujourd'hui ! Cette fois-ci, ce ne sera pas pour affirmer que les crêpes, les gaufres, et les flan, c'est la même recette, mais pour appliquer le principe de la rétroingéniérie déjà illustré sur Google Trends à la fameuse Tarte aux pommes Bouquet de roses^© d'Alain Passard.

Comme de nombreux lecteurs, j'avais salivé l'été dernier devant les photos de cette création sur un article du Monde de Jean-Claude Ribaute (dont le texte intégral est archivé ici). Et j'ai tenté, moi aussi, "avec une lame fine, de réaliser l'exploit à la maison".

Après quelques essais malheureux, j'arrive enfin à un résultat assez satisfaisant visuellement, dont je vais vous dévoiler le secret. A en juger par les commentaires sur l'originale, qui insistent sur l'aspect à la fois croustillant et moelleux des pommes elles-mêmes, la recette que j'ai reconstituée est encore loin de la vraie. Mais pour m'aider à l'améliorer, j'ai besoin de plus d'informations que celles données par les photos : n'hésitez pas à me financer une petite dégustation (à l'Arpège, ou à emporter) afin que j'approfondisse cela.

Commençons par ce qui doit être évité pour un résultat acceptable :
- laisser la peau : les photos semblent montrer qu'elle y est encore, mais il me semble difficile de la garder en la rendant croustillante, même la recouvrir de sucre n'a pas aidé. De plus, ça complique la découpe des pommes pour la reconstitution des roses, même si la méthode de découpe détaillée plus bas permet de la conserver.
- récupérer des lamelles de la pomme en continuant à l'éplucher à l'économe une fois que la peau est enlevée : les lamelles récupérées sont trop fines et ne se tiennent pas.
- faire des roses trop petites ou trop espacées sur la tarte : si vous laissez refroidir la tarte, les roses ont tendance à sécher et se rabougrir un peu pour laisser apparaître la pâte dessous, comme on peut le voir sur l'image animée ci-contre.

Bref, l'idéal est de récupérer des lamelles d'environ 2mm d'épaisseur. L'idée est que l'on peut reconstituer les "roses" même avec des lamelles d'une longueur réduite... correspondant à la longueur d'un quartier (la hauteur de la pomme, quoi...). La petite animation ci-contre illustre comment obtenir ces lamelles (le coup de main vient assez vite), et les enrouler progressivement. Idéalement, il faut faire ça à deux : un qui découpe les lamelles, l'autre qui les enroule et dispose les roses obtenues.

Enfin, on peut saupoudrer le tout de cannelle ou de dragées écrasées au mortier, ou encore de sucre-glace, éventuellement après cuisson. Encore une fois, il est préférable de servir et manger chaud.

Si vous souhaitez vous lancer dans des variantes plus colorées et originales, et peut-être aussi plus faciles à réaliser, quelques idées ont fleuri sur le net, avec des tartes bouquet de roses aux patates, aux courgettes violettes, aux courgettes vertes.

Pour finir, un petit sondage à propos de l'amertume des endives, puisque ce sujet sensible divise : j'étais jusqu'à il y a quelques semaines persuadé que l'endive crue, qui n'a aucun goût, n'était pas du tout amère, contrairement à l'endive cuite. Quelques personnes tout à fait respectables défendent vigoureusement la thèse opposée, ce qui m'a d'ailleurs amené à nuancer ma position et admettre que la base de l'endive crue a bien un peu d'amertume. Internet aussi est partagé :

des partisans de l'amertume de l'endive crue : "cru franchement j'arrive pas, c trop amer!", "les endives cuites sont moins amères", "L'endive cuite ou braisée sera moins amère qu'une endive crue", "Je les trouve moins amères cuites", "Je n'en ai jamais goûté cuites... j'espère qu'elles sont ainsi moins amères que crues, ..." ;
des partisans de l'amertume de l'endive cuite : "Endive crues (moins amere que cuite)", "c’est seulement l'endive verte qui est plus amère cuite que crue.", "je les adore crues, mais cuites, beurk, j'y arrive vraiment pas.".

Les endives sont :creer un sondage

Les poires à gauche

2009-01-16T15:44:00.005+01:00

En lisant cette liste d'URL ambiguës en anglais, j'avais rêvé d'en trouver en français en compilant toutes les combinaisons possibles de mots coquins ou rigolos en français avec d'autres mots du dictionnaire, et en vérifiant s'il était possible de segmenter autrement chaque suite de lettres ainsi obtenues.

Eh bien le PS a fait presque aussi bien avec lespoiragauche.fr, comme ça a été également noté en commentaires ici et là. Maladresse ou stratégie marketing pour créer un buzz et faire retenir l'adresse ?

Si c'est la deuxième solution, je vais m'empresser de créer un site de photos de nos parlementaires sur www.photosdeputes.fr.

Mise à jour d'avril 2010 : des étudiants en L3 de l'Université Montpellier 2 sont sur le coup pour le logiciel de création d'URL ambiguës, plus de détails sur ici !

Xkcd en français

2008-12-13T12:17:00.009+01:00

xkcd est une mine d'illustrations pour les enseignants en informatique, et j'ai décidé cette année d'illustrer chaque séance des TP de système/réseau que j'assure en L2 avec un dessin traduit pour l'occasion.

Les difficultés sont multiples : choisir le dessin tout d'abord. Car parmi les quelques centaines de l'auteur, Randall Munroe, il faut en trouver qui ont un rapport plus ou moins direct avec la séance du jour, et je remercie Arnaud de m'avoir fait profiter de sa mémoire et de sa connaissance pointue de xkcd pour m'éviter d'être bloqué sur la fin.

Autre problème, la traduction. Ces courtes vignettes faisant appel à un vocabulaire spécialisé sont assez difficiles à traduire en restant aussi concis. Quand il faut en plus gérer des problèmes de culture geek dont l'équivalent français n'existe pas, ça devient mission impossible. Quant au texte alternatif, c'est souvent difficile même d'y comprendre la blague.

Encore un obstacle, la réalisation. Retrouver une police de caractères qui ressemble à l'écriture - en majuscules - de Randall Munroe n'est pas évident. On trouve quelques essais ici ou là. La police International Playboy, qui contient même la plupart des majuscules accentuées, donne un résultat convenable.

Enfin, dernier problème : la publication et les droits d'auteurs. Eh bien ce n'en est pas un, puisque xkcd est publié sous licence Creative Commons autorisant justement les modifications !

Alors, qu'attendent tous les geeks de France pour lancer une vraie interface collaborative de traduction d'xkcd ?

Il y a eu quelques essais, mais la plupart n'ont pas survécu à quelques dizaines de dessins. Le total, recensé ci-dessous, permet tout de même d'arriver à 11% de la BD. Mais attention, la qualité de traduction n'est pas toujours au rendez-vous :
21 45 77 86 86' 123 129 132 148 156 163 169 171 185 191 195 198 202 208 208' 218 221 224 227 231 232 233 242 244 247 275 275' 287 290 302 302' 303 307 323 327 327' 329 341 342 343 344 345 349 350 353 374 377 378 378' 385 385' 386 397 399 400 405 411 411' 414 425 425' 426 427 428 429 432 433 434 435 436 441 444 445 447 448 451 453 456 456' 469 479 488 488' 530

Si l'on veut lancer une traduction massive, l'idée serait de permettre une collaboration. Difficile si l'on travaille directement sur les images. J'ai donc préparé une interface de traduction d'xkcd en français qui fonctionne seulement en ajoutant le texte sous l'image. Ceux qui le voudront pourront ensuite créer les images, en y insérant ces textes. Pour arriver à une bonne qualité, je propose le système suivant :

n'importe qui peut envoyer une traduction
des modérateurs (moi pour l'instant, mais si je peux vous faire confiance, j'accepterai certainement de vous ajouter à la liste) se chargent de la valider pour qu'elle apparaisse sur le site, et de choisir la meilleure (et donc bye bye les robots spammeurs !).

Le système est réalisé en PHP/MySql, sur une structure très proche de celle utilisée pour le guide de Pessoa sur Lisbonne. L'adaptation à d'autres langues sera donc très facile (contactez-moi si vous êtes intéressé par les sources). Et bien sûr, je compte sur vous pour proposer des traductions ! Il suffit de cliquer sur l'image voulue, puis compléter le formulaire, en utilisant éventuellement le lien vers l'image originale pour l'avoir sous les yeux pendant la traduction. Et surtout n'oubliez pas l'infobulle, qui apparaît quand on laisse traîner la souris sur l'image !

Alors bien sûr, vous allez me dire que la traduction des xkcd est un peu inutile, vu que la connaissance de l'anglais fait partie de la culture geek. Ce n'est pas complètement faux. Un sondage a été organisé cette année pour évaluer la familiarité avec l'outil informatique de tous les entrants en licence de la Faculté des Sciences de l'Université Montpellier 2, dans le cadre d'une UE préparant à l'examen du C2I (Certificat Informatique et Internet). Un millier d'étudiants a répondu, et voici les résultats des deux questions suivantes :

Si, sur internet, vous arrivez sur une page écrite en anglais :

vous n'y comprenez rien
vous y déchiffrez quelques mots
vous pourriez la comprendre en cherchant le sens de quelques expressions
vous la lisez en comprenant la plupart des phrases

À propos du contenu de cette unité FLIN102, vous pensez :

que vous aurez du mal, qu'il y aura beaucoup (trop ?) de choses à découvrir,
que ça ira en suivant les TP, et en les travaillant en plus chez vous,
que suivre les TP vous suffira pour apprendre des choses et les retenir,
que vous connaissez déjà une bonne partie des choses enseignées en TP, mais que vous en découvrez quelques unes,
que suivre les TP est pour vous complètement inutile, vous savez déjà tout ou presque.

Comme vous pouvez le constater, la maîtrise de l'anglais augmente en même temps que la maîtrise de l'outil informatique. Alors peut-être que les fous d'ordinateurs continueront à se précipiter sur la version originale de la BD, et que la traduction leur servira seulement en cas de problème. Peut-être qu'ils profiteront de leur maîtrise de la langue pour faire profiter d'xkcd aux allergiques à l'informatique pour lesquels quelques planches sont tout à fait accessibles.

Episodes suivants : traduction d'xkcd et loi de Pareto (31 mars 2009), sous-titrage xkcd : 100% ! (20 avril 2010)