<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" media="screen" href="/~d/styles/atom10full.xsl"?><?xml-stylesheet type="text/css" media="screen" href="http://feeds.feedburner.com/~d/styles/itemcontent.css"?><feed xmlns="http://www.w3.org/2005/Atom" xmlns:openSearch="http://a9.com/-/spec/opensearch/1.1/" xmlns:georss="http://www.georss.org/georss" xmlns:gd="http://schemas.google.com/g/2005" xmlns:feedburner="http://rssnamespace.org/feedburner/ext/1.0" gd:etag="W/&quot;DUYMSXo5cCp7ImA9WxJWEUU.&quot;"><id>tag:blogger.com,1999:blog-28510665</id><updated>2009-06-16T23:19:48.428+02:00</updated><title>Je véronise...</title><subtitle type="html">Petits travaux ludico-informatiques</subtitle><link rel="http://schemas.google.com/g/2005#feed" type="application/atom+xml" href="http://gambette.blogspot.com/feeds/posts/default" /><link rel="alternate" type="text/html" href="http://gambette.blogspot.com/" /><link rel="next" type="application/atom+xml" href="http://www.blogger.com/feeds/28510665/posts/default?start-index=26&amp;max-results=25&amp;redirect=false&amp;v=2" /><author><name>Philippe</name><uri>http://www.blogger.com/profile/17811557333070553722</uri><email>noreply@blogger.com</email></author><generator version="7.00" uri="http://www.blogger.com">Blogger</generator><openSearch:totalResults>69</openSearch:totalResults><openSearch:startIndex>1</openSearch:startIndex><openSearch:itemsPerPage>25</openSearch:itemsPerPage><link rel="self" href="http://feeds.feedburner.com/JeVeronise" type="application/atom+xml" /><atom10:link xmlns:atom10="http://www.w3.org/2005/Atom" rel="hub" href="http://pubsubhubbub.appspot.com" /><entry gd:etag="W/&quot;D0ABSXozfyp7ImA9WxJREEk.&quot;"><id>tag:blogger.com,1999:blog-28510665.post-3742502955432152847</id><published>2009-05-11T00:05:00.010+02:00</published><updated>2009-05-11T14:42:38.487+02:00</updated><app:edited xmlns:app="http://www.w3.org/2007/app">2009-05-11T14:42:38.487+02:00</app:edited><category scheme="http://www.blogger.com/atom/ns#" term="visualisation" /><category scheme="http://www.blogger.com/atom/ns#" term="nuage de mots" /><category scheme="http://www.blogger.com/atom/ns#" term="TagCloud Builder" /><category scheme="http://www.blogger.com/atom/ns#" term="logiciel" /><category scheme="http://www.blogger.com/atom/ns#" term="politique" /><title>Multinuage des programmes aux élections européennes</title><content type="html">Le logiciel &lt;a href="http://freecorp.free.fr/FRA/programmesdivers.htm#TagCloudBuilder"&gt;TagCloud Builder&lt;/a&gt; de construction de &lt;span class="Apple-style-span" style="font-weight: bold;"&gt;nuages de mots&lt;/span&gt;, présenté &lt;a href="http://gambette.blogspot.com/2006/10/nuages-de-mots-artisanaux.html"&gt;ici&lt;/a&gt; il y a déjà quelque temps, a bénéficié d'une mise à jour la semaine dernière : il permet désormais de représenter les mots de plusieurs textes au sein d'&lt;span class="Apple-style-span" style="font-weight: bold;"&gt;un seul nuage&lt;/span&gt;, en attribuant &lt;span class="Apple-style-span" style="font-weight: bold;"&gt;une couleur à chaque texte&lt;/span&gt;.&lt;br /&gt;&lt;br /&gt;Cette idée m'a été proposée par Kirsten Talbot, qui termine son master en sciences sociales en Afrique du Sud, et voulait représenter ainsi ses données sur les stéréotypes communautaires dans l'Afrique du Sud post-apartheid. En attendant de pouvoir découvrir ses visualisations et ses résultats, voici un exemple d'utilisation de cette visualisation en &lt;span class="Apple-style-span" style="font-weight: bold;"&gt;&lt;span class="Apple-style-span" style="font-style: italic;"&gt;multinuage de mots&lt;/span&gt;&lt;/span&gt;, sur les programmes &lt;span class="Apple-style-span"  style="font-size:x-small;"&gt;(ou ce qui y ressemble le plus...)&lt;/span&gt; des quatre partis français en tête dans les sondages pour les européennes &lt;a href="http://www.ipsos.fr/CanalIpsos/articles/2825.asp"&gt;selon Ipsos&lt;/a&gt; :&lt;div&gt;&lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://philippe.gambette.free.fr/Blog/200905Europeennes/ProgrammesEuropeennes.html"&gt;&lt;img style="display:block; margin:0px auto 10px; text-align:center;cursor:pointer; cursor:hand;" src="http://philippe.gambette.free.fr/Blog/200905Europeennes/NuagesMotsEuropeennes.png" border="0" alt="" /&gt;&lt;/a&gt;Je trouve que le résultat obtenu est bien meilleur que la simple juxtaposition de nuages créés pour chaque texte, comme celle que j'avais tentée pour &lt;a href="http://gambette.blogspot.com/2006/11/nuages-du-projet-socialiste-et-du.html"&gt;les programmes PS et UMP des présidentielles&lt;/a&gt; il y a deux ans. Mentalement, on peut soit &lt;span class="Apple-style-span" style="font-weight: bold;"&gt;se focaliser sur une couleur&lt;/span&gt;, et bien voir les mots qui apparaissent pour celle-ci, soit &lt;span class="Apple-style-span" style="font-weight: bold;"&gt;lire le nuage "linéairement"&lt;/span&gt;, et comparer pour chaque mot à quelle taille il apparaît dans chaque couleur (cette deuxième lecture permet donc le contraste des deux nuages, sans se préoccuper de trouver une bonne formule de contraste). Il manque la possibilité de cliquer sur un mot pour voir ses occurrences dans un concordancier - comme Jean l'avait fait &lt;a href="http://sites.univ-provence.fr/cgi-veronis/concord-tce?forme=europe"&gt;ici&lt;/a&gt; pour la constitution européenne par exemple - ça ne devrait pas tarder.&lt;div&gt;&lt;br /&gt;&lt;/div&gt;&lt;div&gt;Et le style n'est pas aussi chouette que les &lt;a href="http://www.wordle.net/"&gt;nuages Wordle&lt;/a&gt;. Si quelqu'un connaît (ou programme) une implémentation libre de cette méthode de visualisation (l'algorithme de placement est pour l'instant &lt;a href="http://www.wordle.net/credits"&gt;© IBM&lt;/a&gt;), je suis très intéressé !&lt;/div&gt;&lt;div&gt;&lt;br /&gt;&lt;/div&gt;&lt;div&gt;En ce qui concerne les améliorations arborées des nuages de mots, voici une &lt;a href="http://www.slideshare.net/PhilippeGambette/visualiser-un-texte-par-un-nuage-arbor"&gt;présentation en français du principe et des détails techniques&lt;/a&gt;, donnée la semaine dernière au séminaire doctorants de mon labo. Ca vous donnera peut-être envie de tester &lt;a href="http://www.treecloud.fr/"&gt;TreeCloud&lt;/a&gt; qui est maintenant disponible &lt;a href="http://www.lirmm.fr/~gambette/ProgramTreecloudPython/Treecloud.zip"&gt;avec une interface graphique facilitant son utilisation&lt;/a&gt; et un &lt;a href="http://www.lirmm.fr/~gambette/ProgramTreecloudPython/ManualTreecloud.pdf"&gt;manuel d'utilisateur&lt;/a&gt;.&lt;/div&gt;&lt;div&gt;&lt;br /&gt;&lt;/div&gt;&lt;div&gt;&lt;span class="Apple-style-span"  style="font-size:small;"&gt;&lt;span class="Apple-style-span" style="font-style: italic;"&gt;Données utilisées : détaillées &lt;/span&gt;&lt;/span&gt;&lt;a href="http://philippe.gambette.free.fr/Blog/200905Europeennes/http://philippe.gambette.free.fr/Blog/200905Europeennes/ProgrammesEuropeennes.html"&gt;&lt;span class="Apple-style-span"  style="font-size:small;"&gt;&lt;span class="Apple-style-span" style="font-style: italic;"&gt;ici&lt;/span&gt;&lt;/span&gt;&lt;/a&gt;&lt;span class="Apple-style-span"  style="font-size:small;"&gt;&lt;span class="Apple-style-span" style="font-style: italic;"&gt;.&lt;/span&gt;&lt;/span&gt;&lt;/div&gt;&lt;div&gt;&lt;span class="Apple-style-span" style="font-style: italic;"&gt;Edit : merci à Vincent pour la correction du lapsus sur l'année !&lt;/span&gt;&lt;/div&gt;&lt;div&gt;&lt;span class="Apple-style-span" style="font-style: italic;"&gt;D'autre part je n'ai pas commenté le nuage, qui me semble pourtant intéressant sur le fond : voici quelques mots (ou absences de mots) qui peuvent surprendre (ou au moins mériter d'aller examiner les contextes) : &lt;span class="Apple-style-span" style="color: rgb(255, 153, 255);"&gt;croissance&lt;/span&gt;, &lt;span class="Apple-style-span" style="color: rgb(51, 204, 0);"&gt;femme&lt;/span&gt;, &lt;span class="Apple-style-span" style="color: rgb(255, 204, 102);"&gt;identité&lt;/span&gt;, &lt;span class="Apple-style-span" style="color: rgb(51, 102, 255);"&gt;développement, énergie, nouvelle&lt;/span&gt;, et d'autres tendances plus attendues : &lt;span class="Apple-style-span" style="color: rgb(255, 153, 255);"&gt;droite, dumping, social&lt;/span&gt;, &lt;span class="Apple-style-span" style="color: rgb(51, 204, 0);"&gt;automobile, biologique, mobilité&lt;/span&gt;, &lt;span class="Apple-style-span" style="color: rgb(255, 204, 102);"&gt;citoyen, coopération&lt;/span&gt;, &lt;span class="Apple-style-span" style="color: rgb(51, 102, 255);"&gt;ambition, décidé, histoire, sociale, protection, turquie&lt;/span&gt;, &lt;span class="Apple-style-span" style="color: rgb(255, 153, 255);"&gt;libéralisme&lt;/span&gt;-&lt;span class="Apple-style-span" style="color: rgb(51, 102, 255);"&gt;capitalisme&lt;/span&gt;.&lt;/span&gt;&lt;/div&gt;&lt;/div&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/28510665-3742502955432152847?l=gambette.blogspot.com'/&gt;&lt;/div&gt;&lt;img src="http://feeds.feedburner.com/~r/JeVeronise/~4/95FRkp5Hysk" height="1" width="1"/&gt;</content><link rel="replies" type="application/atom+xml" href="http://gambette.blogspot.com/feeds/3742502955432152847/comments/default" title="Publier les commentaires" /><link rel="replies" type="text/html" href="https://www.blogger.com/comment.g?blogID=28510665&amp;postID=3742502955432152847" title="6 commentaires" /><link rel="edit" type="application/atom+xml" href="http://www.blogger.com/feeds/28510665/posts/default/3742502955432152847?v=2" /><link rel="self" type="application/atom+xml" href="http://www.blogger.com/feeds/28510665/posts/default/3742502955432152847?v=2" /><link rel="alternate" type="text/html" href="http://feedproxy.google.com/~r/JeVeronise/~3/95FRkp5Hysk/multinuage-de-mots-des-programmes-aux.html" title="Multinuage des programmes aux élections européennes" /><author><name>Philippe</name><uri>http://www.blogger.com/profile/17811557333070553722</uri><email>noreply@blogger.com</email><gd:extendedProperty name="OpenSocialUserId" value="01287611096413583131" /></author><thr:total xmlns:thr="http://purl.org/syndication/thread/1.0">6</thr:total><feedburner:origLink>http://gambette.blogspot.com/2009/05/multinuage-de-mots-des-programmes-aux.html</feedburner:origLink></entry><entry gd:etag="W/&quot;CUcNSH8-fip7ImA9WxVaGUs.&quot;"><id>tag:blogger.com,1999:blog-28510665.post-6716672560592263523</id><published>2009-04-17T10:03:00.008+02:00</published><updated>2009-04-17T12:11:39.156+02:00</updated><app:edited xmlns:app="http://www.w3.org/2007/app">2009-04-17T12:11:39.156+02:00</app:edited><category scheme="http://www.blogger.com/atom/ns#" term="buzz" /><category scheme="http://www.blogger.com/atom/ns#" term="presse" /><category scheme="http://www.blogger.com/atom/ns#" term="statistiques" /><category scheme="http://www.blogger.com/atom/ns#" term="société" /><category scheme="http://www.blogger.com/atom/ns#" term="tableur" /><category scheme="http://www.blogger.com/atom/ns#" term="Le Figaro" /><category scheme="http://www.blogger.com/atom/ns#" term="corrélation" /><category scheme="http://www.blogger.com/atom/ns#" term="politique" /><title>Cartographie au Figaro</title><content type="html">Hier soir, le Figaro a "révélé" le "&lt;a href="http://www.lefigaro.fr/actualite-france/2009/04/16/01016-20090416ARTFIG00594-tous-les-chiffres-de-la-delinquance-2008-.php" target="" style="text-decoration: underline; color: rgb(49, 101, 176); font-weight: bold; "&gt;le palmarès 2008 des violences&lt;/a&gt;, sur la base des données officielles de l'Observatoire national de la délinquance (OND)", et choisit de l'illustrer avec la &lt;span class="Apple-style-span" style="font-weight: bold;"&gt;carte des &lt;/span&gt;&lt;span class="Apple-style-span" style="font-style: italic;"&gt;&lt;span class="Apple-style-span" style="font-weight: bold;"&gt;atteintes volontaires à l'intégrité physique&lt;/span&gt;&lt;/span&gt; en titrant "&lt;span class="Apple-style-span" style="font-style: italic;"&gt;&lt;a href="http://www.lefigaro.fr/actualite-france/2009/04/16/01016-20090416ARTFIG00601-la-nouvelle-carte-de-france-de-l-insecurite-.php"&gt;La nouvelle carte de France de l'insécurité&lt;/a&gt;"&lt;/span&gt;. Buzz assuré, une centaine de commentaires en quelques heures...&lt;div&gt;&lt;br /&gt;&lt;/div&gt;&lt;div&gt;Mais que nous apprend la carte ? Comparons-la avec celle des &lt;a href="http://fr.wikipedia.org/wiki/D%C3%A9partements_fran%C3%A7ais_class%C3%A9s_par_densit%C3%A9_de_population"&gt;densités par département&lt;/a&gt; :&lt;br /&gt;&lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://www.lefigaro.fr/actualite-france/2009/04/16/01016-20090416ARTFIG00601-la-nouvelle-carte-de-france-de-l-insecurite-.php"&gt;&lt;img style="display:block; margin:0px auto 10px; text-align:center;cursor:pointer; cursor:hand;width: 533px; height: 350px;" src="http://philippe.gambette.free.fr/Blog/200904Violences/CarteViolencesDensite.png" border="0" alt="" /&gt;&lt;/a&gt;&lt;/div&gt;&lt;div&gt;&lt;br /&gt;Elles se ressemblent, hein ? On peut le vérifier précisément en faisant un graphique du taux d'atteintes volontaires à l'intégrité physique en fonction du log de la densité :&lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://philippe.gambette.free.fr/Blog/200904Violences/IntegritePhysique.ods"&gt;&lt;img style="display:block; margin:0px auto 10px; text-align:center;cursor:pointer; cursor:hand;width: 450px; height: 428px;" src="http://philippe.gambette.free.fr/Blog/200904Violences/CorrelationViolencesDensite.png" border="0" alt="" /&gt;&lt;/a&gt;La corrélation est assez claire, on a un coefficient de 0.67 (et 0.81 en omettant la Guyane). Bref, la carte n'est pas très utile, et servirait au mieux à illustrer le principe bien connu par les chimistes que &lt;span class="Apple-style-span" style="font-weight: bold;"&gt;des concentrations élevées favorisent les chocs&lt;/span&gt;... L'auteur de l'article aurait pu au moins mentionner cette remarque basique et concentrer son analyse sur les exceptions à cette règle, ou bien choisir une autre carte un peu plus riche en informations, par exemple celle des atteintes aux biens, accessible par un clic sur la carte interactive des atteintes à l'intégrité physique.&lt;/div&gt;&lt;div&gt;&lt;br /&gt;&lt;/div&gt;&lt;div&gt;&lt;span class="Apple-style-span" style="font-style: italic; "&gt;&lt;span class="Apple-style-span" style="font-size: small;"&gt;Données liées à ce billet : &lt;/span&gt;&lt;a href="http://philippe.gambette.free.fr/Blog/200904Violences/IntegritePhysique.ods"&gt;&lt;span class="Apple-style-span" style="font-size: small;"&gt;fichier tableur OpenOffice&lt;/span&gt;&lt;/a&gt;&lt;span class="Apple-style-span" style="font-size: small;"&gt;.&lt;/span&gt;&lt;/span&gt;&lt;br /&gt;&lt;/div&gt;&lt;div&gt;&lt;span class="Apple-style-span" style="font-style: italic;"&gt;&lt;br /&gt;&lt;/span&gt;&lt;/div&gt;&lt;div&gt;&lt;span class="Apple-style-span" style="font-style: italic;"&gt;Edit de midi : tiens, je lis &lt;/span&gt;&lt;a href="http://twitter.com/AudeBaron"&gt;&lt;span class="Apple-style-span" style="font-style: italic;"&gt;sur Twitter&lt;/span&gt;&lt;/a&gt;&lt;span class="Apple-style-span" style="font-style: italic;"&gt; qu'en plus ils ont confondu Martinique et Guadeloupe sur la carte.&lt;/span&gt;&lt;/div&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/28510665-6716672560592263523?l=gambette.blogspot.com'/&gt;&lt;/div&gt;&lt;img src="http://feeds.feedburner.com/~r/JeVeronise/~4/A-a-XIUX_iE" height="1" width="1"/&gt;</content><link rel="replies" type="application/atom+xml" href="http://gambette.blogspot.com/feeds/6716672560592263523/comments/default" title="Publier les commentaires" /><link rel="replies" type="text/html" href="https://www.blogger.com/comment.g?blogID=28510665&amp;postID=6716672560592263523" title="3 commentaires" /><link rel="edit" type="application/atom+xml" href="http://www.blogger.com/feeds/28510665/posts/default/6716672560592263523?v=2" /><link rel="self" type="application/atom+xml" href="http://www.blogger.com/feeds/28510665/posts/default/6716672560592263523?v=2" /><link rel="alternate" type="text/html" href="http://feedproxy.google.com/~r/JeVeronise/~3/A-a-XIUX_iE/cartographie-au-figaro.html" title="Cartographie au Figaro" /><author><name>Philippe</name><uri>http://www.blogger.com/profile/17811557333070553722</uri><email>noreply@blogger.com</email><gd:extendedProperty name="OpenSocialUserId" value="01287611096413583131" /></author><thr:total xmlns:thr="http://purl.org/syndication/thread/1.0">3</thr:total><feedburner:origLink>http://gambette.blogspot.com/2009/04/cartographie-au-figaro.html</feedburner:origLink></entry><entry gd:etag="W/&quot;Ak8HQ3Y8fSp7ImA9WxJQFEU.&quot;"><id>tag:blogger.com,1999:blog-28510665.post-86372971869380745</id><published>2009-04-07T20:16:00.001+02:00</published><updated>2009-05-28T07:33:52.875+02:00</updated><app:edited xmlns:app="http://www.w3.org/2007/app">2009-05-28T07:33:52.875+02:00</app:edited><category scheme="http://www.blogger.com/atom/ns#" term="presse" /><category scheme="http://www.blogger.com/atom/ns#" term="FuryPopularity" /><category scheme="http://www.blogger.com/atom/ns#" term="sondages" /><category scheme="http://www.blogger.com/atom/ns#" term="Google" /><category scheme="http://www.blogger.com/atom/ns#" term="politique" /><category scheme="http://www.blogger.com/atom/ns#" term="moteurs de recherche" /><title>Candidats en 2012 : courbes Google et revue de presse</title><content type="html">&lt;div&gt;Depuis &lt;a href="http://gambette.blogspot.com/2008/07/les-prsidentiables-en-2012-selon-google.html"&gt;juillet dernier&lt;/a&gt;, je suis régulièrement la &lt;span class="Apple-style-span" style="font-weight: bold;"&gt;progression de plusieurs candidats potentiels aux présidentielles de 2012 d'après Google&lt;/span&gt; (ma liste initiale s'est complétée avec les "candidats possibles" listés sur le site d'Alain Mourguy). Les "nombres Google" sont peu généralement peu fiables, mais un suivi régulier permet malgré tout d'identifier quelques tendances. Voici les courbes récupérées pour quelques figures majeures à gauche et à droite, où l'on peut remarquer le pic récent de &lt;span class="Apple-style-span" style="font-weight: bold;"&gt;Villepin qui refait parler de lui&lt;/span&gt; :&lt;/div&gt;&lt;div&gt;&lt;span class="Apple-style-span"  style="font-size:x-small;"&gt;&lt;br /&gt;&lt;/span&gt;&lt;/div&gt;&lt;div&gt;&lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://spreadsheets.google.com/pub?key=psV7RHudMtPYC53UIn5EZcw&amp;amp;gid=4"&gt;&lt;img style="display:block; margin:0px auto 10px; text-align:center;cursor:pointer; cursor:hand;" src="http://philippe.gambette.free.fr/Blog/200807Presidentiables/Presidentiables_2012-Courbe2008.png" border="0" alt="" /&gt;&lt;/a&gt;Certains pics semblent correspondre à du bruit &lt;span class="Apple-style-span"  style="font-size:x-small;"&gt;(ou des secousses annonciatrices ?)&lt;/span&gt;, mais &lt;span class="Apple-style-span" style="font-weight: bold;"&gt;la plupart des variations significatives des courbes peuvent être mises en relation avec l'actualité de ces diverses personnalités politiques et leurs interventions médiatiques&lt;/span&gt;, ou des articles sur leur possible candidature en 2012 &lt;span class="Apple-style-span"  style="font-size:x-small;"&gt;(certaines ne sont pas dans les graphiques ci-dessus mais apparaissent dans &lt;/span&gt;&lt;a href="http://spreadsheets.google.com/pub?key=psV7RHudMtPYC53UIn5EZcw"&gt;&lt;span class="Apple-style-span"  style="font-size:x-small;"&gt;mes données&lt;/span&gt;&lt;/a&gt;&lt;span class="Apple-style-span"  style="font-size:x-small;"&gt;)&lt;/span&gt; :&lt;br /&gt;&lt;ul&gt;&lt;li&gt;mars 2008 : Christine Boutin, question&lt;br /&gt;&lt;i&gt;&lt;a href="http://www.dailymotion.com/lemondefr/christine/video/x55l9y_boutin-candidate-en-2012_creation?from=rss"&gt;Boutin candidate en 2012 ?&lt;/a&gt;&lt;/i&gt;&lt;/li&gt;&lt;li&gt;27 avril 2008 : Laurent Fabius, possibilité&lt;br /&gt;&lt;i&gt;&lt;a href="http://tempsreel.nouvelobs.com/actualites/politique/20080427.OBS1618/fabius_nexclut_pas_detre_candidat_pour_2012.html"&gt;Fabius n'exclut pas d'être candidat pour 2012&lt;/a&gt;&lt;/i&gt;.&lt;/li&gt;&lt;li&gt;22 juin 2008 : Alain Juppé, possibilité&lt;br /&gt;&lt;i&gt;&lt;a href="http://tempsreel.nouvelobs.com/actualites/politique/20080418.OBS0292/presidentielle_2012__alain_juppe_nest_ferme_a_rien.html?idfx=RSS_notr"&gt;Présidentielle 2012 : Alain Juppé n'est "fermé à rien"&lt;/a&gt;&lt;/i&gt;.&lt;/li&gt;&lt;li&gt;12 octobre 2008 : Dominique de Villepin, possibilité&lt;br /&gt;&lt;i&gt;&lt;a href="http://www.ghazli.com/article-23672330.html"&gt;Sarkozy fait pression sur le parquet pour écarter De Villepin en 2012&lt;/a&gt;&lt;/i&gt;.&lt;/li&gt;&lt;li&gt;25 novembre 2008 : Martine Aubry, contexte&lt;br /&gt;&lt;i&gt;&lt;a href="http://actus.parti-socialiste.fr/2008/11/25/%C2%AB-le-parti-socialiste-est-de-retour-%C2%BB/"&gt;« Être sur tous les terrains pour défendre les Français »&lt;/a&gt;&lt;/i&gt;.&lt;/li&gt;&lt;li&gt;28 novembre 2008 : Jean-François Copé, possibilité&lt;br /&gt;&lt;i&gt;&lt;a href="http://www.dailymotion.com/playlist/xffla_franceinter_les-invits/video/x7jnx0_jf-cop-candidat-en-2012_news"&gt;J.F. Copé : candidat en 2012 ?&lt;/a&gt;&lt;/i&gt;&lt;/li&gt;&lt;li&gt;22 décembre 2008 : Martine Aubry, possibilité&lt;br /&gt;&lt;i&gt;&lt;a href="http://www.intox2007.info/index.php?post/2008/12/22/Martine-Aubry-candidate-en-2012"&gt;Martine Aubry candidate en 2012 ?&lt;/a&gt;&lt;/i&gt;.&lt;/li&gt;&lt;li&gt;14 janvier 2009 : Dominique Strauss-Kahn, question&lt;br /&gt;&lt;i&gt;&lt;a href="http://www.lexpress.fr/actualites/1/2012-un-jour-on-revient-en-france-dit-strauss-kahn_731651.html"&gt;2012: "un jour, on revient en France", dit Strauss-Kahn&lt;/a&gt;&lt;/i&gt;.&lt;/li&gt;&lt;li&gt;26 janvier 2009 : Jacques Chirac, canular&lt;br /&gt;&lt;i&gt;&lt;a href="http://www.lknews.fr/2009/01/jacques-chirac-pourrait-se-presenter-en-2012/"&gt;Jacques Chirac pourrait se présenter en 2012&lt;/a&gt;&lt;/i&gt; (voir aussi sur Le &lt;a href="http://www.lepost.fr/article/2009/01/30/1406351_mais-qui-se-cache-derriere-chirac-2012.html"&gt;Post&lt;/a&gt;, &lt;a href="http://www.lesinrocks.com/actualite/actu-article/article/chirac-de-retour-en-2012/"&gt;Les Inrocks&lt;/a&gt;).&lt;/li&gt;&lt;li&gt;7 février 2009, Olivier Besancenot, contexte&lt;br /&gt;&lt;i&gt;&lt;a href="http://www.npa2009.org/content/naissance-officielle-du-nouveau-parti-anticapitaliste-de-besancenot"&gt;Naissance officielle du Nouveau parti anticapitaliste de Besancenot&lt;/a&gt;&lt;/i&gt;.&lt;/li&gt;&lt;li&gt;12 février 2009, François Hollande, possibilité&lt;br /&gt;&lt;i&gt;&lt;a href="http://www.lefigaro.fr/actualites/2009/02/12/01001-20090212ARTFIG00707-confidentiel-francois-hollande-candidat-en-2012-.php"&gt;Confidentiel : François Hollande, candidat en 2012&lt;/a&gt;&lt;/i&gt;.&lt;/li&gt;&lt;li&gt;14 février 2009 : Martine Aubry, possibilité&lt;br /&gt;&lt;i&gt;&lt;a href="http://fr.news.yahoo.com/2/20090214/tpl-face-au-dilemne-sarkozy-ou-aubry-en-ee974b3.html"&gt;Face au "dilemne" Sarkozy ou Aubry en 2012, Le Pen pencherait pour Aubry&lt;/a&gt;&lt;/i&gt;.&lt;/li&gt;&lt;li&gt;25 mars 2009, Dominique Strauss-Kahn, contexte&lt;br /&gt;&lt;i&gt;&lt;a href="http://www.leparisien.fr/politique/dsk-un-petit-tour-a-paris-25-03-2009-453776.php"&gt;DSK, un petit tour à Paris&lt;/a&gt;&lt;/i&gt; (aussi sur &lt;a href="http://www.lepost.fr/article/2009/03/26/1471866_strauss-kahn-recours-du-ps-en-2012-le-web-y-pense-deja.html"&gt;Le Post&lt;/a&gt;).&lt;/li&gt;&lt;li&gt;2 avril 2009, Dominique de Villepin, possibilité&lt;br /&gt;&lt;i&gt;&lt;a href="http://www.lepost.fr/article/2009/04/02/1480650_dominique-de-villepin-candidat-en-2012.html"&gt;Dominique de Villepin candidat en 2012?&lt;/a&gt;&lt;/i&gt;&lt;/li&gt;&lt;li&gt;11 avril 2009, Alain Juppé, contexte&lt;br /&gt;&lt;i&gt;&lt;a href="http://www.leparisien.fr/politique/juppe-veut-un-ministere-11-04-2009-475279.php"&gt;Juppé veut un ministère&lt;/a&gt;&lt;/i&gt; (conclusions sur &lt;a href="http://www.lepost.fr/article/2009/04/14/1495206_reviens-juppepe-reviens.html"&gt;Le Post&lt;/a&gt; et &lt;a href="http://sauce.over-blog.org/article-30695776.html"&gt;ici&lt;/a&gt;)&lt;/li&gt;&lt;/ul&gt;&lt;!-- &lt;li&gt;19 février 2009 : Vincent Peillon, possibilité&lt;br /&gt;&lt;a href="http://www.lexpress.fr/actualite/politique/ps-les-ambitions-de-m-peillon_742131.html"&gt;Les ambitions de M. Peillon&lt;/a&gt;.&lt;/li&gt;&lt;br /&gt;&lt;li&gt;10 septembre 2007 : Michel Rocard, question&lt;br /&gt;&lt;a href="http://www.lejdd.fr/cmc/politique/200737/rocard--le-ps-n-est-pas-un-regiment_53725.html"&gt;Rocard : "Le PS n'est pas un régiment"&lt;/a&gt;&lt;/li&gt;--&gt;Cette mini-revue de presse s'ajoute à celle, plus fournie, du site &lt;a href="http://www.presidentielle2012.net/"&gt;presidentielle2012.net&lt;/a&gt;. En fait, elle la complète, &lt;span class="Apple-style-span" style="font-weight: bold;"&gt;en y ajoutant des éléments, notamment des vidéos ou des articles publiés seulement sur internet&lt;/span&gt; (vidéos Dailymotion, articles de blogs ou du Post...). De plus, elle précise le type de lien avec une possible candidature en 2012 : &lt;span class="Apple-style-span" style="font-style: italic;"&gt;question&lt;/span&gt; quand l'intéressé n'y répond pas clairement, &lt;span class="Apple-style-span" style="font-style: italic;"&gt;possibilité&lt;/span&gt; s'il se déclare intéressé, &lt;span class="Apple-style-span" style="font-style: italic;"&gt;contexte&lt;/span&gt; s'il est seulement pressenti par les observateurs, ou &lt;span class="Apple-style-span" style="font-style: italic;"&gt;canular&lt;/span&gt; si c'est dans un cadre humoristique. Et surtout, elle ne représente que les informations qui ont eu un effet sur le web assez fort pour être détecté par Google.&lt;br /&gt;&lt;br /&gt;Et pour ceux qui s'intéressent déjà à 2017, &lt;a href="http://tf1.lci.fr/infos/france/politique/0,,3865238,00-sarkozy-cope-entretiennent-rapports-subtiles-.html"&gt;quelques&lt;/a&gt; &lt;a href="http://www.lefigaro.fr/politique/2008/12/11/01002-20081211ARTFIG00050-premieres-escarmouches-entre-bertrand-et-cope-a-l-ump-.php"&gt;ambitions&lt;/a&gt; &lt;a href="http://www.lepost.fr/article/2008/04/17/1182611_en-quelques-mois-cope-est-devenu-l-un-des-hommes-forts-de-la-majorite.html"&gt;se dessinent&lt;/a&gt;, et les courbes &lt;a href="http://spreadsheets.google.com/pub?key=psV7RHudMtPakExjPe1K1LA&amp;amp;gid=7"&gt;commencent aussi à se construire&lt;/a&gt;...&lt;/div&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/28510665-86372971869380745?l=gambette.blogspot.com'/&gt;&lt;/div&gt;&lt;img src="http://feeds.feedburner.com/~r/JeVeronise/~4/COGUT29GcjI" height="1" width="1"/&gt;</content><link rel="replies" type="application/atom+xml" href="http://gambette.blogspot.com/feeds/86372971869380745/comments/default" title="Publier les commentaires" /><link rel="replies" type="text/html" href="https://www.blogger.com/comment.g?blogID=28510665&amp;postID=86372971869380745" title="0 commentaires" /><link rel="edit" type="application/atom+xml" href="http://www.blogger.com/feeds/28510665/posts/default/86372971869380745?v=2" /><link rel="self" type="application/atom+xml" href="http://www.blogger.com/feeds/28510665/posts/default/86372971869380745?v=2" /><link rel="alternate" type="text/html" href="http://feedproxy.google.com/~r/JeVeronise/~3/COGUT29GcjI/candidats-en-2012-courbes-google-et.html" title="Candidats en 2012 : courbes Google et revue de presse" /><author><name>Philippe</name><uri>http://www.blogger.com/profile/17811557333070553722</uri><email>noreply@blogger.com</email><gd:extendedProperty name="OpenSocialUserId" value="01287611096413583131" /></author><thr:total xmlns:thr="http://purl.org/syndication/thread/1.0">0</thr:total><feedburner:origLink>http://gambette.blogspot.com/2009/04/candidats-en-2012-courbes-google-et.html</feedburner:origLink></entry><entry gd:etag="W/&quot;DE4ASXY8cCp7ImA9WxVbGUk.&quot;"><id>tag:blogger.com,1999:blog-28510665.post-1295624667207961326</id><published>2009-03-31T23:45:00.007+02:00</published><updated>2009-04-05T17:55:48.878+02:00</updated><app:edited xmlns:app="http://www.w3.org/2007/app">2009-04-05T17:55:48.878+02:00</app:edited><category scheme="http://www.blogger.com/atom/ns#" term="TreeCloud" /><category scheme="http://www.blogger.com/atom/ns#" term="statistiques" /><category scheme="http://www.blogger.com/atom/ns#" term="blogs" /><category scheme="http://www.blogger.com/atom/ns#" term="BD" /><category scheme="http://www.blogger.com/atom/ns#" term="tableur" /><category scheme="http://www.blogger.com/atom/ns#" term="xkcd" /><category scheme="http://www.blogger.com/atom/ns#" term="cognition" /><category scheme="http://www.blogger.com/atom/ns#" term="loi de puissance" /><category scheme="http://www.blogger.com/atom/ns#" term="nuage arboré" /><category scheme="http://www.blogger.com/atom/ns#" term="Google" /><category scheme="http://www.blogger.com/atom/ns#" term="Yahoo" /><category scheme="http://www.blogger.com/atom/ns#" term="traduction" /><title>Traduction d'xkcd et loi de Pareto</title><content type="html">&lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://philippe.gambette.free.fr/Blog/XkcdAvancement.png"&gt;&lt;img style="margin: 0pt 0pt 10px 10px; float: right; cursor: pointer;" src="http://philippe.gambette.free.fr/Blog/XkcdAvancement.png" alt="" border="0" /&gt;&lt;/a&gt;Le &lt;a href="http://xkcd.free.fr/"&gt;projet de traduction d'xkcd&lt;/a&gt;, conçu en un week-end et &lt;a href="http://gambette.blogspot.com/2008/12/xkcd-en-franais.html"&gt;lancé début décembre&lt;/a&gt;, a plutôt bien démarré : &lt;span style="font-weight: bold;"&gt;2/3 des &lt;/span&gt;&lt;a style="font-weight: bold;" href="http://www.xkcd.com/"&gt;planches de Randall Munroe&lt;/a&gt; sont maintenant traduites en français ! C'est plus que les versions &lt;a href="http://xkcd.ru/"&gt;russe&lt;/a&gt; (299/562) et &lt;a href="http://es.xkcd.com/"&gt;espagnole&lt;/a&gt; (150/562)... pour une raison simple : le projet est collaboratif ! &lt;span style="font-size:78%;"&gt;(Bon, et on traduit en dessous, et pas sur les images, aussi, hein, il faut reconnaître que c'est plus rapide).&lt;/span&gt; Une trentaine de personnes a participé : quelques amis, et une majorité d'internautes que je ne connais pas &lt;span style="font-size:78%;"&gt;(vous pouvez vous signaler en commentaire de ce post afin que j'ajoute un petit lien sous votre pseudo dans la liste des traducteurs ;))&lt;/span&gt;.&lt;br /&gt;&lt;br /&gt;Voici quelques données sur l'avancement du projet, au cas où vous voudriez vous lancer dans une aventure similaire. Tout d'abord, la &lt;span style="font-weight: bold;"&gt;chronologie de l'avancement du projet&lt;/span&gt;. J'ai indiqué par une bande rouge une période d'indisponibilité de l'interface de traduction (du 21 février au 13 mars) qui avait échappé à mon attention, le reste du site étant fonctionnel. La forme de la courbe en escaliers correspond à l'arrivée de participants motivés, qui se lassent au bout d'un moment, ou ont fini de traduire tout ce qui les intéressait &lt;span style="font-size:78%;"&gt;(ou pensent que le site est cassé, à partir du 21 février :s)&lt;/span&gt;.&lt;br /&gt;&lt;br /&gt;&lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://philippe.gambette.free.fr/Blog/XkcdPareto.png"&gt;&lt;img style="margin: 0pt 10px 10px 0pt; float: left; cursor: pointer;" src="http://philippe.gambette.free.fr/Blog/XkcdPareto.png" alt="" border="0" /&gt;&lt;/a&gt;Passons justement à la &lt;span style="font-weight: bold;"&gt;distribution des contributions&lt;/span&gt;. Pour la Wikipedia anglaise, &lt;a href="http://www.aaronsw.com/"&gt;Aaron Swartz&lt;/a&gt; nous apprenait en 2006 que &lt;a href="http://www.aaronsw.com/weblog/whowriteswikipedia"&gt;2% des contributeurs font presque 75% des modifications&lt;/a&gt; de l'encyclopédie. Pour la traduction d'xkcd, les pourcentages de participation des divers traducteurs se trouvent &lt;a href="http://www.lirmm.fr/%7Egambette/xkcd/about.php"&gt;ici&lt;/a&gt; &lt;span style="font-size:78%;"&gt;(quand plusieurs collaborateurs ont contribué à la traduction d'une planche, je leur attribue naturellement l'inverse du nombre de contributeurs et je divise finalement ces scores par le nombre total de planches en anglais pour obtenir les pourcentages)&lt;/span&gt;. Notons que ces pourcentages ne prennent pas en compte la longueur des traductions réalisées (tout comme l'étude d'Aaron Swartz d'ailleurs), ce qui ne rend pas vraiment compte, par exemple, du travail de &lt;a href="http://insolitegrandiose.blogspot.com/"&gt;Kith&lt;/a&gt; sur la série à propos du &lt;a href="http://www.lirmm.fr/%7Egambette/xkcd/index.php?id=494"&gt;Ministre de l'Internet&lt;/a&gt;. Toujours est-il que ces données font apparaître une loi classique : la &lt;a style="font-weight: bold;" href="http://fr.wikipedia.org/wiki/Loi_de_Pareto"&gt;loi de Pareto&lt;/a&gt; ! &lt;span style="font-weight: bold;"&gt;20% des utilisateurs (les 6 plus gros collaborateurs) ont réalisé 80% des traductions&lt;/span&gt;. Ce soir, le nombre précis est même 79.62%, ce qui semblerait donc moins "élitiste" que la Wikipedia !&lt;br /&gt;&lt;br /&gt;&lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://philippe.gambette.free.fr/Blog/XkcdParetoDistribution.png"&gt;&lt;img style="margin: 0pt 0pt 10px 10px; float: right; cursor: pointer;" src="http://philippe.gambette.free.fr/Blog/XkcdParetoDistribution.png" alt="" border="0" /&gt;&lt;/a&gt;En fait, on voit même apparaître une &lt;a style="font-weight: bold;" href="http://fr.wikipedia.org/wiki/Distribution_de_Pareto"&gt;distribution de Pareto&lt;/a&gt; (une &lt;a href="http://fr.wikipedia.org/wiki/Loi_de_puissance"&gt;loi de puissance&lt;/a&gt; qui vérifie la règle des 80-20), comme nous le montre la courbe log-log ci-contre.&lt;br /&gt;&lt;br /&gt;On peut aussi avoir un aperçu des horaires et des jours de la semaine où les traducteurs montrent le plus d'activité &lt;span style="font-size:78%;"&gt;(j'ai exclu les valeurs me concernant)&lt;/span&gt; : valeurs anormalement élevées le dimanche, à midi, et en pleine nuit, tout ça rappelle les &lt;a href="http://gambette.blogspot.com/2007/10/dissection-dune-ptition-2-quelle-heure.html"&gt;habitudes de surf des étudiants&lt;/a&gt;.&lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://philippe.gambette.free.fr/Blog/XkcdDateHeure.png"&gt;&lt;img style="margin: 0px auto 10px; display: block; text-align: center; cursor: pointer;" src="http://philippe.gambette.free.fr/Blog/XkcdDateHeure.png" alt="" border="0" /&gt;&lt;/a&gt;&lt;br /&gt;Un petit aperçu de ces traductions, maintenant, avec le &lt;a style="font-weight: bold;" href="http://gambette.blogspot.com/2007/12/tag-cloud-tag-tree-nuage-arbor-1.html"&gt;nuage arboré&lt;/a&gt;&lt;span style="font-weight: bold;"&gt; des mots apparaissant plus de 10 fois&lt;/span&gt;, ci-dessous. Je ne l'ai pas annoncé en grande pompe, j'attends une jolie interface web pour ça, mais ça y est (enfin), un outil pour créer des nuages arborés avec plein de paramètres personnalisés est disponible sur &lt;a href="http://www.treecloud.fr/"&gt;www.treecloud.fr&lt;/a&gt; (ou &lt;a href="http://www.treecloud.org/"&gt;treecloud.org&lt;/a&gt; pour les anglophones). Attention, c'est un outil en ligne de commande, qui nécessite un détour par le &lt;a href="http://www.lirmm.fr/%7Egambette/ProgramTreecloudPython/ManualTreecloud.pdf"&gt;manuel d'utilisation&lt;/a&gt;, en anglais. Mais ça en vaut la peine : le programme permet d'obtenir de jolis résultats, en particulier grâce à la coloration "chronologique" : les mots du nuage arboré ci-dessous apparaissent plutôt rouge s'ils se trouvaient dans les premières planches de xkcd, plutôt bleu s'ils sont beaucoup présents dans les planches récentes. On est en train, avec &lt;a href="http://aixtal.blogspot.com/"&gt;Jean&lt;/a&gt;, de tenter d'ajouter à ça des informations sur la dispersion des mots : plus de nouvelles quand ce sera prêt !&lt;br /&gt;&lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://xkcd.free.fr/"&gt;&lt;img style="margin: 0px auto 10px; display: block; text-align: center; cursor: pointer;" src="http://philippe.gambette.free.fr/Blog/XkcdTreecloud.png" alt="" border="0" /&gt;&lt;/a&gt;Et si ce nuage arboré vous intrigue, allez &lt;a href="http://xkcd.free.fr/"&gt;jeter un oeil à ces traductions de xkcd&lt;/a&gt;, ou &lt;a style="font-weight: bold;" href="http://feeds.feedburner.com/FrenchXkcd"&gt;abonnez-vous au flux RSS&lt;/a&gt; pour recevoir les dernières traductions dès qu'elles sont validées ! A propos, petit aparté sur le spam : les robots n'ont pas tardé à trouver le site et envoyer des traductions bien peu fiables, incitant plutôt à l'achat de petites pilules bleues, mais le flux reste faible (un spam par jour en moyenne) et la procédure de modération manuelle permet d'éviter de les laisser passer.&lt;br /&gt;&lt;br /&gt;&lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://www.lirmm.fr/jeuxdemots/"&gt;&lt;img style="margin: 0pt 0pt 10px 10px; float: right; cursor: pointer;" src="http://philippe.gambette.free.fr/Blog/JeuxDeMots.png" alt="" border="0" /&gt;&lt;/a&gt;Pour finir, un grand merci à tous les participants à la traduction ! Internet est de plus en plus &lt;span style="font-weight: bold;"&gt;collaboratif&lt;/span&gt;, alors si vous avez un peu de temps, profitez-en pour vous lancer dans quelques aventures. C'est l'occasion de faire un peu de pub pour les &lt;a style="font-weight: bold;" href="http://www.lirmm.fr/jeuxdemots/"&gt;JeuxDeMots&lt;/a&gt;, et &lt;a style="font-weight: bold;" href="http://www.lirmm.fr/pticlic"&gt;Pti Clic&lt;/a&gt;, qui, dans le genre de &lt;a href="http://lhivic.org/atelier/?p=712"&gt;Google Image Labeler&lt;/a&gt; ou &lt;a href="http://www.neonet-france.com/2008/11/yahoo-passe-par-ses-utilisateurs-pour-ameliorer-lindexation-des-videos.html"&gt;VideoTagName&lt;/a&gt;, sont en train de construire petit à petit un &lt;span style="font-weight: bold;"&gt;magnifique réseau sémantique, à faire pâlir Wordnet&lt;/span&gt;. Les données récoltées sont en plus mises à disposition &lt;a href="http://www.lirmm.fr/%7Elafourcade/JDM-LEXICALNET-FR/"&gt;en format brut&lt;/a&gt;, ou consultables par des &lt;a href="http://www.lirmm.fr/jeuxdemots//rezo.php"&gt;interfaces&lt;/a&gt; &lt;a href="http://www.lirmm.fr/jeuxdemots//graph.php"&gt;web&lt;/a&gt;, qui peuvent déjà être utilisées pour retrouver, par association d'idées, ces mots qu'on a sur le bout de la langue. Le &lt;a href="http://www.lirmm.fr/jeuxdemots/"&gt;premier jeu&lt;/a&gt; permet d'aider le système à apprendre des relations sémantiques entre mots (synonyme, contenu/contenant, lieu d'une action, etc), et &lt;a href="http://www.lirmm.fr/pticlic"&gt;le second&lt;/a&gt; &lt;span style="font-size:78%;"&gt;(dont on devient vite accro, même en jouant au touchpad...)&lt;/span&gt; de renforcer ou préciser ces relations. Le meilleur moyen pour comprendre le principe est de tester en mode invité, et le meilleur moyen pour comprendre l'utilité des données produites est de les utiliser dans des applications diverses... ce qui ne manquera pas d'être fait bientôt sur ce blog !&lt;br /&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style="font-style: italic;font-size:85%;" &gt;Comme toujours, les données liées à ce billet sont disponibles : dans &lt;a href="http://philippe.gambette.free.fr/Blog/XkcdStats.ods"&gt;ce fichier tableur Open Office&lt;/a&gt;. Et le &lt;a href="http://philippe.gambette.free.fr/Blog/xkcd.txt.hyperlex.colored.nexus"&gt;nuage arboré à ouvrir avec SplitsTree pour pouvoir zoomer, etc&lt;/a&gt;. Il a été construit par &lt;a href="http://www.splitstree.org/"&gt;SplitsTree&lt;/a&gt; et &lt;a href="http://www.treecloud.org/"&gt;TreeCloud&lt;/a&gt; avec une stoplist française, et les options &lt;/span&gt;&lt;span style=";font-family:courier new;font-size:85%;"  &gt;distance=hyperlex minnb=11 window=100 unit=1 color=chronology&lt;/span&gt;&lt;span style="font-style: italic;font-size:85%;" &gt;.&lt;br /&gt;&lt;/span&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/28510665-1295624667207961326?l=gambette.blogspot.com'/&gt;&lt;/div&gt;&lt;img src="http://feeds.feedburner.com/~r/JeVeronise/~4/dYufRq6yA2Q" height="1" width="1"/&gt;</content><link rel="replies" type="application/atom+xml" href="http://gambette.blogspot.com/feeds/1295624667207961326/comments/default" title="Publier les commentaires" /><link rel="replies" type="text/html" href="https://www.blogger.com/comment.g?blogID=28510665&amp;postID=1295624667207961326" title="2 commentaires" /><link rel="edit" type="application/atom+xml" href="http://www.blogger.com/feeds/28510665/posts/default/1295624667207961326?v=2" /><link rel="self" type="application/atom+xml" href="http://www.blogger.com/feeds/28510665/posts/default/1295624667207961326?v=2" /><link rel="alternate" type="text/html" href="http://feedproxy.google.com/~r/JeVeronise/~3/dYufRq6yA2Q/traduction-dxkcd-et-loi-de-pareto.html" title="Traduction d'xkcd et loi de Pareto" /><author><name>Philippe</name><uri>http://www.blogger.com/profile/17811557333070553722</uri><email>noreply@blogger.com</email><gd:extendedProperty name="OpenSocialUserId" value="01287611096413583131" /></author><thr:total xmlns:thr="http://purl.org/syndication/thread/1.0">2</thr:total><feedburner:origLink>http://gambette.blogspot.com/2009/03/traduction-dxkcd-et-loi-de-pareto.html</feedburner:origLink></entry><entry gd:etag="W/&quot;A08AQ3wyeip7ImA9WxVXFUs.&quot;"><id>tag:blogger.com,1999:blog-28510665.post-8886616929433740059</id><published>2009-02-14T00:57:00.003+01:00</published><updated>2009-02-14T01:04:02.292+01:00</updated><app:edited xmlns:app="http://www.w3.org/2007/app">2009-02-14T01:04:02.292+01:00</app:edited><category scheme="http://www.blogger.com/atom/ns#" term="sondages" /><category scheme="http://www.blogger.com/atom/ns#" term="cuisine" /><title>Rétroingéniérie de la tarte "bouquet de roses"</title><content type="html">Histoire d'embrouiller un peu plus l'&lt;a href="http://aixtal.blogspot.com/2008/10/blogs-dans-les-entrailles-du-classement_04.html#c1425546631174218800"&gt;algorithme de classification thématique de Wikio&lt;/a&gt; qui n'est toujours pas parvenu à affecter ces pages à la catégorie &lt;a href="http://www.wikio.fr/blogs/top/science"&gt;&lt;span style="font-style: italic;"&gt;Science&lt;/span&gt;&lt;/a&gt;, un peu de &lt;a href="http://www.wikio.fr/blogs/top/gastronomie"&gt;gastronomie&lt;/a&gt;, aujourd'hui ! Cette fois-ci, ce ne sera pas pour affirmer que &lt;a href="http://gambette.blogspot.com/2008/03/cuisine-polydre-des-ingrdients-et.html"&gt;les crêpes, les gaufres, et les flan, c'est la même recette&lt;/a&gt;, mais pour appliquer le principe de la &lt;a href="http://fr.wikipedia.org/wiki/R%C3%A9tro-ing%C3%A9nierie"&gt;rétroingéniérie&lt;/a&gt; déjà &lt;a href="http://gambette.blogspot.com/2008/03/rtroingnirie-de-google-trends.html"&gt;illustré sur Google Trends&lt;/a&gt; à la fameuse &lt;a href="http://www.alain-passard.com/fr/38.html"&gt;Tarte aux pommes Bouquet de roses&lt;sup&gt;©&lt;/sup&gt; d'Alain Passard&lt;/a&gt;.&lt;br /&gt;&lt;br /&gt;Comme de &lt;a href="http://www.ip-talk.fr/?p=249"&gt;nombreux&lt;/a&gt; &lt;a href="http://du-sacre-au-sucre.blogspot.com/2008/08/la-tarte-aux-pommes-bouquet-de-roses.html"&gt;lecteurs&lt;/a&gt;, j'avais salivé l'été dernier devant les photos de cette création sur &lt;a href="http://www.lemonde.fr/cgi-bin/ACHATS/acheter.cgi?offre=ARCHIVES&amp;amp;type_item=ART_ARCH_30J&amp;amp;objet_id=1047899&amp;amp;clef=ARC-TRK-D_01"&gt;un article du Monde&lt;/a&gt; de Jean-Claude Ribaute (dont le texte intégral est archivé &lt;a href="http://perche-web.over-blog.com/article-22331261.html"&gt;ici&lt;/a&gt;). Et j'ai tenté, moi aussi, &lt;span style=";font-family:trebuchet ms;font-size:100%;"  &gt;&lt;i&gt;"avec une lame fine, de réaliser l'exploit à la maison"&lt;/i&gt;&lt;/span&gt;.&lt;br /&gt;&lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://philippe.gambette.free.fr/Blog/200902Tarte/TarteBouquetDeRoses.jpg"&gt;&lt;img style="margin: 0px auto 10px; display: block; text-align: center; cursor: pointer;" src="http://philippe.gambette.free.fr/Blog/200902Tarte/TarteBouquetDeRoses.jpg" alt="" border="0" /&gt;&lt;/a&gt;&lt;br /&gt;Après quelques essais malheureux, j'arrive enfin à un résultat assez satisfaisant visuellement, dont je vais vous dévoiler le secret. A en juger par les commentaires sur l'originale, qui insistent sur l'aspect à la fois &lt;a href="http://www.femmes.com/art-de-vivre/cuisine/les-adresses-cuisine-4994"&gt;croustillant et moelleux&lt;/a&gt; des pommes elles-mêmes, la recette que j'ai reconstituée est encore loin de la vraie. Mais pour m'aider à l'améliorer, j'ai besoin de plus d'informations que celles données par les photos : n'hésitez pas à me financer une petite dégustation (à &lt;a href="http://chrisoscope.com/2008/03/05/diner-a-larpege-alain-passard/"&gt;l'Arpège&lt;/a&gt;, ou à emporter) afin que j'approfondisse cela.&lt;br /&gt;&lt;br /&gt;&lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://philippe.gambette.free.fr/Blog/200902Tarte/TarteCuisson.gif"&gt;&lt;img style="margin: 0pt 0pt 10px 10px; float: right; cursor: pointer;" src="http://philippe.gambette.free.fr/Blog/200902Tarte/TarteCuisson.gif" alt="" border="0" /&gt;&lt;/a&gt;Commençons par ce qui doit être évité pour un résultat acceptable :&lt;br /&gt;- laisser la peau : les &lt;a href="http://www.linternaute.com/sortir/sorties/resto/magazine/photo/le-potager-des-delices-d-alain-passard/la-tarte-bouquet-de-roses.shtml"&gt;photos&lt;/a&gt; semblent montrer qu'elle y est encore, mais il me semble difficile de la garder en la rendant croustillante, même la recouvrir de sucre n'a pas aidé. De plus, ça complique la découpe des pommes pour la reconstitution des roses, même si la méthode de découpe détaillée plus bas permet de la conserver.&lt;br /&gt;- récupérer des lamelles de la pomme en continuant à l'éplucher à l'économe une fois que la peau est enlevée : les lamelles récupérées &lt;a href="http://www.leplaisirdegourmandise.com/article-26938648.html"&gt;sont trop fines et ne se tiennent pas&lt;/a&gt;.&lt;br /&gt;- faire des roses trop petites ou trop espacées sur la tarte : si vous laissez refroidir la tarte, les roses ont tendance à sécher et se rabougrir un peu pour laisser apparaître la pâte dessous, comme on peut le voir sur l'image animée ci-contre.&lt;br /&gt;&lt;br /&gt;&lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://philippe.gambette.free.fr/Blog/200902Tarte/Rose.htm"&gt;&lt;img style="margin: 0pt 10px 10px 0pt; float: left; cursor: pointer;" src="http://philippe.gambette.free.fr/Blog/200902Tarte/RoseSmall.gif" alt="" border="0" /&gt;&lt;/a&gt;Bref, l'idéal est de récupérer des lamelles d'environ 2mm d'épaisseur. L'idée est que l'on peut reconstituer les "roses" même avec des lamelles d'une longueur réduite... correspondant à la longueur d'un quartier (la hauteur de la pomme, quoi...). La petite animation ci-contre illustre comment obtenir ces lamelles (le coup de main vient assez vite), et les enrouler progressivement. Idéalement, il faut faire ça à deux : un qui découpe les lamelles, l'autre qui les enroule et dispose les roses obtenues.&lt;br /&gt;&lt;br /&gt;Enfin, on peut saupoudrer le tout &lt;a href="http://chifoumi.canalblog.com/archives/2008/10/04/10820319.html"&gt;de cannelle ou de dragées écrasées au mortier&lt;/a&gt;, ou encore de sucre-glace, éventuellement après cuisson. Encore une fois, il est préférable de servir et manger chaud.&lt;br /&gt;&lt;br /&gt;Si vous souhaitez vous lancer dans des variantes plus colorées et originales, et peut-être aussi plus faciles à réaliser, quelques idées ont fleuri sur le net, avec des tartes bouquet de roses &lt;a href="http://le-drageoir-aux-epices.over-blog.com/article-23681488.html"&gt;aux patates&lt;/a&gt;, aux &lt;a href="http://tronchedecake.blogspot.com/2008/08/choses-absurdes-improbables-et.html"&gt;courgettes violettes&lt;/a&gt;, aux &lt;a href="http://troispetitstours.over-blog.com/article-21746510.html"&gt;courgettes vertes&lt;/a&gt;.&lt;br /&gt;&lt;br /&gt;Pour finir, un petit sondage à propos de l'amertume des endives, puisque ce sujet sensible divise : j'étais jusqu'à il y a quelques semaines persuadé que l'endive crue, qui n'a aucun goût, n'était pas du tout amère, contrairement à l'endive cuite. Quelques personnes tout à fait respectables défendent vigoureusement la thèse opposée, ce qui m'a d'ailleurs amené à nuancer ma position et admettre que la base de l'endive crue a bien un peu d'amertume. Internet aussi est partagé :&lt;br /&gt;&lt;ul&gt;&lt;li&gt;des partisans de l'amertume de l'endive crue : &lt;a href="http://www.yabiladi.com/forum/read-54-2908933.html"&gt;"cru franchement j'arrive pas, c trop amer!"&lt;/a&gt;, &lt;a href="http://mon-allaitement.forumactif.com/cuisine-f3/endives-t5028.htm"&gt;"les endives cuites sont moins amères"&lt;/a&gt;, &lt;a href="http://pourelles.orange.fr/Pages/Minceur/nutrition/ART/l-endive-des-bienfaits-meconnus_EMW_ADMN-6MRD3W.html"&gt;"L'endive cuite ou braisée sera moins amère qu'une endive crue"&lt;/a&gt;, &lt;a href="http://www.marmiton.org/recettes/recette_plusdavis.cfm?num_recette=21135"&gt;"Je les trouve moins amères cuites"&lt;/a&gt;, &lt;a href="http://www.sahten.com/?2006/06/03/je-n-aimais-pas-les-endives-mais"&gt;"Je n'en ai jamais goûté cuites... j'espère qu'elles sont ainsi moins amères que crues, ..."&lt;/a&gt; ;&lt;br /&gt;&lt;/li&gt;&lt;li&gt;des partisans de l'amertume de l'endive cuite : &lt;a href="http://forum.doctissimo.fr/cuisine/salades-entrees-froides/salades-sujet_48_1.htm"&gt;"Endive crues (moins amere que cuite)"&lt;/a&gt;, &lt;a href="http://www.ilaca.org/blog/2007/05/25/endives-au-lard/"&gt;"c’est seulement l'endive verte qui est plus amère cuite que crue."&lt;/a&gt;, &lt;a href="http://fr.answers.yahoo.com/question/index?qid=20081002102435AAjBKoT"&gt;"je les adore crues, mais cuites, beurk, j'y arrive vraiment pas."&lt;/a&gt;.&lt;br /&gt;&lt;/li&gt;&lt;/ul&gt;&lt;br /&gt;&lt;br /&gt;&lt;script type="text/javascript" src="http://www.123votez.com/sondages/sondage-gratuit-30251_52226.js" charset="UTF-8"&gt;&lt;/script&gt;&lt;noscript&gt;&lt;a title="sondage endives sont" href="http://www.123votez.com/sondages/sondage-endives-sont-30251_52226.php" &gt;Les endives sont :&lt;/a&gt; depuis &lt;a title="faire sondage" href="http://www.123votez.com" &gt;creer un sondage &lt;/a&gt;&lt;/noscript&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/28510665-8886616929433740059?l=gambette.blogspot.com'/&gt;&lt;/div&gt;&lt;img src="http://feeds.feedburner.com/~r/JeVeronise/~4/VwadyCJs0bs" height="1" width="1"/&gt;</content><link rel="replies" type="application/atom+xml" href="http://gambette.blogspot.com/feeds/8886616929433740059/comments/default" title="Publier les commentaires" /><link rel="replies" type="text/html" href="https://www.blogger.com/comment.g?blogID=28510665&amp;postID=8886616929433740059" title="5 commentaires" /><link rel="edit" type="application/atom+xml" href="http://www.blogger.com/feeds/28510665/posts/default/8886616929433740059?v=2" /><link rel="self" type="application/atom+xml" href="http://www.blogger.com/feeds/28510665/posts/default/8886616929433740059?v=2" /><link rel="alternate" type="text/html" href="http://feedproxy.google.com/~r/JeVeronise/~3/VwadyCJs0bs/retroingenierie-de-la-tarte-bouquet-de.html" title="Rétroingéniérie de la tarte &quot;bouquet de roses&quot;" /><author><name>Philippe</name><uri>http://www.blogger.com/profile/17811557333070553722</uri><email>noreply@blogger.com</email><gd:extendedProperty name="OpenSocialUserId" value="01287611096413583131" /></author><thr:total xmlns:thr="http://purl.org/syndication/thread/1.0">5</thr:total><feedburner:origLink>http://gambette.blogspot.com/2009/02/retroingenierie-de-la-tarte-bouquet-de.html</feedburner:origLink></entry><entry gd:etag="W/&quot;CkYDQ34zcCp7ImA9WxVREU8.&quot;"><id>tag:blogger.com,1999:blog-28510665.post-2057026908684510054</id><published>2009-01-16T15:44:00.004+01:00</published><updated>2009-01-16T16:36:12.088+01:00</updated><app:edited xmlns:app="http://www.w3.org/2007/app">2009-01-16T16:36:12.088+01:00</app:edited><category scheme="http://www.blogger.com/atom/ns#" term="langage" /><category scheme="http://www.blogger.com/atom/ns#" term="buzz" /><category scheme="http://www.blogger.com/atom/ns#" term="politique" /><title>Les poires à gauche</title><content type="html">En lisant &lt;a href="http://weirdtechnewshub.blogspot.com/2006/07/top-10-worst-url-flops.html"&gt;cette liste d'URL ambiguës en anglais&lt;/a&gt;, j'avais rêvé d'en trouver en français &lt;a href="http://www.lirmm.fr/%7Egambette/EnsPython2008.php#AutresProjets"&gt;en&lt;/a&gt; compilant toutes les combinaisons possibles de mots coquins ou rigolos en français avec d'autres mots du dictionnaire, et en vérifiant s'il était possible de segmenter autrement chaque suite de lettres ainsi obtenues.&lt;br /&gt;&lt;br /&gt;&lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://philippe.gambette.free.fr/Blog/Lespoiragauche.jpg"&gt;&lt;img style="margin: 0pt 0pt 10px 10px; float: right; cursor: pointer;" src="http://philippe.gambette.free.fr/Blog/Lespoiragauche.jpg" alt="" border="0" /&gt;&lt;/a&gt;Eh bien le PS a fait presque aussi bien avec &lt;a href="http://www.lespoiragauche.fr/"&gt;lespoiragauche.fr&lt;/a&gt;, comme ça a été également noté en commentaires &lt;a href="http://www.lepost.fr/article/2009/01/15/1388289_le-courant-royaliste-se-structure-au-sein-du-ps.html"&gt;ici&lt;/a&gt; et &lt;a href="http://paris3emeavecsegolene.hautetfort.com/archive/2008/11/20/votez-segolene-royal-et-toute-son-equipe-le-20-novembre-2008.html"&gt;là&lt;/a&gt;. Maladresse ou stratégie marketing pour créer un buzz et faire retenir l'adresse ?&lt;br /&gt;&lt;br /&gt;Si c'est la deuxième solution, je vais m'empresser de créer un site de photos de nos parlementaires sur www.photosdeputes.fr.&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/28510665-2057026908684510054?l=gambette.blogspot.com'/&gt;&lt;/div&gt;&lt;img src="http://feeds.feedburner.com/~r/JeVeronise/~4/boX8CmOnZv8" height="1" width="1"/&gt;</content><link rel="replies" type="application/atom+xml" href="http://gambette.blogspot.com/feeds/2057026908684510054/comments/default" title="Publier les commentaires" /><link rel="replies" type="text/html" href="https://www.blogger.com/comment.g?blogID=28510665&amp;postID=2057026908684510054" title="3 commentaires" /><link rel="edit" type="application/atom+xml" href="http://www.blogger.com/feeds/28510665/posts/default/2057026908684510054?v=2" /><link rel="self" type="application/atom+xml" href="http://www.blogger.com/feeds/28510665/posts/default/2057026908684510054?v=2" /><link rel="alternate" type="text/html" href="http://feedproxy.google.com/~r/JeVeronise/~3/boX8CmOnZv8/les-poires-gauche.html" title="Les poires à gauche" /><author><name>Philippe</name><uri>http://www.blogger.com/profile/17811557333070553722</uri><email>noreply@blogger.com</email><gd:extendedProperty name="OpenSocialUserId" value="01287611096413583131" /></author><thr:total xmlns:thr="http://purl.org/syndication/thread/1.0">3</thr:total><feedburner:origLink>http://gambette.blogspot.com/2009/01/les-poires-gauche.html</feedburner:origLink></entry><entry gd:etag="W/&quot;DEMHR304cCp7ImA9WxVRGEQ.&quot;"><id>tag:blogger.com,1999:blog-28510665.post-1362728950185585105</id><published>2008-12-13T12:17:00.008+01:00</published><updated>2009-01-25T16:13:56.338+01:00</updated><app:edited xmlns:app="http://www.w3.org/2007/app">2009-01-25T16:13:56.338+01:00</app:edited><category scheme="http://www.blogger.com/atom/ns#" term="blogosphère" /><category scheme="http://www.blogger.com/atom/ns#" term="blogs" /><category scheme="http://www.blogger.com/atom/ns#" term="BD" /><category scheme="http://www.blogger.com/atom/ns#" term="xkcd" /><category scheme="http://www.blogger.com/atom/ns#" term="sondages" /><category scheme="http://www.blogger.com/atom/ns#" term="corrélation" /><category scheme="http://www.blogger.com/atom/ns#" term="traduction" /><title>Xkcd en français</title><content type="html">&lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://xkcd.com/233/"&gt;&lt;img style="margin: 0pt 0pt 10px 10px; float: right; cursor: pointer;" src="http://www.lirmm.fr/%7Egambette/xkcd/static/examplefrench.png" alt="" border="0" /&gt;&lt;/a&gt;&lt;a href="http://www.xkcd.com/"&gt;xkcd&lt;/a&gt; est une mine d'illustrations pour les enseignants en informatique, et j'ai décidé cette année d'illustrer &lt;a href="http://www.lirmm.fr/%7Egambette/EnsPython2008.php"&gt;chaque séance des TP de système/réseau que j'assure en L2&lt;/a&gt; avec un dessin traduit pour l'occasion.&lt;br /&gt;&lt;br /&gt;Les difficultés sont multiples : choisir le dessin tout d'abord. Car parmi les quelques centaines de l'auteur, &lt;a href="http://en.wikipedia.org/wiki/Randall_Munroe"&gt;Randall Munroe&lt;/a&gt;, il faut en trouver qui ont un rapport plus ou moins direct avec la séance du jour, et je remercie &lt;a href="http://arnaud.spiwack.free.fr/"&gt;Arnaud&lt;/a&gt; de m'avoir fait profiter de sa mémoire et de sa connaissance pointue de xkcd pour m'éviter d'être bloqué sur la fin.&lt;br /&gt;&lt;br /&gt;Autre problème, la traduction. Ces courtes vignettes faisant appel à un vocabulaire spécialisé sont assez &lt;span style="font-weight: bold;"&gt;difficiles à traduire en restant aussi concis&lt;/span&gt;. Quand il faut en plus gérer des problèmes de culture geek dont l'équivalent français n'existe pas, ça devient mission impossible. Quant au texte alternatif, c'est souvent difficile même d'y comprendre la blague.&lt;br /&gt;&lt;br /&gt;Encore un obstacle, la réalisation. Retrouver une police de caractères qui ressemble à l'écriture - en majuscules - de Randall Munroe n'est pas évident. On trouve quelques essais &lt;a href="http://memoperso.free.fr/"&gt;ici&lt;/a&gt; ou &lt;a href="http://forums.xkcd.com/viewtopic.php?f=2&amp;amp;t=16964&amp;amp;p=633878#p588453"&gt;là&lt;/a&gt;. La police &lt;a href="http://www.1001fonts.com/font_details.html?font_id=1386"&gt;International Playboy&lt;/a&gt;, qui contient même la plupart des majuscules accentuées, donne un résultat convenable.&lt;br /&gt;&lt;br /&gt;Enfin, dernier problème : la publication et les droits d'auteurs. Eh bien ce n'en est pas un, puisque xkcd est publié &lt;a href="http://creativecommons.org/licenses/by-nc/2.5/deed.fr"&gt;sous licence Creative Commons&lt;/a&gt; autorisant justement les modifications !&lt;br /&gt;&lt;br /&gt;Alors, qu'&lt;span style="font-weight: bold;"&gt;attendent tous les geeks de France pour lancer une vraie interface collaborative de traduction d'xkcd&lt;/span&gt; ?&lt;br /&gt;&lt;br /&gt;Il y a eu quelques essais, mais la plupart n'ont pas survécu à quelques dizaines de dessins. Le total, recensé ci-dessous, permet tout de même d'arriver à 11% de la BD. Mais attention, la qualité de traduction n'est pas toujours au rendez-vous :&lt;br /&gt;&lt;span style=";font-family:verdana;font-size:85%;"  &gt;&lt;a href="http://beverycool.hautetfort.com/archive/2008/02/03/xkcd-un-webcomics-en-anglais-qui-n-a-pas-peur-des-maths.html"&gt;21&lt;/a&gt; &lt;a href="http://www.phy-ulaval.com/journal/agraaff.pdf"&gt;45&lt;/a&gt; &lt;a href="http://zaziedanslemetro.canalblog.com/archives/2007/06/27/5439214.html"&gt;77&lt;/a&gt; &lt;a href="http://forums.xkcd.com/viewtopic.php?f=2&amp;amp;t=16964&amp;amp;p=633878#p588453"&gt;86&lt;/a&gt; &lt;a href="http://monftpamwa.free.fr/dotclear/?post/2009/01/24/xkcd-4"&gt;86'&lt;/a&gt; &lt;a href="http://monftpamwa.free.fr/dotclear/?post/2009/01/24/xkcd-4"&gt;123&lt;/a&gt; &lt;a href="http://www.roumazeilles.net/news/fr/wordpress/2007/01/31/hdmi-et-la-protection-du-contenu/"&gt;129&lt;/a&gt; &lt;a href="http://forums.xkcd.com/viewtopic.php?f=2&amp;amp;t=16964&amp;amp;p=633878#p588453"&gt;132&lt;/a&gt; &lt;a href="http://monftpamwa.free.fr/dotclear/?post/2009/01/24/xkcd-4"&gt;148&lt;/a&gt; &lt;a href="http://monftpamwa.free.fr/dotclear/?post/2008/12/13/xkcd-2"&gt;156&lt;/a&gt; &lt;a href="http://monftpamwa.free.fr/dotclear/?post/2008/12/13/xkcd-2"&gt;163&lt;/a&gt; &lt;a href="http://forums.xkcd.com/viewtopic.php?f=2&amp;amp;t=16964&amp;amp;p=633878#p588453"&gt;169&lt;/a&gt; &lt;a href="http://monftpamwa.free.fr/dotclear/?post/2008/12/10/xkcd"&gt;171&lt;/a&gt; &lt;a href="http://monftpamwa.free.fr/dotclear/?post/2009/01/17/xkcd-3"&gt;185&lt;/a&gt; &lt;a href="http://forums.xkcd.com/viewtopic.php?f=2&amp;amp;t=16964&amp;amp;p=633878#p588453"&gt;191&lt;/a&gt; &lt;a href="http://www.lirmm.fr/%7Egambette/EnsPythonSeance7-2008.php"&gt;195&lt;/a&gt; &lt;a href="http://memoperso.free.fr/spip.php?article12"&gt;198&lt;/a&gt; &lt;a href="http://monftpamwa.free.fr/dotclear/?post/2008/12/10/xkcd"&gt;202&lt;/a&gt; &lt;a href="http://memoperso.free.fr/spip.php?article15"&gt;208&lt;/a&gt; &lt;a href="http://www.lirmm.fr/%7Egambette/EnsPythonSeance3-2008.php"&gt;208'&lt;/a&gt; &lt;a href="http://monftpamwa.free.fr/dotclear/?post/2009/01/24/xkcd-4"&gt;218&lt;/a&gt; &lt;a href="http://www.lirmm.fr/%7Egambette/EnsPythonSeance6-2008.php"&gt;221&lt;/a&gt; &lt;a href="http://forums.xkcd.com/viewtopic.php?f=2&amp;amp;t=16964&amp;amp;p=633878#p588453"&gt;224&lt;/a&gt; &lt;a href="http://monftpamwa.free.fr/dotclear/?post/2009/01/24/xkcd-4"&gt;227&lt;/a&gt; &lt;a href="http://monftpamwa.free.fr/dotclear/?post/2008/12/10/xkcd"&gt;231&lt;/a&gt; &lt;a href="http://monftpamwa.free.fr/dotclear/?post/2009/01/24/xkcd-4"&gt;232&lt;/a&gt; &lt;a href="http://www.lirmm.fr/%7Egambette/EnsPythonSeance5-2008.php"&gt;233&lt;/a&gt; &lt;a href="http://forums.xkcd.com/viewtopic.php?f=2&amp;amp;t=16964&amp;amp;p=633878#p588453"&gt;242&lt;/a&gt; &lt;a href="http://www.lirmm.fr/%7Egambette/EnsPythonSeance4-2008.php"&gt;244&lt;/a&gt; &lt;a href="http://monftpamwa.free.fr/dotclear/?post/2009/01/24/xkcd-4"&gt;247&lt;/a&gt; &lt;a href="http://forums.xkcd.com/viewtopic.php?f=2&amp;amp;t=16964&amp;amp;p=633878#p482224"&gt;275&lt;/a&gt; &lt;a href="http://forums.xkcd.com/viewtopic.php?f=2&amp;amp;t=16964&amp;amp;p=633878#p588453"&gt;275'&lt;/a&gt; &lt;a href="http://memoperso.free.fr/spip.php?article10"&gt;287&lt;/a&gt; &lt;a href="http://monftpamwa.free.fr/dotclear/?post/2008/12/13/xkcd-2"&gt;290&lt;/a&gt; &lt;a href="http://www.covertprestige.net/blog/2008/01/connaissezvous-xkcd.html"&gt;302&lt;/a&gt; &lt;a href="http://monftpamwa.free.fr/dotclear/?post/2008/12/13/xkcd-2"&gt;302'&lt;/a&gt; &lt;a href="http://www.lirmm.fr/%7Egambette/EnsPythonSeance9-2008.php"&gt;303&lt;/a&gt; &lt;a href="http://monftpamwa.free.fr/dotclear/?post/2008/12/13/xkcd-2"&gt;307&lt;/a&gt; &lt;a href="http://memoperso.free.fr/spip.php?article16"&gt;323&lt;/a&gt; &lt;a href="http://www.lirmm.fr/%7Egambette/EnsPythonSeance8-2008.php"&gt;327&lt;/a&gt; &lt;a href="http://monftpamwa.free.fr/dotclear/?post/2008/12/10/xkcd"&gt;327'&lt;/a&gt; &lt;a href="http://forums.xkcd.com/viewtopic.php?f=2&amp;amp;t=16964&amp;amp;p=633878#p588453"&gt;329&lt;/a&gt; &lt;a href="http://memoperso.free.fr/spip.php?article21"&gt;341 342 343 344 345&lt;/a&gt; &lt;a href="http://www.lenoob.com/les_news/lire.php?id=147"&gt;349&lt;/a&gt; &lt;a href="http://forums.xkcd.com/viewtopic.php?f=2&amp;amp;t=16964&amp;amp;p=633878#p588453"&gt;350&lt;/a&gt; &lt;a href="http://www.lirmm.fr/%7Egambette/EnsPython2008.php"&gt;353&lt;/a&gt; &lt;a href="http://memoperso.free.fr/spip.php?article6"&gt;374&lt;/a&gt; &lt;a href="http://memoperso.free.fr/spip.php?article6"&gt;377&lt;/a&gt; &lt;a href="http://www.lirmm.fr/%7Egambette/EnsPythonSeance2-2008.php"&gt;378&lt;/a&gt; &lt;a href="http://monftpamwa.free.fr/dotclear/?post/2009/01/17/xkcd-3"&gt;378'&lt;/a&gt; &lt;a href="http://www.redacbox.fr/Blog2/2008/02/27/le-sexisme-en-une-lecon/"&gt;385&lt;/a&gt; &lt;a href="http://monftpamwa.free.fr/dotclear/?post/2009/01/24/xkcd-4"&gt;385'&lt;/a&gt; &lt;a href="http://monftpamwa.free.fr/dotclear/?post/2009/01/24/xkcd-4"&gt;386&lt;/a&gt; &lt;a href="http://forums.xkcd.com/viewtopic.php?f=2&amp;amp;t=16964&amp;amp;p=633878#p588453"&gt;397&lt;/a&gt; &lt;a href="http://forums.xkcd.com/viewtopic.php?f=2&amp;amp;t=16964&amp;amp;p=633878#p588453"&gt;399&lt;/a&gt; &lt;a href="http://forums.xkcd.com/viewtopic.php?f=2&amp;amp;t=16964&amp;amp;p=633878#p588453"&gt;400&lt;/a&gt; &lt;a href="http://memoperso.free.fr/spip.php?article6"&gt;405&lt;/a&gt; &lt;a href="http://forums.xkcd.com/viewtopic.php?f=25&amp;amp;t=21397&amp;amp;p=633948#p636927"&gt;411&lt;/a&gt; &lt;a href="http://monftpamwa.free.fr/dotclear/?post/2009/01/24/xkcd-4"&gt;411'&lt;/a&gt; &lt;a href="http://forums.xkcd.com/viewtopic.php?f=25&amp;amp;t=21397&amp;amp;p=633948#p636972"&gt;414&lt;/a&gt; &lt;a href="http://memoperso.free.fr/spip.php?article11"&gt;425&lt;/a&gt; &lt;a href="http://forum.ubuntu-fr.org/viewtopic.php?id=220700"&gt;425'&lt;/a&gt; &lt;a href="http://memoperso.free.fr/spip.php?article1"&gt;426&lt;/a&gt; &lt;a href="http://memoperso.free.fr/spip.php?article3"&gt;427&lt;/a&gt; &lt;a href="http://memoperso.free.fr/spip.php?article4"&gt;428&lt;/a&gt; &lt;a href="http://memoperso.free.fr/spip.php?article5"&gt;429&lt;/a&gt; &lt;a href="http://memoperso.free.fr/spip.php?article10"&gt;432&lt;/a&gt; &lt;a href="http://memoperso.free.fr/spip.php?article10"&gt;433&lt;/a&gt; &lt;a href="http://memoperso.free.fr/spip.php?article7"&gt;434&lt;/a&gt; &lt;a href="http://memoperso.free.fr/spip.php?article8"&gt;435&lt;/a&gt; &lt;a href="http://memoperso.free.fr/spip.php?article9"&gt;436 &lt;/a&gt;&lt;a href="http://memoperso.free.fr/spip.php?article17"&gt;441&lt;/a&gt; &lt;a href="http://memoperso.free.fr/spip.php?article14"&gt;444&lt;/a&gt; &lt;a href="http://memoperso.free.fr/spip.php?article13"&gt;445&lt;/a&gt; &lt;a href="http://memoperso.free.fr/spip.php?article18"&gt;447&lt;/a&gt; &lt;a href="http://memoperso.free.fr/spip.php?article19"&gt;448&lt;/a&gt; &lt;a href="http://memoperso.free.fr/spip.php?article20"&gt;451&lt;/a&gt; &lt;a href="http://monftpamwa.free.fr/dotclear/?post/2009/01/17/xkcd-3"&gt;453&lt;/a&gt; &lt;a href="http://www.lirmm.fr/%7Egambette/EnsPythonSeance1-2008.php"&gt;456&lt;/a&gt; &lt;a href="http://www.framablog.org/index.php/post/2008/08/31/bd-xkcd-trad-fr"&gt;456'&lt;/a&gt; &lt;a href="http://monftpamwa.free.fr/dotclear/?post/2008/12/13/xkcd-2"&gt;469&lt;/a&gt; &lt;a href="http://monftpamwa.free.fr/dotclear/?post/2009/01/17/xkcd-3"&gt;479&lt;/a&gt; &lt;a href="http://www.laquadrature.net/fr/xkcd-a-webcomic-steal-this-comic"&gt;488&lt;/a&gt; &lt;a href="http://www.lostinbrittany.org/blog/2008/10/14/xkcd-explique-lechec-des-drm/"&gt;488'&lt;/a&gt; &lt;a href="http://monftpamwa.free.fr/dotclear/?post/2009/01/17/xkcd-3"&gt;530&lt;/a&gt;&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;Si l'on veut lancer une traduction massive, l'idée serait de permettre une collaboration. Difficile si l'on travaille directement sur les images. J'ai donc préparé une &lt;a href="http://www.lirmm.fr/%7Egambette/xkcd/"&gt;&lt;span style="font-weight: bold;font-size:180%;" &gt;interface de traduction d'xkcd en français&lt;/span&gt;&lt;/a&gt; qui fonctionne seulement en ajoutant le texte sous l'image. Ceux qui le voudront pourront ensuite créer les images, en y insérant ces textes. Pour arriver à une bonne qualité, je propose le système suivant :&lt;br /&gt;&lt;ul&gt;&lt;li&gt;n'importe qui peut envoyer une traduction&lt;/li&gt;&lt;li&gt;des modérateurs&lt;span style="font-size:78%;"&gt; (moi pour l'instant, mais si je peux vous faire confiance, j'accepterai certainement de vous ajouter à la liste)&lt;/span&gt; se chargent de la valider pour qu'elle apparaisse sur le site, et de choisir la meilleure&lt;span style="font-size:78%;"&gt; (et donc bye bye les robots spammeurs !)&lt;/span&gt;.&lt;/li&gt;&lt;/ul&gt;Le système est réalisé en PHP/MySql, sur une structure très proche de celle utilisée pour le &lt;a href="http://gambette.blogspot.com/2008/07/livre-interactif-lisbonne-par-fernando.html"&gt;guide de Pessoa sur Lisbonne&lt;/a&gt;. L'adaptation à d'autres langues sera donc très facile &lt;span style="font-size:78%;"&gt;(&lt;a href="http://www.lirmm.fr/%7Egambette/PersoContact.php"&gt;contactez-moi&lt;/a&gt; si vous êtes intéressé par les sources)&lt;/span&gt;. Et bien sûr, je compte sur vous &lt;a href="http://www.lirmm.fr/%7Egambette/xkcd/"&gt;&lt;span style="font-weight: bold;"&gt;pour proposer des traductions&lt;/span&gt;&lt;/a&gt; ! Il suffit de cliquer sur l'image voulue, puis compléter le formulaire, en utilisant éventuellement le lien vers l'image originale pour l'avoir sous les yeux pendant la traduction. Et surtout n'oubliez pas l'&lt;span style="font-weight: bold;"&gt;infobulle&lt;/span&gt;, qui apparaît quand on laisse traîner la souris sur l'image !&lt;br /&gt;&lt;br /&gt;&lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://www.lirmm.fr/%7Egambette/xkcd/"&gt;&lt;img style="margin: 0px auto 10px; display: block; text-align: center; cursor: pointer; width: 600px; height: 373px;" src="http://www.lirmm.fr/%7Egambette/xkcd/static/screenshot.png" alt="" border="0" /&gt;&lt;/a&gt;&lt;br /&gt;Alors bien sûr, vous allez me dire que la traduction des xkcd est un peu inutile, vu que la connaissance de l'anglais fait partie de la culture geek. Ce n'est pas complètement faux. Un sondage a été organisé cette année pour évaluer la familiarité avec l'outil informatique de tous les entrants en licence de la &lt;a href="http://www.ufr.univ-montp2.fr/"&gt;Faculté des Sciences de l'Université Montpellier 2&lt;/a&gt;, dans le cadre d'une UE préparant à l'examen du &lt;a href="http://www2.c2i.education.fr/"&gt;C2I&lt;/a&gt; (Certificat Informatique et Internet). Un millier d'étudiants a répondu, et voici les résultats des deux questions suivantes :&lt;br /&gt;&lt;br /&gt;&lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://philippe.gambette.free.fr/Blog/SondageAnglaisInformatiqueMini.png"&gt;&lt;img style="margin: 0pt 0pt 10px 10px; float: right; cursor: pointer; width: 350px; height: 247px;" src="http://philippe.gambette.free.fr/Blog/SondageAnglaisInformatiqueMini.png" alt="" border="0" /&gt;&lt;/a&gt;&lt;span style=";font-family:verdana;font-size:85%;"  &gt;&lt;span style="font-style: italic;"&gt;Si, sur internet, vous arrivez sur une page écrite en anglais :&lt;/span&gt;&lt;br /&gt;&lt;/span&gt;&lt;ul  style="font-family:verdana;"&gt;&lt;li&gt;&lt;span style="font-size:85%;"&gt; vous n'y comprenez rien&lt;/span&gt;&lt;/li&gt;&lt;li&gt;&lt;span style="font-size:85%;"&gt; vous y déchiffrez quelques mots&lt;/span&gt;&lt;/li&gt;&lt;li&gt;&lt;span style="font-size:85%;"&gt; vous pourriez la comprendre en cherchant le sens de quelques expressions&lt;/span&gt;&lt;/li&gt;&lt;li&gt;&lt;span style="font-size:85%;"&gt;vous la lisez en comprenant la plupart des phrases&lt;/span&gt;&lt;/li&gt;&lt;/ul&gt; &lt;span style=";font-family:verdana;font-size:85%;"  &gt;&lt;span style="font-style: italic;"&gt;À propos du contenu de cette unité FLIN102, vous pensez :&lt;/span&gt;&lt;br /&gt;&lt;/span&gt;&lt;ul  style="font-family:verdana;"&gt;&lt;li&gt;&lt;span style="font-size:85%;"&gt;que vous aurez du mal, qu'il y aura beaucoup (trop ?) de choses à découvrir,&lt;/span&gt;&lt;/li&gt;&lt;li&gt;&lt;span style="font-size:85%;"&gt;que ça ira en suivant les TP, et en les travaillant en plus chez vous,&lt;/span&gt;&lt;/li&gt;&lt;li&gt;&lt;span style="font-size:85%;"&gt;que suivre les TP vous suffira pour apprendre des choses et les retenir,&lt;/span&gt;&lt;/li&gt;&lt;li&gt;&lt;span style="font-size:85%;"&gt;que vous connaissez déjà une bonne partie des choses enseignées en TP, mais que vous en découvrez quelques unes,&lt;/span&gt;&lt;/li&gt;&lt;li&gt;&lt;span style="font-size:85%;"&gt;que suivre les TP est pour vous complètement inutile, vous savez déjà tout ou presque.&lt;/span&gt;&lt;/li&gt;&lt;/ul&gt;&lt;br /&gt;Comme vous pouvez le constater, &lt;span style="font-weight: bold;"&gt;la maîtrise de l'anglais augmente en même temps que la maîtrise de l'outil informatique&lt;/span&gt;. Alors peut-être que les fous d'ordinateurs continueront à se précipiter sur la version originale de la BD, et que la traduction leur servira seulement en cas de problème. Peut-être qu'ils profiteront de leur maîtrise de la langue pour faire profiter d'xkcd aux allergiques à l'informatique &lt;a href="http://danlekel.gambette.com/"&gt;pour lesquels&lt;/a&gt; &lt;a href="http://www.lirmm.fr/%7Egambette/xkcd/index.php?id=253"&gt;quelques&lt;/a&gt; &lt;a href="http://www.lirmm.fr/%7Egambette/xkcd/index.php?id=294"&gt;planches&lt;/a&gt; &lt;a href="http://www.lirmm.fr/%7Egambette/xkcd/index.php?id=385"&gt;sont&lt;/a&gt; &lt;a href="http://www.lirmm.fr/%7Egambette/xkcd/index.php?id=315"&gt;tout&lt;/a&gt; &lt;a href="http://www.lirmm.fr/%7Egambette/xkcd/index.php?id=451"&gt;à&lt;/a&gt; &lt;a href="http://www.lirmm.fr/%7Egambette/xkcd/index.php?id=320"&gt;fait&lt;/a&gt; &lt;a href="http://www.lirmm.fr/%7Egambette/xkcd/index.php?id=304"&gt;accessibles&lt;/a&gt;.&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/28510665-1362728950185585105?l=gambette.blogspot.com'/&gt;&lt;/div&gt;&lt;img src="http://feeds.feedburner.com/~r/JeVeronise/~4/SJ2GgaXim6w" height="1" width="1"/&gt;</content><link rel="replies" type="application/atom+xml" href="http://gambette.blogspot.com/feeds/1362728950185585105/comments/default" title="Publier les commentaires" /><link rel="replies" type="text/html" href="https://www.blogger.com/comment.g?blogID=28510665&amp;postID=1362728950185585105" title="7 commentaires" /><link rel="edit" type="application/atom+xml" href="http://www.blogger.com/feeds/28510665/posts/default/1362728950185585105?v=2" /><link rel="self" type="application/atom+xml" href="http://www.blogger.com/feeds/28510665/posts/default/1362728950185585105?v=2" /><link rel="alternate" type="text/html" href="http://feedproxy.google.com/~r/JeVeronise/~3/SJ2GgaXim6w/xkcd-en-franais.html" title="Xkcd en français" /><author><name>Philippe</name><uri>http://www.blogger.com/profile/17811557333070553722</uri><email>noreply@blogger.com</email><gd:extendedProperty name="OpenSocialUserId" value="01287611096413583131" /></author><thr:total xmlns:thr="http://purl.org/syndication/thread/1.0">7</thr:total><feedburner:origLink>http://gambette.blogspot.com/2008/12/xkcd-en-franais.html</feedburner:origLink></entry><entry gd:etag="W/&quot;DEIAQX0-eSp7ImA9WxRaEE4.&quot;"><id>tag:blogger.com,1999:blog-28510665.post-8682384015633745465</id><published>2008-12-08T00:19:00.003+01:00</published><updated>2008-12-12T00:02:20.351+01:00</updated><app:edited xmlns:app="http://www.w3.org/2007/app">2008-12-12T00:02:20.351+01:00</app:edited><category scheme="http://www.blogger.com/atom/ns#" term="analyse factorielle" /><category scheme="http://www.blogger.com/atom/ns#" term="statistiques" /><category scheme="http://www.blogger.com/atom/ns#" term="tableur" /><category scheme="http://www.blogger.com/atom/ns#" term="FuryPopularity" /><category scheme="http://www.blogger.com/atom/ns#" term="Google" /><category scheme="http://www.blogger.com/atom/ns#" term="science" /><category scheme="http://www.blogger.com/atom/ns#" term="R" /><category scheme="http://www.blogger.com/atom/ns#" term="moteurs de recherche" /><title>Les sections d'un article scientifique (1/2)</title><content type="html">J'utilise fréquemment le nombre de réponses Google : le plus souvent &lt;a href="http://gambette.blogspot.com/2006/05/googlefight-pour-lorthographe.html"&gt;pour l'orthographe&lt;/a&gt;, mais aussi pour diverses expérimentations en soumettant un nombre massif de requêtes, comme dans &lt;a href="http://gambette.blogspot.com/2008/11/bruits-daubry-sur-google.html"&gt;mon billet précédent&lt;/a&gt; (ou tous ceux tagués par mon utilitaire qui permet de le faire, &lt;a href="http://gambette.blogspot.com/search/label/FuryPopularity?max-results=100"&gt;FuryPopularity&lt;/a&gt;). Même s'ils ne sont pas toujours fiables - j'y reviendrai au prochain billet de la série - ils sont le plus souvent assez parlants, comme peuvent l'illustrer &lt;a href="http://xkcd.com/369/"&gt;ces&lt;/a&gt; &lt;a href="http://xkcd.com/458/"&gt;dessins&lt;/a&gt; de &lt;a href="http://xkcd.com/467/"&gt;XKCD&lt;/a&gt;.&lt;br /&gt;&lt;br /&gt;Aujourd'hui, ils vont nous servir à visualiser le découpage traditionnel d'un article scientifique en sections. Le point clé est que l'on y annonce généralement son plan en introduction, en utilisant, de façon parfois un peu pesante, la formulation "&lt;span style="font-style: italic;"&gt;In Section [X], we [VERB]&lt;/span&gt;", comme dans ce fameux article qui promettait : "&lt;span style="font-style: italic;"&gt;In Section 7, we discuss how to draw a rooted split network&lt;/span&gt;" &lt;span style="font-size:78%;"&gt;(comment ça j'ai pas le droit de faire ma pub sur mon blog ?)&lt;/span&gt;.&lt;br /&gt;&lt;br /&gt;Alors que fait-on quand on a une liste d'un peu plus de 3000 verbes anglais depuis &lt;a href="http://gambette.blogspot.com/2008/01/danger-accidents-mortels.html"&gt;cette expérience&lt;/a&gt;, et un Fury Popularity fonctionnel ? Eh bien on profite de ses nuits pour envoyer tout ça automatiquement à Google, en faisant varier le numéro de section X de 1 à 10... Par manque de temps, je repousse au prochain billet sur le sujet mes arguments sur le fait que ça a du sens, bien que tous les articles n'utilisent pas cette formulation en introduction, et je passe directement à la méthodologie. Tout d'abord, récupération des nombres Google :&lt;br /&gt;&lt;ul&gt;&lt;li&gt;pour 3656 verbes anglais &lt;span style="font-size:78%;"&gt;(cette liste de verbes était donnée &lt;a href="http://gambette.blogspot.com/2008/01/danger-accidents-mortels.html"&gt;à la fin de ce billet&lt;/a&gt;)&lt;/span&gt; pour X variant de 1 à 3.&lt;/li&gt;&lt;li&gt;pour "seulement" les 940 verbes qui ont eu des résultats à cette étape précédente, pour X variant de 4 à 10.&lt;/li&gt;&lt;/ul&gt;Les données sont alors stockées dans &lt;a href="http://philippe.gambette.free.fr/Blog/200812Publis/PartialResults.ods"&gt;ce fichier tableur&lt;/a&gt;, et normalisées :&lt;br /&gt;&lt;ul&gt;&lt;li&gt;en colonne tout d'abord, divisées par le nombre total de résultats à X fixé, ce qui fournit pour chaque verbe un pourcentage d'apparition,&lt;/li&gt;&lt;li&gt;en ligne ensuite : pour chaque verbe, soustraction de la moyenne de ses pourcentages d'apparition, puis division par l'écart type.&lt;/li&gt;&lt;/ul&gt;Avec les données ainsi obtenues, en gardant uniquement les verbes donnant plus de 5000 résultats au total, et en retirant les auxiliaires &lt;span style="font-style: italic;"&gt;are&lt;/span&gt;, &lt;span style="font-style: italic;"&gt;have&lt;/span&gt; et &lt;span style="font-style: italic;"&gt;will&lt;/span&gt;, on obtient ce résultat :&lt;br /&gt;&lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://philippe.gambette.free.fr/Blog/200812Publis/ACP.png"&gt;&lt;img style="margin: 0px auto 10px; display: block; text-align: center; cursor: pointer; width: 775px; height: 432px;" src="http://philippe.gambette.free.fr/Blog/200812Publis/ACP.png" alt="" border="0" /&gt;&lt;/a&gt;&lt;br /&gt;Héhé, surpris, hein ? Pas de diagramme, pas d'arbre, pas du nuage ! Eh oui, après un &lt;a href="http://www.agro-montpellier.fr/um2/um1/masterbiostatistique/detail_biostat2008.htm#pudlo"&gt;module de biostats&lt;/a&gt; qui m'a initié à R, et avant de plonger dans les subtilités de &lt;a href="http://web.univ-ubs.fr/corpus/jlc5/ACTES/ACTES_JLC07_lethier_viprey.pdf"&gt;l'utilisation de l'analyse factorielle en lexicométrie&lt;/a&gt;, cet essai de visualisation de données par analyse en composantes principales donne un résultat tout à fait convenable. Il permet en effet de représenter les données en deux dimensions, au lieu des 6 initiales (1 par section), de la meilleure façon possible.&lt;br /&gt;&lt;br /&gt;Le code R (le logiciel est téléchargeable gratuitement &lt;a href="http://www.r-project.org/"&gt;ici&lt;/a&gt;) est le suivant :&lt;br /&gt;&lt;span style=";font-family:courier new;font-size:85%;"&gt;donneesSections &lt;- read.csv ("http://philippe.gambette.free.fr/Blog/200812Publis/ResultsR.csv", dec=",", sep=";",row.names=1)&lt;br /&gt;mesures&lt;-donneesSections[, c("Section1","Section2","Section3","Section4","Section5","Section6")]&lt;br /&gt;acp&lt;-princomp(mesures)&lt;br /&gt;biplot(acp,cex=0.5)&lt;br /&gt;acp&lt;-princomp(mesures,cor=TRUE)&lt;br /&gt;biplot(acp,cex=0.5)&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;Alors n'étant encore pas très familier avec la technique, j'ai quelques questions théoriques et pratiques, que j'espère bien résoudre bientôt &lt;span style="font-size:78%;"&gt;(avec l'aide de mes lecteurs ?)&lt;/span&gt; :&lt;br /&gt;&lt;ul&gt;&lt;li&gt;quelles sont les différences, fondamentales et pratiques, entre l'ACP qui fonctionne sur la matrice de corrélation (qui correspond à l'option cor=TRUE) et la matrice de covariance ?&lt;/li&gt;&lt;li&gt;existe-t-il des options dans R pour choisir les dimensions du dessin ?&lt;/li&gt;&lt;li&gt;existe-t-il des logiciels ou applications web qui fournissent les résultats d'une ACP dans un format plus pratique, permettant de choisir la taille des étiquettes, ou bien de visualiser deux étiquettes superposées&lt;/li&gt;&lt;/ul&gt;En ce qui concerne l'analyse de cette image, je détaillerai certainement plus les conclusions au prochain billet (en vérifiant notamment si les règles théoriques de rédaction d'un article scientifique trouvables &lt;a href="http://biology.luther.edu/paper.htm"&gt;ici&lt;/a&gt; &lt;a href="http://biology.kenyon.edu/Bio_InfoLit/how/page2.html"&gt;ou&lt;/a&gt; &lt;a href="http://classweb.gmu.edu/biologyresources/writingguide/ScientificPaper.htm"&gt;là&lt;/a&gt; semblent vérifiées), mais voici quelques premières remarques :&lt;br /&gt;&lt;ul&gt;&lt;li&gt;les sections 5 et 6, et surtout &lt;span style="font-weight: bold;"&gt;1 et 2&lt;/span&gt; semblent avoir des &lt;span style="font-weight: bold;"&gt;rôles très proches&lt;/span&gt;. Ceci peut s'expliquer pour 1 et 2 par le fait que le plan peut se trouver soit dans le résumé, hors section, soit dans la section 1 : ainsi, la partie introductive, à laquelle les verbes &lt;span style="font-style: italic;"&gt;begin&lt;/span&gt;, &lt;span style="font-style: italic;"&gt;introduce&lt;/span&gt;, &lt;span style="font-style: italic;"&gt;start&lt;/span&gt;, &lt;span style="font-style: italic;"&gt;recall&lt;/span&gt;, &lt;span style="font-style: italic;"&gt;formulate &lt;/span&gt;sont associés, se trouve en section 1 ou 2, tout comme la partie d'&lt;a href="http://fr.wikipedia.org/wiki/%C3%89tat_de_l%27art"&gt;état de l'art&lt;/a&gt; : &lt;span style="font-style: italic;"&gt;review&lt;/span&gt;, &lt;span style="font-style: italic;"&gt;survey&lt;/span&gt;, &lt;span style="font-style: italic;"&gt;collect&lt;/span&gt;.&lt;/li&gt;&lt;li&gt;Pour les sections &lt;span style="font-weight: bold;"&gt;5 et 6&lt;/span&gt;, c'est la longueur variable des articles qui fait que les verbes indiquant la &lt;span style="font-weight: bold;"&gt;validation finale&lt;/span&gt; avec &lt;span style="font-style: italic;"&gt;compare&lt;/span&gt;, &lt;span style="font-style: italic;"&gt;evaluate&lt;/span&gt;, &lt;span style="font-style: italic;"&gt;perform&lt;/span&gt;, &lt;span style="font-style: italic;"&gt;explore&lt;/span&gt;, ou le &lt;span style="font-weight: bold;"&gt;bilan&lt;/span&gt;, &lt;span style="font-style: italic;"&gt;summarize&lt;/span&gt;, &lt;span style="font-style: italic;"&gt;conclude&lt;/span&gt;, ont des profils différenciant peu les sections 5 et 6.&lt;/li&gt;&lt;li&gt;Les sections &lt;span style="font-weight: bold;"&gt;3 et 4&lt;/span&gt; sont visiblement dédiées aux &lt;span style="font-weight: bold;"&gt;gros morceaux&lt;/span&gt; : &lt;span style="font-style: italic;"&gt;assume&lt;/span&gt;, &lt;span style="font-style: italic;"&gt;investigate&lt;/span&gt;, &lt;span style="font-style: italic;"&gt;describe&lt;/span&gt;, &lt;span style="font-style: italic;"&gt;construct&lt;/span&gt;, &lt;span style="font-style: italic;"&gt;calculate&lt;/span&gt;, &lt;span style="font-style: italic;"&gt;determine&lt;/span&gt;, &lt;span style="font-style: italic;"&gt;demonstrate &lt;/span&gt;; &lt;span style="font-style: italic;"&gt;discuss&lt;/span&gt;, &lt;span style="font-style: italic;"&gt;analyze&lt;/span&gt; et &lt;span style="font-style: italic;"&gt;extend&lt;/span&gt;, apparaissent alors qu'on se rapproche des sections finales.&lt;/li&gt;&lt;/ul&gt;A bientôt pour la fin de cette discussion, et le retour de quelques nuages ! Il y aura certainement un billet spécial XKCD entre les deux pour patienter.&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/28510665-8682384015633745465?l=gambette.blogspot.com'/&gt;&lt;/div&gt;&lt;img src="http://feeds.feedburner.com/~r/JeVeronise/~4/_xrPdCvHEfU" height="1" width="1"/&gt;</content><link rel="replies" type="application/atom+xml" href="http://gambette.blogspot.com/feeds/8682384015633745465/comments/default" title="Publier les commentaires" /><link rel="replies" type="text/html" href="https://www.blogger.com/comment.g?blogID=28510665&amp;postID=8682384015633745465" title="6 commentaires" /><link rel="edit" type="application/atom+xml" href="http://www.blogger.com/feeds/28510665/posts/default/8682384015633745465?v=2" /><link rel="self" type="application/atom+xml" href="http://www.blogger.com/feeds/28510665/posts/default/8682384015633745465?v=2" /><link rel="alternate" type="text/html" href="http://feedproxy.google.com/~r/JeVeronise/~3/_xrPdCvHEfU/les-sections-dun-article-scientifique.html" title="Les sections d'un article scientifique (1/2)" /><author><name>Philippe</name><uri>http://www.blogger.com/profile/17811557333070553722</uri><email>noreply@blogger.com</email><gd:extendedProperty name="OpenSocialUserId" value="01287611096413583131" /></author><thr:total xmlns:thr="http://purl.org/syndication/thread/1.0">6</thr:total><feedburner:origLink>http://gambette.blogspot.com/2008/12/les-sections-dun-article-scientifique.html</feedburner:origLink></entry><entry gd:etag="W/&quot;CkIMRHs4fCp7ImA9WxRUFEk.&quot;"><id>tag:blogger.com,1999:blog-28510665.post-753548177459909187</id><published>2008-11-23T12:29:00.001+01:00</published><updated>2008-11-23T12:43:05.534+01:00</updated><app:edited xmlns:app="http://www.w3.org/2007/app">2008-11-23T12:43:05.534+01:00</app:edited><category scheme="http://www.blogger.com/atom/ns#" term="FuryPopularity" /><category scheme="http://www.blogger.com/atom/ns#" term="sondages" /><category scheme="http://www.blogger.com/atom/ns#" term="graphique" /><category scheme="http://www.blogger.com/atom/ns#" term="Google" /><category scheme="http://www.blogger.com/atom/ns#" term="politique" /><category scheme="http://www.blogger.com/atom/ns#" term="moteurs de recherche" /><title>Bruits d'Aubry sur Google</title><content type="html">Depuis &lt;a href="http://gambette.blogspot.com/2008/07/les-prsidentiables-en-2012-selon-google.html"&gt;juillet&lt;/a&gt;, je prends régulièrement la température Google des présidentiables pour 2012 en recherchant l'expression "&lt;em&gt;X&lt;/em&gt; en 2012" ou "&lt;em&gt;X&lt;/em&gt; candidat(e) en 2012" pour divers &lt;em&gt;X&lt;/em&gt;. Les chiffres obtenus ne sont pas toujours très parlants si l'on regarde précisément pour chacun, mais sont globalement pertinents pour visualiser le bruit du web autour des candidatures potentielles. Depuis juillet, pas trop d'évolution pour les candidats de gauche (justement, le reflet qu'aucun champion n'est sorti du lot ?), mais &lt;strong&gt;ça s'est réveillé avant-hier pour Martine Aubry&lt;/strong&gt; : &lt;a href="http://spreadsheets.google.com/pub?key=psV7RHudMtPYC53UIn5EZcw&amp;amp;gid=4"&gt;&lt;img style="DISPLAY: block; MARGIN: 0px auto 10px; WIDTH: 600px; CURSOR: hand; HEIGHT: 226px; TEXT-ALIGN: center" alt="" src="http://philippe.gambette.free.fr/Blog/200807Presidentiables/Presidentiables_2012.Aubry.png" border="0" /&gt;&lt;/a&gt;&lt;br /&gt;A droite, &lt;a href="http://spreadsheets.google.com/pub?key=psV7RHudMtPYC53UIn5EZcw&amp;amp;gid=7"&gt;rien de nouveau&lt;/a&gt; (Chirac ou Villepin ont eu des bonds qui viennent d'erreurs d'évaluation du nombre de résultats par Google). En revanche pour 2017, malgré les petits chiffres, c'est plus intéressant, avec un trio de tête Copé, Sarkozy, Dati : &lt;a href="http://spreadsheets.google.com/pub?key=psV7RHudMtPakExjPe1K1LA&amp;amp;gid=7"&gt;&lt;img style="DISPLAY: block; MARGIN: 0px auto 10px; CURSOR: hand; TEXT-ALIGN: center" alt="" src="http://philippe.gambette.free.fr/Blog/200807Presidentiables/Presidentiables_2017.Novembre2008.png" border="0" /&gt;&lt;/a&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/28510665-753548177459909187?l=gambette.blogspot.com'/&gt;&lt;/div&gt;&lt;img src="http://feeds.feedburner.com/~r/JeVeronise/~4/r7VQMoovy6c" height="1" width="1"/&gt;</content><link rel="replies" type="application/atom+xml" href="http://gambette.blogspot.com/feeds/753548177459909187/comments/default" title="Publier les commentaires" /><link rel="replies" type="text/html" href="https://www.blogger.com/comment.g?blogID=28510665&amp;postID=753548177459909187" title="1 commentaires" /><link rel="edit" type="application/atom+xml" href="http://www.blogger.com/feeds/28510665/posts/default/753548177459909187?v=2" /><link rel="self" type="application/atom+xml" href="http://www.blogger.com/feeds/28510665/posts/default/753548177459909187?v=2" /><link rel="alternate" type="text/html" href="http://feedproxy.google.com/~r/JeVeronise/~3/r7VQMoovy6c/bruits-daubry-sur-google.html" title="Bruits d'Aubry sur Google" /><author><name>Philippe</name><uri>http://www.blogger.com/profile/17811557333070553722</uri><email>noreply@blogger.com</email><gd:extendedProperty name="OpenSocialUserId" value="01287611096413583131" /></author><thr:total xmlns:thr="http://purl.org/syndication/thread/1.0">1</thr:total><feedburner:origLink>http://gambette.blogspot.com/2008/11/bruits-daubry-sur-google.html</feedburner:origLink></entry><entry gd:etag="W/&quot;AkcFQnc-eip7ImA9WxVREUw.&quot;"><id>tag:blogger.com,1999:blog-28510665.post-5478703244093955305</id><published>2008-11-18T18:45:00.003+01:00</published><updated>2009-01-16T16:00:13.952+01:00</updated><app:edited xmlns:app="http://www.w3.org/2007/app">2009-01-16T16:00:13.952+01:00</app:edited><category scheme="http://www.blogger.com/atom/ns#" term="langage" /><category scheme="http://www.blogger.com/atom/ns#" term="statistiques" /><category scheme="http://www.blogger.com/atom/ns#" term="tableur" /><category scheme="http://www.blogger.com/atom/ns#" term="corrélation" /><category scheme="http://www.blogger.com/atom/ns#" term="graphique" /><category scheme="http://www.blogger.com/atom/ns#" term="clavier" /><title>Claviers espions : usure et fréquence de lettres</title><content type="html">Dur dur de poster après une période silencieuse sur son blog... Reprendre un &lt;a href="http://gambette.blogspot.com/2007/01/comment-translater-les-titres-de-films.html"&gt;billet vaguement réveillé&lt;/a&gt; par &lt;a href="http://correcteurs.blog.lemonde.fr/2008/10/23/alors-on-ne-traduit-plus/"&gt;un autre d'un blog influent&lt;/a&gt; ? Ficeler un rapport peu concluant sur &lt;a href="http://spreadsheets.google.com/pub?key=psV7RHudMtPYPt9pS7RPCTw&amp;amp;output=html&amp;amp;gid=1&amp;amp;single=true&amp;amp;widget=true"&gt;l'influence de la plateforme sur le classement d'un blog&lt;/a&gt; ? Non, il faut un nouveau résultat fort, mêlant une idée théoriquement ingénieuse et calculable en pratique, un vrai projet de longue haleine qui montre qu'on n'a pas chômé...&lt;br /&gt;&lt;br /&gt;Tout est parti de deux touches de clavier défaillantes. Delphine, déjà à l'origine de &lt;a href="http://gambette.blogspot.com/2008/02/traquer-les-mots-moches.html"&gt;quelques&lt;/a&gt; &lt;a href="http://gambette.blogspot.com/2008/06/quand-google-joue-les-ravaillac.html"&gt;posts&lt;/a&gt; &lt;a href="http://gambette.blogspot.com/2008/07/livre-interactif-lisbonne-par-fernando.html"&gt;sur ce blog&lt;/a&gt;, notait que les deux touches qui s'étaient détachées de son clavier faisaient partie du mot-clé principal de sa thèse. Il n'en fallait pas plus pour me faire envisager une forte &lt;strong&gt;corrélation entre l'usure des touches et leur fréquence d'utilisation&lt;/strong&gt; (aussi remarquée &lt;a href="http://www.nokytech.net/forum/showthread.php?p=2668453"&gt;ici&lt;/a&gt; par exemple), et rechercher les moyens de mesurer tout ça... et d'en déduire des choses.&lt;br /&gt;&lt;br /&gt;&lt;p&gt;&lt;img style="margin: 0px auto 10px; display: block; text-align: center;" alt="" src="http://philippe.gambette.free.fr/Blog/200811Clavier/UsureClavierDellMini.jpg" border="0" /&gt;&lt;br /&gt;Par chance, mon clavier Dell reflète assez bien son utilisation (ceux de &lt;a href="http://forums.macgeneration.com/le-bar-macg/analyse-de-lusure-du-clavier-29120.html"&gt;certains Mac aussi apparemment&lt;/a&gt;, voire &lt;a href="http://www.boingboing.net/2008/03/28/medical-transcriptio.html"&gt;les claviers NMB Technologies&lt;/a&gt;), au bout d'un an. Mon "S" est par exemple presque complètement effacé. Mais surtout, si on regarde de plus près, les touches fréquemment utilisées sont vraiment usées, le plastique y est plus lisse, et elles réfléchissent beaucoup mieux la lumière. Je ne sais pas ce que ce polissage implique sur l'absorption de matières toxiques du bout des doigts, mais en tout cas il permet de faire des mesures : en éclairant le clavier par dessus et en prenant la photo de travers, les zones très réfléchissantes apparaissent plus sombres que le reste.&lt;br /&gt;&lt;br /&gt;&lt;img style="margin: 0px 0px 10px 10px; float: right;" alt="" src="http://philippe.gambette.free.fr/Blog/200811Clavier/MesureUsure.jpg" border="0" /&gt; Il faut alors &lt;strong&gt;quantifier l'usure à partir de la photo&lt;/strong&gt;. Si l'on veut des résultats très précis, on peut s'amuser à faire du traitement d'image et mesurer l'intensité sur les portions de photo qui correspondent aux touches. Ca demande un gros travail, surtout de normalisation de l'image... alors qu'on peut procéder plus simplement : construire un quadrillage 5x5, le coller sur chaque touche, et compter les carreaux, parmi ces 25, qui sont sombres. En fait, pour les premières lettres, on compte les carreaux pour préparer quelques étalons, après, on compare avec les lettres dont l'usure a déjà été évaluée.&lt;br /&gt;&lt;br /&gt;Une fois ces quantités d'usure obtenues, on peut les &lt;strong&gt;comparer avec les fréquences de lettres en français&lt;/strong&gt;. Pour cela, on me l'a confirmé dans mon cours de biostats cette année, rien ne vaut un joli diagramme XY :&lt;a href="http://philippe.gambette.free.fr/Blog/200811Clavier/DiagrammeUsureFrequence.png"&gt;&lt;img style="margin: 0px auto 10px; display: block; text-align: center;" alt="" src="http://philippe.gambette.free.fr/Blog/200811Clavier/DiagrammeUsureFrequenceMini.png" border="0" /&gt;&lt;/a&gt;&lt;/p&gt;&lt;p&gt;La corrélation est nette (coefficient 0,89), toutefois la relation entre les deux variables semble n'être pas exactement linéaire. Essayons d'élever l'usure au carré, ça semble mieux fonctionner (coefficient de corrélation 0,92), même si ce n'est pas parfait :&lt;a href="http://philippe.gambette.free.fr/Blog/200811Clavier/DiagrammeUsureCarreFrequence.png"&gt;&lt;img style="margin: 0px auto 10px; display: block; text-align: center;" alt="" src="http://philippe.gambette.free.fr/Blog/200811Clavier/DiagrammeUsureCarreFrequenceMini.png" border="0" /&gt;&lt;/a&gt;&lt;/p&gt;&lt;p&gt;Qu'est-ce qui pourrait expliquer ces variations par rapport à la distribution moyenne des lettres en français ? Les gros joueurs de jeux vidéos ont apparemment leurs touches fétiches, je pense que ma forte usure de C et V vient de mon abus de raccourcis pour le copier coller, pour W c'est sûrement les adresses web. De plus, j'utilise mon ordinateur pour écrire à la fois en français et en anglais. Tiens tiens, et si &lt;strong&gt;j'utilisais l'usure des touches pour évaluer à quelle fréquence je tape en anglais ou en français&lt;/strong&gt; ?&lt;br /&gt;&lt;br /&gt;L'idée est donc que la distribution de l'usure n'est pas semblable à celle du français, mais à une &lt;strong&gt;combinaison linéaire de celle du français et de l'anglais&lt;/strong&gt;. J'appelle U(&lt;em&gt;l&lt;/em&gt;) ma fréquence d'utilisation de la lettre &lt;em&gt;l&lt;/em&gt;, F(&lt;em&gt;l&lt;/em&gt;) (respectivement A(&lt;em&gt;l&lt;/em&gt;)) sa fréquence d'utilisation en français (resp. en anglais), et j'appelle &lt;strong&gt;&lt;em&gt;x&lt;/em&gt; le ratio de ce que je tape en français par rapport à tout ce que j'écris avec mon ordinateur&lt;/strong&gt;. U est donc une &lt;a href="http://fr.wikipedia.org/wiki/Densit%C3%A9_m%C3%A9lange"&gt;loi mélange&lt;/a&gt; de F et A : U(&lt;em&gt;l&lt;/em&gt;) = &lt;em&gt;x&lt;/em&gt; F(&lt;em&gt;l&lt;/em&gt;) + (1-&lt;em&gt;x&lt;/em&gt;) A(&lt;em&gt;l&lt;/em&gt;). &lt;strong&gt;J'essaie de trouver &lt;em&gt;x&lt;/em&gt;&lt;/strong&gt; en connaissant une approximation de U, de F et de A pour toute lettre. Pour cela, je vais calculer le membre de droite pour toutes les valeurs de &lt;em&gt;x&lt;/em&gt; entre 0 et 1, et évaluer la corrélation avec U. Tout peut se faire avec un tableur, ça se passe &lt;a href="http://philippe.gambette.free.fr/Blog/200811Clavier/Lettres.ods"&gt;ici&lt;/a&gt;.&lt;br /&gt;&lt;br /&gt;J'en profite pour une petite digression sur le &lt;a href="http://fr.wikipedia.org/wiki/Corr%C3%A9lation_%28statistiques%29#Coefficient_de_corr.C3.A9lation_lin.C3.A9aire_de_Bravais-Pearson"&gt;&lt;strong&gt;coefficient de corrélation de Pearson&lt;/strong&gt;&lt;/a&gt;, implémenté par COEFFICIENT.CORRELATION dans tout tableur digne de ce nom, que j'avais utilisé dans certains &lt;a href="http://gambette.blogspot.com/2008/01/britney-amy-duel-mortel.html"&gt;posts&lt;/a&gt; &lt;a href="http://gambette.blogspot.com/2007/10/dissection-dune-ptition-1.html"&gt;précédents&lt;/a&gt; sans comprendre sa formule magique. En fait, la formule est tout à fait naturelle une fois qu'on a compris que &lt;strong&gt;pour normaliser des distributions&lt;/strong&gt;, classiquement, on &lt;strong&gt;divise les valeurs par l'écart type&lt;/strong&gt;, avant de soustraire la moyenne &lt;span style="font-size:78%;"&gt;(merci encore au cours de biostats, décidément ces modules doctoraux ont du bon quand on les choisit soi-même...)&lt;/span&gt;.&lt;/p&gt;&lt;p&gt;Bref, passons aux résultats. J'utilise trois distributions de fréquences de lettres en français trouvées sur internet pour F, deux pour l'anglais et la distribution A. A chaque fois je calcule la valeur optimale de &lt;em&gt;x&lt;/em&gt;. Je termine par une moyenne de ces valeurs de &lt;em&gt;x&lt;/em&gt; : 0.81 (avec selon la distribution une variation inférieure à 10%). Bref, environ &lt;strong&gt;1/5 de ce que je tape est en anglais&lt;/strong&gt;. &lt;/p&gt;&lt;p&gt;A quel point la méthode présentée ici est fiable ? D'une part, il est connu que &lt;strong&gt;&lt;a href="http://aixtal.blogspot.com/2008/05/handicap-le-scaphandre-et-le-papillon-1.html"&gt;les fréquences de lettres varient selon le corpus utilisé&lt;/a&gt;&lt;/strong&gt;. D'autre part, le coefficient de corrélation que je tente de maximiser afin de trouver le ratio &lt;em&gt;x&lt;/em&gt; est peut-être &lt;strong&gt;trop sensible à de petites variations sur les fréquences de lettres&lt;/strong&gt;. Pour tester ça, j'ai collé un bout de texte anglais à un bout de texte français (en connaissant le ratio &lt;em&gt;x&lt;/em&gt;, donc) et j'ai &lt;strong&gt;essayé de le retrouver par la méthode de maximisation du coefficient de corrélation&lt;/strong&gt;. Pour une étude plus sérieuse, j'aurais peut-être essayé un corpus de textes variés, là au vu des résultats je me suis contenté de mon premier essai.&lt;br /&gt;&lt;br /&gt;&lt;a href="http://philippe.gambette.free.fr/Blog/200811Clavier/Verification.png"&gt;&lt;img style="margin: 0px 0px 10px 10px; float: right;" alt="" src="http://philippe.gambette.free.fr/Blog/200811Clavier/Verification.png" border="0" /&gt;&lt;/a&gt;J'ai utilisé &lt;a href="http://www.simonsingh.net/The_Black_Chamber/frequencyanalysis.html"&gt;cet outil en ligne de calcul de fréquence de lettres&lt;/a&gt;, qui fournit des pourcentages de fréquences arrondis à l'entier près (pas très précis, donc, à peu près autant que mes mesures sur le clavier). J'ai copié le premier &lt;a href="http://philippe.gambette.free.fr/Blog/200811Clavier/Texte1.txt"&gt;article du Monde&lt;/a&gt; que j'ai eu sous les yeux dans mon flux RSS, concaténé au &lt;a href="http://philippe.gambette.free.fr/Blog/200811Clavier/Texte2.txt"&gt;texte de la page d'accueil de l'outil&lt;/a&gt;, en anglais donc (remarquez que ces deux textes sont très courts). Puis appliqué la méthode, avec les deux distributions de fréquences pour l'anglais et les trois pour le français. En faisant la moyenne des coefficients trouvés, j'obtiens 0,79 alors que la valeur réelle était 0,81 (8327 octets pour le texte français, 1904 pour l'anglais), soit &lt;strong&gt;à peine 3% d'erreur&lt;/strong&gt; (et pour chaque couple de distributions de fréquences anglais/français, moins de 10% d'erreur).&lt;/p&gt;&lt;p&gt;Bref, je suis assez confiant pour placer une marge d'erreur de 10%, et affirmer qu'il est possible de deviner par cette technique la langue d'un utilisateur d'ordinateur Dell qui use raisonnablement son clavier. Pas mal sans utiliser de vrai &lt;a href="http://amecisco.com/products.htm"&gt;clavier espion&lt;/a&gt; !&lt;/p&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/28510665-5478703244093955305?l=gambette.blogspot.com'/&gt;&lt;/div&gt;&lt;img src="http://feeds.feedburner.com/~r/JeVeronise/~4/q4D2fra4fL8" height="1" width="1"/&gt;</content><link rel="replies" type="application/atom+xml" href="http://gambette.blogspot.com/feeds/5478703244093955305/comments/default" title="Publier les commentaires" /><link rel="replies" type="text/html" href="https://www.blogger.com/comment.g?blogID=28510665&amp;postID=5478703244093955305" title="4 commentaires" /><link rel="edit" type="application/atom+xml" href="http://www.blogger.com/feeds/28510665/posts/default/5478703244093955305?v=2" /><link rel="self" type="application/atom+xml" href="http://www.blogger.com/feeds/28510665/posts/default/5478703244093955305?v=2" /><link rel="alternate" type="text/html" href="http://feedproxy.google.com/~r/JeVeronise/~3/q4D2fra4fL8/claviers-espions-usure-et-frquence-de.html" title="Claviers espions : usure et fréquence de lettres" /><author><name>Philippe</name><uri>http://www.blogger.com/profile/17811557333070553722</uri><email>noreply@blogger.com</email><gd:extendedProperty name="OpenSocialUserId" value="01287611096413583131" /></author><thr:total xmlns:thr="http://purl.org/syndication/thread/1.0">4</thr:total><feedburner:origLink>http://gambette.blogspot.com/2008/11/claviers-espions-usure-et-frquence-de.html</feedburner:origLink></entry><entry gd:etag="W/&quot;DUQEQ3kyeip7ImA9WxdaGE8.&quot;"><id>tag:blogger.com,1999:blog-28510665.post-7364957670365699143</id><published>2008-08-06T23:59:00.004+02:00</published><updated>2008-08-27T10:55:02.792+02:00</updated><app:edited xmlns:app="http://www.w3.org/2007/app">2008-08-27T10:55:02.792+02:00</app:edited><category scheme="http://www.blogger.com/atom/ns#" term="buzz" /><category scheme="http://www.blogger.com/atom/ns#" term="presse" /><category scheme="http://www.blogger.com/atom/ns#" term="TreeCloud" /><category scheme="http://www.blogger.com/atom/ns#" term="société" /><category scheme="http://www.blogger.com/atom/ns#" term="spam" /><category scheme="http://www.blogger.com/atom/ns#" term="nuage arboré" /><title>L'agence de presse des spammeurs</title><content type="html">&lt;div style="text-align: center;"&gt;"&lt;i&gt;Google accusé d'espionnage par l'Union Européenne&lt;/i&gt;",&lt;br /&gt;"&lt;i&gt;La Wii Fit utilisée pour entraîner les troupes américaines&lt;/i&gt;",&lt;br /&gt;"&lt;i&gt;Bush évite un soulèvement albanais en envahissant l'Alabama&lt;/i&gt;",&lt;br /&gt;"&lt;i&gt;Al Pacino soupçonné de financer la mafia&lt;/i&gt;"...&lt;br /&gt;&lt;/div&gt;Vous en avez loupé des choses cet été, vous dites-vous en consultant votre boîte mail au retour des vacances !&lt;br /&gt;&lt;br /&gt;En fait, ce que vous avez surtout loupé, c'est un mois de juillet marqué par des &lt;span style="font-weight: bold;"&gt;spammeurs farceurs et originaux dans leur choix de sujet de mail&lt;/span&gt; constitué d'un &lt;span style="font-weight: bold;"&gt;faux-titre d'article de journal&lt;/span&gt;. Dommage, ça n'allait pas plus loin que le titre, et ces courriels contenaient généralement seulement une autre phrase du même tabac suivie d'un lien vers un site douteux. Le phénomène s'est apparemment arrêté depuis quelques jours. Je n'ai pas résisté au plaisir de compiler tout ça, puisque la période du 6 juillet au 3 août a été très productive pour le Monsieur Titres à l'origine de ces trouvailles, qui pourrait sans problème envoyer son CV à &lt;a href="http://images.google.fr/images?q=france%20dimanche"&gt;France Dimanche&lt;/a&gt; ou trouver des titres encore plus racoleurs aux articles du &lt;a href="http://www.lepost.fr/"&gt;Post&lt;/a&gt;.&lt;br /&gt;&lt;br /&gt;Quelques détails techniques sur la cueillette de ces titres : récupération manuelle sur quatre adresses mails, puis recherche Google de certains d'entre eux, pour tomber sur un &lt;a href="http://fr.wikipedia.org/wiki/Splog"&gt;splog&lt;/a&gt; qui a doublé ma récolte (titres récupérés &lt;a href="http://philippe.gambette.free.fr/Blog/200807SpamDimanche/Titles.csv"&gt;par mail&lt;/a&gt;, &lt;a href="http://philippe.gambette.free.fr/Blog/200807SpamDimanche/FromBlog.txt"&gt;sur le splog&lt;/a&gt;, &lt;a href="http://philippe.gambette.free.fr/Blog/200807SpamDimanche/Total.txt"&gt;listes concaténées en éliminant les doublons&lt;/a&gt;). Le fichier obtenu m'a permis de tester ma dernière version (0.5) de &lt;a href="http://www.lirmm.fr/%7Egambette/ProgTreeCloud.php"&gt;TreeCloud&lt;/a&gt; (&lt;span style="font-size:78%;"&gt;ça y est, elle est utilisable sans devoir installer SplitsTree, on en reparlera, &lt;span style="text-decoration: underline;"&gt;&lt;/span&gt;&lt;a href="http://www.lirmm.fr/%7Egambette/ProgTreeCloud.php"&gt;informations et téléchargement ici&lt;/a&gt;&lt;/span&gt;). Bref, voici un petit nuage arboré qui permet de voir quelques thèmes forts qui doivent éveiller la curiosité de l'anglophone moyen :&lt;br /&gt;&lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://www.lirmm.fr/%7Egambette/ProgTreeCloud.php"&gt;&lt;img style="margin: 0px auto 10px; display: block; text-align: center; cursor: pointer;" src="http://philippe.gambette.free.fr/Blog/200807SpamDimanche/Spam_Title_TreeCloud.png" alt="" border="0" /&gt;&lt;/a&gt;&lt;br /&gt;Et comme l'arbre ne semble finalement pas si louche (à part peut-être le sous-arbre des sex-tapes d'Obama et MacCain), un petit best-of - que je n'oserai pas traduire - pour voir à quel point les nouvelles annoncées étaient bidon :&lt;br /&gt;&lt;div  style="text-align: center;font-family:courier new;"&gt;&lt;span style="font-family:trebuchet ms;"&gt;Statue of liberty to return to France&lt;br /&gt;Ex-Google engineers debut 'Cuil' way to search &lt;/span&gt;&lt;span style="font-style: italic;font-family:trebuchet ms;font-size:78%;"  &gt;(décidément, cette non-information est partout !)&lt;/span&gt;&lt;br /&gt;&lt;span style=";font-family:trebuchet ms;font-size:100%;"  &gt;Angry man shoots lawnmower&lt;br /&gt;Prada gives fake bags to charity&lt;br /&gt;Release Of The Nancy Pelosi Sex Dvd Causes Mass Mass Erectile Dysfunction In US&lt;br /&gt;Tupac Shakur Speaks Out From Beyond The Grave: "Stop Releasing My Stanky Old Songs"&lt;br /&gt;Bush And Mccain Dance Ballet&lt;br /&gt;Jesus Christ To Star In Next Series Of Batman&lt;br /&gt;Madonnas Former Home Destroyed By Jesus&lt;br /&gt;Jesus Christ To Star In Next Series Of Big Brother&lt;br /&gt;The truth about ghosts revealed&lt;br /&gt;Mermaid discovered off NZ coast&lt;br /&gt;Yahoo search shuts down for good&lt;br /&gt;Swedish princess slaps town florist&lt;br /&gt;Danish princess slaps town grocer&lt;br /&gt;Black Panthers Sue White Guys For Stealing Copyrighted Gesture&lt;br /&gt;Bush 'Troubled' by Gay Marriages. Declares San Francisco Part of 'Axis of Evil'&lt;br /&gt;Beijing Olympics cancelled, moved to Atlanta&lt;br /&gt;Living proof that the earth is flat available&lt;br /&gt;Angelina Jolie gives birth to triplets&lt;br /&gt;&lt;/span&gt;&lt;/div&gt;&lt;br /&gt;&lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://philippe.gambette.free.fr/Blog/200807SpamDimanche/Spam_CNN_Big.png"&gt;&lt;img style="margin: 0pt 0pt 10px 10px; float: right; cursor: pointer;" src="http://philippe.gambette.free.fr/Blog/200807SpamDimanche/Spam_CNN.png" alt="" border="0" /&gt;&lt;/a&gt;Et que s'est-il passé le 3 août ? Ces spams ont été remplacés par un nouveau format : de faux mails d'alerte de CNN. Certes, on a une vingtaine de titres pour le prix d'un, mais ça sent le recyclage : pas mal d'entre eux sont déjà présents dans la liste que j'ai compilée. Et surtout il faut cliquer une première fois pour accéder au corps du message, contrairement au titre dans le champ &lt;i&gt;Sujet du mail&lt;/i&gt; qui sautait tout de suite aux yeux. Bah, en attendant qu'ils reviennent à la version précédente, je me contenterai du &lt;a href="http://www.lemonde.fr/web/rss/0,48-0,1-0,0.html"&gt;RSS du Monde&lt;/a&gt;.&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/28510665-7364957670365699143?l=gambette.blogspot.com'/&gt;&lt;/div&gt;&lt;img src="http://feeds.feedburner.com/~r/JeVeronise/~4/RCGvyie4Q94" height="1" width="1"/&gt;</content><link rel="replies" type="application/atom+xml" href="http://gambette.blogspot.com/feeds/7364957670365699143/comments/default" title="Publier les commentaires" /><link rel="replies" type="text/html" href="https://www.blogger.com/comment.g?blogID=28510665&amp;postID=7364957670365699143" title="0 commentaires" /><link rel="edit" type="application/atom+xml" href="http://www.blogger.com/feeds/28510665/posts/default/7364957670365699143?v=2" /><link rel="self" type="application/atom+xml" href="http://www.blogger.com/feeds/28510665/posts/default/7364957670365699143?v=2" /><link rel="alternate" type="text/html" href="http://feedproxy.google.com/~r/JeVeronise/~3/RCGvyie4Q94/lagence-de-presse-des-spammeurs.html" title="L'agence de presse des spammeurs" /><author><name>Philippe</name><uri>http://www.blogger.com/profile/17811557333070553722</uri><email>noreply@blogger.com</email><gd:extendedProperty name="OpenSocialUserId" value="01287611096413583131" /></author><thr:total xmlns:thr="http://purl.org/syndication/thread/1.0">0</thr:total><feedburner:origLink>http://gambette.blogspot.com/2008/08/lagence-de-presse-des-spammeurs.html</feedburner:origLink></entry><entry gd:etag="W/&quot;DkUCRnw-cCp7ImA9WxVbFUk.&quot;"><id>tag:blogger.com,1999:blog-28510665.post-2406269912532115600</id><published>2008-07-13T14:21:00.004+02:00</published><updated>2009-04-01T02:04:27.258+02:00</updated><app:edited xmlns:app="http://www.w3.org/2007/app">2009-04-01T02:04:27.258+02:00</app:edited><category scheme="http://www.blogger.com/atom/ns#" term="tableur" /><category scheme="http://www.blogger.com/atom/ns#" term="FuryPopularity" /><category scheme="http://www.blogger.com/atom/ns#" term="sondages" /><category scheme="http://www.blogger.com/atom/ns#" term="Google" /><category scheme="http://www.blogger.com/atom/ns#" term="politique" /><category scheme="http://www.blogger.com/atom/ns#" term="moteurs de recherche" /><title>Les présidentiables en 2012 selon Google</title><content type="html">Le côté "&lt;span style="font-weight: bold;"&gt;femme politique&lt;/span&gt;" d'Íngrid Bétancourt a été un peu passé sous silence par la presse après sa libération, traitée plutôt sous l'angle de l'émotion, ou de la récupération politique extérieure. Seuls quelques rares articles (&lt;a href="http://tf1.lci.fr/infos/monde/ameriques/0,,3905082,00-colombie-star-est-uribe-plus-que-betancourt-.html"&gt;ici&lt;/a&gt;, &lt;a href="http://tf1.lci.fr/infos/monde/ameriques/0,,3906653,00-ingrid-betancourt-craint-pour-securite-.html"&gt;là&lt;/a&gt; ou &lt;a href="http://www.cyberpresse.ca/article/20080705/CPMONDE/80705030/5032/CPACTUALITES/?utm_source=Fils&amp;amp;utm_medium=RSS&amp;amp;utm_campaign=ACCUEIL"&gt;là&lt;/a&gt;) évoquent les &lt;span style="font-weight: bold;"&gt;projets d'Íngrid&lt;/span&gt; qui &lt;a href="http://fr.wikipedia.org/wiki/%C3%8Dngrid_Betancourt#Carri.C3.A8re_politique"&gt;depuis 1990 suivait une carrière politique en Colombie&lt;/a&gt;. Et en France ? Cette idée a déjà fait surface sur la toile en &lt;a href="http://fr.answers.yahoo.com/question/index?qid=20080703020730AA2b2L4"&gt;divers&lt;/a&gt; &lt;a href="http://www.jeuxvideo.com/forums/1-69-1294499-1-0-1-0-i-betancourt-candidate-en-2012.htm"&gt;endroits&lt;/a&gt; (rien vu sur la blogosphère en tout cas).&lt;br /&gt;A quel point ces rumeurs sont-elles significatives ? Regardons ce que donnent les requêtes &lt;span style="font-weight: bold;"&gt;"X candidat(e) en 2012"&lt;/span&gt; et &lt;span style="font-weight: bold;"&gt;"X en 2012"&lt;/span&gt; sur Google :&lt;br /&gt;&lt;br /&gt;&lt;!--http://spreadsheets.google.com/pub?key=psV7RHudMtPYhtfDp8UE-UA&amp;amp;output=html--&gt;&lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://spreadsheets.google.com/pub?key=psV7RHudMtPYC53UIn5EZcw&amp;gid=4"&gt;&lt;img style="margin: 0px auto 10px; display: block; text-align: center; cursor: pointer;" src="http://philippe.gambette.free.fr/Blog/200807Presidentiables/Presidentiables_2012.png" alt="Possibles candidats aux présidentielles de 2012 selon Google" border="0" /&gt;&lt;/a&gt;Attention, comme toujours avec les "Google numbers", les résultats sont à prendre avec des pincettes. Toutefois, le premier souci qui est celui de la &lt;span style="font-weight: bold;"&gt;polysémie des expressions recherchées&lt;/span&gt; est plutôt bien réglé par le "en 2012". Il précise le contexte des élections présidentielles est correct, et permet par exemple d'assurer que "Royal" signifie bien "Ségolène Royal" (ce qui est rarement garanti dans les recherches Google de ce genre). Je ne vous assure pas de la pertinence de rechercher cette expression en décembre 2011, mais pour l'instant, les résultats trouvés concernent presque tous le sujet. Petit problème aussi, différencier père et fille chez les Le Pen : la variation entre "candidate" et "candidat" permet de donner des indications sur les scores des deux.&lt;br /&gt;&lt;br /&gt;Comme souvent je vous laisse analyser le graphique et sa pertinence. A propos de l'échelle verticale, il était impossible pour des questions de lisibilité de garder les chiffres bruts (sinon ça aurait été Nicolas Sarkozy contre le reste du monde), j'ai donc "passé les chiffres au log". Pour &lt;span style="font-style: italic;"&gt;n&lt;/span&gt;1 réponses à "X candidat en 2012" et &lt;span style="font-style: italic;"&gt;n&lt;/span&gt;2 réponses à "X en 2012", X obtient donc un score de &lt;span style="font-weight: bold;"&gt;log(&lt;span style="font-style: italic;"&gt;n&lt;/span&gt;1+&lt;span style="font-style: italic;"&gt;n&lt;/span&gt;2+1)&lt;/span&gt;, le "+1" étant destiné à ce Marie-George Buffet présente dans cette liste pour sa candidature aux précédentes présidentielles n'ait pas un score infiniment négatif.&lt;br /&gt;&lt;br /&gt;N'hésitez pas à me suggérer d'autres noms de &lt;a href="http://www.ladepeche.fr/article/2008/05/08/452593-Presidentiables-2012-c-est-deja-demain.html"&gt;possibles candidats aux présidentielles 2012&lt;/a&gt;, voire d'autres expressions à rechercher pour tous. Pour lancer l'ensemble des recherches sur Google automatiquement, vous pouvez bien sûr utiliser &lt;a href="http://gambette.blogspot.com/2007/02/stats-de-popularit-artisanales.html"&gt;FuryPopularity&lt;/a&gt; avec &lt;a href="http://philippe.gambette.free.fr/Blog/200807Presidentiables/Presidentiables2012.txt"&gt;ce fichier d'expressions&lt;/a&gt;. Le &lt;a href="http://spreadsheets.google.com/pub?key=psV7RHudMtPYhtfDp8UE-UA"&gt;fichier tableur qui en résulte&lt;/a&gt; et le graphique ci-dessus seront probablement mis à jour au cours des prochains mois (tant que les deux expressions sembleront pertinentes) pour constituer un &lt;span style="font-weight: bold;"&gt;baromètre des présidentiables&lt;/span&gt;.&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/28510665-2406269912532115600?l=gambette.blogspot.com'/&gt;&lt;/div&gt;&lt;img src="http://feeds.feedburner.com/~r/JeVeronise/~4/mYR-YO4a-v4" height="1" width="1"/&gt;</content><link rel="replies" type="application/atom+xml" href="http://gambette.blogspot.com/feeds/2406269912532115600/comments/default" title="Publier les commentaires" /><link rel="replies" type="text/html" href="https://www.blogger.com/comment.g?blogID=28510665&amp;postID=2406269912532115600" title="4 commentaires" /><link rel="edit" type="application/atom+xml" href="http://www.blogger.com/feeds/28510665/posts/default/2406269912532115600?v=2" /><link rel="self" type="application/atom+xml" href="http://www.blogger.com/feeds/28510665/posts/default/2406269912532115600?v=2" /><link rel="alternate" type="text/html" href="http://feedproxy.google.com/~r/JeVeronise/~3/mYR-YO4a-v4/les-prsidentiables-en-2012-selon-google.html" title="Les présidentiables en 2012 selon Google" /><author><name>Philippe</name><uri>http://www.blogger.com/profile/17811557333070553722</uri><email>noreply@blogger.com</email><gd:extendedProperty name="OpenSocialUserId" value="01287611096413583131" /></author><thr:total xmlns:thr="http://purl.org/syndication/thread/1.0">4</thr:total><feedburner:origLink>http://gambette.blogspot.com/2008/07/les-prsidentiables-en-2012-selon-google.html</feedburner:origLink></entry><entry gd:etag="W/&quot;C0QCQ3c9eyp7ImA9WxdVE0s.&quot;"><id>tag:blogger.com,1999:blog-28510665.post-3300407736856350835</id><published>2008-07-11T00:37:00.005+02:00</published><updated>2008-07-18T08:09:22.963+02:00</updated><app:edited xmlns:app="http://www.w3.org/2007/app">2008-07-18T08:09:22.963+02:00</app:edited><category scheme="http://www.blogger.com/atom/ns#" term="livre" /><category scheme="http://www.blogger.com/atom/ns#" term="visualisation" /><category scheme="http://www.blogger.com/atom/ns#" term="voyage" /><category scheme="http://www.blogger.com/atom/ns#" term="Flickr" /><category scheme="http://www.blogger.com/atom/ns#" term="Google Maps" /><title>Livre interactif : Lisbonne, par Fernando Pessoa</title><content type="html">&lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://lisbon.pessoa.free.fr/"&gt;&lt;img style="margin: 0px auto 10px; display: block; text-align: center; cursor: pointer;" src="http://lisbon.pessoa.free.fr/Lisbon.png" alt="" border="0" /&gt;&lt;/a&gt;&lt;br /&gt;Le lien traîne depuis quelque temps dans la liste à gauche, le projet a enfin atteint un degré d'avancement justifiant que j'en parle. Le poète portugais &lt;a href="http://fr.wikipedia.org/wiki/Fernando_Pessoa"&gt;Fernando Pessoa&lt;/a&gt; a écrit en 1925 un guide touristique sur la ville qu'il n'a presque jamais quittée : Lisbonne. Un texte sans aspiration poétique, rédigé directement en anglais &lt;span style="font-size:85%;"&gt;(d'où le titre &lt;i&gt;Lisbon, what the tourist should see&lt;/i&gt;)&lt;/span&gt;, et destiné à faire connaître à l'étranger les merveilles de sa ville chérie. Celles-ci ont été bien préservées au XXe siècle, et modulo quelques renommages, la plupart des monuments cités et leur description sont inchangés aujourd'hui. Le guide a donc été traduit dans plusieurs langues après sa découverte à la fin des années 90, dans la &lt;a href="http://www.amazon.fr/gp/product/226701047X?ie=UTF8&amp;amp;tag=lescritiqucin-21&amp;amp;linkCode=as2&amp;amp;camp=1642&amp;amp;creative=6746&amp;amp;creativeASIN=226701047X"&gt;malle de manuscrits de l'auteur&lt;/a&gt;.&lt;br /&gt;&lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://www.amazon.com/gp/product/190570075X?ie=UTF8&amp;amp;tag=lisbbypess-20&amp;amp;linkCode=as2&amp;amp;camp=1789&amp;amp;creative=9325&amp;amp;creativeASIN=190570075X"&gt;&lt;img style="margin: 0pt 0pt 10px 10px; float: right; cursor: pointer;" src="http://lisbon.pessoa.free.fr/ENGLISH2008Mini.jpg" alt="" border="0" /&gt;&lt;/a&gt;&lt;br /&gt;En France il a été publié par les &lt;a href="http://www.amazon.fr/gp/product/2264026421?ie=UTF8&amp;amp;tag=lescritiqucin-21&amp;amp;linkCode=as2&amp;amp;camp=1642&amp;amp;creative=6746&amp;amp;creativeASIN=2264026421"&gt;éditions 10/18&lt;/a&gt;. Malheureusement le texte fourni dans l'édition est une traduction brute de celui de Pessoa, sans notes, avec une carte de la ville datant de 1929 plutôt illisible, sans index. Il ne peut donc pas vraiment être utilisé tel quel pour rechercher des informations pendant la visite. Pareil pour la première édition, &lt;a href="http://www.livroshorizonte.pt/catalogo_detalhe.php?idLivro=895"&gt;chez Livros Horizonte&lt;/a&gt;, en bilingue anglais/portugais. L'ouvrage vient toutefois d'être &lt;a href="http://www.shearsman.com/pages/books/catalog/2008/pessoa_lisbon.html"&gt;republié en anglais par un éditeur britannique, Shearsman&lt;/a&gt;, qui a mis à jour les noms de lieux cités, et ajouté quelques photos tirées de cartes postales des années 20.&lt;br /&gt;&lt;br /&gt;Bref, pour rendre ce guide utilisable directement sur place, j'ai concocté une &lt;a style="font-weight: bold;" href="http://lisbon.pessoa.free.fr/"&gt;version interactive de &lt;span style="font-style: italic;"&gt;Lisbonne&lt;/span&gt; par Pessoa&lt;/a&gt;&lt;span style="font-weight: bold;"&gt;, avec carte Google associée, et quelques photos&lt;/span&gt; qui proviennent d'une semaine délicieuse passée sur place, complétées par quelques unes trouvées sur la &lt;a href="http://pt.wikipedia.org/"&gt;Wikipedia&lt;/a&gt; ou &lt;a href="http://www.flickr.com/"&gt;Flickr&lt;/a&gt; - qui ont le bon goût d'inciter leurs utilisateurs à préciser les conditions de réutilisation des images.&lt;br /&gt;&lt;br /&gt;J'ai donc numérisé la partie anglaise du &lt;a href="http://www.livroshorizonte.pt/catalogo_detalhe.php?idLivro=895"&gt;livre des éditions Livros Horizonte&lt;/a&gt; fraîchement acquis à Lisbonne, qui est maintenant disponible librement &lt;span style="font-size:78%;"&gt;(Pessoa est décédé depuis &lt;a href="http://fr.wikipedia.org/wiki/Droit_d%27auteur"&gt;plus de 70 ans&lt;/a&gt;)&lt;/span&gt; sur le site :&lt;br /&gt;&lt;div style="text-align: center;"&gt;&lt;a style="font-weight: bold;" href="http://lisbon.pessoa.free.fr/"&gt;&lt;blockquote&gt;http://lisbon.pessoa.free.fr&lt;br /&gt;&lt;/blockquote&gt;&lt;/a&gt;&lt;/div&gt;&lt;div style="text-align: left;"&gt;L'étape de &lt;span style="font-weight: bold;"&gt;reconnaissance de caractères&lt;/span&gt; a été réalisée avec le logiciel gratuit (pour la reconnaissance de caractères dactylographiés) &lt;a href="http://www.clubic.com/telecharger-fiche9843-simpleocr.html"&gt;SimpleOcr&lt;/a&gt;, qui n'est pas extrêmement fiable &lt;span style="font-size:78%;"&gt;(et qui, surtout, n'apprend rien de ses erreurs...)&lt;/span&gt; mais plutôt ergonomique pour effectuer les corrections. Bref, il est possible qu'il reste des coquilles, n'hésitez pas à me les signaler. Je dois tout de même mentionner que certaines erreurs sont présentes dans le texte original. Peut-être laissées par l'éditeur par souci d'authenticité...&lt;br /&gt;&lt;br /&gt;&lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://lisbon.pessoa.free.fr/InteractiveMap.php"&gt;&lt;img style="margin: 0pt 10pt 10px 0px; float: left; cursor: pointer;" src="http://lisbon.pessoa.free.fr/LisbonInteractiveMap.jpg" alt="" border="0" /&gt;&lt;/a&gt;Les lieux et rues cités ont alors été localisés sur une carte de Lisbonne, ce qui permet d'obtenir une &lt;span style="font-weight: bold;"&gt;visualisation géographique du livre&lt;/span&gt;, où Pessoa propose en fait trois balades &lt;span style="font-size:85%;"&gt;- la première assez longue,  en bleu, les deux autres vertes et rouges destinées au touriste qui "pourrait rester un jour de plus".&lt;/span&gt; Il termine par une description des journaux portugais de l'époque, puis des détails sur quelques villages des environs. L'itinéraire principal, qui débute par une arrivée par la mer, en bleu sur la carte, nécessite d'avoir une voiture. En réalité, comme il est impossible de faire en une seule journée toutes les visites indiquées, il pourra être morcelé par quartier pour se contenter de transports pédestres ou en commun. Attention dans ce cas, l'optimisation se fait en suivant la carte plutôt que l'ordre linéaire des visites du bouquin, puisque le cheminement de la visite est loin d'être &lt;a href="http://fr.wikipedia.org/wiki/Graphe_hamiltonien"&gt;hamiltonien&lt;/a&gt; ! Le choix de l'ordre par le poète n'est en tout cas pas tout à fait innocent, puisqu'il répartit assez bien les visites indispensables (le &lt;a href="http://lisbon.pessoa.free.fr/places?id=130"&gt;quartier Baixa&lt;/a&gt;, l'&lt;a href="http://lisbon.pessoa.free.fr/places.php?id=129"&gt;Alfama&lt;/a&gt;, le &lt;a href="http://lisbon.pessoa.free.fr/places.php?id=54"&gt;château Saint -George&lt;/a&gt;, le &lt;a href="http://lisbon.pessoa.free.fr/places.php?id=112"&gt;monastère des Jeronimos&lt;/a&gt;, la &lt;a href="http://lisbon.pessoa.free.fr/places?id=3"&gt;tour de Belém&lt;/a&gt;, etc) au milieu d'autres plus anecdotiques.&lt;br /&gt;&lt;/div&gt;&lt;br /&gt;&lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://lisbon.pessoa.free.fr/PrinterFriendlyMap.php"&gt;&lt;img style="margin: 0pt 0pt 10px 10px; float: right; cursor: pointer;" src="http://lisbon.pessoa.free.fr/MapPreview.png" alt="" border="0" /&gt;&lt;/a&gt;Alors une carte Google, c'est bien joli, mais pas super utile quand on voyage déconnecté d'internet &lt;span style="font-size:78%;"&gt;(à propos, si vous cherchez un webcafé, tentez la &lt;a href="http://lisbon.pessoa.free.fr/places.php?id=49"&gt;Rua da Madalena&lt;/a&gt;)&lt;/span&gt; ! La carte est donc disponible aussi dans une &lt;a href="http://lisbon.pessoa.free.fr/PrinterFriendlyMap.php"&gt;version facilitant l'impression, avec de &lt;span style="font-weight: bold;"&gt;petits numéros pour chaque lieu&lt;/span&gt;&lt;/a&gt; &lt;span style="font-size:78%;"&gt;(en moyenne chez moi le chargement de la page met plus de 10 secondes, c'est normal ;))&lt;span style="font-size:100%;"&gt;. Et pour avoir la légende de tous ces numéros, classés selon l'ordre d'apparition dans le livre, c'est en bas de cette &lt;a href="http://lisbon.pessoa.free.fr/PrinterFriendly.php"&gt;version imprimable du texte&lt;/a&gt;.&lt;/span&gt;&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;Si vous avez la version interactive toutefois, vous aurez accès à bien plus d'informations sur le lieu. Pour de nombreux lieux mentionnés vous avez un lien vers la page Wikipédia, voire son site officiel (avec horaires d'ouverture par exemple pour les musées).&lt;br /&gt;&lt;br /&gt;Ces informations supplémentaires qui transforment l'ouvrage en vrai &lt;a href="http://lafeuille.homo-numericus.net/2008/02/le-livre-est-une-base-de-donne.html"&gt;livre interactif&lt;/a&gt; n'ont pas été insérées directement dans le texte original. En fait j'ai mis en place un système pour ajouter automatiquement au texte ces informations stockées à un autre endroit, dans des sortes de tableaux, des &lt;a href="http://fr.wikipedia.org/wiki/Base_de_donn%C3%A9es"&gt;bases de données&lt;/a&gt;. Voilà enfin le passage technique qui sera sauté allègrement par la plupart des lecteurs, malgré une image alléchante, ci-dessous, qui essaie d'expliquer le principe. En plus du texte, il y a donc trois bases de données : la &lt;span style="font-weight: bold;"&gt;bleue&lt;/span&gt;, celle des &lt;span style="font-weight: bold;"&gt;occurences des lieux dans le texte&lt;/span&gt;, l'&lt;span style="font-weight: bold;"&gt;orange&lt;/span&gt;, celle des &lt;span style="font-weight: bold;"&gt;lieux&lt;/span&gt;, et la &lt;span style="font-weight: bold;"&gt;violette&lt;/span&gt;, celle des &lt;span style="font-weight: bold;"&gt;coordonnées&lt;/span&gt;. Expliquons alors les flèches dans l'exemple ci-dessous. Pour un endroit donné de la carte, stocké dans la base violette, il peut se trouver un ou plusieurs objets d'intérêt (par exemple sur la Place du Commerce se trouve une statue équestre du roi José I). Chaque objet d'intérêt a alors un emplacement dans la base orange, qui détaille son nom et le décrit (en anglais), en ajoutant éventuellement une photo. Notez que si vous voulez adapter le système pour fournir des informations en français sur les lieux, c'est juste cette base de données orange qu'il faudra traduire (et pas tout le site). Enfin, pour savoir où se trouvent tous ces points d'intérêt dans le texte de Pessoa, on stocke la position des caractères où ils apparaissent, dans la base bleue. Il est possible que l'un d'eux apparaisse plusieurs fois dans le texte, comme la Place du Commerce ci-dessous. Si vous modifiez le texte original (par exemple pour le traduire dans une autre langue), c'est donc cette base bleue qu'il faudra modifier.&lt;br /&gt;&lt;br /&gt;&lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://lisbon.pessoa.free.fr/LisbonByPessoaTables.png"&gt;&lt;img style="margin: 0px auto 10px; display: block; text-align: center; cursor: pointer;" src="http://lisbon.pessoa.free.fr/LisbonByPessoaTables.png" alt="" border="0" /&gt;&lt;/a&gt;&lt;br /&gt;Pour terminer le projet, c'est la base orange que je dois finir de compléter (actuellement j'en suis à &lt;a href="http://lisbon.pessoa.free.fr/PrinterFriendly.php"&gt;un peu plus du tiers&lt;/a&gt;). Toutefois, vous avez déjà accès à toutes les informations déjà entrées, en particulier, tout le texte illustré avec photos &lt;a href="http://lisbon.pessoa.free.fr/Pessoa_Lisbon.htm"&gt;ici&lt;/a&gt;. Et bien sûr la &lt;a href="http://lisbon.pessoa.free.fr/PrinterFriendlyMap.php"&gt;carte Google Maps&lt;/a&gt; qui est l'élément fondamental de ce &lt;a href="http://fr.wikipedia.org/wiki/Application_composite"&gt;mashup&lt;/a&gt; &lt;span style="font-size:78%;"&gt;(MySQL, PHP, Javascript, &lt;a href="http://philippe.gambette.free.fr/"&gt;contactez-moi&lt;/a&gt; pour récupérer les sources si vous avez un projet similaire de livre interactif)&lt;/span&gt; sur un thème de Pessoa.&lt;br /&gt;&lt;br /&gt;Vous pouvez donc partir tranquille pour une semaine, ou plus, de découvertes à Lisbonne en charmante compagnie : celle - au moins - de quelques éléments, imprimés ou enregistrés, extraits du &lt;a href="http://lisbon.pessoa.free.fr/"&gt;site&lt;/a&gt;...&lt;br /&gt;&lt;br /&gt;&lt;object height="110" width="300"&gt;&lt;param name="movie" value="http://media.imeem.com/m/yPOUT7X_9L/aus=false/"&gt;&lt;param name="wmode" value="transparent"&gt;&lt;embed src="http://media.imeem.com/m/yPOUT7X_9L/aus=false/" type="application/x-shockwave-flash" wmode="transparent" height="110" width="300"&gt;&lt;/embed&gt;&lt;/object&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/28510665-3300407736856350835?l=gambette.blogspot.com'/&gt;&lt;/div&gt;&lt;img src="http://feeds.feedburner.com/~r/JeVeronise/~4/h_uTY6bYIlA" height="1" width="1"/&gt;</content><link rel="replies" type="application/atom+xml" href="http://gambette.blogspot.com/feeds/3300407736856350835/comments/default" title="Publier les commentaires" /><link rel="replies" type="text/html" href="https://www.blogger.com/comment.g?blogID=28510665&amp;postID=3300407736856350835" title="1 commentaires" /><link rel="edit" type="application/atom+xml" href="http://www.blogger.com/feeds/28510665/posts/default/3300407736856350835?v=2" /><link rel="self" type="application/atom+xml" href="http://www.blogger.com/feeds/28510665/posts/default/3300407736856350835?v=2" /><link rel="alternate" type="text/html" href="http://feedproxy.google.com/~r/JeVeronise/~3/h_uTY6bYIlA/livre-interactif-lisbonne-par-fernando.html" title="Livre interactif : Lisbonne, par Fernando Pessoa" /><author><name>Philippe</name><uri>http://www.blogger.com/profile/17811557333070553722</uri><email>noreply@blogger.com</email><gd:extendedProperty name="OpenSocialUserId" value="01287611096413583131" /></author><thr:total xmlns:thr="http://purl.org/syndication/thread/1.0">1</thr:total><feedburner:origLink>http://gambette.blogspot.com/2008/07/livre-interactif-lisbonne-par-fernando.html</feedburner:origLink></entry><entry gd:etag="W/&quot;AkYGRXkzfSp7ImA9WxdXGE8.&quot;"><id>tag:blogger.com,1999:blog-28510665.post-4194273950965070693</id><published>2008-06-30T14:13:00.001+02:00</published><updated>2008-06-30T14:15:24.785+02:00</updated><app:edited xmlns:app="http://www.w3.org/2007/app">2008-06-30T14:15:24.785+02:00</app:edited><category scheme="http://www.blogger.com/atom/ns#" term="LinkedIn" /><category scheme="http://www.blogger.com/atom/ns#" term="bug" /><category scheme="http://www.blogger.com/atom/ns#" term="Google" /><category scheme="http://www.blogger.com/atom/ns#" term="Google Maps" /><title>Quand Google joue les Ravaillac</title><content type="html">&lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://philippe.gambette.free.fr/Blog/GoogleMapsHIV.png"&gt;&lt;img style="margin: 0pt 0pt 10px 10px; float: right; cursor: pointer;" src="http://philippe.gambette.free.fr/Blog/GoogleMapsHIV_Mini.png" alt="H4 sur Google Maps" border="0" /&gt;&lt;/a&gt;Vous avez déjà essayé d'aller au fameux &lt;a href="http://fr.wikipedia.org/wiki/Lyc%C3%A9e_Henri-IV"&gt;lycée Henri IV&lt;/a&gt; en utilisant &lt;a href="http://maps.google.com/"&gt;Google Maps&lt;/a&gt; ? Eh bien ne vous fiez surtout pas à la carte fournie, l'adresse est fausse ! Eh oui, une &lt;a href="http://aixtal.blogspot.com/2008/06/services-recherche-approximative-de.html"&gt;nouvelle erreur des algos d'extraction d'informations&lt;/a&gt; de Google, qui en plus nous donne un petit aperçu de leur processus de localisation...&lt;br /&gt;&lt;br /&gt;Pour cela, essayons de retracer la provenance de l'erreur. La carte indique que le lycée se trouve rue Hugues Clovis. Tiens tiens, je ne savais pas que &lt;a href="http://fr.wikipedia.org/wiki/Clovis"&gt;Clovis&lt;/a&gt; avait un prénom ! En effet, il s'agit en fait de &lt;a href="http://fr.wikipedia.org/wiki/Clovis_Hugues"&gt;Clovis Hugues&lt;/a&gt; &lt;span style="font-size:78%;"&gt;(vous ne connaissez pas ? l'&lt;a href="http://fr.wikipedia.org/wiki/Clovis_Hugues"&gt;article Wikipedia&lt;/a&gt; est passionnant)&lt;/span&gt;, voilà déjà une erreur dans la base de données des noms de rues de Google, où le prénom précède habituellement le nom. Le lycée se trouve bien sûr dans la rue Clovis &lt;span style="font-size:78%;"&gt;(que vous pouvez voir, ainsi que les alentours du Panthéon, entièrement vidés de passants dans un plan de &lt;a href="http://fr.wikipedia.org/wiki/Seuls_Two"&gt;Seuls Two&lt;/a&gt;)&lt;/span&gt;. Et voilà la seconde erreur de Google : l'algorithme semble avoir procédé en deux temps, une première étape pour récupérer l'adresse de l'établissement, bien réalisée ; une autre pour faire correspondre cette adresse avec celle de la base, et c'est celle-là qui a échoué. &lt;span style="font-size:85%;"&gt;D'ailleurs ce serait intéressant de savoir si des villes contiennent deux rues ayant le même nom (mais éventuellement pas le même prénom), histoire de créer un vrai casse-tête pour Google... et les pauvres postiers de la ville ! Je cherche depuis des mois une base de données des noms de rues en France...&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://www.linkedin.com/companies/1441/Google?"&gt;&lt;img style="margin: 0pt 10px 10px 0pt; float: left; cursor: pointer;" src="http://philippe.gambette.free.fr/Blog/LinkedInGoogle20080630.png" alt="" border="0" /&gt;&lt;/a&gt;Autre possibilité, il s'agit juste d'un complot des &lt;a href="http://maps.google.com/maps?f=q&amp;amp;hl=fr&amp;amp;geocode=&amp;amp;q=Lyc%C3%A9e+Louis-le-Grand,+Paris&amp;amp;sll=37.0625,-95.677068&amp;amp;sspn=33.352165,58.359375&amp;amp;ie=UTF8&amp;amp;ll=48.84999,2.344251&amp;amp;spn=0.006763,0.014248&amp;amp;t=h&amp;amp;z=16&amp;amp;iwloc=A"&gt;magnoludoviciens&lt;/a&gt; employés chez Google. Malheureusement, &lt;a href="http://www.linkedin.com/"&gt;LinkedIn&lt;/a&gt; &lt;span style="font-size:78%;"&gt;(inscription nécessaire)&lt;/span&gt;, qui nous informe de leur connaissance des &lt;a href="http://www.linkedin.com/companies/1441/Google?"&gt;employeurs antérieurs des salariés de Google&lt;/a&gt; ne fournit pas de statistiques sur les lycées et classes prépa d'origine pour accréditer cette thèse...&lt;br /&gt;&lt;br /&gt;A très bientôt pour un nouveau billet sur Google Maps, ou plutôt une utilisation dans un &lt;a href="http://fr.wikipedia.org/wiki/Application_composite"&gt;mashup&lt;/a&gt; que les petits curieux auront déjà trouvé parmi les liens disposés à gauche...&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/28510665-4194273950965070693?l=gambette.blogspot.com'/&gt;&lt;/div&gt;&lt;img src="http://feeds.feedburner.com/~r/JeVeronise/~4/64LZXiLyCww" height="1" width="1"/&gt;</content><link rel="replies" type="application/atom+xml" href="http://gambette.blogspot.com/feeds/4194273950965070693/comments/default" title="Publier les commentaires" /><link rel="replies" type="text/html" href="https://www.blogger.com/comment.g?blogID=28510665&amp;postID=4194273950965070693" title="2 commentaires" /><link rel="edit" type="application/atom+xml" href="http://www.blogger.com/feeds/28510665/posts/default/4194273950965070693?v=2" /><link rel="self" type="application/atom+xml" href="http://www.blogger.com/feeds/28510665/posts/default/4194273950965070693?v=2" /><link rel="alternate" type="text/html" href="http://feedproxy.google.com/~r/JeVeronise/~3/64LZXiLyCww/quand-google-joue-les-ravaillac.html" title="Quand Google joue les Ravaillac" /><author><name>Philippe</name><uri>http://www.blogger.com/profile/17811557333070553722</uri><email>noreply@blogger.com</email><gd:extendedProperty name="OpenSocialUserId" value="01287611096413583131" /></author><thr:total xmlns:thr="http://purl.org/syndication/thread/1.0">2</thr:total><feedburner:origLink>http://gambette.blogspot.com/2008/06/quand-google-joue-les-ravaillac.html</feedburner:origLink></entry><entry gd:etag="W/&quot;AkQNSHk7eCp7ImA9WxZVGUo.&quot;"><id>tag:blogger.com,1999:blog-28510665.post-8075084587018912281</id><published>2008-03-28T02:10:00.006+01:00</published><updated>2008-03-31T17:46:39.700+02:00</updated><app:edited xmlns:app="http://www.w3.org/2007/app">2008-03-31T17:46:39.700+02:00</app:edited><category scheme="http://www.blogger.com/atom/ns#" term="visualisation" /><category scheme="http://www.blogger.com/atom/ns#" term="tableur" /><category scheme="http://www.blogger.com/atom/ns#" term="géométrie algorithmique" /><category scheme="http://www.blogger.com/atom/ns#" term="graphique" /><category scheme="http://www.blogger.com/atom/ns#" term="enveloppe convexe" /><category scheme="http://www.blogger.com/atom/ns#" term="robustesse" /><category scheme="http://www.blogger.com/atom/ns#" term="cuisine" /><title>Cuisine : polyèdre des ingrédients et enveloppe convexe</title><content type="html">&lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://philippe.gambette.free.fr/Blog/200802Recette/ChouxAuComte.gif"&gt;&lt;img style="margin: 0pt 0pt 10px 10px; float: right; cursor: pointer;" src="http://philippe.gambette.free.fr/Blog/200802Recette/ChouxAuComte.gif" alt="" border="0" /&gt;&lt;/a&gt;Ma cuisine a récemment rejoint ma liste de lieux de découverte et d'émerveillement montpelliérains &lt;span style="font-size:78%;"&gt;(après &lt;a href="http://www.lirmm.fr/"&gt;mon labo&lt;/a&gt;, &lt;a href="http://www.montpellier-agglo.com/jsp/fiche_article.jsp?CODE=69249668&amp;amp;LANGUE=0"&gt;ma médiathèque&lt;/a&gt;, mon ordinateur, &lt;a href="http://www.montpellier-agglo.com/1143462320498/0/fiche___article/&amp;amp;RH=1140901075948"&gt;ma salle de concerts&lt;/a&gt; et &lt;a href="http://leroyal.montpellier.site.voila.fr/index.jhtml"&gt;mes&lt;/a&gt; &lt;a href="http://www.cinediagonal.com/"&gt;cinémas&lt;/a&gt;)&lt;/span&gt;. Pas besoin de tenter d'audacieuses expériences de &lt;a href="http://fr.wikipedia.org/wiki/Gastronomie_mol%C3%A9culaire"&gt;gastronomie moléculaire&lt;/a&gt; pour être fasciné par de simples changements de forme, de couleur et de texture. Que d'émotions à expérimenter la cuisson mutationnelle des &lt;a href="http://www.interfrance.com/franche-comte/gastronomie/recette/choux.html"&gt;choux au Comté&lt;/a&gt;, le durcissement de mes fameuses meringues-radiateur, ou une simple montée de blancs en neige au fouet ! Alors rassurez-vous, ce blog ne va pas s'aventurer sur la paillasse d'un chimiste, je ne parlerai ni du pourquoi ni comment ça marche, mais seulement du &lt;b&gt;jusqu'à quel point ça marche ?&lt;/b&gt;&lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://philippe.gambette.free.fr/Blog/200802Recette/MeringuesRadiateur.jpg"&gt;&lt;img style="margin: 0px auto 10px; display: block; text-align: center; cursor: pointer;" src="http://philippe.gambette.free.fr/Blog/200802Recette/MeringuesRadiateur.jpg" alt="" border="0" /&gt;&lt;/a&gt;Rien de plus affirmatif qu'une recette de cuisine : on vous fournit une liste d'ingrédients avec des quantités bien précises, et leur mode d'emploi. Si vous déviez à peine des instructions, aucune garantie, et avec une précision des ingrédients au centigramme, prenez garde que &lt;a href="http://www.marmiton.org/recettes/recette.cfm?num_recette=31788"&gt;moelleux fondant "merde-j'ai-pu-qu'-deux-oeufs" Marmiton au chocolat&lt;/a&gt; ne se transforme en galette compacte.&lt;br /&gt;Heureusement, ce blog va apporter une contribution révolutionnaire pour tous les auteurs de &lt;a href="http://www.deezer.com/track/37987"&gt;recettes de cuisine&lt;/a&gt; : le &lt;span style="font-weight: bold;"&gt;&lt;a href="http://fr.wikipedia.org/wiki/Poly%C3%83%C2%A8dre"&gt;polyèdre&lt;/a&gt; des ingrédients&lt;/span&gt; ! Et en bonus une méthode pour le calculer artisanalement à partir d'un corpus de plusieurs recettes du plat que vous voulez, trouvées sur le net par exemple. Illustration du jour : les &lt;span style="font-weight: bold;"&gt;crêpes &lt;/span&gt;! &lt;span style="font-size:78%;"&gt;(oui, je sais, j'aurais dû écrire ce billet il y a 54 jours mais j'ai &lt;a href="http://gambette.blogspot.com/2008/03/suivi-en-direct-de-la-naissance-dun.html"&gt;totalement renoncé&lt;/a&gt; à publier à temps mes billets d'actualité...)&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;Ce qu'il y a de bien dans les crêpes, c'est que ça se fait avec en gros &lt;span style="font-weight: bold;"&gt;trois ingrédients&lt;/span&gt; (plus un pour la poële, qui ne compte pas), ça va donc nous permettre d'obtenir une jolie image en 3D. Des oeufs, de la farine, et du lait, voilà le dénominateur commun aux 19 recettes que j'ai réunies (dans ce &lt;a href="http://philippe.gambette.free.fr/Blog/200802Recette/Crepes.ods"&gt;fichier tableur&lt;/a&gt;) grâce aux sites &lt;a href="http://www.lejus.com/"&gt;lejus.com&lt;/a&gt;, &lt;a href="http://recettes.1001delices.net/"&gt;1001delices.net&lt;/a&gt;, &lt;a href="http://www.recette-crepe.net/"&gt;recette-crepe.net&lt;/a&gt;, &lt;a href="http://www.goosto.fr/"&gt;goosto.fr&lt;/a&gt;, &lt;a href="http://www.supertoinette.com/"&gt;supertoinette.com&lt;/a&gt;, &lt;a href="http://www.recettes.qc.ca/"&gt;recettes.qc.ca&lt;/a&gt; et &lt;a href="http://www.marmiton.org/"&gt;Marmiton&lt;/a&gt; &lt;span style="font-size:78%;"&gt;(désolé pour mes &lt;a href="http://www.vegetarisme.fr/Recettes/index.php?p=CrepVegan.html"&gt;amis végétaliens&lt;/a&gt;)&lt;/span&gt;. Mais peut-être va-t-on commencer avec seulement deux ingrédients pour bien comprendre. Disons que l'on a déjà décidé du nombre d'oeufs à utiliser, un seul par exemple. On calcule alors selon toutes les recettes, par une &lt;a href="http://fr.wikipedia.org/wiki/R%C3%A8gle_de_trois"&gt;règle de trois&lt;/a&gt;, &lt;span style="font-weight: bold;"&gt;la quantité &lt;/span&gt;&lt;i style="font-weight: bold;"&gt;x&lt;/i&gt;&lt;span style="font-weight: bold;"&gt; de lait et &lt;/span&gt;&lt;i style="font-weight: bold;"&gt;y&lt;/i&gt;&lt;span style="font-weight: bold;"&gt; de farine&lt;/span&gt; qu'on doit ajouter (j'ai tout codé en grammes pour simplifier). On peut alors placer sur un graphique cette vingtaine de &lt;span style="font-weight: bold;"&gt;points de coordonnées (&lt;i&gt;x&lt;/i&gt;,&lt;i&gt;y&lt;/i&gt;)&lt;/span&gt; obtenus :&lt;br /&gt;&lt;br /&gt;&lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://philippe.gambette.free.fr/Blog/200802Recette/CrepesPolygoneIngredients.gif"&gt;&lt;img style="margin: 0px auto 10px; display: block; text-align: center; cursor: pointer;" src="http://philippe.gambette.free.fr/Blog/200802Recette/CrepesPolygoneIngredients.gif" alt="" border="0" /&gt;&lt;/a&gt;En bas à gauche se trouvent les recettes avec beaucoup d'oeufs (puisqu'il y a peu de farine et de lait), en haut à droite avec peu d'oeufs. En haut à gauche, plus de farine, en bas à droite, plus de lait. Qu'est-ce donc que cette sorte d'&lt;span style="font-weight: bold;"&gt;élastique orange&lt;/span&gt; qui se resserre autour des points ainsi dessinés ? C'est une sorte de zone de sécurité : &lt;span style="font-weight: bold;"&gt;tout point de cette zone correspond à un choix d'ingrédients qui devraient fonctionner&lt;/span&gt;, puisqu'il se situe "entre" des choix de quantités d'ingrédients qui fonctionnent&lt;span style="font-size:78%;"&gt;&lt;/span&gt;. En mathématiques, on appelle ça l'&lt;a style="font-weight: bold;" href="http://fr.wikipedia.org/wiki/Enveloppe_convexe"&gt;enveloppe convexe&lt;/a&gt; de l'ensemble de ces points, et il existe des &lt;a href="http://www-sop.inria.fr/geometrica/courses/slides/enveloppe-convexe-od.pdf"&gt;algorithmes variés&lt;/a&gt; pour la calculer automatiquement. Alors évidemment, pour ne prendre aucun risque il vaudra mieux cibler bien au milieu de cette enveloppe, vous pouvez d'ailleurs remarquer que 3 recettes présentent les mêmes quantités des trois ingrédients principaux, cela correspond à un point assez central (1/2 litre de lait et 250 grammes de farine pour 3 oeufs).&lt;br /&gt;&lt;br /&gt;Autre enseignement de cette enveloppe convexe, on peut en déduire des informations sur la précaution à mesurer chaque ingrédient (la &lt;span style="font-weight: bold;"&gt;robustesse de la recette en fonction de chaque paramètre&lt;/span&gt; en gros). Remarquez combien l'enveloppe convexe est allongée et étroite (elle le serait encore plus si j'avais choisi une échelle verticale et horizontale identiques). Cela signifie que selon les recettes la quantité d'oeufs varie pas mal, mais la proportion lait/farine beaucoup moins. On peut d'ailleurs comparer pour chaque recette ses proportions par rapport aux proportions moyennes :&lt;br /&gt;&lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://philippe.gambette.free.fr/Blog/200802Recette/ProportionsIngredients.png"&gt;&lt;img style="margin: 0px auto 10px; display: block; text-align: center; cursor: pointer;" src="http://philippe.gambette.free.fr/Blog/200802Recette/ProportionsIngredients.png" alt="" border="0" /&gt;&lt;/a&gt;&lt;br /&gt;Et si l'on fait la moyenne de ces pourcentages de variation en valeur absolue, on obtient : 16% pour le rapport lait/farine, 28% pour le rapport farine/oeufs, 31% pour le rapport lait/oeufs. Ainsi &lt;span style="font-weight: bold;"&gt;le rapport lait/farine varie beaucoup moins&lt;/span&gt; que les autres parmi les recettes, il faudra donc être plus méticuleux dans ces proportions que pour &lt;span style="font-weight: bold;"&gt;le nombre d'oeufs, par rapport à la variation duquel la recette des crêpes est donc plutôt robuste&lt;/span&gt; &lt;span style="font-size:78%;"&gt;(désolé pour cette structure de phrase alambiquée, mais ça me donne l'occasion de faire un joli &lt;a href="http://danlekel.gambette.com/"&gt;accord de pronom relatif&lt;/a&gt;)&lt;/span&gt;.&lt;br /&gt;&lt;br /&gt;Vous pouvez aussi vous amuser à représenter sur un même graphique plusieurs desserts ayant les mêmes ingrédients principaux, ici les crêpes, les gaufres et le flan :&lt;br /&gt;&lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://philippe.gambette.free.fr/Blog/200802Recette/PolygoneIngredientsCrepesGaufresFlan.png"&gt;&lt;img style="margin: 0px auto 10px; display: block; text-align: center; cursor: pointer;" src="http://philippe.gambette.free.fr/Blog/200802Recette/PolygoneIngredientsCrepesGaufresFlan.png" alt="" border="0" /&gt;&lt;/a&gt;Attention tout de même avant de verser votre pâte à crêpes dans le gaufrier ou les ramequins au four, il y a aussi un peu d'huile et de levure dans la préparation à gaufres, et de sucre dans celle du flan.&lt;br /&gt;&lt;br /&gt;Pour finir, passons au polyèdre 3D des ingrédients grâce à la &lt;a href="http://www.cse.unsw.edu.au/%7Elambert/java/3d/hull.html"&gt;très jolie applet Java de Tim Lambert&lt;/a&gt; &lt;span style="font-size:78%;"&gt;(dont il distribue en plus de &lt;a href="http://www.cse.unsw.edu.au/%7Elambert/java/3d/implementation.html"&gt;code source&lt;/a&gt; que j'ai modifié pour y mettre mes points de crêpes)&lt;/span&gt;, vous pouvez agir avec la souris pour contrôler le polyèdre et le faire bouger :&lt;br /&gt;&lt;applet codebase="http://philippe.gambette.free.fr/Blog/200802Recette/ConvexHullApplet/" code="AppletHull.class" archive="3d.zip" height="450" width="550"&gt;&lt;br /&gt;&lt;param name="bgcolor" value="ffffff"&gt;&lt;br /&gt;Sorry, but you need Java to see the animation.&lt;br /&gt;&lt;/applet&gt;&lt;br /&gt;Là encore c'est une &lt;b&gt;enveloppe convexe&lt;/b&gt; qui est calculée, en 3 dimensions, sur des points de coordonnées (&lt;i&gt;x&lt;/i&gt;,&lt;i&gt;y&lt;/i&gt;,&lt;i&gt;z&lt;/i&gt;) avec cette fois le nombre d'oeufs en &lt;i&gt;x&lt;/i&gt;, la quantité de lait en &lt;i&gt;y&lt;/i&gt;, et de farine en &lt;i&gt;z&lt;/i&gt;. Je place les points en fixant le nombre d'oeufs à une limite minimum et une limite maximum pour obtenir ce joli tronc de cône, tel que toute coupe perpendiculaire à l'axe &lt;i&gt;x&lt;/i&gt; (à nombre d'oeufs constant) me donne bien le polygone d'enveloppe convexe de même forme que ci-dessus. Et pour le rendre vraiment utilisable il faudrait pouvoir laisser entrer à l'utilisateur les valeurs de quantités d'ingrédients qu'il a lui-même utilisées : si le point arrive à l'intérieur du polyèdre, tout va bien, sinon... gare à la recette loupée !&lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://philippe.gambette.free.fr/Blog/200802Recette/Crepe.jpg"&gt;&lt;img style="margin: 0pt 0pt 10px 10px; float: right; cursor: pointer;" src="http://philippe.gambette.free.fr/Blog/200802Recette/Crepe.jpg" alt="" border="0" /&gt;&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;Eh bien il me reste maintenant à attendre le prochain livre de cuisine ou pâtisserie (ou site web) qui accompagnera ses recettes de polygones ou polyèdres d'ingrédients, bizarrement je crois que je devrai faire preuve d'un peu de patience. Encore que... Il y a bien des geeks qui ont programmé un &lt;a href="http://www.cuistot.org/index.php?type_rech=multi"&gt;moteur de recherche de recettes de cuisine à partir des ingrédients&lt;/a&gt; sur &lt;a href="http://www.cuistot.org/"&gt;cuistot.org&lt;/a&gt; !&lt;br /&gt;&lt;br /&gt;&lt;br /&gt;&lt;b&gt;Mise à jour en soirée&lt;/b&gt; : il me semble naturel que &lt;span style="font-weight: bold; font-style: italic; color: rgb(0, 0, 102);"&gt;si deux points correspondant à des quantités d'ingrédients fonctionnent pour une recette, alors tout le segment entre ces deux points fait aussi fonctionner la recette&lt;/span&gt;, mais certains lecteurs que je ne nommerai pas n'en sont pas convaincus. Tout contrexemple, ou toute théorie alternative quant à la structure, dans l'ensemble à multidimensionnel des ingrédients, des ensembles de points permettant de préparer avec succès un certain plat, sera le bienvenu ! Ce &lt;span style="font-weight: bold;"&gt;défi du contrexemple&lt;/span&gt; est doté d'un prix : une invitation à le déguster &lt;span style="font-size:85%;"&gt;(ou bien, si je suis de bonne humeur, à déguster plutôt une des deux extrémités, qui fonctionnent, du segment)&lt;/span&gt;.&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/28510665-8075084587018912281?l=gambette.blogspot.com'/&gt;&lt;/div&gt;&lt;img src="http://feeds.feedburner.com/~r/JeVeronise/~4/icvLTn16r0I" height="1" width="1"/&gt;</content><link rel="replies" type="application/atom+xml" href="http://gambette.blogspot.com/feeds/8075084587018912281/comments/default" title="Publier les commentaires" /><link rel="replies" type="text/html" href="https://www.blogger.com/comment.g?blogID=28510665&amp;postID=8075084587018912281" title="3 commentaires" /><link rel="edit" type="application/atom+xml" href="http://www.blogger.com/feeds/28510665/posts/default/8075084587018912281?v=2" /><link rel="self" type="application/atom+xml" href="http://www.blogger.com/feeds/28510665/posts/default/8075084587018912281?v=2" /><link rel="alternate" type="text/html" href="http://feedproxy.google.com/~r/JeVeronise/~3/icvLTn16r0I/cuisine-polydre-des-ingrdients-et.html" title="Cuisine : polyèdre des ingrédients et enveloppe convexe" /><author><name>Philippe</name><uri>http://www.blogger.com/profile/17811557333070553722</uri><email>noreply@blogger.com</email><gd:extendedProperty name="OpenSocialUserId" value="01287611096413583131" /></author><thr:total xmlns:thr="http://purl.org/syndication/thread/1.0">3</thr:total><feedburner:origLink>http://gambette.blogspot.com/2008/03/cuisine-polydre-des-ingrdients-et.html</feedburner:origLink></entry><entry gd:etag="W/&quot;CkAHSXo9fip7ImA9WxZWGE4.&quot;"><id>tag:blogger.com,1999:blog-28510665.post-2430076555159392341</id><published>2008-03-14T03:00:00.003+01:00</published><updated>2008-03-18T09:58:58.466+01:00</updated><app:edited xmlns:app="http://www.w3.org/2007/app">2008-03-18T09:58:58.466+01:00</app:edited><category scheme="http://www.blogger.com/atom/ns#" term="buzz" /><category scheme="http://www.blogger.com/atom/ns#" term="Britney Spears" /><category scheme="http://www.blogger.com/atom/ns#" term="tableur" /><category scheme="http://www.blogger.com/atom/ns#" term="Google Trends" /><category scheme="http://www.blogger.com/atom/ns#" term="logiciel" /><category scheme="http://www.blogger.com/atom/ns#" term="graphique" /><category scheme="http://www.blogger.com/atom/ns#" term="Google" /><category scheme="http://www.blogger.com/atom/ns#" term="robustesse" /><category scheme="http://www.blogger.com/atom/ns#" term="CaptuCourbe" /><category scheme="http://www.blogger.com/atom/ns#" term="moteurs de recherche" /><title>Rétroingéniérie de Google Trends (2) : marge d'erreur</title><content type="html">J'avais prévenu &lt;a href="http://gambette.blogspot.com/2008/03/rtroingnirie-de-google-trends.html"&gt;dans mon dernier billet&lt;/a&gt;, aujourd'hui on parle de choses techniques : la &lt;span style="font-weight: bold;"&gt;marge d'erreur&lt;/span&gt; de mon calcul. Rien de terrible non plus, hein, les calculs sont de niveau lycée... Et en fin de billet, quand même quelques éléments de méthodologie pour minimiser l'erreur. Résumé de l'épisode précédent : j'ai choisi &lt;span style="font-weight: bold;"&gt;une hiérarchie de termes qui apparaissent de plus en plus haut dans Google Trends, pour évaluer par règles de trois successives le niveau du terme le plus recherché par rapport au moins recherché&lt;/span&gt;.&lt;br /&gt;&lt;br /&gt;Pour mon calcul je m'étais initialement arrangé instinctivement pour que dans chaque paire de termes consécutifs, le premier ait un maximum environ 2 fois plus haut que le précédent. En effet, la marge d'erreur absolue de lecture de la valeur des courbes est d'environ 1 pixel. Sauf que cette erreur absolue ne correspond pas à la même erreur relative pour la courbe du dessus et celle du dessous. Celle du dessus culmine toujours à 113 pixels : 1 pixel d'erreur c'est donc moins de 1%. Mais pour celle du dessous, si elle culmine à 50 pixels, ça fera 2% d'erreur. Si elle ne dépasse jamais 3 pixels, c'est plus de 30% d'erreur ! Alors dans ce cas, doit-on choisir une hiérarchie de courbes qui sont très proches les unes des autres ? Pas nécessairement, puisque dans ce cas &lt;span style="font-weight: bold;"&gt;effectivement on réduit l'erreur à chaque étape du calcul, pour deux termes consécutifs, mais on augmente le nombre de termes (et donc d'erreurs successives) entre le moins recherché sur Google, et le plus recherché&lt;/span&gt;.&lt;br /&gt;&lt;br /&gt;Evidemment, ce délicat compromis que je viens d'exprimer avec des mots, je n'ai pas pu m'empêcher de le modéliser mathématiquement. Je vais appeler &lt;i style="font-weight: bold;"&gt;a&lt;/i&gt;&lt;span style="font-weight: bold;"&gt; le rapport entre la hauteur max de la courbe la plus haute et celle de la plus basse parmi deux consécutives&lt;/span&gt; (et donc &lt;i&gt;a&lt;/i&gt;&gt;1). Pour simplifier le problème je considère que dans toute mon échelle de termes, ce rapport est &lt;span style="font-weight: bold;"&gt;constant&lt;/span&gt;. Ainsi, idéalement, j'aimerais trouver un mot 1 cherché &lt;i&gt;x&lt;/i&gt; fois par jour sur Google, un mot 2 cherché ax fois par jour, un mot 3 cherché &lt;i&gt;a&lt;/i&gt;&lt;sup&gt;2&lt;/sup&gt;&lt;i&gt;x&lt;/i&gt; fois par jour... un mot n+1 cherché &lt;i&gt;a&lt;sup&gt;n&lt;/sup&gt;x&lt;/i&gt; fois par jour.&lt;br /&gt;&lt;br /&gt;Maintenant, exprimons cette histoire d'erreur à chaque étape entre deux mots consécutifs : au lieu de lire une hauteur de &lt;i&gt;k&lt;/i&gt; pour un mot et &lt;i&gt;ak&lt;/i&gt;=113 pour le mot suivant, disons que je me trompe d'un pixel, à chaque fois trop haut &lt;span style="font-size:78%;"&gt;(c'est une hypothèse pessimiste, en réalité, l'erreur alterne probablement, une fois on lit trop haut, une fois trop bas, et ça compense...)&lt;/span&gt;. Pour mon calcul, s'il n'y avait pas d'erreur, par la règle de 3 je devrais trouver comme valeur du nombre de recherches du terme le plus haut :&lt;br /&gt;&lt;div style="text-align: center;"&gt;&lt;i&gt;x&lt;/i&gt;.113/&lt;i&gt;k&lt;/i&gt; = &lt;i&gt;x&lt;/i&gt;.&lt;i&gt;ak&lt;/i&gt;/&lt;i&gt;k&lt;/i&gt; = &lt;i&gt;xa&lt;/i&gt;&lt;br /&gt;&lt;/div&gt;&lt;br /&gt;Problème, je fais 1 pixel d'erreur, et donc quand j'applique la règle de 3 j'obtiens :&lt;br /&gt;&lt;div style="text-align: center;"&gt;&lt;i&gt;x&lt;/i&gt;.113/(&lt;i&gt;k&lt;/i&gt;+1) = &lt;i&gt;x&lt;/i&gt;.113/(113/&lt;i&gt;a&lt;/i&gt;+1) = &lt;i&gt;x&lt;/i&gt;.113&lt;i&gt;a&lt;/i&gt;/(113+&lt;i&gt;a&lt;/i&gt;)&lt;br /&gt;&lt;/div&gt;&lt;br /&gt;Ainsi à chaque étape je multiplie par 113a/(113+a) au lieu de multiplier par a, donc pour le terme le plus recherché, je trouve &lt;i&gt;x&lt;/i&gt;(113&lt;i&gt;a&lt;/i&gt;/(113+&lt;i&gt;a&lt;/i&gt;))&lt;sup&gt;&lt;i&gt;n&lt;/i&gt;&lt;/sup&gt; au lieu de &lt;i&gt;xa&lt;sup&gt;n&lt;/sup&gt;&lt;/i&gt;. Je sous-estime donc la valeur réelle : ainsi pour minimiser l'erreur, je dois maximiser ma valeur calculée, donc trouver la valeur de &lt;i&gt;a&lt;/i&gt;&gt;1 qui maximise &lt;i&gt;x&lt;/i&gt;(113&lt;i&gt;a&lt;/i&gt;/(113+&lt;i&gt;a&lt;/i&gt;))&lt;sup&gt;&lt;i&gt;n&lt;/i&gt;&lt;/sup&gt;.&lt;br /&gt;&lt;br /&gt;Deuxième partie du raisonnement maintenant : le nombre d'étapes, c'est à dire n+1 termes, certes... mais ce &lt;i&gt;n&lt;/i&gt; dépend de &lt;i&gt;a&lt;/i&gt;. En effet, considérons qu'on s'est fixés le terme le moins recherché (&lt;i&gt;x&lt;/i&gt; fois) et le terme le plus recherché (&lt;i&gt;x&lt;/i&gt;'=&lt;i&gt;xa&lt;sup&gt;n&lt;/sup&gt;&lt;/i&gt; fois). Alors &lt;i&gt;x&lt;/i&gt;'=&lt;i&gt;xe&lt;/i&gt;&lt;sup&gt;&lt;i&gt;n&lt;/i&gt; ln &lt;i&gt;a&lt;/i&gt;&lt;/sup&gt;, d'où ln(&lt;i&gt;x&lt;/i&gt;'/&lt;i&gt;x&lt;/i&gt;)=&lt;i&gt;n&lt;/i&gt; ln &lt;i&gt;a&lt;/i&gt; et donc &lt;i&gt;n&lt;/i&gt;=ln(&lt;i&gt;x&lt;/i&gt;'/&lt;i&gt;x&lt;/i&gt;)/ln &lt;i&gt;a&lt;/i&gt;.&lt;br /&gt;&lt;br /&gt;Injectons ça dans la formule du haut, on a sous-estimé tous les termes de la hiérarchie, et le plus haut a été évalué à :&lt;br /&gt;&lt;div style="text-align: center;"&gt;&lt;i style="font-weight: bold;"&gt;x&lt;/i&gt;&lt;span style="font-weight: bold;"&gt;(113&lt;/span&gt;&lt;i style="font-weight: bold;"&gt;a&lt;/i&gt;&lt;span style="font-weight: bold;"&gt;/(113+&lt;/span&gt;&lt;i style="font-weight: bold;"&gt;a&lt;/i&gt;&lt;span style="font-weight: bold;"&gt;))&lt;/span&gt;&lt;sup style="font-weight: bold;"&gt;ln(&lt;i&gt;x&lt;/i&gt;'/&lt;i&gt;x&lt;/i&gt;)/ln &lt;i&gt;a&lt;/i&gt;&lt;/sup&gt;&lt;br /&gt;&lt;/div&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;expression qu'on doit donc maximiser par rapport à &lt;/span&gt;&lt;i style="font-weight: bold;"&gt;a&lt;/i&gt;. Commençons par une analyse de cette fonction aux limites (mmmmh, les bons souvenirs de première !). En 1&lt;sup&gt;+&lt;/sup&gt;, l'intérieur de la parenthèse est inférieur à 1, et l'exposant tend vers +∞, donc l'expression tend vers 0. En +∞, l'exposant tend vers 0, et l'intérieur de la parenthèse vers 113, le tout tend donc vers 1. Ca tombe bien, c'est assez intuitif, ça exprime mathématiquement le dilemme que j'exprimais au second paragraphe... Bon bref, tout ceci ne nous dit pas où se situe son maximum. Et là ni &lt;a href="http://ahmed.youssef.free.fr/"&gt;Ahmed le Physicien&lt;/a&gt;, ni &lt;a href="http://www.iecn.u-nancy.fr/Le-Laboratoire-Et-La-Recherche/Le-Personnel/"&gt;Julian le Mathématicien&lt;/a&gt;, armés respectivement de Mathematica et Maple, ne me fournissent une belle formule, il reste quelques méchants &lt;a href="http://fr.wikipedia.org/wiki/Fonction_polyn%C3%B4me#Racines"&gt;RacineDe&lt;/a&gt;(...) dans l'expression.&lt;br /&gt;&lt;br /&gt;Pas grave, on va se contenter d'en trouver une &lt;span style="font-weight: bold;"&gt;approximation à l'aide d'un tableur&lt;/span&gt;. Le fichier est &lt;a href="http://philippe.gambette.free.fr/Blog/GoogleTrendsScale/GoogleTrendsError.ods"&gt;ici&lt;/a&gt;, et voici la courbe obtenue pour un rapport de 20 000 entre le mot le moins cherché et le plus cherché &lt;span style="font-size:78%;"&gt;(c'est de l'ordre de grandeur de celui que j'ai dans ma hiérarchie de termes)&lt;/span&gt; :&lt;br /&gt;&lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://philippe.gambette.free.fr/Blog/GoogleTrendsScale/GoogleTrendsErreur.png"&gt;&lt;img style="margin: 0px auto 10px; display: block; text-align: center; cursor: pointer;" src="http://philippe.gambette.free.fr/Blog/GoogleTrendsScale/GoogleTrendsErreur.png" alt="" border="0" /&gt;&lt;/a&gt;Ainsi l'erreur minimale est atteinte pour une &lt;span style="font-weight: bold;"&gt;valeur de &lt;/span&gt;&lt;span style="font-style: italic; font-weight: bold;"&gt;a&lt;/span&gt;&lt;span style="font-weight: bold;"&gt; d'environ 2,75&lt;/span&gt; &lt;span style="font-size:85%;"&gt;(soit une hauteur maximale de 41 pixels pour la courbe du bas)&lt;/span&gt;. Elle est alors d'un peu moins de 25%. C'est certes conséquent, mais rappelez-vous qu'on a choisi le scénario où les erreurs se cumulaient par sous-estimation systématique. Alors il me reste cette question théorique intéressante : &lt;span style="font-weight: bold;"&gt;peut-on calculer l'espérance de l'erreur sur la valeur calculée du terme le plus fréquemment cherché, si à chaque étape l'erreur oscille aléatoirement à chaque mesure entre -1 et +1 pixel&lt;/span&gt; ?&lt;br /&gt;&lt;br /&gt;On remarque aussi que la courbe croît plus vite à gauche qu'à droite : comme suggéré en vert sur le graphique, il semble qu'&lt;span style="font-weight: bold;"&gt;il vaudrait mieux choisir une hiérarchie telle que les nombres de recherches des mots de référence consécutifs ont un rapport de 4, plutôt qu'un rapport de 2&lt;/span&gt;.&lt;br /&gt;&lt;br /&gt;Maintenant, voici quelques autres moyens d'améliorer la précision du calcul. Tout d'abord la précision de la mesure : au lieu de simplement mesurer le maximum où on sait qu'il y a une erreur inévitable, on peut tenter de le calculer à partir de mesures qui contiennent moins d'erreur. Je reprends l'exemple &lt;a href="http://gambette.blogspot.com/2008/03/rtroingnirie-de-google-trends.html"&gt;du billet précédent&lt;/a&gt; avec cat, dog, et phone:&lt;br /&gt;&lt;i&gt;Comparaison cat &lt;/i&gt;&lt;i&gt;~&lt;/i&gt;&lt;i&gt; dog&lt;/i&gt; (courbe 1) : 65 px &lt;i&gt;~&lt;/i&gt; 113 px&lt;br /&gt;&lt;i&gt;Comparaison dog ~ phone&lt;/i&gt; (courbe 2) : 69 px &lt;i&gt;~&lt;/i&gt; 113 px&lt;br /&gt;&lt;br /&gt;Sauf qu'au lieu de mesurer le maximum de dog, on peut l'évaluer de la façon suivante faire la moyenne des valeurs sur la courbe 1 de dog, et la moyenne des valeurs sur la courbe 2 de dog. On en déduit alors un changement d'échelle tout à fait précis. On sait alors que le maximum de dog sur la courbe 1 est atteint à 113 pixels exactement, puisque ça semble être la valeur de référence dans les dessins Google Trends. On multiplie donc cette valeur par le changement d'échelle, et le tour est joué !&lt;br /&gt;&lt;br /&gt;Alors maintenant autre problème : comment obtenir la moyenne des valeurs d'une courbe Google Trends ? Avec le CaptuCourbe, évidemment ! Alors là aussi, attention : il arrive que certaines valeurs ne soient pas récupérées par le CaptuCourbe &lt;span style="font-size:78%;"&gt;(problème de couleur, par exemple la courbe est coupée par une ligne verticale noire accrochée à une bulle de légende Google News)&lt;/span&gt;. Il s'agit donc de prendre garde à effectuer la moyenne des deux courbes sur des valeurs bien récupérées !&lt;br /&gt;&lt;br /&gt;Autre chose, le CaptuCourbe, par sa méthode de capture, n'est &lt;span style="font-weight: bold;"&gt;pas très précis&lt;/span&gt; puisqu'il &lt;span style="font-weight: bold;"&gt;récupère tous les pixels de la couleur de la courbe, et en fait la moyenne&lt;/span&gt;. J'ai donc développé une nouvelle version, bientôt en ligne, qui permet de récupérer non pas la moyenne mais &lt;span style="font-weight: bold;"&gt;le max des hauteurs des pixels d'une certaine couleur&lt;/span&gt;. C'est cette fonction que j'utilise dans ma méthode pour calculer le max, en revanche c'est toujours celle de la moyenne que j'utilise pour calculer les moyennes des courbes. Ce petit détail n'en est pas un, comme le prouve par exemple la &lt;a href="http://www.google.fr/trends?q=britney+spears"&gt;courbe Google Trends de Britney Spears&lt;/a&gt;, que j'ai capturée par la méthode du max, et de la moyenne :&lt;br /&gt;&lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://philippe.gambette.free.fr/Blog/GoogleTrendsScale/ErreurCaptuCourbe.png"&gt;&lt;img style="margin: 0px auto 10px; display: block; text-align: center; cursor: pointer;" src="http://philippe.gambette.free.fr/Blog/GoogleTrendsScale/ErreurCaptuCourbe.png" alt="" border="0" /&gt;&lt;/a&gt;Une erreur de 20% dans la mesure de plusieurs pics en utilisant la moyenne des pixels de même couleur, vraiment pas négligeable !&lt;br /&gt;&lt;br /&gt;Pour terminer cette série de billets sur l'échelle verticale de Google Trends, il me reste encore quelques questions. Tout d'abord préciser la "valeur du foo". Grâce à des commentaires pertinents sur &lt;a href="http://gambette.blogspot.com/2008/03/rtroingnirie-de-google-trends.html"&gt;mon premier billet&lt;/a&gt;, je n'en suis pas loin. Je pourrai alors tenter d'automatiser toute la chaîne de récupération de courbes, mesures, et calculs, décrite dans le premier billet, pour fournir un programme qui précise sur une courbe Google Trends à combien de visiteurs correspondent les pics. Ceci dit je ne promets rien, ça vaudrait peut-être le coup d'attendre si l'API que Google prépare fournira ces données.&lt;br /&gt;&lt;br /&gt;L'estimation du nombre de recherches pour un mot clé est en tout cas un défi intéressant, j'ai découvert le logiciel gratuit &lt;a href="http://www.benjaminmaker.com/gtrends-made-easy/"&gt;GTrends Made Easy&lt;/a&gt; qui propose de telles estimations par une méthode similaire à celle que j'ai présentée ici &lt;span style="font-size:78%;"&gt;(en fait il ne fait qu'une seule règle de trois, en comparant le terme cherché avec un mot dont il connaît le nombre de recherches Google par un bon placement Google sur ce mot, et donc se limite aux mots qui apparaissent entre 5 et 50000 fois par jour, c'est à dire inférieurs à 100 foo)&lt;/span&gt;, qui avait été décrite sur cette vidéo &lt;a href="http://www.youtube.com/watch?v=jcN2WrLIaXY&amp;amp;feature=related"&gt;YouTube&lt;/a&gt;. Dommage que leurs auteurs n'aient pas poussé leur idée plus loin en enchaînant les changements d'échelle au lieu de se limiter à un.&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/28510665-2430076555159392341?l=gambette.blogspot.com'/&gt;&lt;/div&gt;&lt;img src="http://feeds.feedburner.com/~r/JeVeronise/~4/CnD_bYRrTmw" height="1" width="1"/&gt;</content><link rel="replies" type="application/atom+xml" href="http://gambette.blogspot.com/feeds/2430076555159392341/comments/default" title="Publier les commentaires" /><link rel="replies" type="text/html" href="https://www.blogger.com/comment.g?blogID=28510665&amp;postID=2430076555159392341" title="4 commentaires" /><link rel="edit" type="application/atom+xml" href="http://www.blogger.com/feeds/28510665/posts/default/2430076555159392341?v=2" /><link rel="self" type="application/atom+xml" href="http://www.blogger.com/feeds/28510665/posts/default/2430076555159392341?v=2" /><link rel="alternate" type="text/html" href="http://feedproxy.google.com/~r/JeVeronise/~3/CnD_bYRrTmw/rtroingnirie-de-google-trends-2-marge.html" title="Rétroingéniérie de Google Trends (2) : marge d'erreur" /><author><name>Philippe</name><uri>http://www.blogger.com/profile/17811557333070553722</uri><email>noreply@blogger.com</email><gd:extendedProperty name="OpenSocialUserId" value="01287611096413583131" /></author><thr:total xmlns:thr="http://purl.org/syndication/thread/1.0">4</thr:total><feedburner:origLink>http://gambette.blogspot.com/2008/03/rtroingnirie-de-google-trends-2-marge.html</feedburner:origLink></entry><entry gd:etag="W/&quot;DkEHQH89fCp7ImA9WxZWFEU.&quot;"><id>tag:blogger.com,1999:blog-28510665.post-5198647205302199173</id><published>2008-03-10T00:52:00.010+01:00</published><updated>2008-03-14T09:50:31.164+01:00</updated><app:edited xmlns:app="http://www.w3.org/2007/app">2008-03-14T09:50:31.164+01:00</app:edited><category scheme="http://www.blogger.com/atom/ns#" term="buzz" /><category scheme="http://www.blogger.com/atom/ns#" term="Britney Spears" /><category scheme="http://www.blogger.com/atom/ns#" term="corrections" /><category scheme="http://www.blogger.com/atom/ns#" term="société" /><category scheme="http://www.blogger.com/atom/ns#" term="Google Trends" /><category scheme="http://www.blogger.com/atom/ns#" term="logiciel" /><category scheme="http://www.blogger.com/atom/ns#" term="graphique" /><category scheme="http://www.blogger.com/atom/ns#" term="moteurs de recherche" /><title>Rétroingéniérie de Google Trends (1)</title><content type="html">En janvier, j'&lt;a href="http://gambette.blogspot.com/2008/01/comparer-les-courbes-de-buzz-avec-le.html"&gt;avais proposé&lt;/a&gt; un utilitaire, le &lt;a href="http://freecorp.free.fr/FRA/programmesdivers.htm#CaptuCourbe"&gt;CaptuCourbe&lt;/a&gt;, pour extraire les valeurs d'une courbe, avec application possible à &lt;a href="http://www.google.fr/trends"&gt;Google Trends&lt;/a&gt;. Depuis, l'outil s'est enrichi des couleurs par défaut des courbes Google, mais il manque toujours une donnée importante : &lt;span style="font-weight: bold;"&gt;quelle échelle verticale&lt;/span&gt; choisir ? Google prend en effet la précaution de cacher aux utilisateurs l'échelle utilisée. De plus comme les zooms ne sont pas permis, il n'est pas possible d'effectuer directement des comparaisons de courbes à différents ordres de grandeur. La hauteur maximum de courbe est en effet de 113 pixels, donc vous ne pouvez pas distinguer si un terme a été cherché 1000 fois, ou 10 000 fois moins qu'un autre.&lt;br /&gt;&lt;br /&gt;Voici donc une &lt;span style="font-weight: bold;"&gt;hiérarchie de mots anglais, dans un ordre décroissant de recherches Google d'après Google Trends&lt;/span&gt; : of, free, sex, car, dog, gun, muscle, knife, torn, filming, separating, fooling.&lt;br /&gt;&lt;br /&gt;On peut les utiliser pour créer &lt;span style="font-weight: bold;"&gt;une échelle pour Google Trends&lt;/span&gt;. Attention, elle ne sera pas précise (j'y reviendrai), mais permettra tout de même d'obtenir des valeurs quantitatives. Pour l'établir, j'ai procédé en recherchant conjointement dans Google Trends deux termes successifs dans la liste ci-dessus. Cela me permet d'&lt;span style="font-weight: bold;"&gt;évaluer le changement d'échelle&lt;/span&gt; pour chaque paire de successifs, en comptant la hauteur en pixel du maximum de chaque courbe. Une image est plus parlante que mes explications :&lt;br /&gt;&lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://philippe.gambette.free.fr/Blog/GoogleTrendsScale/GoogleTrendsScale.png"&gt;&lt;img style="margin: 0px auto 10px; display: block; text-align: center; cursor: pointer;" src="http://philippe.gambette.free.fr/Blog/GoogleTrendsScale/GoogleTrendsScale.png" alt="" border="0" /&gt;&lt;/a&gt;&lt;br /&gt;Comme je fais ça pour chaque paire de mots successifs, j'obtiens des valeurs de ce genre :&lt;br /&gt;&lt;i&gt;Comparaison cat &lt;/i&gt;&lt;i&gt;~&lt;/i&gt;&lt;i&gt; dog&lt;/i&gt; : 65 px &lt;i&gt;~&lt;/i&gt; 113 px&lt;br /&gt;&lt;i&gt;Comparaison dog ~ phone&lt;/i&gt; : 69 px &lt;i&gt;~&lt;/i&gt; 113 px&lt;br /&gt;ce qui me permet de déduire en utilisant habilement des &lt;a href="http://fr.wikipedia.org/wiki/R%C3%83%C2%A8gle_de_trois"&gt;règles de trois&lt;/a&gt; que :&lt;br /&gt;&lt;i&gt;cat &lt;/i&gt;&lt;i&gt;~&lt;/i&gt;&lt;i&gt; dog &lt;/i&gt;&lt;i&gt;~&lt;/i&gt;&lt;i&gt; phone&lt;/i&gt; : 65 &lt;i&gt;~&lt;/i&gt; 113 &lt;i&gt;~&lt;/i&gt; 113*113/69=185,06&lt;br /&gt;si l'on se base sur l'échelle de la première ligne ou bien :&lt;br /&gt;&lt;i&gt;cat &lt;/i&gt;&lt;i&gt;~&lt;/i&gt;&lt;i&gt; dog &lt;/i&gt;&lt;i&gt;~&lt;/i&gt;&lt;i&gt; phone&lt;/i&gt; : 69*65/113=39,69 &lt;i&gt;~&lt;/i&gt; 69 &lt;i&gt;~&lt;/i&gt; 113&lt;br /&gt;si l'on se base sur l'échelle de la seconde.&lt;br /&gt;&lt;br /&gt;Bref, j'ai reproduit ce raisonnement sur mes 11 mots pour obtenir les valeurs de maximum suivantes, en fixant la référence à &lt;span style="font-style: italic;"&gt;fooling&lt;/span&gt;, et en appelant donc cette nouvelle unité le &lt;i&gt;&lt;b&gt;&lt;a href="http://www.ecranbureau.com/dictionnaire/F/foobar.html"&gt;foo&lt;/a&gt;&lt;/b&gt;&lt;/i&gt; :&lt;br /&gt;&lt;ul&gt;&lt;li&gt;&lt;a href="http://philippe.gambette.free.fr/Blog/GoogleTrendsScale/BetterScale/01FoolingSeparating.png"&gt;fooling&lt;/a&gt; : 1 foo&lt;/li&gt;&lt;br /&gt;&lt;li&gt;&lt;a href="http://philippe.gambette.free.fr/Blog/GoogleTrendsScale/BetterScale/01FoolingSeparating.png"&gt;separating&lt;/a&gt; : 2,5 foo&lt;/li&gt;&lt;br /&gt;&lt;li&gt;&lt;a href="http://philippe.gambette.free.fr/Blog/GoogleTrendsScale/BetterScale/02SeparatingFilming.png"&gt;filming&lt;/a&gt; : 6,3 foo&lt;/li&gt;&lt;br /&gt;&lt;li&gt;&lt;a href="http://philippe.gambette.free.fr/Blog/GoogleTrendsScale/BetterScale/03FilmingTorn.png"&gt;torn&lt;/a&gt; : 18 foo&lt;/li&gt;&lt;br /&gt;&lt;li&gt;&lt;a href="http://philippe.gambette.free.fr/Blog/GoogleTrendsScale/BetterScale/04TornKnife.png"&gt;knife &lt;/a&gt;: 58 foo&lt;/li&gt;&lt;br /&gt;&lt;li&gt;&lt;a href="http://philippe.gambette.free.fr/Blog/GoogleTrendsScale/BetterScale/05KnifeMuscle.png"&gt;muscle &lt;/a&gt;: 120 foo&lt;/li&gt;&lt;br /&gt;&lt;li&gt;&lt;a href="http://philippe.gambette.free.fr/Blog/GoogleTrendsScale/BetterScale/06MuscleGun.png"&gt;gun &lt;/a&gt;: 240 foo&lt;/li&gt;&lt;br /&gt;&lt;li&gt;&lt;a href="http://philippe.gambette.free.fr/Blog/GoogleTrendsScale/BetterScale/07GunDog.png"&gt;dog &lt;/a&gt;: 640 foo&lt;/li&gt;&lt;br /&gt;&lt;li&gt;&lt;a href="http://philippe.gambette.free.fr/Blog/GoogleTrendsScale/BetterScale/08DogCar.png"&gt;car &lt;/a&gt;: 1500 foo&lt;/li&gt;&lt;br /&gt;&lt;li&gt;&lt;a href="http://philippe.gambette.free.fr/Blog/GoogleTrendsScale/BetterScale/09CarSex.png"&gt;sex &lt;/a&gt;: 3200 foo&lt;/li&gt;&lt;br /&gt;&lt;li&gt;&lt;a href="http://philippe.gambette.free.fr/Blog/GoogleTrendsScale/BetterScale/10SexFree.png"&gt;free &lt;/a&gt;: 6600 foo&lt;/li&gt;&lt;br /&gt;&lt;li&gt;&lt;a href="http://philippe.gambette.free.fr/Blog/GoogleTrendsScale/BetterScale/11FreeOf.png"&gt;of&lt;/a&gt; : 16500 foo&lt;/li&gt;&lt;/ul&gt;Attention, ce qui est à retenir, ce n'est &lt;b&gt;pas seulement ces diverses valeurs&lt;/b&gt;, mais aussi &lt;b&gt;la position du maximum qui atteint chaque valeur&lt;/b&gt;, c'est pourquoi en cliquant sur chaque mot ci-dessus vous accédez à une capture de la courbe vous permettant de localiser le max. En effet si vous voulez déterminer la valeur d'un pic pour un nouveau mot, soit vous avez compris le principe de la règle de 3 et vous amusez à calculer vous-même le max, soit vous indiquez simplement au CaptuCourbe l'échelle verticale en choisissant le max de la courbe de référence juste au-dessus du pic :&lt;br /&gt;&lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://philippe.gambette.free.fr/Blog/GoogleTrendsScale/ManaudouCarDog.png"&gt;&lt;img style="margin: 0px auto 10px; display: block; text-align: center; cursor: pointer;" src="http://philippe.gambette.free.fr/Blog/GoogleTrendsScale/ManaudouCarDog.png" alt="" border="0" /&gt;&lt;/a&gt;Par exemple ici environ &lt;span style="font-weight: bold;"&gt;800 foo pour &lt;a href="http://www.google.fr/trends?q=manaudou&amp;amp;ctab=0&amp;amp;geo=all&amp;amp;date=all&amp;amp;sort=0"&gt;Manaudou&lt;/a&gt;&lt;/span&gt; en décembre 2007, à comparer avec les &lt;span style="font-weight: bold;"&gt;240 foo du &lt;/span&gt;&lt;a style="font-weight: bold;" href="http://www.google.fr/trends?q=bruni%2Cgun&amp;amp;ctab=0&amp;amp;geo=all&amp;amp;date=all&amp;amp;sort=0"&gt;pic Bruni&lt;/a&gt;, ou les &lt;span style="font-weight: bold;"&gt;470 foo atteints &lt;/span&gt;&lt;a style="font-weight: bold;" href="http://www.google.fr/trends?q=obama%2Cdog&amp;amp;ctab=0&amp;amp;geo=all&amp;amp;date=all&amp;amp;sort=0"&gt;par Obama&lt;/a&gt;, les &lt;span style="font-weight: bold;"&gt;1000 foo de &lt;/span&gt;&lt;a style="font-weight: bold;" href="http://www.google.fr/trends?q=britney+spears%2Ccar&amp;amp;ctab=0&amp;amp;geo=all&amp;amp;date=all&amp;amp;sort=0"&gt;Britney&lt;/a&gt; et les &lt;span style="font-weight: bold;"&gt;3200 foo du &lt;/span&gt;&lt;a style="font-weight: bold;" href="http://www.google.fr/trends?q=tsunami%2Csex&amp;amp;ctab=0&amp;amp;geo=all&amp;amp;date=all&amp;amp;sort=0"&gt;tsunami de 2004&lt;/a&gt; ou les &lt;span style="font-weight: bold;"&gt;5700 foo de... &lt;a href="http://www.google.fr/trends?q=jackson%2Cfree&amp;amp;ctab=0&amp;amp;geo=all&amp;amp;date=all&amp;amp;sort=0"&gt;Janet Jackson après le Superbowl 2004&lt;/a&gt;&lt;/span&gt; !&lt;br /&gt;&lt;br /&gt;Après l'annonce un peu commerciale de cette jolie petite échelle, l'honnêteté du scientifique m'oblige à quelques remarques :&lt;br /&gt;- la &lt;span style="font-weight: bold;"&gt;marge d'erreur&lt;/span&gt; lors du calcul par enchaînement de règles de 3 successives : c'est &lt;span style="font-weight: bold;"&gt;le sujet de &lt;a href="http://gambette.blogspot.com/2008/03/rtroingnirie-de-google-trends-2-marge.html"&gt;mon prochain billet&lt;/a&gt;&lt;/span&gt; et ce sera un peu technique &lt;span style="font-size:78%;"&gt;(yaura même une jolie équation que ni Maple ni Mathematica n'arrivent à simplifier)&lt;/span&gt;... retenez que les nombres proposés ici doivent être valides à 10% près. Je me suis retenu de préciser plus de décimales, me souvenant de la sage annotation d'une prof de physique de lycée &lt;span style="font-size:78%;"&gt;(au nom écorché par les sauvages utilisateurs de Note2Be)&lt;/span&gt; sur une de mes copies : "&lt;span style="font-style: italic;"&gt;précision illusoire&lt;/span&gt;".&lt;br /&gt;- non content de ne pas fournir l'échelle verticale de ses courbes, &lt;span style="font-weight: bold;"&gt;Google se permet aussi de les modifier fortement d'un jour à l'autre&lt;/span&gt; &lt;span style="font-size:78%;"&gt;(c'est peut-être simplement un problème de discrétisation de la courbe réalisée "à la hache" sans se poser de question, mais dans ce cas étrange que les courbes de news en dessous soient identiques)&lt;/span&gt;, comme le montre ce gif animé &lt;span style="font-size:78%;"&gt;(créé avec &lt;a href="http://www.01net.com/telecharger/windows/Multimedia/creation_graphique/fiches/34462.html"&gt;le simplissime UnFreez&lt;/a&gt;)&lt;/span&gt; :&lt;br /&gt;&lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://philippe.gambette.free.fr/Blog/GoogleTrendsScale/GoogleTrendsChanges.gif"&gt;&lt;img style="margin: 0px auto 10px; display: block; text-align: center; cursor: pointer;" src="http://philippe.gambette.free.fr/Blog/GoogleTrendsScale/GoogleTrendsChanges.gif" alt="" border="0" /&gt;&lt;/a&gt;Attention donc si vous réutilisez un des mots ci-dessus comme référence, ne vous contentez pas de retenir la valeur du pic, ni même son positionnement, mais vérifiez en tentant de superposer la courbe de référence fournie sur ce billet, que la courbe de référence de l'image que vous voulez utiliser est bien à la même échelle, et tentez de corriger si ce n'est pas le cas.&lt;br /&gt;- l'échelle reste relative, et pour en obtenir une absolue il faudrait savoir &lt;span style="font-weight: bold;"&gt;à combien de recherches Google exactement correspond 1 foo ?&lt;/span&gt; Toute idée de méthodologie pour connaître cette valeur est la bienvenue, pour l'instant la seule solution que j'aurais serait de créer un buzz artificiel de recherches Google, par un programme qui, un certain jour, à une certaine heure, irait rechercher un terme sur Google, et visiter une "page compteur" qui recenserait ainsi le nombre total de recherches Google sur ce terme. Encore faudrait-il avoir assez de volontaires qui accepteraient d'installer le programme, et je ne suis pas &lt;a href="http://folding.stanford.edu/French/Main"&gt;Vijay Pande&lt;/a&gt;... En attendant je peux remarquer que la &lt;a href="http://www.google.fr/trends?q=m6+direct%2Cfooling&amp;amp;ctab=0&amp;amp;geo=all&amp;amp;date=2008&amp;amp;sort=0"&gt;courbe pour M6 direct&lt;/a&gt; a atteint 0,5 foo en février, alors que mon blog recevait environ 500 visites hebdomadaires pour ces mots-clé &lt;span style="font-size:85%;"&gt;(pour lesquels je suis bien positionné)&lt;/span&gt;. Bref, pour qu'un pic soit mentionné par Google Trends il faudrait cibler sur plus d'un millier de participants...&lt;br /&gt;&lt;br /&gt;&lt;br /&gt;&lt;i&gt;&lt;b&gt;Ajout du 10/03&lt;/b&gt;&lt;/i&gt; : je me rends compte que j'aurais peut-être dû mentionner, à propos de cette &lt;b&gt;unité "foo"&lt;/b&gt;, que le nombre de recherches auquel elle correspond est &lt;b&gt;variable avec le temps&lt;/b&gt;. En effet les courbes Google Trends représentent une &lt;b&gt;proportion des recherches sur certains termes par rapport à toutes les recherches Google&lt;/b&gt;. Ceci explique d'ailleurs la valeur impressionnante en foo de "Jackson". Par rapport au nombre total d'utilisateurs de Google en 2004 effectivement le buzz a été énorme, mais difficile de comparer de façon absolue en nombre de recherches 5700 foo de 2004 avec 800 foo de 2008... à moins que là aussi on puisse bricoler quelque chose ? Récupérer l'évolution du nombre de visiteurs ou de recherches Google depuis 2004, utiliser les courbes Alexa... à voir.&lt;br /&gt;&lt;br /&gt;&lt;br /&gt;&lt;i&gt;This post is translated to English: &lt;a href="http://veronising.blogspot.com/2008/03/reverse-engineering-google-trends-1.html"&gt;Reverse engineering Google Trends (1)&lt;/a&gt;.&lt;/i&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style="font-size:78%;"&gt;Fichiers source : les courbes Google Trends de chaque mot sont liées ci-dessus, voilà le &lt;a href="http://philippe.gambette.free.fr/Blog/GoogleTrendsScale/GoogleTrendsAccurate.ods"&gt;fichier tableur qui a servi au calcul des valeurs en foo&lt;/a&gt; (attention c'est un fouillis monstre, plus de détails dans &lt;a href="http://gambette.blogspot.com/2008/03/rtroingnirie-de-google-trends-2-marge.html"&gt;le prochain billet&lt;/a&gt;).&lt;/span&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/28510665-5198647205302199173?l=gambette.blogspot.com'/&gt;&lt;/div&gt;&lt;img src="http://feeds.feedburner.com/~r/JeVeronise/~4/awXjmEcCLCg" height="1" width="1"/&gt;</content><link rel="replies" type="application/atom+xml" href="http://gambette.blogspot.com/feeds/5198647205302199173/comments/default" title="Publier les commentaires" /><link rel="replies" type="text/html" href="https://www.blogger.com/comment.g?blogID=28510665&amp;postID=5198647205302199173" title="11 commentaires" /><link rel="edit" type="application/atom+xml" href="http://www.blogger.com/feeds/28510665/posts/default/5198647205302199173?v=2" /><link rel="self" type="application/atom+xml" href="http://www.blogger.com/feeds/28510665/posts/default/5198647205302199173?v=2" /><link rel="alternate" type="text/html" href="http://feedproxy.google.com/~r/JeVeronise/~3/awXjmEcCLCg/rtroingnirie-de-google-trends.html" title="Rétroingéniérie de Google Trends (1)" /><author><name>Philippe</name><uri>http://www.blogger.com/profile/17811557333070553722</uri><email>noreply@blogger.com</email><gd:extendedProperty name="OpenSocialUserId" value="01287611096413583131" /></author><thr:total xmlns:thr="http://purl.org/syndication/thread/1.0">11</thr:total><feedburner:origLink>http://gambette.blogspot.com/2008/03/rtroingnirie-de-google-trends.html</feedburner:origLink></entry><entry gd:etag="W/&quot;CEcBSHk9eip7ImA9WxZXFEg.&quot;"><id>tag:blogger.com,1999:blog-28510665.post-4071573809482345516</id><published>2008-03-02T09:49:00.001+01:00</published><updated>2008-03-02T11:00:59.762+01:00</updated><app:edited xmlns:app="http://www.w3.org/2007/app">2008-03-02T11:00:59.762+01:00</app:edited><category scheme="http://www.blogger.com/atom/ns#" term="buzz" /><category scheme="http://www.blogger.com/atom/ns#" term="presse" /><category scheme="http://www.blogger.com/atom/ns#" term="blogosphère" /><category scheme="http://www.blogger.com/atom/ns#" term="BlogScope" /><category scheme="http://www.blogger.com/atom/ns#" term="blogs" /><category scheme="http://www.blogger.com/atom/ns#" term="tableur" /><category scheme="http://www.blogger.com/atom/ns#" term="Blogsearch" /><category scheme="http://www.blogger.com/atom/ns#" term="Google Trends" /><category scheme="http://www.blogger.com/atom/ns#" term="Google" /><category scheme="http://www.blogger.com/atom/ns#" term="Yahoo" /><category scheme="http://www.blogger.com/atom/ns#" term="Technorati" /><category scheme="http://www.blogger.com/atom/ns#" term="moteurs de recherche" /><title>Suivi en direct de la naissance d'un buzz</title><content type="html">Je rêve &lt;a href="http://gambette.blogspot.com/search/label/buzz"&gt;depuis quelques articles&lt;/a&gt; de pouvoir suivre en direct la naissance d'un buzz sur internet, et évaluer la performance des divers outils dédiés à leur analyse et détection. J'aurais préféré un sujet plus léger, mais c'est la tragédie de la Northern Illinois University qui m'en a donné l'occasion il y a deux semaines.&lt;br /&gt;&lt;br /&gt;L'identité du tireur &lt;a href="http://answers.yahoo.com/question/index?qid=20080214205048AAHy7LK"&gt;n'était pas été dévoilée le soir du drame&lt;/a&gt;. Mais dans la nuit (10 heures après), le Chicago Tribune &lt;a href="http://www.chicagotribune.com/news/local/chi-shooterfeb15,0,2581284.story"&gt;fournissait sur son site internet&lt;/a&gt; assez d'éléments pour lever l'anonymat, tout en précisant de façon plutôt hypocrite : &lt;blockquote&gt;&lt;i&gt;The Tribune is not naming the gunman because police have not officially completed the identification of his body.&lt;/i&gt;&lt;/blockquote&gt;Une simple recherche d'articles co-signés par &lt;a href="http://scholar.google.fr/scholar?q=authornbsp%3Aj-thomas+%22self+injury%22+prison"&gt;Jim Thomas et avec les mots clés "self-injury" et "prison"&lt;/a&gt; permettait d'identifier le suspect : Steve Kazmierczak. A 8h10, un visiteur de la Wikipedia &lt;a href="http://en.wikipedia.org/w/index.php?title=Northern_Illinois_University_shooting&amp;amp;oldid=191605629"&gt;modifie l'article concernant la fusillade&lt;/a&gt; pour y indiquer ce nom. Une trentaine de minutes plus tard, &lt;a href="http://dclies.blogspot.com/2008/02/steve-kazmierczak.html"&gt;premier article de blog qui le cite&lt;/a&gt;, son auteur le met à jour plusieurs fois pour y ajouter d'autres informations trouvées sur internet. Le nom apparaît alors sur un &lt;a href="http://onsan.livejournal.com/207435.html"&gt;blog&lt;/a&gt; et un forum, et à 10h33, est cité par le &lt;a href="http://www.dailymail.co.uk/pages/live/articles/news/worldnews.html?in_article_id=514549&amp;amp;in_page_id=1770&amp;amp;ICO=NEWS&amp;amp;ICL=TOPART"&gt;Daily Mail&lt;/a&gt; (&lt;span style="font-size:78%;"&gt;l'article a été mis à jour depuis&lt;/span&gt;). Les internautes commencent alors à le soumettre aux moteurs de recherche, et il se retrouve &lt;span style="font-weight: bold;"&gt;en tête de la &lt;/span&gt;&lt;a style="font-weight: bold;" href="http://www.google.fr/trends"&gt;liste des "hot trends" de Google&lt;/a&gt;. Il est donc immédiatement repris par &lt;span style="font-weight: bold;"&gt;quelques &lt;a href="http://fr.wikipedia.org/wiki/Splog"&gt;splogs&lt;/a&gt;, qui semblent faire leur beurre en citant les tendances du moment&lt;/span&gt; éventuellement accompagnées de quelques extraits de pages web les concernant, récupérées automatiquement. A 14h42, l'agence Associated Press annonce que la police a rendu public le nom de Steven Kazmierczak. Mon suivi du buzz s'est arrêté là, puisque les articles ou pages web sur le sujet ont alors utilisé les prénoms "Steve", "Steven" ou "Stephen".&lt;br /&gt;&lt;br /&gt;&lt;map name="MAP1"&gt;&lt;area shape="RECT" coords="337,213,396,257" href="http://hosted.ap.org/dynamic/stories/A/APNEWSALERT?SITE=IADES&amp;amp;SECTION=HOME&amp;amp;TEMPLATE=DEFAULT" target="_self"&gt;&lt;area shape="RECT" coords="323,181,492,213" href="http://www.telegraph.co.uk/news/main.jhtml?xml=/news/2008/02/15/wshoot615.xml" target="_self"&gt;&lt;area shape="RECT" coords="148,41,282,114" href="http://bigdekalb.com/modules/newbbex/viewtopic.php?topic_id=13&amp;amp;forum=5" target="_self"&gt;&lt;area shape="RECT" coords="282,32,364,70" href="http://onsan.livejournal.com/207435.html" target="_self"&gt;&lt;area shape="RECT" coords="282,70,399,114" href="http://www.dailymail.co.uk/pages/live/articles/news/worldnews.html?in_article_id=514549&amp;amp;in_page_id=1770&amp;amp;ICO=NEWS&amp;amp;ICL=TOPART" target="_self"&gt;&lt;area shape="RECT" coords="483,87,684,105" href="http://www.google.fr/trends/hottrends?q=stephen+kazmierczak&amp;amp;date=2008-2-15&amp;amp;sa=X" target="_self"&gt;&lt;area shape="RECT" coords="483,67,681,87" href="http://www.google.fr/trends/hottrends?q=steven+kazmierczak&amp;amp;date=2008-2-15&amp;amp;sa=X" target="_self"&gt;&lt;area shape="RECT" coords="483,47,676,67" href="http://www.google.fr/trends/hottrends?q=steve+kazmierczak&amp;amp;date=2008-2-15&amp;amp;sa=X" target="_self"&gt;&lt;area shape="RECT" coords="148,140,244,178" href="http://en.wikipedia.org/w/index.php?title=Northern_Illinois_University_shooting&amp;amp;oldid=191605629" target="_self"&gt;&lt;area shape="RECT" coords="63,178,224,222" href="http://www.chicagotribune.com/news/local/chi-shooterfeb15,0,2581284.story" target="_self"&gt;&lt;area shape="RECT" coords="171,105,256,140" href="http://dclies.blogspot.com/2008/02/steve-kazmierczak.html" target="_self"&gt;&lt;/map&gt;&lt;img style="margin: 0px auto 10px; display: block; text-align: center; cursor: pointer;" src="http://philippe.gambette.free.fr/Blog/SteveKazmierczak/SteveRecapMini.png" alt="" usemap="#MAP1" border="0" /&gt;Quoi qu'il en soit, suivre les premières heures m'a permis de noter la réactivité des divers moteurs de recherche et outils de suivi de la blogosphère ou plus généralement du web. Comme je l'ai mentionné ci-dessus, c'est la &lt;span style="font-weight: bold;"&gt;Wikipedia&lt;/span&gt; qui a dévoilé l'identité en premier. Une occasion de plus d'en noter les possibles dérives, mais aussi de s'incliner devant la puissance de cette formidable &lt;span style="font-weight: bold;"&gt;machine à scoops&lt;/span&gt;. C'est dans l'encyclopédie que j'avais trouvé le premier compte-rendu clair de l'affaire Kerviel, après plusieurs jours d'évocation de "fraude" sans plus de détails dans les articles de presse que j'avais parcourus. On peut aussi s'y informer sur les décès de personnalités, en utilisant l'outil &lt;a href="http://www.wikirage.com/"&gt;Wikirage&lt;/a&gt; qui par exemple montrait en tête le 13 février : &lt;a href="http://fr.wikipedia.org/wiki/Henri_Salvador"&gt;Henri Salvador&lt;/a&gt;, &lt;a href="http://fr.wikirage.com/wiki/Imad_Mougniyah/"&gt;Imad Mougniyah&lt;/a&gt;, et &lt;a href="http://fr.wikipedia.org/wiki/Badri_Patarkatsishvili"&gt;Badri Patarkatsishvili&lt;/a&gt;.&lt;br /&gt;&lt;br /&gt;A propos des outils de suivi de la blogosphère, on peut noter que &lt;a style="font-weight: bold;" href="http://www.blogpulse.com/"&gt;BlogPulse&lt;/a&gt;&lt;span style="font-weight: bold;"&gt; n'est pas très réactif&lt;/span&gt;. Evidemment &lt;a href="http://blogsearch.google.com/"&gt;Google Blogsearch&lt;/a&gt; est le premier à détecter le premier billet de blog sur le sujet, hébergé par... Blogspot. Dans l'ensemble il paraît toutefois faire jeu égal avec &lt;a href="http://technorati.com/"&gt;Technorati&lt;/a&gt;, dont la courbe un peu plus élevée à partir de 14h s'explique par quelques splogs non répertoriés (de façon volontaire ou non ?) par Google.&lt;br /&gt;&lt;br /&gt;La réaction des &lt;span style="font-weight: bold;"&gt;moteurs de recherche&lt;/span&gt; sur la requête "Steve Kazmierczak" est aussi assez intéressante. &lt;span style="font-weight: bold;"&gt;Le buzz leur échappe complètement&lt;/span&gt; pendant ces premières heures... &lt;span style="font-weight: bold;"&gt;à part Google&lt;/span&gt;. Pour ce dernier, même si ça n'est pas clair sur le graphique, le nombre de résultats pertinents augmente bien, passant de 61 à 10h30 à 68 à 16h (les nouvelles pages proposées en résultat sont effectivement liées à l'affaire). L'explosion du nombre de résultats sans filtre de pertinence est en revanche tout à fait étonnant, et renforce &lt;a href="http://aixtal.blogspot.com/2005/01/web-comptes-bidons-chez-google.html"&gt;le mystère sur les "nombres Google"&lt;/a&gt; : le nombre de pages pour cette requête a-t-il réellement doublé en 5h, ou bien n'est-ce qu'une approximation douteuse ?&lt;br /&gt;&lt;br /&gt;Mais le plus important, c'est peut-être les courbes de Google Trends qui nous l'apprennent. Avant que la presse ose dévoiler le nom du tireur, avant que Wikipedia l'apprenne, &lt;span style="font-weight: bold;"&gt;Google était déjà au courant&lt;/span&gt;, avec les premières recherches sur ce nom moins de 3h après les faits. Leur domination sur le marché des moteurs de recherche leur donne aussi un accès direct à l'information, et leurs outils sont apparemment prêts pour l'exploiter au maximum. Avec la géolocalisation notamment, qui permet de cibler la provenance des requêtes et donc d'un &lt;a href="http://www.google.fr/trends?q=steven,steve&amp;amp;ctab=0&amp;amp;geo=US&amp;amp;geor=usa.il&amp;amp;date=2008-2&amp;amp;sort=0"&gt;éventuel buzz local&lt;/a&gt;. Alors à quand une agence de presse ou un tabloid Google, qui dévoilera ses scoops et rumeurs des heures avant le DailyMail ? Et qui a aujourd'hui accès aux données brutes de Google Trends en direct ? Sur le site, actuellement, les courbes sont actualisées au moins après 48h, ne sont pas fournies pour les termes pas assez recherchés, l'échelle horizontale n'est pas tout à fait précisée (j'interprète, peut-être à tort, que le point au-dessus de 4AM représente le nombre de recherches de 3AM à 4AM), sans parler de l'échelle verticale inexistante ! Bientôt une &lt;a href="http://www.news.com/8301-10784_3-9828916-7.html?part=rss&amp;amp;subj=news&amp;amp;tag=2547-1_3-0-5"&gt;API Google Trends&lt;/a&gt; permettra peut-être d'accéder à ces données, et de rendre aux internautes la "connaissance" acquise grâce à eux...&lt;br /&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style="font-style: italic;"&gt;This post is translated to English: &lt;a href="http://veronising.blogspot.com/2008/03/birth-of-buzz-live.html"&gt;The birth of a buzz, live&lt;/a&gt;&lt;/span&gt;.&lt;br /&gt;&lt;span style="font-size:78%;"&gt;&lt;a href="http://philippe.gambette.free.fr/Blog/SteveKazmierczak/STEVE%20KAZMIERCZAK.ods"&gt;Données brutes ayant servi à la réalisation des graphiques (fichier tableur OpenOffice)&lt;/a&gt;&lt;/span&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/28510665-4071573809482345516?l=gambette.blogspot.com'/&gt;&lt;/div&gt;&lt;img src="http://feeds.feedburner.com/~r/JeVeronise/~4/EJN-JDBF3pU" height="1" width="1"/&gt;</content><link rel="replies" type="application/atom+xml" href="http://gambette.blogspot.com/feeds/4071573809482345516/comments/default" title="Publier les commentaires" /><link rel="replies" type="text/html" href="https://www.blogger.com/comment.g?blogID=28510665&amp;postID=4071573809482345516" title="2 commentaires" /><link rel="edit" type="application/atom+xml" href="http://www.blogger.com/feeds/28510665/posts/default/4071573809482345516?v=2" /><link rel="self" type="application/atom+xml" href="http://www.blogger.com/feeds/28510665/posts/default/4071573809482345516?v=2" /><link rel="alternate" type="text/html" href="http://feedproxy.google.com/~r/JeVeronise/~3/EJN-JDBF3pU/suivi-en-direct-de-la-naissance-dun.html" title="Suivi en direct de la naissance d'un buzz" /><author><name>Philippe</name><uri>http://www.blogger.com/profile/17811557333070553722</uri><email>noreply@blogger.com</email><gd:extendedProperty name="OpenSocialUserId" value="01287611096413583131" /></author><thr:total xmlns:thr="http://purl.org/syndication/thread/1.0">2</thr:total><feedburner:origLink>http://gambette.blogspot.com/2008/03/suivi-en-direct-de-la-naissance-dun.html</feedburner:origLink></entry><entry gd:etag="W/&quot;DU4DQX86fyp7ImA9WxVREUw.&quot;"><id>tag:blogger.com,1999:blog-28510665.post-5325192046098506418</id><published>2008-02-01T23:42:00.002+01:00</published><updated>2009-01-16T15:59:30.117+01:00</updated><app:edited xmlns:app="http://www.w3.org/2007/app">2009-01-16T15:59:30.117+01:00</app:edited><category scheme="http://www.blogger.com/atom/ns#" term="langage" /><category scheme="http://www.blogger.com/atom/ns#" term="presse" /><category scheme="http://www.blogger.com/atom/ns#" term="corrections" /><category scheme="http://www.blogger.com/atom/ns#" term="mail" /><category scheme="http://www.blogger.com/atom/ns#" term="logiciel" /><category scheme="http://www.blogger.com/atom/ns#" term="style" /><title>Traquer les mots moches</title><content type="html">Las d'écorcher les yeux et les oreilles de mes proches, après 4 journées de stage de &lt;a href="http://fr.wikipedia.org/wiki/Technesth%C3%A9sie"&gt;technesthésie&lt;/a&gt; pour améliorer mon expression orale &lt;span style="font-size:78%;"&gt;(merci le &lt;a href="http://www.ciesmontpellier.org/site/www/"&gt;CIES&lt;/a&gt; !)&lt;/span&gt;, j'ai décidé de m'attaquer à mes erreurs et tics lexicaux. Anglicismes, complexifications inutiles, abus de langage, tout cela est recensé dans le &lt;a href="http://www.dicomoche.net/"&gt;Dicomoche&lt;/a&gt;. Encore faut-il repérer qu'on en utilise !&lt;br /&gt;&lt;br /&gt;J'ai commencé à construire un site dédié à cela. Pour l'instant c'est tout à fait basique, le "&lt;a href="http://democheur.free.fr/"&gt;Démocheur&lt;/a&gt;" (version beta) se contente de &lt;span style="font-weight: bold;"&gt;colorer certains mots moches ou potentiellement moches&lt;/span&gt;. Quand je dis basique, ça signifie aucune analyse lexicale, un simple fonctionnement par rechercher/remplacer. La liste actuelle de mots moches est très réduite, elle est destinée à s'enrichir au moins par le contenu du dicomoche, mais tout visiteur du Démocheur peut &lt;a href="http://democheur.free.fr/motsmoches.php"&gt;y proposer ses mots moches&lt;/a&gt;. Je mettrai certainement en place un système de vote pour laisser aux visiteurs la possibilité d'évaluer la laideur de chaque expression, dans un esprit de démocratie tout à fait web2.0. Reste à voir, une fois que les problèmes sont identifiés, comment les corriger, et là c'est au visiteur de se casser la tête, en suivant éventuellement les liens vers le dicomoche.&lt;br /&gt;&lt;br /&gt;&lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://democheur.free.fr/"&gt;&lt;img style="margin: 0px auto 10px; display: block; text-align: center; cursor: pointer;" src="http://philippe.gambette.free.fr/Blog/DemocheurMini.png" alt="Résultat du démocheur" border="0" /&gt;&lt;/a&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/28510665-5325192046098506418?l=gambette.blogspot.com'/&gt;&lt;/div&gt;&lt;img src="http://feeds.feedburner.com/~r/JeVeronise/~4/WLFHwb4bBpI" height="1" width="1"/&gt;</content><link rel="replies" type="application/atom+xml" href="http://gambette.blogspot.com/feeds/5325192046098506418/comments/default" title="Publier les commentaires" /><link rel="replies" type="text/html" href="https://www.blogger.com/comment.g?blogID=28510665&amp;postID=5325192046098506418" title="1 commentaires" /><link rel="edit" type="application/atom+xml" href="http://www.blogger.com/feeds/28510665/posts/default/5325192046098506418?v=2" /><link rel="self" type="application/atom+xml" href="http://www.blogger.com/feeds/28510665/posts/default/5325192046098506418?v=2" /><link rel="alternate" type="text/html" href="http://feedproxy.google.com/~r/JeVeronise/~3/WLFHwb4bBpI/traquer-les-mots-moches.html" title="Traquer les mots moches" /><author><name>Philippe</name><uri>http://www.blogger.com/profile/17811557333070553722</uri><email>noreply@blogger.com</email><gd:extendedProperty name="OpenSocialUserId" value="01287611096413583131" /></author><thr:total xmlns:thr="http://purl.org/syndication/thread/1.0">1</thr:total><feedburner:origLink>http://gambette.blogspot.com/2008/02/traquer-les-mots-moches.html</feedburner:origLink></entry><entry gd:etag="W/&quot;DE4BRXo9eip7ImA9WxJSGUQ.&quot;"><id>tag:blogger.com,1999:blog-28510665.post-6645037077157221793</id><published>2008-01-27T22:51:00.004+01:00</published><updated>2009-05-11T01:09:14.462+02:00</updated><app:edited xmlns:app="http://www.w3.org/2007/app">2009-05-11T01:09:14.462+02:00</app:edited><category scheme="http://www.blogger.com/atom/ns#" term="statistiques" /><category scheme="http://www.blogger.com/atom/ns#" term="tableur" /><category scheme="http://www.blogger.com/atom/ns#" term="FuryPopularity" /><category scheme="http://www.blogger.com/atom/ns#" term="xkcd" /><category scheme="http://www.blogger.com/atom/ns#" term="nuage de mots" /><category scheme="http://www.blogger.com/atom/ns#" term="TagCloud Builder" /><category scheme="http://www.blogger.com/atom/ns#" term="logiciel" /><category scheme="http://www.blogger.com/atom/ns#" term="graphique" /><category scheme="http://www.blogger.com/atom/ns#" term="Google" /><category scheme="http://www.blogger.com/atom/ns#" term="moteurs de recherche" /><title>Danger : accidents mortels !</title><content type="html">Je ne connais pas du tout la blogosphère américaine (d'ailleurs, commencer à &lt;a href="http://veronising.blogspot.com/"&gt;publier en anglais&lt;/a&gt; est aussi un moyen, j'espère, d'en récupérer quelques échos) mais il y a un blog anglophone que je visite régulièrement, &lt;a href="http://en.wikipedia.org/wiki/Xkcd"&gt;xkcd&lt;/a&gt;, recueil de vignettes de BD tordantes... pour un public plutôt initié (comprenez : aussi geek que son auteur &lt;a href="http://en.wikipedia.org/wiki/Randall_Munroe"&gt;Randall Munroe&lt;/a&gt;, à l'origine d'&lt;a href="http://xkcd.com/kite/kite_trick.jpg"&gt;autres&lt;/a&gt; &lt;a href="http://thefunniest.info/"&gt;jolis&lt;/a&gt; &lt;a href="http://blag.xkcd.com/2007/12/31/ghost/"&gt;coups&lt;/a&gt;).&lt;br /&gt;&lt;br /&gt;J'ai particulièrement apprécié une des dernières vignettes, qui fait appel aux &lt;span style="font-weight: bold;"&gt;nombres de résultats Google&lt;/span&gt;, comme ça m'est déjà arrivé sur ce blog pour l'&lt;a href="http://gambette.blogspot.com/2006/06/googlefight-pour-lorthographe-le.html"&gt;orthographe&lt;/a&gt;, la &lt;a href="http://gambette.blogspot.com/2007/02/stats-de-popularit-artisanales.html"&gt;célébrité des députés&lt;/a&gt;, ou la &lt;a href="http://gambette.blogspot.com/2006/11/la-naissance-du-web-daprs-les-moteurs.html"&gt;date de naissance du web&lt;/a&gt; :&lt;br /&gt;&lt;div style="text-align: center;"&gt;&lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://xkcd.com/369/"&gt;&lt;img style="margin: 0px auto 10px; display: block; cursor: pointer; text-align: center;" alt="" src="http://philippe.gambette.free.fr/Blog/Xkcd/Xkcd369.png" border="0" /&gt;&lt;/a&gt;&lt;span style="font-size:130%;"&gt;&lt;span style="font-weight: bold;"&gt;Activités dangereuses&lt;/span&gt;&lt;/span&gt;&lt;br /&gt;&lt;/div&gt;&lt;div style="text-align: center;"&gt;&lt;span style="font-size:85%;"&gt;Indexées par le nombre de résultats Google pour&lt;/span&gt;&lt;br /&gt;&lt;span style="font-weight: bold;font-size:100%;" &gt;"&lt;span style="font-style: italic;"&gt;mort dans un accident de&lt;/span&gt; ..."&lt;br /&gt;&lt;br /&gt;&lt;/span&gt;&lt;span style="font-size:100%;"&gt;Type d'accident - Résultats Google&lt;/span&gt;&lt;span style="font-weight: bold;font-size:100%;" &gt;&lt;br /&gt;&lt;/span&gt;parachutisme - 710&lt;br /&gt;ascenseur - 575&lt;br /&gt;surf - 496&lt;br /&gt;skateboard - 473&lt;br /&gt;camping - 166&lt;br /&gt;jardinage - 100&lt;br /&gt;patinage - 94&lt;br /&gt;couture - 7&lt;br /&gt;&lt;a href="http://www.oqlf.gouv.qc.ca/ressources/bibliotheque/dictionnaires/Internet/fiches/8363166.html"&gt;blogage&lt;/a&gt; - 2&lt;br /&gt;&lt;br /&gt;&lt;/div&gt;Cette vignette a créé une &lt;a href="http://mrcopilot.blogspot.com/2008/01/died-in-blogging-accident.html"&gt;Google Bomb&lt;/a&gt; &lt;a href="http://slashdot.org/article.pl?sid=08/01/12/1312258&amp;amp;threshold=-1"&gt;slashdottée&lt;/a&gt; en faisant exploser le nombre de réponses pour "died in a blogging accident". L'expression avait bien sûr marqué les esprits de tous les blogueurs, qui ont repris la vignette en ajoutant les résultats de leurs propres recherches Google sur le sujet. On peut voir &lt;a href="http://www.aidansean.com/died_in_a.html"&gt;sur ce site&lt;/a&gt; ou dans le &lt;a href="http://forums.xkcd.com/viewtopic.php?f=7&amp;amp;p=477282"&gt;forum xkcd&lt;/a&gt; de nombreuses tentatives pour trouver la perle rare de l'activité dangereuse originale.&lt;br /&gt;&lt;br /&gt;Sauf que la langue anglaise a un avantage sur le français : elle exprime ses noms d'activités par des verbes au participe présent. Là vous commencez à voir où je veux en venir, et si on envoyait carrément à Google tous les verbes anglais, pour qu'il nous dise lequel est le plus &lt;a href="http://www.dicomoche.net/A.htm#accidentogene"&gt;accidentogène&lt;/a&gt; ? Comment le faire techniquement ?&lt;br /&gt;&lt;br /&gt;Première étape, &lt;b&gt;récupérer une liste de tous les verbes anglais&lt;/b&gt;. Pas évident, comme en témoignent cette &lt;a href="http://answers.google.com/answers/threadview?id=369191"&gt;question Google Answers pleine de liens morts&lt;/a&gt;, ou ces &lt;a href="http://www.englishforums.com/English/IsThereAnEnglishVerbsList/nclx/Post.htm"&gt;5 pages de réponses inutiles ou périmées de forumeurs&lt;/a&gt;... Bref, je me suis résolu à faire confiance à mon moteur de recherche préféré, en lui envoyant une liste de tous les verbes qui me sont passés par la tête. Manque de chance, elle renvoyait naturellement des dictionnaires complets, j'interdis donc d'un nom commun, &lt;em&gt;hat&lt;/em&gt;, et en troisième page pour &lt;a href="http://www.google.fr/search?q=-hat+strike+give+abandon+wipe+rub+search+seek+hang+eat+adjust+draw+conclude+reappear+reconsolidate+create+destroy+dream+cut+put+drive&amp;amp;hl=fr&amp;amp;safe=off"&gt;-hat strike give abandon wipe rub search seek hang eat adjust draw conclude reappear reconsolidate create destroy dream cut put drive&lt;/a&gt;, j'arrive enfin à une page du projet VerbNet qui présente &lt;a href="http://verbs.colorado.edu/old-framesets-10242006/"&gt;plus de 3500 fichiers nommés par des verbes, plus quelques intrus&lt;/a&gt;. Même si on peut faire mieux, je m'en suis contenté...&lt;br /&gt;&lt;br /&gt;Deuxième étape, &lt;b&gt;générer les participes présents&lt;/b&gt;. Verbe + ing ? Oui mais il y a quelques subtilités, en fonction des dernières lettres de l'infinitif ! Heureusement que mon logiciel de tableur préféré me permet de coder quelques bouts de programmes, voilà la formule magique pour le "calcul" des participes présents &lt;span style="font-size:78%;"&gt;(histoire de ne pas me perdre dans les parenthèses, je l'ai séparée en plusieurs cellules dans mon fichier tableur, mais pour le fun je la mets en un seul morceau)&lt;/span&gt; :&lt;br /&gt;&lt;span style="font-size:85%;"&gt;&lt;span style="color: rgb(0, 0, 153);font-family:courier new;" &gt;B1=IF(RIGHT(A1;1)="e";=IF(LEFT(RIGHT(A1;2);1)="i";CONCATENATE(LEFT(A1;LEN(A1)-2);"ying");CONCATENATE(LEFT(A1;LEN(A1)-1);"ing"));=IF(OR(RIGHT(A1;1)="d";RIGHT(A1;1)="g";RIGHT(A1;1)="m";RIGHT(A1;1)="n";RIGHT(A1;1)="p";RIGHT(A1;1)="t");=IF(OR(LEFT(RIGHT(A1;2);1)="a";LEFT(RIGHT(A1;2);1)="e";LEFT(RIGHT(A1;2);1)="i";LEFT(RIGHT(A1;2);1)="o";LEFT(RIGHT(A1;2);1)="u");=IF(OR(LEFT(RIGHT(A1;3);1)="a";LEFT(RIGHT(A1;3);1)="e";LEFT(RIGHT(A1;3);1)="i";LEFT(RIGHT(A1;3);1)="o";LEFT(RIGHT(A1;3);1)="u";AND(LEFT(RIGHT(A1;2);1)="e";RIGHT(A1;1)="n"));CONCATENATE(A1;"ing");CONCATENATE(A1;RIGHT(A1;1);"ing"));CONCATENATE(A1;"ing"));CONCATENATE(A1;"ing")))&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;/span&gt;Allez, une petite explication rapide. Si la dernière lettre est un "e", alors : &lt;ul&gt;&lt;li&gt;si l'avant-dernière est un "i", je transforme en "ying" (&lt;span style="font-size:85%;"&gt;die -&gt; dying&lt;/span&gt;)&lt;/li&gt;&lt;li&gt;sinon, je supprime le "e" et ajoute "ing" (&lt;span style="font-size:85%;"&gt;love -&gt; loving&lt;/span&gt;)&lt;/li&gt;&lt;/ul&gt;sinon :&lt;br /&gt;&lt;ul&gt;&lt;li&gt;si le verbe se termine par "en", j'ajoute simplement "ing" (&lt;span style="font-size:85%;"&gt;sharpen -&gt; sharpening&lt;/span&gt;)&lt;/li&gt;&lt;li&gt;sinon, si l'avant-dernière est un "d", "g", "m", "n", "p", "t", je vais la doubler si elle est précédée par une voyelle qui n'est pas précédée par une voyelle (&lt;span style="font-size:85%;"&gt;bid -&gt; bidding, put -&gt; putting, mais claim -&gt; claiming, feed -&gt; feeding&lt;/span&gt;)&lt;/li&gt;&lt;li&gt;sinon, j'ajoute simplement "ing" (&lt;span style="font-size:85%;"&gt;speak -&gt; speaking&lt;/span&gt;)&lt;/li&gt;&lt;/ul&gt;J'ai créé ces règles intuitivement, en fait pour le doublement de la consonne finale, il faut &lt;a href="http://www.englishclub.com/writing/spelling_add-ing.htm"&gt;vérifier si la dernière syllabe est accentuée&lt;/a&gt;, ma version a un très petit nombre d'exceptions, je n'ai identifié que des verbes se terminant par "on" (&lt;span style="font-size:85%;"&gt;abandon -&gt; abandoning, alors que con -&gt; conning est correct&lt;/span&gt;).&lt;br /&gt;&lt;br /&gt;&lt;p&gt;&lt;a href="http://philippe.gambette.free.fr/Blog/Xkcd/GoogleBlacklist.png"&gt;&lt;img style="margin: 0px 0px 10px 10px; float: right; width: 200px;" alt="" src="http://philippe.gambette.free.fr/Blog/Xkcd/GoogleBlacklistMini.png" border="0" /&gt;&lt;/a&gt;Dernière étape, &lt;b&gt;entourer chaque participe &lt;/b&gt;à gauche par &lt;em&gt;"died in a&lt;/em&gt; (ou &lt;em&gt;"died in an&lt;/em&gt; si le verbe commence par une voyelle) et à droite par &lt;em&gt;accident"&lt;/em&gt;, et &lt;b&gt;envoyer chaque expression ainsi créée à Google, en utilisant &lt;a href="http://gambette.blogspot.com/2007/02/stats-de-popularit-artisanales.html"&gt;FuryPopularity&lt;/a&gt;&lt;/b&gt;. J'en ai profité pour mettre le programme à jour, parce que Google a changé le style de ses résultats, et apparemment durci sa politique de détection de spam de requêtes : au bout de 200 requêtes envoyées toutes les 5 secondes, le moteur m'a empêché de continuer, et m'a débloqué seulement après &lt;a href="http://fr.wikipedia.org/wiki/Captcha"&gt;captcha&lt;/a&gt;. En laissant une dizaine de secondes, ça passe. Je suis preneur de toute information sur leur algorithme de détection : se fonde-t-il seulement sur la fréquence &lt;span style="font-size:78%;"&gt;(si oui, ils doivent identifier les proxys générateurs de nombreuses requêtes, non ?)&lt;/span&gt; ou sur la périodicité des requêtes, ou encore les actions effectuées suite aux requêtes ?&lt;br /&gt;&lt;br /&gt;Voici le nuage brut de mots trouvés :&lt;br /&gt;&lt;a href="http://philippe.gambette.free.fr/Blog/Xkcd/GoogleResultsTagCloud.png"&gt;&lt;img style="margin: 0px auto 10px; display: block; text-align: center;" alt="" src="http://philippe.gambette.free.fr/Blog/Xkcd/GoogleResultsTagCloud.png" border="0" /&gt;&lt;/a&gt;En analysant avec précaution ceux qui apparaissent moins fréquemment, on ne tombe malheureusement pas que sur des prétendants aux &lt;a href="http://fr.wikipedia.org/wiki/Darwin_Awards"&gt;&lt;strong&gt;Darwin Awards&lt;/strong&gt;&lt;/a&gt;. Tout d'abord, quelques parasites issus des réactions au dessin de xkcd, ou des décès d'animaux, mais aussi des choses plus gênantes : des adjectifs (&lt;span style="font-size:85%;"&gt;amusing, embarrassing, interesting...&lt;/span&gt;) et des verbes n'indiquant pas une activité, mais plutôt des circonstances (&lt;span style="font-size:85%;"&gt;exploding, crushing, choking...&lt;/span&gt;). Pour ces derniers, je n'ai pas de solution. On peut en revanche &lt;span style="font-weight: bold;"&gt;enlever les adjectifs verbaux assez facilement de façon automatique&lt;/span&gt;. Bien sûr, c'est possible en utilisant un &lt;a href="http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/"&gt;analyseur syntaxique&lt;/a&gt;, voire un dictionnaire, mais je préfère rester dans l'utilisation des nombres de résultats Google.&lt;br /&gt;&lt;/p&gt;&lt;p&gt;&lt;a href="http://philippe.gambette.free.fr/Blog/Xkcd/DetectionAdjectifsVerbauxGoogle.png"&gt;&lt;img style="margin: 0px 10px 10px 0px; float: left;" alt="" src="http://philippe.gambette.free.fr/Blog/Xkcd/DetectionAdjectifsVerbauxGoogle.png" border="0" /&gt;&lt;/a&gt;J'ai fait plusieurs essais avant de trouver le critère discriminant. Comparer la fréquence de la forme participe présent par rapport à celle de l'infinitif (en espérant que ce soit plus élevé pour les adjectifs verbaux), ou trouver les pourcentages d'apparition du participe présent just après l'article "a", "more", ou "most". Dans le graphique ci-contre, &lt;strong&gt;les 5 premiers verbes donnent naissance à des adjectifs verbaux&lt;/strong&gt; (&lt;span style="font-size:85%;"&gt;amusant, effrayant, choquant, intéressant, dérangeant&lt;/span&gt;). On y voit que la stratégie du "a" ne fonctionne pas en particulier à cause des participes présents utilisés en anglais dans des mots composés : "a frying pan", une poële à frire, explique que "a frying" apparaisse si fréquemment. En revanche pas de contrexemple dans cette liste-test pour le superlatif avec &lt;strong&gt;"most" qui permet apparemment de faire la distinction&lt;/strong&gt; &lt;span style="font-size:78%;"&gt;(en fait la méthode laisse passer deux intrus : "ensuing" et "seeming" dans cette liste d'une centaine de verbes)&lt;/span&gt; :&lt;/p&gt;&lt;p&gt;&lt;a href="http://philippe.gambette.free.fr/Blog/Xkcd/DetectionAdjectifsDanger.png"&gt;&lt;img style="margin: 0px auto 10px; display: block; text-align: center;" alt="" src="http://philippe.gambette.free.fr/Blog/Xkcd/DetectionAdjectifsDangerMini.png" border="0" /&gt;&lt;/a&gt;Bref, une fois ce petit filtrage effectué, on peut regarder non seulement la fréquence de "died of a ... accident", mais aussi la comparer avec la fréquence de "a ... accident", ainsi que la popularité de l'activité elle-même, pour obtenir des sortes de &lt;strong&gt;taux d'accident (en bleu) et taux de mortalité (en rouge)&lt;/strong&gt; :&lt;a href="http://philippe.gambette.free.fr/Blog/Xkcd/MortaliteAccidentsGoogle.png"&gt;&lt;img style="margin: 0px auto 10px; display: block; text-align: center;" alt="" src="http://philippe.gambette.free.fr/Blog/Xkcd/MortaliteAccidentsGoogleMini.png" border="0" /&gt;&lt;/a&gt;Et voilà ! Si votre activité favorite n'est pas dans la liste, vous avez au moins une base de comparaison pour tester sa dangerosité. Et si elle y est, faites attention à vous (&lt;span style="font-size:85%;"&gt;surtout ceux qui ont prévu une petite joute équestre pour le weekend prochain...&lt;/span&gt;), mais ne vous inquiétez pas trop quand même, vous gardez aussi vos chances avec la &lt;a href="http://fr.wikipedia.org/wiki/Taux_de_mortalit%C3%A9"&gt;bonne vieille tumeur ou la crise cardiaque&lt;/a&gt; !&lt;/p&gt;&lt;br /&gt;&lt;p&gt;&lt;i&gt;This post is translated to English: &lt;a href="http://veronising.blogspot.com/2008/01/danger-deadly-hobbies.html"&gt;Danger: deadly hobbies!&lt;/a&gt;&lt;/i&gt;&lt;br /&gt;&lt;span style="font-size:78%;"&gt;Et comme d'hab, les fichiers source : &lt;/span&gt;&lt;a href="http://philippe.gambette.free.fr/Blog/Xkcd/Xkcd369.ods"&gt;&lt;span style="font-size:78%;"&gt;liste de plus de 3000 verbes anglais et la construction automatisée de leur participe présent&lt;/span&gt;&lt;/a&gt;&lt;span style="font-size:78%;"&gt;, &lt;/span&gt;&lt;a href="http://philippe.gambette.free.fr/Blog/Xkcd/AdjectifsVerbaux.ods"&gt;&lt;span style="font-size:78%;"&gt;test des méthodes de détection des adjectifs verbaux&lt;/span&gt;&lt;/a&gt;&lt;span style="font-size:78%;"&gt;, &lt;/span&gt;&lt;a href="http://philippe.gambette.free.fr/Blog/Xkcd/GoogleResultsTotal.ods"&gt;&lt;span style="font-size:78%;"&gt;résultats des requête Google&lt;/span&gt;&lt;/a&gt;&lt;span style="font-size:78%;"&gt;. &lt;/span&gt;&lt;/p&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/28510665-6645037077157221793?l=gambette.blogspot.com'/&gt;&lt;/div&gt;&lt;img src="http://feeds.feedburner.com/~r/JeVeronise/~4/-z2dZENPjfY" height="1" width="1"/&gt;</content><link rel="replies" type="application/atom+xml" href="http://gambette.blogspot.com/feeds/6645037077157221793/comments/default" title="Publier les commentaires" /><link rel="replies" type="text/html" href="https://www.blogger.com/comment.g?blogID=28510665&amp;postID=6645037077157221793" title="4 commentaires" /><link rel="edit" type="application/atom+xml" href="http://www.blogger.com/feeds/28510665/posts/default/6645037077157221793?v=2" /><link rel="self" type="application/atom+xml" href="http://www.blogger.com/feeds/28510665/posts/default/6645037077157221793?v=2" /><link rel="alternate" type="text/html" href="http://feedproxy.google.com/~r/JeVeronise/~3/-z2dZENPjfY/danger-accidents-mortels.html" title="Danger : accidents mortels !" /><author><name>Philippe</name><uri>http://www.blogger.com/profile/17811557333070553722</uri><email>noreply@blogger.com</email><gd:extendedProperty name="OpenSocialUserId" value="01287611096413583131" /></author><thr:total xmlns:thr="http://purl.org/syndication/thread/1.0">4</thr:total><feedburner:origLink>http://gambette.blogspot.com/2008/01/danger-accidents-mortels.html</feedburner:origLink></entry><entry gd:etag="W/&quot;DE4HRXc7eip7ImA9WxJSGUQ.&quot;"><id>tag:blogger.com,1999:blog-28510665.post-1725502754516548912</id><published>2008-01-16T16:42:00.003+01:00</published><updated>2009-05-11T01:08:54.902+02:00</updated><app:edited xmlns:app="http://www.w3.org/2007/app">2009-05-11T01:08:54.902+02:00</app:edited><category scheme="http://www.blogger.com/atom/ns#" term="buzz" /><category scheme="http://www.blogger.com/atom/ns#" term="Britney Spears" /><category scheme="http://www.blogger.com/atom/ns#" term="blogosphère" /><category scheme="http://www.blogger.com/atom/ns#" term="statistiques" /><category scheme="http://www.blogger.com/atom/ns#" term="tableur" /><category scheme="http://www.blogger.com/atom/ns#" term="nuage de mots" /><category scheme="http://www.blogger.com/atom/ns#" term="sondages" /><category scheme="http://www.blogger.com/atom/ns#" term="corrélation" /><category scheme="http://www.blogger.com/atom/ns#" term="TagCloud Builder" /><category scheme="http://www.blogger.com/atom/ns#" term="loi de puissance" /><category scheme="http://www.blogger.com/atom/ns#" term="graphique" /><title>Britney-Amy : duel mortel</title><content type="html">&lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://philippe.gambette.free.fr/Blog/BritneyAmy/BritneyAmy.jpg"&gt;&lt;img style="FLOAT: left; MARGIN: 0pt 10px 10px 0pt; CURSOR: pointer" alt="" src="http://philippe.gambette.free.fr/Blog/BritneyAmy/BritneyAmy.jpg" border="0" /&gt;&lt;/a&gt;Découverts grâce au &lt;a href="http://www.canalplus.fr/index.php?pid=2053"&gt;Petit Journal de Canal +&lt;/a&gt; la semaine dernière, les sites &lt;a href="http://www.whenwillamywinehousedie.com/"&gt;WhenWillAmyWinehouseDie.com&lt;/a&gt; et &lt;a href="http://www.whenisbritneygoingtodie.com/"&gt;WhenIsBritneyGoingToDie.com&lt;/a&gt; proposent un concept intéressant : &lt;span style="FONT-WEIGHT: bold"&gt;pronostiquer la date de décès des deux divas, le plus proche gagnera qui un iPod Touch, qui une PS3&lt;/span&gt;. Buzz énorme, bien sûr, des milliers d'internautes se sont rués pour participer, laissant un petit messages de pré-condoléances au passage. Les deux sites sont évidemment optimisés pour récupérer des revenus publicitaires (contrairement à &lt;a href="http://www.asccm.com/asccm/topmort/votes.html"&gt;l'initiative plus confidentielle mais tout aussi "sympathique" du TopMort&lt;/a&gt;), et communiquent seulement les données brutes entrées par les signataires.&lt;br /&gt;&lt;br /&gt;Il manquait donc un peu d'analyse de tous ces pronostics. Grâce à la formidable assistance de &lt;a href="http://www.biologie.ens.fr/dyogen/spip.php?article88"&gt;Matthieu Muffato&lt;/a&gt;, expert en domptage de &lt;a href="http://fr.wikipedia.org/wiki/Python_%28langage%29"&gt;Python&lt;/a&gt;, quelques lignes &lt;span style="font-size:85%;"&gt;(de code)&lt;/span&gt; et quelques heures &lt;span style="font-size:85%;"&gt;(d'exécution du programme)&lt;/span&gt; après que je lui aie parlé du problème, il m'envoyait son source avec les données récupérées.&lt;br /&gt;&lt;br /&gt;La question que je m'étais initialement posé sur les pronostics était simple : &lt;b&gt;quel est l'intervalle de temps le plus grand qui est encore libre&lt;/b&gt;, et permettant donc de &lt;b&gt;maximiser a priori les chances de gagner&lt;/b&gt; ? A priori, c'est à dire en considérant que tout intervalle de temps d'une même durée est uniformément dangereux pour Amy et Britney, et uniformément choisi par les autres internautes.&lt;br /&gt;&lt;br /&gt;Pas de chance, ces conditions idéales sont loin d'être vérifiées en pratique, pour une raison finalement toute simple : l'internaute &lt;b&gt;veut gagner son iPod ou sa PS3 maintenant, et pas dans 30 ans&lt;/b&gt; ! Donc si vous voulez cibler pour le décès de votre Britney préférée un mois qui n'a encore pas été choisi par les autres visiteurs, il faudra attendre février 2023 ! Pour Amy, il y a eu moins de participants, donc si rien n'a changé depuis la récupération des données, novembre 2016 est encore libre, ou alors tenter l'année 2031, dont seul le mois d'octobre a été choisi. Je dois aussi préciser, comme Matthieu me l'a fait remarquer, qu'&lt;b&gt;aucune date n'est enregistrée sur ces sites après janvier 2038&lt;/b&gt;, à cause probablement du &lt;b&gt;codage des dates&lt;/b&gt;. Bref, passons aux choses "sérieuses", voilà un petit aperçu du nombre de pronostic par mois &lt;span style="font-size:78%;"&gt;(avec simple renormalisation verticale pour Amy qui a reçu moins de votes)&lt;/span&gt; :&lt;br /&gt;&lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://philippe.gambette.free.fr/Blog/BritneyAmy/BritneyAmyMois.png"&gt;&lt;img style="DISPLAY: block; MARGIN: 0px auto 10px; CURSOR: pointer; TEXT-ALIGN: center" alt="" src="http://philippe.gambette.free.fr/Blog/BritneyAmy/BritneyAmyMoisMini.png" border="0" /&gt;&lt;/a&gt;&lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://philippe.gambette.free.fr/Blog/BritneyAmy/BritneyLogLog.png"&gt;&lt;img style="FLOAT: left; MARGIN: 0pt 10px 10px 0pt; CURSOR: pointer" alt="" src="http://philippe.gambette.free.fr/Blog/BritneyAmy/BritneyLogLogMini.png" border="0" /&gt;&lt;/a&gt;J'imagine que vous êtes aussi ahuris que je le fus quand les courbes sont apparues : &lt;span style="FONT-WEIGHT: bold"&gt;elles sont quasiment identiques&lt;/span&gt; ! Coefficient de corrélation de 0.98, on obtient la même &lt;a style="FONT-WEIGHT: bold" href="http://fr.wikipedia.org/wiki/Loi_de_puissance"&gt;loi de puissance&lt;/a&gt;. Alors c'est l'occasion de faire un petit intermède mathématique. Pour détecter ce type de loi, on fait un tracé log/log des valeurs (c'est à dire on applique une fonction logarithmique aux abscisses, et aux ordonnées, pour afficher les points de coordonnées (log &lt;span style="FONT-STYLE: italic"&gt;x&lt;/span&gt;,log &lt;span style="FONT-STYLE: italic"&gt;y&lt;/span&gt;)) et on doit obtenir une droite. A vue d'oeil elle a à peu près pour équation &lt;i&gt;Y&lt;/i&gt;=4-3&lt;i&gt;X&lt;/i&gt;, c'est à dire quand on quitte le repère log/log et qu'on revient au linéaire : log10 &lt;i&gt;y&lt;/i&gt; = 4-4/3 log10 &lt;i&gt;x&lt;/i&gt;, et enfin &lt;i&gt;y&lt;/i&gt; = 10 000 - &lt;i&gt;x&lt;/i&gt;^(4/3), ce qui est l'équation de la courbe bleue.&lt;br /&gt;&lt;br /&gt;En fait les lois de puissances arrivent très régulièrement dans les analyses de données réelles (en particulier de nombreux &lt;a href="http://en.wikipedia.org/wiki/Scale-free_network"&gt;graphes petit monde&lt;/a&gt; ont une &lt;a href="http://www.nd.edu/~networks/Publication%20Categories/01%20Review%20Articles/ScaleFree_Scientific%20Ameri%20288,%2060-69%20%282003%29.pdf"&gt;distribution des degrés en loi de puissance&lt;/a&gt;). Ce qui est remarquable est qu'ici les deux lois ont à peu près les mêmes paramètres. En regardant en détail on se rend quand même compte que les internautes ont plutôt privilégié 2008 pour Britney (qui semblait vraiment être au plus bas en ce début d'année) et 2009 pour Amy.&lt;br /&gt;&lt;br /&gt;&lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://philippe.gambette.free.fr/Blog/BritneyAmy/AmyProportionsMensuelles.png"&gt;&lt;img style="FLOAT: left; MARGIN: 0pt 10px 10px 0pt; CURSOR: pointer" alt="" src="http://philippe.gambette.free.fr/Blog/BritneyAmy/AmyProportionsMensuellesMini.png" border="0" /&gt;&lt;/a&gt;En regardant précisément les courbes, ont peut aussi noter une apparente périodicité. En tout cas elles ne sont pas monotones, et une représentation des proportions de pronostics de chaque mois dans l'année pour Miss Winehouse donne la courbe des pourcentages à gauche. Les variations sont étonnantes, entre novembre et août, on passe du simple au double ! Je n'ai pas d'explication a priori sur les choix réduits des mois de novembre, décembre, et février, peut-être que c'est un mécanisme similaire à celui que décrit Knuth dans un de ses premiers exos du &lt;a href="http://fr.wikipedia.org/wiki/The_Art_of_Computer_Programming"&gt;tome 2&lt;/a&gt; : demandez à un ami (ou un ennemi) un chiffre aléatoire, vous obtiendez plus souvent le nombre 7.&lt;br /&gt;&lt;br /&gt;Pour en finir avec les chiffres, la représentation des &lt;span style="FONT-WEIGHT: bold"&gt;pronostics par jour, toutes années confondues&lt;/span&gt;. J'ai enlevé le premier janvier qui était artificiellement haut à cause du problème du codage des années, qui a donné énormément de 01/07/1970.&lt;br /&gt;&lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://philippe.gambette.free.fr/Blog/BritneyAmy/BritneyAmyJour.png"&gt;&lt;img style="DISPLAY: block; MARGIN: 0px auto 10px; CURSOR: pointer; TEXT-ALIGN: center" alt="" src="http://philippe.gambette.free.fr/Blog/BritneyAmy/BritneyAmyJour.png" border="0" /&gt;&lt;/a&gt;Là à nouveau un phénomène de périodicité étonnant, les joueurs préfèrent visiblement les &lt;span style="FONT-WEIGHT: bold"&gt;milieux de mois&lt;/span&gt;. Notez l'esprit retors qui fait apparaître aussi haut le &lt;span style="FONT-WEIGHT: bold"&gt;14 février&lt;/span&gt;, surtout pour la pauvre Britney. Même le point de son anniversaire le 2 décembre apparaît anormalement haut par rapport à ses voisins...&lt;br /&gt;&lt;br /&gt;Alors pour oublier tout ça terminons sur une note de recueillement, &lt;a href="http://www.dailymotion.com/video/x16ddv_britney-spears-everytime_family"&gt;d'émotion et de poésie&lt;/a&gt;, avec les &lt;span style="FONT-WEIGHT: bold"&gt;nuages de mots des pré-condoléances&lt;/span&gt; pour les deux stars.&lt;br /&gt;&lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://philippe.gambette.free.fr/Blog/BritneyAmy/BritneyAmyTagClouds.png"&gt;&lt;img style="DISPLAY: block; MARGIN: 0px auto 10px; CURSOR: pointer; TEXT-ALIGN: center" alt="" src="http://philippe.gambette.free.fr/Blog/BritneyAmy/BritneyAmyTagClouds.png" border="0" /&gt;&lt;/a&gt;This post is translated to English: &lt;a href="http://veronising.blogspot.com/2008/01/britney-amy-celebrity-deathmatch.html"&gt;Britney-Amy, Celebrity Deathmatch&lt;/a&gt;.&lt;br /&gt;&lt;span style="font-size:78%;"&gt;Fichier tableur des pronostics &lt;a href="http://philippe.gambette.free.fr/Blog/BritneyAmy/BritneyAmyDays.ods"&gt;par jour&lt;/a&gt;, &lt;a href="http://philippe.gambette.free.fr/Blog/BritneyAmy/BritneyAmyMonths.ods"&gt;par mois&lt;/a&gt;, autres fichiers source fournis &lt;a href="http://www.lirmm.fr/~gambette/PersoContact.php"&gt;sur demande&lt;/a&gt;, à moins que je les mette ici un jour.&lt;/span&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/28510665-1725502754516548912?l=gambette.blogspot.com'/&gt;&lt;/div&gt;&lt;img src="http://feeds.feedburner.com/~r/JeVeronise/~4/KX8bbEBguCQ" height="1" width="1"/&gt;</content><link rel="replies" type="application/atom+xml" href="http://gambette.blogspot.com/feeds/1725502754516548912/comments/default" title="Publier les commentaires" /><link rel="replies" type="text/html" href="https://www.blogger.com/comment.g?blogID=28510665&amp;postID=1725502754516548912" title="3 commentaires" /><link rel="edit" type="application/atom+xml" href="http://www.blogger.com/feeds/28510665/posts/default/1725502754516548912?v=2" /><link rel="self" type="application/atom+xml" href="http://www.blogger.com/feeds/28510665/posts/default/1725502754516548912?v=2" /><link rel="alternate" type="text/html" href="http://feedproxy.google.com/~r/JeVeronise/~3/KX8bbEBguCQ/britney-amy-duel-mortel.html" title="Britney-Amy : duel mortel" /><author><name>Philippe</name><uri>http://www.blogger.com/profile/17811557333070553722</uri><email>noreply@blogger.com</email><gd:extendedProperty name="OpenSocialUserId" value="01287611096413583131" /></author><thr:total xmlns:thr="http://purl.org/syndication/thread/1.0">3</thr:total><feedburner:origLink>http://gambette.blogspot.com/2008/01/britney-amy-duel-mortel.html</feedburner:origLink></entry><entry gd:etag="W/&quot;DUcERno5eCp7ImA9WxJSGUQ.&quot;"><id>tag:blogger.com,1999:blog-28510665.post-432414970085780874</id><published>2008-01-11T00:18:00.003+01:00</published><updated>2009-05-11T01:10:07.420+02:00</updated><app:edited xmlns:app="http://www.w3.org/2007/app">2009-05-11T01:10:07.420+02:00</app:edited><category scheme="http://www.blogger.com/atom/ns#" term="statistiques" /><category scheme="http://www.blogger.com/atom/ns#" term="corrections" /><category scheme="http://www.blogger.com/atom/ns#" term="nuage de mots" /><category scheme="http://www.blogger.com/atom/ns#" term="TagCloud Builder" /><category scheme="http://www.blogger.com/atom/ns#" term="rhétorique" /><category scheme="http://www.blogger.com/atom/ns#" term="anaphore" /><category scheme="http://www.blogger.com/atom/ns#" term="style" /><category scheme="http://www.blogger.com/atom/ns#" term="politique" /><title>Sarkozy l'Orateur (2) : décryptage de l'impro-Sarko</title><content type="html">Je les avais &lt;a href="http://gambette.blogspot.com/2008/01/sarkozy-lorateur-1-version-prvue-et.html"&gt;promis dans mon dernier billet&lt;/a&gt;, mais je ne les donnerai pas, les &lt;a href="http://gambette.blogspot.com/2008/01/tag-cloud-tag-tree-nuage-arbor-2-les.html"&gt;nuages arborés&lt;/a&gt; des deux versions (prévue, et prononcée) du discours de conférence de presse de Sarkozy. Pourquoi ? Je suis toujours loin d'être satisfait des détails techniques de la construction de ces objets, et même si je suis convaincu qu'un système de consensus d'arbres permet de bien les comparer &lt;span style="font-size:78%;"&gt;(tiens, on &lt;a href="http://www.lirmm.fr/%7Egambette/PhylogeneticNetworks/show.php?keyword=consensus"&gt;s'approche de mon sujet de thèse&lt;/a&gt;, là...)&lt;/span&gt;, quand les arbres à comparer ne sont pas très fiables, ça ne fonctionne pas. Bref, pas de jolie visualisation à l'interprétation casse-gueule, mais plutôt un bon vieux traitement semi-automatisé des différences entre les deux textes.&lt;br /&gt;&lt;br /&gt;&lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://philippe.gambette.free.fr/Blog/SarkozyConferencePresse2008NuagesGrands.png"&gt;&lt;img style="margin: 0px auto 10px; display: block; text-align: center; cursor: pointer;" src="http://philippe.gambette.free.fr/Blog/SarkozyConferencePresse2008Nuages.png" alt="Nuages de mots des deux versions du discours de conférence de presse de Sarkozy" border="0" /&gt;&lt;/a&gt;Commençons par la dynamique globale des changements. Je l'évoquais image à l'appui &lt;a href="http://gambette.blogspot.com/2008/01/sarkozy-lorateur-1-version-prvue-et.html"&gt;dans mon dernier billet&lt;/a&gt;, Sarkozy se lâche peu à peu dans son discours, et finit par improviser complètement en laissant de côté le texte prévu. Et à s'écarter des chemins balisés, on commet des erreurs. En particulier une de celles que j'&lt;a href="http://philippe.gambette.free.fr/danlekel"&gt;adore, traque, et compile&lt;/a&gt;, une erreur d'accord de pronom relatif, dans sa forme la plus pure qu'est le "&lt;span style="font-style: italic;"&gt;danlekel&lt;/span&gt;" invariable :&lt;br /&gt;&lt;blockquote&gt;« Quelle est la ville &lt;b&gt;&lt;i&gt;dans lequel&lt;/i&gt;&lt;/b&gt; nous voulons vivre ? »&lt;/blockquote&gt;Dans le milieu du discours, on peut aussi noter une litote bien maladroite : "les enseignants sont plus victimes que coupables dans cette affaire" ! A moins qu'il faille vraiment prendre la phrase au pied de la lettre, et fustiger les enseignants coupables de ne pas passer leurs weekends à réparer et repeindre leur université... De même il est un peu cavalier en ajoutant qu'on &lt;a href="http://sites.univ-provence.fr/veronis/Discours2007/compare.php?e=urbanisme&amp;amp;n=&amp;amp;action=Comparer"&gt;ne parle jamais d'urbanisme pendant les campagnes politiques&lt;/a&gt; &lt;span style="font-size:78%;"&gt;(hum, certes, ce sont des discours, pas des débats, dans &lt;a href="http://sites.univ-provence.fr/veronis/Discours2007/compare.php?e=urbanisme&amp;amp;n=&amp;amp;action=Comparer"&gt;Discours2007&lt;/a&gt;)&lt;/span&gt;.&lt;br /&gt;&lt;br /&gt;Maintenant voyons quels sont les thèmes des &lt;span style="font-weight: bold;"&gt;passages improvisés&lt;/span&gt;, et des &lt;span style="font-weight: bold;"&gt;passages supprimés&lt;/span&gt; (indiqués barrés) significatifs, ils expliquent bien sûr les mots mis en relief dans le nuage de mots "contrasté" de la version pronconcée :&lt;br /&gt;&lt;ul&gt;&lt;li&gt;&lt;a href="http://philippe.gambette.free.fr/Blog/SarkozyConferencePresse2008Diff2Col.html#impatience"&gt;l'impatience des français&lt;/a&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://philippe.gambette.free.fr/Blog/SarkozyConferencePresse2008Diff2Col.html#progr%C3%83%C2%A8s"&gt;progrès et pessimisme&lt;/a&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://philippe.gambette.free.fr/Blog/SarkozyConferencePresse2008Diff2Col.html#lesautres1"&gt;"les autres"&lt;br /&gt;&lt;/a&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://philippe.gambette.free.fr/Blog/SarkozyConferencePresse2008Diff2Col.html#lesautres2"&gt;"les autres"&lt;/a&gt;, bis&lt;/li&gt;&lt;li&gt;&lt;a href="http://philippe.gambette.free.fr/Blog/SarkozyConferencePresse2008Diff2Col.html#parlement"&gt;le Parlement&lt;/a&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://philippe.gambette.free.fr/Blog/SarkozyConferencePresse2008Diff2Col.html#grenelle"&gt;le Grenelle de l'Environnement&lt;/a&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://philippe.gambette.free.fr/Blog/SarkozyConferencePresse2008Diff2Col.html#primaire"&gt;l'école primaire&lt;/a&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://philippe.gambette.free.fr/Blog/SarkozyConferencePresse2008Diff2Col.html#%C3%83%C2%A9cole"&gt;le débat sur l'école&lt;/a&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://philippe.gambette.free.fr/Blog/SarkozyConferencePresse2008Diff2Col.html#manifestation"&gt;les manifs de profs&lt;/a&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://philippe.gambette.free.fr/Blog/SarkozyConferencePresse2008Diff2Col.html#r%C3%83%C2%A9novation"&gt;la rénovation des facs&lt;/a&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://philippe.gambette.free.fr/Blog/SarkozyConferencePresse2008Diff2Col.html#touchepas"&gt;les touche pas à&lt;/a&gt; &lt;span style="font-size:78%;"&gt;(mauvaise digestion d'une certaine &lt;a href="http://gambette.blogspot.com/2007/10/dissection-dune-ptition-1.html"&gt;pétition&lt;/a&gt; soutenue par &lt;a href="http://www.lexpress.fr/info/quotidien/actu.asp?id=462987"&gt;qui-on-sait&lt;/a&gt; ?)&lt;/span&gt;&lt;br /&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://philippe.gambette.free.fr/Blog/SarkozyConferencePresse2008Diff2Col.html#succ%C3%83%C2%A8s"&gt;le succès&lt;/a&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://philippe.gambette.free.fr/Blog/SarkozyConferencePresse2008Diff2Col.html#urbanisme"&gt;l'urbanisme et l'architecture&lt;/a&gt;&lt;/li&gt;&lt;li&gt;&lt;strike&gt;&lt;a href="http://philippe.gambette.free.fr/Blog/SarkozyConferencePresse2008Diff2Col.html#administration"&gt;le défenseur des droits fondamentaux contre l'Administration&lt;/a&gt;&lt;/strike&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://philippe.gambette.free.fr/Blog/SarkozyConferencePresse2008Diff2Col.html#t%C3%83%C2%A9l%C3%83%C2%A9vision"&gt;changements à la télévision&lt;/a&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://philippe.gambette.free.fr/Blog/SarkozyConferencePresse2008Diff2Col.html#h%C3%83%C2%B4pital"&gt;l'hôpital&lt;/a&gt;&lt;/li&gt;&lt;li&gt;&lt;strike&gt;&lt;a href="http://philippe.gambette.free.fr/Blog/SarkozyConferencePresse2008Diff2Col.html#fiscalit%C3%83%C2%A9"&gt;la fiscalité&lt;/a&gt;&lt;/strike&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://philippe.gambette.free.fr/Blog/SarkozyConferencePresse2008Diff2Col.html#salari%C3%83%C2%A9s"&gt;les bénéfices aux salariés&lt;/a&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://philippe.gambette.free.fr/Blog/SarkozyConferencePresse2008Diff2Col.html#stockoptions"&gt;les stock-options&lt;/a&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://philippe.gambette.free.fr/Blog/SarkozyConferencePresse2008Diff2Col.html#d%C3%83%C2%A9fendre"&gt;la défense des entreprises&lt;/a&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://philippe.gambette.free.fr/Blog/SarkozyConferencePresse2008Diff2Col.html#Europe"&gt;l'Europe&lt;/a&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://philippe.gambette.free.fr/Blog/SarkozyConferencePresse2008Diff2Col.html#voyages"&gt;annuler les voyages présidentiels ?&lt;/a&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://philippe.gambette.free.fr/Blog/SarkozyConferencePresse2008Diff2Col.html#G8"&gt;le G8&lt;/a&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://philippe.gambette.free.fr/Blog/SarkozyConferencePresse2008Diff2Col.html#immigration"&gt;l'immigration&lt;/a&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://philippe.gambette.free.fr/Blog/SarkozyConferencePresse2008Diff2Col.html#diversit%C3%83%C2%A9"&gt;la diversité&lt;/a&gt;&lt;br /&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://philippe.gambette.free.fr/Blog/SarkozyConferencePresse2008Diff2Col.html#r%C3%83%C2%A9conciliation"&gt;la diplomatie de réconciliation&lt;/a&gt;&lt;/li&gt;&lt;/ul&gt;Tous ces passages, c'est du pur Sarkozy. Pas de conseiller, pas de notes. Juste un &lt;a href="http://fr.wikipedia.org/wiki/Freestyle"&gt;freestyle &lt;/a&gt;présidentiel. Et là on peut se lancer dans l'analyse du style.&lt;br /&gt;&lt;br /&gt;Malheureusement je n'ai pas les outils pour la &lt;a href="http://aixtal.blogspot.com/2007/05/texte-mesure-lanaphore-1.html"&gt;détection et la mesure de l'&lt;span style="font-weight: bold;"&gt;anaphore&lt;/span&gt;&lt;/a&gt;. A vue de nez, j'ai quand même été tout à fait surpris d'en trouver un certain nombre ("comment..." ligne 112, "Paris doit" ligne 553, "L'Europe" ligne 844, "On aurait eu l'air malin" lignes 879 et 892, "Et bien sûr" ligne 1081...) dans les passages improvisés. Se serait-il donc &lt;span style="font-weight: bold;"&gt;converti au style Guaino&lt;/span&gt;, ou bien y a-t-il une autre explication ? Ils est de plus tout à fait frappant de noter à quel point elles sont renforcées à l'oral. Comme je l'expliquais, les &lt;a href="http://philippe.gambette.free.fr/Blog/SarkozyConferencePresse2008Diff2Col.html"&gt;retours à la ligne dans le texte prononcé&lt;/a&gt; indiquent des pauses dans le discours, et les anaphores arrivent toutes en début de ligne ! On peut aussi remarquer ligne 37 comment deux répétitions de "du respect" sont supprimées à l'oral, mais la suppression d'un "et" et une pause permettent de conserver la fonction rhétorique de l'anaphore.&lt;br /&gt;&lt;br /&gt;&lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://philippe.gambette.free.fr/Blog/SarkozyConferencePresseNuageOral.png"&gt;&lt;img style="margin: 0pt 10px 10px 0pt; float: left; cursor: pointer;" src="http://philippe.gambette.free.fr/Blog/SarkozyConferencePresseNuageOral.png" alt="" border="0" /&gt;&lt;/a&gt;Passons à une autre caractéristique du discours sarkozien : le pronom "&lt;a style="font-weight: bold;" href="http://aixtal.blogspot.com/2008/01/sarko-je-voeux.html"&gt;je&lt;/a&gt;". Pour cela on fait mouliner le TagCloud Builder non pas sur les textes originaux, mais sur leurs listes contrastées et normalisées d'occurences de mots, ce que j'avais déjà fait &lt;a href="http://gambette.blogspot.com/2006/11/nuages-du-projet-socialiste-et-du.html"&gt;sur les programmes du PS et de l'UMP&lt;/a&gt; &lt;span style="font-size:78%;"&gt;(malheureusement cet outil de contraste est encore trop peu abouti pour le distribuer)&lt;/span&gt;. J'ai pris bien soin pour une fois de laisser tous les mots dans le nuage, pronoms, conjonctions et interjections inclus, ce qui donne donc un aperçu du style oral de Sarkozy. Et les "&lt;i&gt;je&lt;/i&gt;", alors ? Certes, le "&lt;i&gt;j'&lt;/i&gt;" ressort, mais la fréquence des "&lt;i&gt;je&lt;/i&gt;" est inférieure dans le texte prononcé par rapport au texte prévu ! Comptons les fréquences en détail &lt;span style="font-size:78%;"&gt;(et c'est l'occasion de livrer une astuce pratique pour compter facilement le nombre d'occurences d'un mot dans un texte : ouvrez-le dans un éditeur ou traitement de texte, faites &lt;i&gt;Rechercher/Remplacer&lt;/i&gt;, le mot éventuellement suivi d'un espace, par lui-même, choisissez &lt;i&gt;Remplacer tout&lt;/i&gt;, et voilà la réponse !)&lt;/span&gt; : &lt;span style="font-weight: bold;"&gt;14,99  fois pour 1000 mots dans le texte prononcé, contre 12,80 fois pour 1000 mots dans le texte prévu&lt;/span&gt; ! On a bien fait de ne pas s'arrêter à la première impression donnée par le nuage, et il ne pourra pas prétendre que ceux qui lui écrivent ses discours le forcent à se mettre en avant !&lt;br /&gt;&lt;br /&gt;Dans le style familier à la Sarko, on peut noter le pronom "&lt;span style="font-weight: bold;"&gt;on&lt;/span&gt;", le "y" de "il y a" voire "&lt;span style="font-weight: bold;"&gt;y a&lt;/span&gt;", ou encore le "eh" de "&lt;span style="font-weight: bold;"&gt;eh ben&lt;/span&gt;" ou "&lt;span style="font-weight: bold;"&gt;eh bien&lt;/span&gt;". Au fait, vous vous rappelez du &lt;a href="http://aixtal.blogspot.com/2007/03/2007-jacques-dit-naturellement.html"&gt;"naturellement" de Chirac&lt;/a&gt; ? Sarko préfère le "&lt;span style="font-weight: bold;"&gt;parfaitement&lt;/span&gt;" (fréquence d'environ 1 pour 1000 mots dans ce discours), ce qui semble aussi se confirmer avec &lt;a href="http://sites.univ-provence.fr/veronis/Discours2007/compare.php?e=parfaitement&amp;amp;n=&amp;amp;action=Comparer"&gt;ses discours de campagne&lt;/a&gt;.&lt;br /&gt;&lt;br /&gt;Et pour finir sur le style Sarkozy, une remarque que je faisais dans le billet précédent et que je confirme aujourd'hui, l'emploi du verbe "&lt;span style="font-weight: bold;"&gt;épouser&lt;/span&gt;", deux fois à l'oral mardi, semble être conjoncturel (dans les discours recensés dans Discours2007 il &lt;a href="http://sites.univ-provence.fr/veronis/Discours2007/compare.php?e=%C3%A9pous%C3%A9%7C%C3%A9pouser&amp;amp;n=&amp;amp;action=Comparer"&gt;apparaît moins de 0.1 pour 10 000 mots&lt;/a&gt;, contre plus d'une fois pour 10 000 ici).&lt;br /&gt;&lt;br /&gt;Enfin, je l'ai omis dans mon dernier billet, je dois mentionner un outil qui m'a particulièrement aidé dans ma transcription : le &lt;a href="http://fr.real.com/player/"&gt;Real Player Download &amp;amp; Recording Manager&lt;/a&gt; qui s'installe avec RealPlayer11 Basic &lt;span style="font-size:78%;"&gt;(hein, mais &lt;a href="http://blogsearch.google.fr/blogsearch?hl=fr&amp;amp;ie=UTF-8&amp;amp;scoring=d&amp;amp;q=Real+Player+Download+and+Recording+Manager&amp;amp;btnG=Rechercher&amp;amp;lr=lang_fr"&gt;ils font quoi, dans la blogsophère française&lt;/a&gt; ???)&lt;/span&gt;, et qui propose de télécharger en un clic toutes les vidéos ou sons croisés sur internet. A quel point c'est légal ? Real n'est pas une petite boîte douteuse &lt;a href="http://chouxdesiam.canalblog.com/archives/2005/09/26/841456.html"&gt;en tout cas&lt;/a&gt;, j'ai l'impression que comme &lt;a href="http://fr.altavista.com/audio/default"&gt;Altavista&lt;/a&gt;, ce système va devenir un excellent assistant au piratage, pour initiés...&lt;br /&gt;&lt;br /&gt;&lt;br /&gt;Ajout du 25 mars 2008 : &lt;i&gt;et pour aller plus loin dans l'analyse du discours sarkozien, jetez-vous sur l'indispensable &lt;a href="http://aixtal.blogspot.com/2008/03/livre-les-mots-de-sarko-cartonne.html"&gt;Les mots de Nicolas Sarkozy&lt;/a&gt; !&lt;/i&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/28510665-432414970085780874?l=gambette.blogspot.com'/&gt;&lt;/div&gt;&lt;img src="http://feeds.feedburner.com/~r/JeVeronise/~4/HadH0PXe65M" height="1" width="1"/&gt;</content><link rel="replies" type="application/atom+xml" href="http://gambette.blogspot.com/feeds/432414970085780874/comments/default" title="Publier les commentaires" /><link rel="replies" type="text/html" href="https://www.blogger.com/comment.g?blogID=28510665&amp;postID=432414970085780874" title="4 commentaires" /><link rel="edit" type="application/atom+xml" href="http://www.blogger.com/feeds/28510665/posts/default/432414970085780874?v=2" /><link rel="self" type="application/atom+xml" href="http://www.blogger.com/feeds/28510665/posts/default/432414970085780874?v=2" /><link rel="alternate" type="text/html" href="http://feedproxy.google.com/~r/JeVeronise/~3/HadH0PXe65M/sarkozy-lorateur-2-dcryptage-de-limpro.html" title="Sarkozy l'Orateur (2) : décryptage de l'impro-Sarko" /><author><name>Philippe</name><uri>http://www.blogger.com/profile/17811557333070553722</uri><email>noreply@blogger.com</email><gd:extendedProperty name="OpenSocialUserId" value="01287611096413583131" /></author><thr:total xmlns:thr="http://purl.org/syndication/thread/1.0">4</thr:total><feedburner:origLink>http://gambette.blogspot.com/2008/01/sarkozy-lorateur-2-dcryptage-de-limpro.html</feedburner:origLink></entry><entry gd:etag="W/&quot;CUAGQXk8cSp7ImA9WB9aGEU.&quot;"><id>tag:blogger.com,1999:blog-28510665.post-8497933523698930455</id><published>2008-01-09T10:44:00.000+01:00</published><updated>2008-01-09T14:02:00.779+01:00</updated><app:edited xmlns:app="http://www.w3.org/2007/app">2008-01-09T14:02:00.779+01:00</app:edited><category scheme="http://www.blogger.com/atom/ns#" term="presse" /><category scheme="http://www.blogger.com/atom/ns#" term="CompareIt" /><category scheme="http://www.blogger.com/atom/ns#" term="corrections" /><category scheme="http://www.blogger.com/atom/ns#" term="visualisation" /><category scheme="http://www.blogger.com/atom/ns#" term="Diff'Doc" /><category scheme="http://www.blogger.com/atom/ns#" term="Linternaute" /><category scheme="http://www.blogger.com/atom/ns#" term="logiciel" /><category scheme="http://www.blogger.com/atom/ns#" term="politique" /><title>Sarkozy l'Orateur (1) : version prévue et prononcée du discours de la conférence de presse</title><content type="html">Devinette : du sketch de quel humoriste engagé sont tirées les lignes qui suivent ?&lt;br /&gt;&lt;blockquote&gt;« &lt;span style="font-style: italic;"&gt;Le G8, mais enfin qu'est-ce que c'est ? On se réunit deux jours et demi, sans la Chine, sans l'Inde, sans le Brésil, sans le Mexique, sans l'Afrique du Sud. Simplement, deux milliards et demi de gens qu'on oublie. Ah, alors évidemment, on les invite pour le déjeuner du troisième jour. Le plus extraordinaire c'est qu'ils viennent.&lt;/span&gt; »&lt;/blockquote&gt;&lt;a href="http://philippe.gambette.free.fr/Blog/SarkozyConferencePresse2008.jpg"&gt;&lt;img style="margin: 0px 10px 10px 0px; float: left;" alt="" src="http://philippe.gambette.free.fr/Blog/SarkozyConferencePresse2008.jpg" border="0" /&gt;&lt;/a&gt;&lt;a href="http://philippe.gambette.free.fr/Blog/SarkozyConferencePresse2008Public.jpg"&gt;&lt;img style="margin: 0px 0px 10px 10px; float: right;" alt="" src="http://philippe.gambette.free.fr/Blog/SarkozyConferencePresse2008Public.jpg" border="0" /&gt;&lt;/a&gt;Non, pas Bedos. Non, pas Dieudonné... Mais bien notre Président, dans la version prononcée de son discours de conférence de presse d'hier, que vous ne trouverez pas en PDF sur le site de l'Elysée.Un petit aperçu de la réaction du public, avec Morin et Kouchner, et un troisième que je ne reconnais pas, qui se bidonnent. Bon, en fait tout le discours n'était pas prononcé sur un style aussi décontracté, qui apparaissait seulement dans &lt;span style="font-weight: bold;"&gt;les impros de Nico sur le texte original&lt;/span&gt;.&lt;br /&gt;&lt;br /&gt;&lt;a href="http://philippe.gambette.free.fr/Blog/SarkozyConferencePresse2008CompareIt.png"&gt;&lt;img style="margin: 0px 10px 10px 0px; float: left;" alt="" src="http://philippe.gambette.free.fr/Blog/SarkozyConferencePresse2008CompareIt.png" border="0" /&gt;&lt;/a&gt;Alors évidemment, c'est le texte original qui m'avait attiré tout d'abord, pour en faire le nuage arboré. Contrairement au discours de voeux, &lt;a href="http://www.elysee.fr/documents/index.php?mode=cview&amp;amp;press_id=861&amp;amp;cat_id=3&amp;amp;lang=fr"&gt;la version PDF sur le site de l'Elysée&lt;/a&gt; a un codage étrange qui m'empêche d'en récupérer le texte &lt;span style="font-size:78%;"&gt;(si vous comprenez ce qui se passe, ou savez comment le récupérer quand même, ça m'intéresse beaucoup !)&lt;/span&gt;, heureusement que &lt;a href="http://www.linternaute.com/actualite/politique/document/discours-nicolas-sarkozy-politique-de-civilisation/discours.shtml"&gt;Linternaute&lt;/a&gt; &lt;span style="font-size:78%;"&gt;(je n'ai jamais dit tout le bien que je pense de ce site où on trouve absolument tout et n'importe quoi)&lt;/span&gt; est là pour me fournir un document exploitable. Malheureusement les différences avec le discours réellement prononcé sont importantes ! Ni une, ni deux, me voilà parti dans la transcription. Mon temps de sommeil en a un peu pâti, mais le résultat est &lt;a href="http://philippe.gambette.free.fr/Blog/SarkozyConferencePressePrononc%c3%a9.txt"&gt;là&lt;/a&gt;. Non seulement vous avez le texte, mais aussi une intuition sur sa prononciation, puisque je suis allé à la ligne à chaque pause. Les sauts de ligne indiquent seulement une différence thématique, ils correspondent à peu près aux sauts de paragraphe du discours prévu. Evidemment j'ai pu y glisser des erreurs ou omissions, n'hésitez pas à me les signaler...&lt;br /&gt;&lt;br /&gt;Bon, et maintenant, jouons aux 7 différences entre les deux versions. Pour comparer deux fichiers j'utilise habituellement &lt;a href="http://www.grigsoft.com/wincmp3.htm"&gt;CompareIt&lt;/a&gt; qui essaie d'identifier des lignes entre fichiers &lt;span style="font-size:78%;"&gt;(&lt;/span&gt;&lt;a href="http://philippe.gambette.free.fr/Blog/SarkozyConferencePressePr%c3%a9vu.txt"&gt;&lt;span style="font-size:78%;"&gt;fichier du texte originalement prévu&lt;/span&gt;&lt;/a&gt;&lt;span style="font-size:78%;"&gt;)&lt;/span&gt;, et présente une visualisation plutôt bien faite de l'alignement effectué, la &lt;span style="font-weight: bold;"&gt;bande verticale sur la gauche&lt;/span&gt;. Pour un meilleur contraste, j'ai mis les lignes identiques en noir, celles ajoutées en vert, celles supprimées en rouge, et celles modifiées en bleu. CompareIt permet aussi d'exporter un &lt;span style="font-weight: bold;"&gt;rapport des différences avec les textes sur deux colonnes&lt;/span&gt;, que vous trouverez &lt;a style="font-weight: bold;" href="http://philippe.gambette.free.fr/Blog/SarkozyConferencePresse2008Diff2Col.html"&gt;ici&lt;/a&gt;.&lt;br /&gt;&lt;br /&gt;Peut être trouvez-vous plus lisible de voir sur un seul texte les deux versions, comme &lt;a href="http://aixtal.blogspot.com/2007/02/sgo-les-versions-de-son-discours.html"&gt;Jean Véronis l'avait fait pour le discours de Ségolène Royal à Villepinte&lt;/a&gt;. Pour cela j'ai utilisé &lt;a href="http://www.softinterface.com/MD%5CDocument-Comparison-Software.htm"&gt;Diff'Doc&lt;/a&gt;, qui est gratuit, voilà donc la &lt;a style="font-weight: bold;" href="http://philippe.gambette.free.fr/Blog/SarkozyConferencePresse2008DiffDoc.htm"&gt;synthèse des textes prévu et prononcé&lt;/a&gt;.&lt;br /&gt;&lt;br /&gt;Evidemment ce document est une mine d'informations pour qui veut analyser le style oratoire de Sarkozy, puisqu'on y trouve à la fois ses longs passage d'improvisation, mais aussi ses petites corrections de détail, ou encore les passages qu'il a finalement décidé d'oublier. Il est flagrant sur la bande-image de gauche qu'&lt;span style="font-weight: bold;"&gt;il se lâche au fur et à mesure&lt;/span&gt;, et finit son discours en oubliant complètement le dernier paragraphe initialement prévu.&lt;br /&gt;&lt;br /&gt;Au programme de la seconde partie de ce billet, bien sûr les nuages arborés des deux textes : est-ce que les modifications lors de la prononciation du discours changent radicalement les arbres ? Et peut-être aussi une analyse plus en profondeur des différences (le verbe &lt;em&gt;épouser&lt;/em&gt; a été ajouté oralement par deux fois par rapport au texte original ;))...&lt;br /&gt;&lt;br /&gt;&lt;br /&gt;Pour ceux qui ont lu en diagonale : le &lt;a href="http://philippe.gambette.free.fr/Blog/SarkozyConferencePressePr%c3%a9vu.txt"&gt;discours prévu&lt;/a&gt;, le &lt;a href="http://philippe.gambette.free.fr/Blog/SarkozyConferencePressePrononc%c3%a9.txt"&gt;discours prononcé&lt;/a&gt;, le &lt;a href="http://philippe.gambette.free.fr/Blog/SarkozyConferencePresse2008DiffDoc.htm"&gt;diff Diff'Doc sur 1 colonne de texte&lt;/a&gt;, le &lt;a href="http://philippe.gambette.free.fr/Blog/SarkozyConferencePresse2008Diff2Col.html"&gt;diff CompareIt sur deux colonnes de texte&lt;/a&gt;, mon &lt;a href="http://www.allocine.fr/film/fichefilm_gen_cfilm=109251.html"&gt;billet suivant sur le sujet&lt;/a&gt;.&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/28510665-8497933523698930455?l=gambette.blogspot.com'/&gt;&lt;/div&gt;&lt;img src="http://feeds.feedburner.com/~r/JeVeronise/~4/o-llpAQngAc" height="1" width="1"/&gt;</content><link rel="replies" type="application/atom+xml" href="http://gambette.blogspot.com/feeds/8497933523698930455/comments/default" title="Publier les commentaires" /><link rel="replies" type="text/html" href="https://www.blogger.com/comment.g?blogID=28510665&amp;postID=8497933523698930455" title="8 commentaires" /><link rel="edit" type="application/atom+xml" href="http://www.blogger.com/feeds/28510665/posts/default/8497933523698930455?v=2" /><link rel="self" type="application/atom+xml" href="http://www.blogger.com/feeds/28510665/posts/default/8497933523698930455?v=2" /><link rel="alternate" type="text/html" href="http://feedproxy.google.com/~r/JeVeronise/~3/o-llpAQngAc/sarkozy-lorateur-1-version-prvue-et.html" title="Sarkozy l'Orateur (1) : version prévue et prononcée du discours de la conférence de presse" /><author><name>Philippe</name><uri>http://www.blogger.com/profile/17811557333070553722</uri><email>noreply@blogger.com</email><gd:extendedProperty name="OpenSocialUserId" value="01287611096413583131" /></author><thr:total xmlns:thr="http://purl.org/syndication/thread/1.0">8</thr:total><feedburner:origLink>http://gambette.blogspot.com/2008/01/sarkozy-lorateur-1-version-prvue-et.html</feedburner:origLink></entry><entry gd:etag="W/&quot;A0cDR3kyeip7ImA9WB9aF08.&quot;"><id>tag:blogger.com,1999:blog-28510665.post-5466652614299434017</id><published>2008-01-02T19:31:00.000+01:00</published><updated>2008-01-07T19:04:36.792+01:00</updated><app:edited xmlns:app="http://www.w3.org/2007/app">2008-01-07T19:04:36.792+01:00</app:edited><category scheme="http://www.blogger.com/atom/ns#" term="buzz" /><category scheme="http://www.blogger.com/atom/ns#" term="BlogScope" /><category scheme="http://www.blogger.com/atom/ns#" term="BlogPulse" /><category scheme="http://www.blogger.com/atom/ns#" term="tableur" /><category scheme="http://www.blogger.com/atom/ns#" term="Google Trends" /><category scheme="http://www.blogger.com/atom/ns#" term="logiciel" /><category scheme="http://www.blogger.com/atom/ns#" term="graphique" /><category scheme="http://www.blogger.com/atom/ns#" term="Technorati" /><title>Comparer les courbes de buzz avec le CaptuCourbes</title><content type="html">&lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://philippe.gambette.free.fr/Blog/MediasSarkoSegoBayro.jpg"&gt;&lt;img style="margin: 0pt 10px 10px 0pt; float: left; cursor: pointer;" src="http://philippe.gambette.free.fr/Blog/CaptuCourbe/CourbesSarkozyRoyalBayrou2006.jpg" alt="" border="0" /&gt;&lt;/a&gt;Il y a un peu plus d'un an, alors que le candidat Bayrou commençait à faire buzzer la blogosphère, j'avais essayé de comparer plusieurs outils de mesure de buzz pour évaluer le bruit des trois principaux candidats sur le web, dans la presse, et dans les blogs. Une suite de décalquages et dilatations manuelles avait permis d'aboutir à &lt;a href="http://philippe.gambette.free.fr/Blog/MediasSarkoSegoBayro.jpg"&gt;une juxtaposition expressive mais peu satisfaisante&lt;/a&gt;, et j'avais commencé à réfléchir à un outil permettant de récupérer les valeurs d'une image de courbe. J'y avais réfléchi un peu plus fort à la fin de ma compilation manuelle des &lt;a href="http://gambette.blogspot.com/2007/04/bilan-des-sondages-du-premier-tour.html"&gt;courbes de sondages du premier tour des présidentielles&lt;/a&gt;. Des outils permettant de numériser des courbes sont recensés sur &lt;a href="http://www.ccp14.ac.uk/solution/hardcopy2data.htm"&gt;cette page&lt;/a&gt;, mais la plupart ont disparu ou sont payants. Le premier, &lt;a href="http://digitizer.sourceforge.net/"&gt;Engauge Digitizer&lt;/a&gt;, est très appétissant (logiciel libre, multi-plateformes, reconnaissance automatique de courbes), mais s'avère un peu lourd, et fournit un fichier avec une liste des points identifiés, aux coordonnées réelles, alors qu'on préfère dans un tableur avoir une liste de points aux abscisses entières et d'écart constant, pour reconstituer le graphique.&lt;br /&gt;&lt;br /&gt;Bref, voilà un petit utilitaire libre &lt;span style="font-size:85%;"&gt;(pour Windows)&lt;/span&gt; pour transformer une image de courbe en tableau ouvrable dans Excel ou OpenOffice, le &lt;a href="http://captucourbe.freecorp.org/"&gt;CaptuCourbe&lt;/a&gt; ! L'idée est que vous allez lui indiquer la couleur de la courbe à récupérer, fixer l'échelle horizontale et verticale, ainsi que le pas de discrétisation, c'est à dire l'intervalle horizontal entre les points à récupérer. Cette démarche assez intuitive est détaillée dans le &lt;a href="http://freecorp.free.fr/captucourbe/TutorielCaptuCourbe.pdf"&gt;tutoriel du CaptuCourbe&lt;/a&gt;. Pour certaines images, la couleur de la courbe n'est pas uniforme, il suffira de la traiter en augmentant le contraste &lt;span style="font-size:78%;"&gt;(un petit coup d'enhance colors dans le petit &lt;a href="http://www.irfanview.com/"&gt;IrfanView&lt;/a&gt; par exemple)&lt;/span&gt;, par exemple, pour diminuer le nombre de couleurs. Pensez aussi que la ou les couleurs de la courbe ne doivent pas être présentes dans le reste de l'image, si c'est le cas, il faudra penser à effacer les parties parasites.&lt;br /&gt;&lt;br /&gt;Une petite mise en application du logiciel ? J'ai récupéré et réuni &lt;span style="font-size:78%;"&gt;(fichier OpenOffice &lt;a href="http://philippe.gambette.free.fr/Blog/CaptuCourbe/Comparaisons.ods"&gt;ici&lt;/a&gt;)&lt;/span&gt; les données de graphiques de suivi de buzz pour les deux informations qui ont fait vibrer la toile fin décembre :&lt;br /&gt;&lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://captucourbe.freecorp.org/"&gt;&lt;img style="margin: 0px auto 10px; display: block; text-align: center; cursor: pointer;" src="http://philippe.gambette.free.fr/Blog/CaptuCourbe/CaptucourbesBruniManaudou.png" alt="" border="0" /&gt;&lt;/a&gt;La première courbe a été choisie comme référence, les autres du même buzz ont été dilatées de sorte que leur moyenne sur la période du 17 au 19 décembre (le premier pic) soit identique. On remarque une grande uniformité des courbes sur le premier sujet, qui a plus fait causer sur les blogs que le second. Pour ce dernier, on peut noter l'énorme pic de recherche Google par rapport au buzz sur les blogs, le phénomène est expliqué &lt;a href="http://blog.wikio.fr/2007/12/le-buzz-de-la-s.html"&gt;ici&lt;/a&gt;.&lt;br /&gt;&lt;br /&gt;Les outils sur les blogs donnent des courbes très similaires, bien que leurs bases soient de taille différente : Technorati revendique une base de &lt;a href="http://technorati.com/about/"&gt;112 millions de blogs&lt;/a&gt;, 69 millions pour &lt;a href="http://www.blogpulse.com/"&gt;BlogPulse&lt;/a&gt;, et  &lt;a href="http://www.blogscope.net/"&gt;17 millions&lt;/a&gt; pour BlogScope. Si l'on compare plus finement les trois courbes, BlogPulse apparaît toujours un peu en retard, de moins de 24h en tout cas &lt;span style="font-size:78%;"&gt;(certainement une différence sur l'heure de début de la journée)&lt;/span&gt;. BlogScope semble montrer des pics plus marqués, peut-être que leur base plus petite contient plutôt les blogs influents et toujours premiers sur les scoops, et moins les petits qui relaient l'info avec quelques heures de retard.&lt;br /&gt;&lt;br /&gt;J'ai choisi d'ajouter les graphiques de &lt;a href="http://www.trendio.com/frontpage.php?language=fr"&gt;Trendio&lt;/a&gt;, sorte de bourse aux mots clés ou aux noms de personnalités, qu'on pourrait penser un bon indicateur de buzz. Ce n'est pas vraiment le cas, les courbes sont beaucoup moins nerveuses que ce qu'on pourrait attendre, parasitées par l'incertitude des investisseurs...&lt;br /&gt;&lt;br /&gt;Absent de cette comparaison, l'outil de veille2com, le &lt;a href="http://cyrille-chaudoit.blogspot.com/2007/12/sarkozy-bruni-vs-manaudou-nue-les.html"&gt;Sous-Marin Jaune&lt;/a&gt;. En effet les requêtes dont les résultats ont été publiés ne correspondaient pas exactement à celles que j'ai utilisées dans la comparaison ci-dessus, et l'outil se semble pas être accessible au public. C'est d'ailleurs tout à fait regrettable : même si je comprends que &lt;a href="http://scanblog.blogs.com/about.html"&gt;ScanBlog&lt;/a&gt; préfère monnayer ses outils de suivi de buzz, en laisser une partie en accès public permettrait non seulement d'en faire parler, mais éventuellement de montrer la valeur ajoutée par rapport aux autres outils de suivi de la blogosphère cités ci-dessus (si les courbes obtenues montraient des tendances différentes par exemple). Enfin, l'ouverture partielle aux internautes permettrait de récupérer leurs requêtes pour constituer une &lt;a href="http://media-tech.blogspot.com/2006/05/google-trends-la-base-de-donnes-des.html"&gt;base de données des intentions&lt;/a&gt;, ce qui devrait intéresser une entreprise dédiée au suivi des buzz.&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/28510665-5466652614299434017?l=gambette.blogspot.com'/&gt;&lt;/div&gt;&lt;img src="http://feeds.feedburner.com/~r/JeVeronise/~4/JnLmED9nRxA" height="1" width="1"/&gt;</content><link rel="replies" type="application/atom+xml" href="http://gambette.blogspot.com/feeds/5466652614299434017/comments/default" title="Publier les commentaires" /><link rel="replies" type="text/html" href="https://www.blogger.com/comment.g?blogID=28510665&amp;postID=5466652614299434017" title="0 commentaires" /><link rel="edit" type="application/atom+xml" href="http://www.blogger.com/feeds/28510665/posts/default/5466652614299434017?v=2" /><link rel="self" type="application/atom+xml" href="http://www.blogger.com/feeds/28510665/posts/default/5466652614299434017?v=2" /><link rel="alternate" type="text/html" href="http://feedproxy.google.com/~r/JeVeronise/~3/JnLmED9nRxA/comparer-les-courbes-de-buzz-avec-le.html" title="Comparer les courbes de buzz avec le CaptuCourbes" /><author><name>Philippe</name><uri>http://www.blogger.com/profile/17811557333070553722</uri><email>noreply@blogger.com</email><gd:extendedProperty name="OpenSocialUserId" value="01287611096413583131" /></author><thr:total xmlns:thr="http://purl.org/syndication/thread/1.0">0</thr:total><feedburner:origLink>http://gambette.blogspot.com/2008/01/comparer-les-courbes-de-buzz-avec-le.html</feedburner:origLink></entry><entry gd:etag="W/&quot;DUcBRXk_eyp7ImA9WxJSGUQ.&quot;"><id>tag:blogger.com,1999:blog-28510665.post-7743121643932633449</id><published>2008-01-01T02:27:00.006+01:00</published><updated>2009-05-11T01:10:54.743+02:00</updated><app:edited xmlns:app="http://www.w3.org/2007/app">2009-05-11T01:10:54.743+02:00</app:edited><category scheme="http://www.blogger.com/atom/ns#" term="TreeCloud" /><category scheme="http://www.blogger.com/atom/ns#" term="visualisation" /><category scheme="http://www.blogger.com/atom/ns#" term="nuage de mots" /><category scheme="http://www.blogger.com/atom/ns#" term="clustering" /><category scheme="http://www.blogger.com/atom/ns#" term="TagCloud Builder" /><category scheme="http://www.blogger.com/atom/ns#" term="nuage arboré" /><category scheme="http://www.blogger.com/atom/ns#" term="politique" /><title>tag cloud + tag tree = nuage arboré (2) Les voeux présidentiels pour 2008</title><content type="html">De quoi nous a parlé notre Président &lt;a href="http://www.elysee.fr/documents/index.php?mode=cview&amp;amp;cat_id=7&amp;amp;press_id=845&amp;amp;lang=fr"&gt;dans ses voeux&lt;/a&gt; hier soir ? On avait eu droit l'an dernier aux &lt;a href="http://aixtal.blogspot.com/2007/01/2007-segovoeux.html"&gt;nuages de mots des voeux des présidentiables&lt;/a&gt; pour nous en donner de jolies synthèses ; cette année, évolution technologique oblige, on va faire le &lt;span style="font-weight: bold;"&gt;nuage arboré&lt;/span&gt; de ce discours de 9 minutes. Pour ceux qui n'auraient pas suivi l'&lt;a href="http://gambette.blogspot.com/2007/12/tag-cloud-tag-tree-nuage-arbor-1.html"&gt;épisode précédent&lt;/a&gt;, ou le &lt;a href="http://aixtal.blogspot.com/2007/12/actu-une-ferrari-dans-un-arbre.html"&gt;billet initial sur Aixtal&lt;/a&gt;, un &lt;span style="font-weight: bold;"&gt;nuage arboré&lt;/span&gt;, c'est le pouvoir de visualisation du nuage de mots, associé à celui de la classification hiérarchique en un arbre binaire non orienté !&lt;br /&gt;&lt;br /&gt;La preuve en images pour tous les mots prononcés plus de deux fois :&lt;br /&gt;&lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://philippe.gambette.free.fr/Blog/Voeux/Voeux2008.htm"&gt;&lt;img style="margin: 0px auto 10px; display: block; text-align: center; cursor: pointer;" src="http://philippe.gambette.free.fr/Blog/Voeux/Voeux2008Tree+Cloud.png" alt="" border="0" /&gt;&lt;/a&gt;nous donne :&lt;br /&gt;&lt;br /&gt;&lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://philippe.gambette.free.fr/Blog/Voeux/Voeux2008.htm"&gt;&lt;img style="margin: 0px auto 10px; display: block; text-align: center; cursor: pointer;" src="http://philippe.gambette.free.fr/Blog/Voeux/Voeux2008TreeCloud.png" alt="" border="0" /&gt;&lt;/a&gt;&lt;br /&gt;La bonne nouvelle, c'est que si vous aussi vous souhaitez créer vous-même de tels nuages arborés, c'est possible en utilisant la nouvelle version &lt;a href="http://philippe.gambette.free.fr/Blog/TreeCloudBuilder0.2.zip"&gt;&lt;span style="font-weight: bold;"&gt;0.2 de TreeCloud Builder&lt;/span&gt;&lt;/a&gt;, associée au logiciel &lt;a href="http://www.splitstree.org/"&gt;SplitsTree&lt;/a&gt; (&lt;a href="http://gambette.blogspot.com/2006/05/arbres-phylogntiques-le-making-of.html"&gt;&lt;span style="font-size:85%;"&gt;introduction rapide à SplitsTree ici en français&lt;/span&gt;&lt;/a&gt;). La meilleure nouvelle, c'est que la prochaine version, actuellement en cours de codage et qui sera publiée en même temps que la troisième partie de ce billet, ne nécessitera plus d'utiliser SplitsTree.&lt;br /&gt;&lt;br /&gt;La mauvaise nouvelle, c'est que dans la forme actuelle du logiciel (non documenté, fourni "tel quel" avec ses sources), l'arbre construit, même s'il reflète en un sens une certaine proximité entre les mots rapprochés dans ses sous-arbres, reste à prendre avec précaution. En effet l'enchaînement des algorithmes actuels ne me convainc pas. Je rentre dans les détails techniques, vous pouvez donc sauter la fin de ce paragraphe si ça ne vous passionne pas. Il y a actuellement plusieurs gros points faibles dans la construction de l'arbre. Tout d'abord le choix de la distance entre mots. TreeCloud Builder implémente la distance proposée &lt;a href="http://gambette.blogspot.com/2007/12/tag-cloud-tag-tree-nuage-arbor-1.html"&gt;dans le billet précédent&lt;/a&gt;, ainsi qu'une formule dérivée d'une formule de cooccurence classique : d1(&lt;span style="font-style: italic;"&gt;a&lt;/span&gt;,&lt;span style="font-style: italic;"&gt;b&lt;/span&gt;) = 1 - max(p(&lt;span style="font-style: italic;"&gt;a&lt;/span&gt;|&lt;span style="font-style: italic;"&gt;b&lt;/span&gt;),p(&lt;span style="font-style: italic;"&gt;b&lt;/span&gt;|&lt;span style="font-style: italic;"&gt;a&lt;/span&gt;)), où p(&lt;span style="font-style: italic;"&gt;a&lt;/span&gt;|&lt;span style="font-style: italic;"&gt;b&lt;/span&gt;) est la probabilité qu'une fenêtre de 20 mots autour du mot &lt;span style="font-style: italic;"&gt;b&lt;/span&gt; contienne le mot &lt;span style="font-style: italic;"&gt;a&lt;/span&gt;. Le problème avec cette distance d1 est qu'elle n'a rien d'arboré : tout arbre construit par des méthodes classiques en phylogénie ressemble très fortement à une étoile avec de longues branches menant aux feuilles, et des branches internes très courtes. Pour éviter ce problème je l'ai bricolée afin d'&lt;span style="font-weight: bold;"&gt;augmenter artificiellement la taille des branches internes&lt;/span&gt; du résultat obtenu &lt;span style="font-size:78%;"&gt;(pour l'instant je ne comprends pas tout à fait comment ça marche, théoriquement, mais en pratique, ça marche)&lt;/span&gt; : d2(&lt;span style="font-style: italic;"&gt;a&lt;/span&gt;,&lt;span style="font-style: italic;"&gt;b&lt;/span&gt;) = log(101)-log&lt;span style="font-weight: bold;font-size:130%;"&gt;(&lt;/span&gt;1+max&lt;span style="font-size:130%;"&gt;(&lt;/span&gt;100p(&lt;span style="font-style: italic;"&gt;a&lt;/span&gt;|&lt;span style="font-style: italic;"&gt;b&lt;/span&gt;),100p(&lt;span style="font-style: italic;"&gt;b&lt;/span&gt;|&lt;span style="font-style: italic;"&gt;a&lt;/span&gt;)&lt;span style="font-size:130%;"&gt;)&lt;/span&gt;&lt;span style="font-weight: bold;font-size:130%;"&gt;)&lt;/span&gt;. Comme la matrice de distances obtenue contient beaucoup de log(101), les &lt;span style="font-weight: bold;"&gt;distances entre feuilles éloignées sont peu significatives&lt;/span&gt;, j'applique donc plutôt la &lt;a href="http://fr.wikipedia.org/wiki/UPGMA"&gt;méthode UPGMA&lt;/a&gt; (et voilà pourquoi ce billet n'est pas &lt;a href="http://gambette.blogspot.com/2006/09/taguer-tagguer-ou-tagger.html"&gt;tagué&lt;/a&gt; &lt;span style="font-style: italic;"&gt;phylogénie&lt;/span&gt; mais plutôt &lt;span style="font-style: italic;"&gt;clustering&lt;/span&gt;) qui agglomère successivement dans l'arbre les mots les plus proches selon cette distance d2.&lt;br /&gt;&lt;br /&gt;Revenons tout de même au nuage arboré créé. Même s'il est à prendre avec des pincettes, des phénomènes intéressants y apparaissent. Tout d'abord, l'&lt;span style="font-weight: bold;"&gt;urgence&lt;/span&gt;, vous n'avez pas pu louper l'&lt;a href="http://aixtal.blogspot.com/2007/05/texte-mesure-lanaphore-1.html"&gt;anaphore alla Guaino&lt;/a&gt;. La figure de style apparaît dans l'arbre, puisqu'anaphore est accompagné dans "son sous-arbre" par des mots peu fréquents. Pas vraiment de grand concept-clé accolé à l'urgence, donc, mais une série de mesures. En revanche, le &lt;span style="font-weight: bold;"&gt;rôle de la France dans le monde&lt;/span&gt;, ça occupe un bon sous-arbre, et la représentation arborée permet notamment de désambiguïser le sens du mot &lt;span style="font-weight: bold;"&gt;vieux&lt;/span&gt; : Sarkozy ne parlait pas de nos chers aînés, mais bien de notre vieux pays. Remarquez aussi le sous-arbre des &lt;span style="font-weight: bold;"&gt;participes passés&lt;/span&gt; (&lt;span style="font-style: italic;"&gt;voulu&lt;/span&gt;, &lt;span style="font-style: italic;"&gt;pris&lt;/span&gt;, &lt;span style="font-style: italic;"&gt;faite&lt;/span&gt;), organisés autour de l'&lt;span style="font-weight: bold;"&gt;ouverture&lt;/span&gt;, signes d'une promesse tenue. Même s'il est rigolo, le rapprochement de &lt;span style="font-style: italic;"&gt;souci &lt;/span&gt;et &lt;span style="font-style: italic;"&gt;coeur &lt;/span&gt;est artificiel, dû à la faible fréquence des deux mots, dommage pour les psychanalystes en arbre. Autres sous-arbres intéressants, celui des considérations présidentielles sur les &lt;span style="font-weight: bold;"&gt;valeurs de la vie&lt;/span&gt; (famille et travail), et celui plus grave sur &lt;span style="font-weight: bold;"&gt;la société et son avenir&lt;/span&gt;, pour lequel nous devons faire confiance à l'action du gouvernement...&lt;br /&gt;&lt;br /&gt;Rendez-vous j'espère avant fin février pour une version aboutie et robuste théoriquement d'un &lt;a href="http://fr.treecloud.org"&gt;TreeCloud Builder qui vous ferait vite et bien vos nuages arborés&lt;/a&gt;. En attendant, ce blog accueillera sous peu un nouvel &lt;span style="font-weight: bold;"&gt;utilitaire libre&lt;/span&gt;, qui permettra de &lt;span style="font-weight: bold;"&gt;récupérer d'une image les valeurs d'une courbe qu'elle contient&lt;/span&gt;. Fans des comparaisons &lt;a href="http://www.google.fr/trends?q=manaudou%2Cbruni&amp;amp;ctab=0&amp;amp;geo=all&amp;amp;date=2007-12&amp;amp;sort=0"&gt;Google Trends&lt;/a&gt;, &lt;a href="http://technorati.com/chart/bruni"&gt;Technorati Chart&lt;/a&gt;, &lt;a href="http://cyrille-chaudoit.blogspot.com/2007/12/sarkozy-bruni-vs-manaudou-nue-les.html"&gt;Sous-marin Jaune&lt;/a&gt;, faites chauffer vos tableurs, c'est pour très bientôt !&lt;br /&gt;&lt;br /&gt;&lt;a href="http://fr.treecloud.org"&gt;Le programme TreeCloud&lt;/a&gt;.&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/28510665-7743121643932633449?l=gambette.blogspot.com'/&gt;&lt;/div&gt;&lt;img src="http://feeds.feedburner.com/~r/JeVeronise/~4/-EmfsgKjPis" height="1" width="1"/&gt;</content><link rel="replies" type="application/atom+xml" href="http://gambette.blogspot.com/feeds/7743121643932633449/comments/default" title="Publier les commentaires" /><link rel="replies" type="text/html" href="https://www.blogger.com/comment.g?blogID=28510665&amp;postID=7743121643932633449" title="11 commentaires" /><link rel="edit" type="application/atom+xml" href="http://www.blogger.com/feeds/28510665/posts/default/7743121643932633449?v=2" /><link rel="self" type="application/atom+xml" href="http://www.blogger.com/feeds/28510665/posts/default/7743121643932633449?v=2" /><link rel="alternate" type="text/html" href="http://feedproxy.google.com/~r/JeVeronise/~3/-EmfsgKjPis/tag-cloud-tag-tree-nuage-arbor-2-les.html" title="tag cloud + tag tree = nuage arboré (2) Les voeux présidentiels pour 2008" /><author><name>Philippe</name><uri>http://www.blogger.com/profile/17811557333070553722</uri><email>noreply@blogger.com</email><gd:extendedProperty name="OpenSocialUserId" value="01287611096413583131" /></author><thr:total xmlns:thr="http://purl.org/syndication/thread/1.0">11</thr:total><feedburner:origLink>http://gambette.blogspot.com/2008/01/tag-cloud-tag-tree-nuage-arbor-2-les.html</feedburner:origLink></entry></feed>
