Blue Theme Green Theme Red Theme Red Theme Red Theme
Flux RSS:
Posts
Commentaires

Calendar

February 2010
M T W T F S S
« Jan    
1234567
891011121314
15161718192021
22232425262728

Séminaire à l’UDM

Le RALI de l’Université de Montréal m’a gentiment invité à présenter mes travaux sur la Génération Automatique de Texte ce Mercredi à 11h30 lors d’un séminaire public. Si vous êtes dans le coin, passez dire bonjour !

Vous connaissez la Ferme Aux Célébrités ? Probablement si vous êtes en France (au Canada nous sommes préservés, le visionnage sur Internet est bloqué par TF1, probablement pour une histoire de droits d’auteurs). Cette émission - tournée en Afrique - atteint en ce moment des sommets du cliché, passons. Ce qui a attiré mon attention c’est le positionnement du site de l’émission sur Google :

fac2.JPG

Le site officiel n’apparaît qu’en huitième position dans Google avec les mots clés “ferme aux célébrités. Il est en deuxième position avec la suite complète de mots clés:

fac.JPG

Et oui dans tous les cas: la fiche Wikipédia est mieux placée que le site officiel. Tf1:0 / Wikipédia 2 : vainqueurs par KO !

Ce phénomène de sur-référencement de Wikipédia avec les algorithmes de Google devient un cauchemard pour les agences de RP et de marketing en ligne: car si les pages de Wikipédia ont effectivement plus de notoriété que les autres, le site principal devrait rester la référence. En l’occurence ici ce n’est pas le cas, et celui qui veut des informations sur l’émission en question sera en priorité dirigé sur une page neutre de Wikipédia (ce qui n’empêche pas une position critique si elle est argumentée et factuelle) plutôt que sur une publication commerciale et orientée ! Une calamité pour les producteurs !

Ce problème conjugué de la sur-représentation de Wikipédia, et de l’impossibilité pour les responsables des produits, les personnes et les entreprises décrites de contrôler ses contenus, avait déjà engendré un fort sentiment d’agacement chez les patrons et les entreprises du Cac 40. Et pourtant ce n’est pas faute d’essayer ! Le Wikiscanner avait révélé de nombreuses modifications mises en lignes par des organisations sur leurs propres fiches (voire celles de leurs concurrents). On parlait d’Aéroports de Paris, qui avait remplacé le titre « ADP et les nuisances aériennes » par « ADP et l’environnement ». On avait aussi évoqué l’activisme forcené de la Mairie de Levallois. D’autres exemples impliquent TF1, Air France ou le Ministère des finances.

Leurs clients démasqués, les agences de relation publiques n’ont plus pour dernier recours que de payer anonymement des utilisateurs connus de Wikipédia (donc moins surveillés par les autres et plus à même de corriger discrètement des informations) pour tenter - de guerre lasse - de maîtriser au moins (un peu) ce que l’on dit sur leurs clients.

On compte d’ailleurs régulièrement des exemples de fiches biographiques crées sur Wikipédia par les personnes qu’elles concernent (narcissisme quand tu nous tiens) et qui deviennent de véritables champs de bataille lorsque leurs auteurs constatent que ce qui y est dit leur échappe totalement (notamment lors d’affaires judiciaires) par ce que tout le monde peut y écrire a peu près ce qu’il veut (tant que c’est sourcé). En ce moment d’ailleurs, ça bouge pas mal sur les fiches de candidats aux régionales …

Étonnant non ?

Le G7 à Iqaluit

Les ministres des Finances et banquiers centraux du G7 ont ouvert vendredi à Iqaluit, dans la neige du Grand Nord canadien, une réunion lors de laquelle ils sont invités à se parler franchement, à l’heure où les marchés financiers mondiaux s’inquiètent. (Liberation)

800px-iqaluit_st_jude_1995-06-08.jpg

Iqaluit (« les poissons » en inuktitut) est une ville canadienne et la capitale du territoire du Nunavut, le plus grand des territoires et provinces du Canada et aussi le moins peuplé. Elle se situe au sud-ouest de l’île de la Terre de Baffin, au bord de l’océan Arctique, dans la baie de Frobisher. La ville compte 7000 habitants, son climat est l’un des plus froids du monde, et il ne faut guère espérer y avoir plus de -30 en ce moment . La température la plus basse à y avoir été enregistrée est -45,6 °C, le 10 février 1967.

iqaluit-airport.jpg

Si cette ville compte un Aéroport de bonne qualité (ces infrastructures du grand nord sont très bien dotées par le Gouvernement Fédéral car essentielles au développement … et plus pratique que la route), l’unique hotel est loin des standings habituels des ministres des finances du G7. Les journalistes (en nombres dans ces réunions) seront même pour partie logés dans des dortoirs (eux aussi sont plutôt des habitués des 5 étoiles).

Le Canada veut des discussions sincères. Débarrassé de la charge de produire un communiqué, le G7 doit prendre une tournure moins formelle (Libération). Il a trouvé le bon endroit !

Sources images et texte Wikipédia et Commons

Hommage à Howard Zinn

L’historien Howard Zinn est décédé d’une crise cardiaque à 87 ans ce mercredi.

J’ai redécouvert l’Amérique à travers ses écrits, et notamment sa monumentale Histoire populaire des États-Unis qui décortique sur plus de trois siècles le rapport (complexe) de l’amérique à son industrie de l’armement, à son économie de guerre, à ses vétérans, à sa pauvreté, à sa bourgeoisie dominante et son establishment.

Agoravox nous rappelle que dans le Boston globe, Noam Chomsky a dit [de lui] un jour [que ses écrits] […] « ont changé la conscience d’une génération, et contribué à ouvrir de nouvelles voies pour la comprendre et son rôle crucial dans nos vies ». Plus loin, le cinéaste William Karel  raconte sa rencontre avec Zinn: “A près de 90 ans il a fait la campagne d’Obama. Il a traversé tout le siècle. Il s’est battu contre la guerre du Viet Nam, il a accompagné Martin Luther King, Lyndon Johnson lui a demandé de venir s’installer à la Maison Blanche pour lui écrire ses discours…  “.

Tout est dit sur ce personnage trop peu connu en Europe.

Le site de Howard Zinn: howardzinn.org


 zinnmain.jpg

Cette très belle image est non libre de droit et provient du site de Howard Zinn (j’espère qu’on ne m’en voudra pas pour sa reproduction ici)

Mon premier Apple …

large.jpg

Ca fait Kindle, ça fait GPS, ça fait ordinateur, ça fait console de jeux, ça fait lecteur de films, ça fait … tout ce qu’il me faut (et je n’ai même plus besoin de m’inquiéter pour les systèmes multimédia des avions - lire ci dessous) ! Honnêtement,  je crois que c’est mon prochain portable …

Bon, sur douze mois, j’ai pris pas mal d’avions, dans des compagnies très disparates. Je vous propose donc un petit classement, très personnel. Ma notation va de 1 à 4 étoiles pour le confort à bord et de A à D pour ce qui est de la sécurité des vols.

Pour information, j’utilise pour connaitre le degré de sécurité www.securvol.fr et l’aménagement de cabine est indiqué par www.seatguru.com/.

ac.JPG

Air Canada: idéale. C’est une belle compagnie (qui a eu dans le passé une mauvaise réputation pour son service au sol), avec des avions en parfait état, et sur les longs courriers, des prises de courant et usb sur les sièges(pour brancher votre portable et écouter vos MP3 avec le système multimédia). Le service est impeccable. La sécurité est dans le top 10 mondial. On frise ici la perfection. **** / A

la.JPG

Lan AirWays: LAN est le remarquable réseau qui dessert l’amérique du sud. Les avions sont neufs (767, A330), le service à bord est absolument parfait, le système multimédia génial (juste un peu moins riche que celui d’air Canada).

bmi.JPG

BMI: J’ai découvert British Midland sur une ligne vers le moyen orient. C’est la deuxième compagnie aérienne commerciale du Royaume-Uni. Ponctuelle, grande qualité et courtoisie à bord, appareils moins récents que ceux de Lan, mais quand même très modernes,  tout comme le système multimédia. **** / A

at.JPG

Air Transat: petite compagnie de charter d’un voyagiste Canadien à la base et qui fait de plus en plus de lignes régulières sur l’Europe. Appareils parfaitement entretenus mais assez anciens: pas de console multimédia par exemple. Le service est impeccable, la courtoisie exquise. Ses pilotes sont célèbres pour l’histoire du vol plané en panne d’essence de Robert Piché qui a donné lieu à un film. On est pas dans le grand luxe ici, mais il y a de très bon prix pour les billets et un atout: la classe club qui coûte seulement de 15% à 80% de plus que la classe touriste (contre 400% pour les business des grandes compagnies), et permet de bénéficier de plus de place et de rangées à 7 sièges confortables (au lieu de 9). *** / A

ib.JPG

Ibéria: j’ai utilisé cette compagnie cette année une petite fois sur un vol local (Marseille-Madrid). A priori acceptable. **** / Classée B sur Securvol (on ne voit pas trop pourquoi) mais avec une réputation de A

lc.JPG

Lan Chile: vols intérieurs du réseau LAN avec des 767 en parfait état. Hub à Santiago (en photo) petit mais plutôt bien organisé.  **** / A

Air France: Je n’ai pas utilisé Air France cette année, mais j’ai acheté des billets pour d’autres que moi. Plusieurs problèmes avec Air France, qui demeure l’une des meilleures du monde en terme de matériel (elle possède un des premiers 380) et de service. La compagnie est malheureusement classée en catégorie C (méritée) pour ce qui est de la sécurité des vols. Ceci signifie un risque de crash ou d’incident régulier. Ca fait de la peine a ceux qui aiment la compagnie (moi le premier), mais c’est un fait (Toronto, Rio-Paris, Concorde, etc) Air France a un très mauvais niveau de fiabilité et à intervalle régulier est l’objet de catastrophes meurtrières. Et pourtant elle possède une des meilleures classes éco du monde et les meilleures cabines, et les meilleurs plateaux repas… On continue d’utiliser sur les moyens courriers. ***** / C

ea.JPG

Ethiopian Airlines: Compagnie ambitieuse, qui  s’est équipée d’un hub international très performant à Adis Abeba (en photo). Plusieurs problèmes pourtant. D’abord le classement en catégorie C pour ce qui est de la sécurité (et malheureusement, les stats ne se trompent que rarement). Ensuite une qualité de service qui ne suit pas: à bord on parle très mal anglais, pilote compris (ce qui ne doit pas aider en matière de sécurité des vols), on est pas forcément très aimable(*). Au sol non plus (j’ai gardé en travers de la gorge l’hôtel payant à 2h du matin, pour mes 8 heures d’escale à Adis). Ensuite les aménagements des avions sont un peu vieux pour du long courrier (les Dreamliners devraient arriver rapidement, cependant): pas de consoles multimédia (sur des vols de plus de 6 heures ça devient rare) et des sièges trop peu espacés. ** / C

Yéménia: Yéménia est une compagnie équipée d’A330 neufs sur le moyen et long courrier. Pas de console, mais de la place, et un prix (surtout) défiant toute concurrence. Les airbus A310 locaux étaient un peu plus anciens. Quoi qu’on en dise, les appareils donnaient une impression de qualité (y compris l’A310 70-ADJ crashé que j’avais emprunté sur la ligne des Comores et qui n’était certainement pas l’épave que le ministre Bussereau à décrite). Mais la compagnie est classée D pour la sécurité des vols, et malheureusement, a une fois de plus confirmé l’adéquation entre stats, défaut d’entretien et mauvaise note de sécurité en vol. De toute façon ce qui achève Yéménia, pour le moment c’est son hub (très pittoresque) à Saana (capitale du Yémen): il est déjà interdit de destination par le Royaume Unis pour défaut de sécurité, ce qui n’invite pas à l’emprunter. ** / D

Voilà ! La prochaine fois, je vous donne mon avis sur les aéroports !

(*) Quand je dis “pas très aimable”, je tiens compte des habitudes culturelles du moyen orient et de la corne de l’Afrique qui veulent que les hôtesses ne sourient pas  (ce que les occidentaux comprennent parfois mal) et soient très réservées. Cette façon d’être particulière n’empêche pas de fournir un bon service, ce qui est selon moi le cas sur Yéménia, et pas sur Ethiopian.

African HLT

De retour d’African-Hlt. Une véritable réussite à Djibouti pour cette première édition de la conférence sur le traitement informatique des langues Africaines.

dsc00633.JPG

Le Président de l’Académie Africaine des Langues, Adama Samasékou fût un modérateur particulièrement agréable. Je n’ai pu malheureusement rester qu’à peine trois jours, mais je prends date pour les prochaines éditions.

dsc00645.JPG

Il semblerait en effet que la African HLT Society, avec pour président le Dr Nimaan Abdilahi, soit née juste après la clôture de cet évènement! C’est une grande nouvelle car les langues Africaines sont des trésors vivants inestimables que les ordinateurs pourront assurément aider à conserver et à décrypter.

Qu’une conférence scientifique Africaine sur le traitement automatique des langues (il en existe déjà en Europe et en Amérique du Nord) y contribue ne peut qu’être profitable.

Week end Africain

Le CERD organise a Djibouti la première conférence Africaine sur le traitement automatique des langues, AfricanHLT. Une initiative absolument indispensable et remarquable, parrainée par le Ministère des Affaires Etrangères Français.

Les langues africaines alors qu’elles sont au coeur de notre histoire linguistique, sont souvent mal dotées et en péril. Le traitement informatique et automatique peut contribuer à la sauvegarde et à l’exploration de ce patrimoine.

africahlt.JPG

Les initiatives qui se multiplient en faveur de ces langues sont donc plus que bienvenues. Toutes les formes de traitement sont utiles: les travaux de transcription des langues orales avec des systèmes de reconnaissance de la parole du Dr Nimaan Abdillahi par exemple on permis d’ouvrir une voie pour la sauvegarde des patrimoines oraux. La fondation Wikimédia de son côté, par la voix de Jimmy Wales, a rappelé cet été à Buenos Aires lors de Wikimania à quel point elle attache de l’importance aux supports des langues africaines. Wikipédia est la seule encyclopédie qui supporte les langues africaines rares (le wolof cher à  Cheikh Antha Diop y est, mais aussi l’Afar, et tant d’autres) avec notamment un incubateur de projets.

Bref ! Je vais donc aller parler de la Génération Automatique de texte dans cette conférence, et essayer de lancer une réflexion sur les atouts de ce procédé pour tenter de résoudre les problèmes typiques de traitement automatique des langues qui manquent de corpus.

Évidemment, de Montréal, ça fait franchement loin …  Je pars Vendredi soir, j’arrive le lendemain à Londres, un autre vol me mènera de Londres a Adis Abéba via Amman, puis de Adis Abéba à Djibouti ou je n’arriverai que le dimanche vers midi. En d’autres termes, je passe mon week end entre l’Ethiopie, la Jordanie et la corne de l’afrique ! Je me serais bien arrêté dans toutes ces capitales mais ça me semble un peu compliqué.

J’essaye de faire plein de photos(*) pour le carnet de voyage!

_________________________________________________________

(*) Avec une grosse pensée pour Robert Guillemin, photo-reporter (sur tous les perrons de l’Elysée et de Matignon  au siècle dernier), et lecteur assidu de ce blog qui ne m’enverra plus jamais ses petits commentaires et ses remarques rigolotes sur mes photos de voyages. Ca va me manquer.

Les plus assidus de ce site (ou curieux), auront peut être remarqué que je teste en ce moment les réseaux sociaux. Parmi eux, se trouve celui ci, moins connu que les Linkedin et autres Facebook:

Bibliography manager

Mendeley - c’est son nom - est un nouveau réseau social un peu particulier. Il est dédié aux chercheurs et aux scientifiques. Il combine une application de bureau pour votre ordinateur (disponible sous windows, mac ou linux) et une application web synchronisée avec celle du bureau.

Cette application permet de gérer des publications scientifiques (personnelles mais aussi issues d’une bibliothèque d’un groupe de recherche ou d’un état de l’art), de les partager, de mesurer ses statistiques (combien d’auteurs je préfère, quelles sont les relations entre auteurs, entre publications) et d’en découvrir d’autres par le biais d’interactions avec les autres membres du réseau. Mendeley remplis également automatiquement les descriptifs d’articles en utilisant des agents capables de récupérer des méta-informations sur une dizaine de sites spécialisés (citeseerx, google scholar, acm library …).

La construction automatique des entrées de bibliographiques et le jumelage web, PC, qui fait qu’on a accès à sa librairie triée de n’importe ou dans le monde, c’est déjà génial !

mend1.JPG

Bon si vous n’êtes pas chercheur, c’est probablement pour vous un peu du chinois ! Comment alors vous faire comprendre pourquoi Mendeley est l’une des 10 startups du web les plus courtisées par les capitaux risqueurs, les business angels (Mendeley était à la conférence LeWeb9) et tout ce petit monde qui aime l’argent ?

  • Par ce que c’est aussi un réseau social pour chercheur (comme sur Facebook on peut se regrouper par affinités de recherche, inviter des collègues, partager des informations) et que les chercheurs sont trop bêtes pour se réunir sur facebook ?

Non rien de tout cela ! En réalité  Mendeley a conçu une application remarquable et qui pourrait à terme friser la perfection pour organiser, trier, évaluer, relier des bibliographies. Et ça, c’est le graal actuel de la recherche. Par ce que nous ne sommes plus au siècle de Leibnitz, et que les chercheurs ne s’envoient plus leurs résultats par courrier et malle postale. Aujourd’hui le corpus scientifique atteint des sommets d’obésité. Dans tous les domaines des dizaine de milliers de publications sont livrées chaque années dans des centaines de conférences. Il devient quasiment impossible pour un humain de se faire une idée précise de ce qui existe pour un domaine scientifique complet et de plus en plus difficile de réaliser un état de l’art pour un thème de recherche précis.

Tout un domaine de la bibliométrie est en train de naitre autour de cette problématique. On cherche à extraire automatiquement les articles ou groupes d’articles les plus connus par leurs citations, la notoriété de leur vecteur de publication, le rang de la conférence support. Pour cela on utilise des algorithmes, des méthode mathématiques.

Mais il faut un corpus support, c’est à dire un réservoir de publications indexées et normalisées, pour appliquer les calculs. Certains ont mis des années et dépensé des millions pour mettre au point de telles banques de données. C’est le cas de Web Of Science par exemple. Google avec Scholar s’y attache mais manque encore de finesse. Avec Mendeley, ce sont des milliers de chercheurs qui sont en train de patiemment mettre au point (gratuitement) une librairie précise. Et certains envisagent - vu sa croissance - que Mendeley soit a partir de l’an prochain le plus gros dépôt de publications scientifiques au monde. Tout ça en moins de 2 ans !

Voilà le secret de Mendeley. Et dans le milieu de la recherche et de l’ingénierie, mais aussi de la bibliométrie, je pense qu’on a pas fini d’en entendre parler. Affaire à suivre.

Avec 6 heures de décalage, meilleurs vœux pour l’année 2010, sous la neige et depuis Montréal !

Older Posts »