«

»

jan 18

Imprimer ceci Article

Présentation du projet OTMedia dans Libération

INA : L’info fouillée au corpus

par Isabelle Hanne

Paru dans Libération du 24 décembre 2012

[Voir cet article sur le site de Libération]

Marie-Luce Viaud fait des fouilles. Pas avec un pinceau, à genoux dans le sable, mais devant son ordinateur, dans un bureau de l’INA Expert, le département recherche de l’Institut national de l’audiovisuel, à Bry-sur-Marne (Val-de-Marne). La chercheuse s’est spécialisée dans la fouille de données. Soit « l’extraction d’un savoir à partir de grandes quantités de données, par des méthodes automatiques ou semi-automatiques », selon la définition de Wikipédia à laquelle elle nous renvoie.

Depuis octobre 2010, elle coordonne une quinzaine de chercheurs qui collaborent à un discret mais ambitieux projet : l’Observatoire transmédia (OTMedia), une plateforme pour analyser les flux médiatiques à l’aide de moteurs de recherche (1). Ils fonctionnent sur une vaste base de données, capturées de juillet 2011 à décembre 2012. « C’est un corpus très riche, se félicite Marie-Luce Viaud. Primaire socialiste, élections présidentielle et législatives, élections américaines, Jeux olympiques… »

La collecte se fait dans les contenus de nombreux médias français : retranscriptions des journaux et des émissions d’actu de douze chaînes de télé, de TF1 à France 24, et de neuf radios, de RTL à France Culture ; six quotidiens (le Monde, Libé, le Figaro…) ; les dépêches de l’AFP, par ailleurs partenaire du projet ; 1300 sites internet, et Twitter. Le dépôt légal web de l’INA est mis à disposition.

L’observatoire doit permettre de « mieux appréhender les enjeux et les mutations de la sphère médiatique », explique le site du projet. Avec un budget de 2 millions d’euros, financé pour moitié par l’Agence nationale de la recherche (ANR) et labellisé par Cap Digital (le pôle de compétitivité en Ile-de-France), il rassemble une foultitude d’acteurs. Côté sciences humaines, le laboratoire Communication, information, médias de Paris-III-ENS, et le Laboratoire techniques, territoires et sociétés de l’Ecole des Ponts et Chaussées. Côté scientifique, le Laboratoire informatique d’Avignon (LIA), à la pointe sur la transcription audio ; Syllabs, une start-up spécialisée dans la sémantique ; l’INA et l’Institut national de recherche en informatique et en automatique (Inria), pour les moteurs de recherche à grande échelle et la visualisation de données.

Dans le monde des médias, « tout change, il y a beaucoup de nouveaux supports, et une remise en cause des acteurs historiques : c’est une période un peu trouble pour la production de l’information, note Marie-Luce Viaud. On a besoin d’outils d’analyse. Avec une vision transmédia, on peut détecter les événements à la source ». A terme, OTMedia permettra, sur le corpus, de déterminer quel média (Twitter ? AFP ?) est le plus souvent à l’origine de l’info, et qui sont les suiveurs. De retracer la propagation d’un événement, à l’heure d’Internet. Qui a dégainé en premier sur l’affaire Merah ? Avec quels mots ? Quel média a le plus parlé de la guerre en Syrie ? Des élections législatives ? Avec cette question : la multiplication des supports est-elle un gage de pluralité de l’info ou mène-t-elle à son infinie redondance ?

Dans le bureau de la chercheuse, des hiéroglyphes et des flèches encombrent un tableau Velleda. Elle présente les outils fraîchement mis au point sur le grand écran de son Mac : « Là, c’est vraiment un prototype de test, il y a encore des biais, on les corrige au fur et à mesure. » Une première interface permet d’accéder au vertigineux corpus de textes (en février, le prototype contiendra 4 millions de documents). On peut taper un nom (« Merah »), un lieu (« Toulouse »), une date… Marie-Luce Viaud présente une requête sur la période allant de mi-mars à mi-mai 2012, en plein cœur de l’affaire Merah : « On peut analyser le vocabulaire associé à un événement. Dans cette tragédie, « antisémitisme » et « racisme » laissent place à « terrorisme » et « violence » dans les médias. On peut aussi vérifier que les pics de l’AFP, de la télé et de la radio correspondent au temps réel des faits, alors que la presse et le Web prolongent l’événement en le commentant. »

Un des aspects les plus aboutis du projet, c’est son moteur de fouille visuelle (environ 700 000 images). « C’est l’état de l’art en la matière ! Dix ans de recherches. » L’outil reconnaît l’image par des agencements de points et va chercher les schémas similaires dans sa base de données. Par exemple, quand on sélectionne une moulure sur une photo de l’Assemblée nationale, le moteur ressort un agrégat d’images de différents politiques dans l’Hémicycle, avec la même moulure en arrière-plan. « On peut comparer la visibilité d’une marque ou d’un parti politique, par exemple », note la chercheuse, qui montre les résultats des requêtes sur l’affiche de Nicolas Sarkozy (« la France forte ») : la fouille détecte aussi bien les originaux que les détournements satiriques. L’outil permet aussi de faire émerger l’image la plus utilisée par les médias du corpus sur une période donnée – pour octobre 2011, par exemple, c’est le portrait de Steve Jobs. « L’outil n’est pas du tout fini, il y a 15 000 trucs à faire ! » s’enthousiasme Marie-Luce Viaud.

L’INA mettra le prototype à disposition des chercheurs au Centre de consultation Paris-BNF de l’Inathèque de France (site François-Mitterrand) à la fin du projet, en octobre 2013. On pourra ainsi voir, parmi mille autres choses, que de juillet 2011 à avril 2012, sauf lors de la primaire socialiste, la courbe des occurrences de « Nicolas Sarkozy » dans les médias du corpus dépasse toujours, et de beaucoup, la courbe de « François Hollande ».

 

Lien Permanent pour cet article : http://www.otmedia.fr/presentation-du-projet-otmedia-dans-liberation/