Logo Sinequa - Connect to Kwowledge
Revue de presse

- 2007
- 2006
- 2005
- 2004
- 2003
- 2002
- 2001
- 2000

Communiqués de presse

Actualités

Contact
Revue de presse 2002 Aller à la version anglaise du site


08/11/2002 Le Monde Informatique

"Le Monde" s'archive dans une base XML.

José Bolufer, directeur informatique du groupe Le Monde : "XML apporte des gains de productivité. Il sera inutile par exemple de remettre une citation en italique dans un texte, et la hiérachie de l'article sera mémorisée."

Pour faciliter le travail de ses documentalistes, le quotidien du soir a opté pour une solution mariant la base de données XML de Xyleme et l'outil de recherche sémantique Intuition de Sinequa.

  "Nous avons une expérience importante avec les grands moteurs du marché. Mais aujourd 'hui, nous n'avons plus aucun complexe à faire appel à des fournisseurs plus petits lorsqu'ils proposent des solutions adaptées à nos métiers." Cest ainsi que José Bolufer, directeur informatique du groupe Le Monde, a choisi d'archiver les 800 000 articles du journal au sein de la base de données XML de Xyleme. Pour faciliter le travail de ses documentalistes, le groupe a d'abord sélectionné l'outil de recherche sémantique Intuition, de Sinequa. Didier Rioux, patron de la documentation, s'avoue impressionné par les possibilités de recherche, "même s'il faut encore peaufiner". Par exemple, la demande "opération moisson essentielle" peut retrouver un article mentionnant le ramassage d'armes par l'Otan au Kosovo, même si les termes de la requête ne figurent pas dans l'article concerné.

Bien sûr, Intuition peut fonctionner avec un SGBDR "Nous avons huit millions de documents dans un SGBDR à Ouest-France, indique Philippe Laval, PDG de Sinequa. Mais nous leur conseillons une solution XML. Une base structurée n'est pas optimale. Si vous voulez par exemple obtenir tous les noms de sociétés citées dans un certain nombre d'articles, vous ne pourrez pas les avoir directement. Il faudra d'abord extraire tous les documents et les parser [procéder à une analyse syntaxique du XML, NDLR]. "

 

Envisageant dès le départ la base documentaire comme un entrepôt fédérateur pour l'ensemble du groupe, José Bolufer se décide pour la solution XML de Xyleme. "Nous devions aussi répondre aux besoins des journalistes",explique-t-il. D'abord, une base XML apportait suffisamment de flexibilité pour pouvoir stocker non seulement des articles de toute taille, mais aussi les tableaux, images ou infographies les accompagnant. Et donc pouvoir passer des 6 Go de données actuels à quelques centaines. Ensuite, Le Monde republie régulièrement des articles, tant sur le Web que sous forme de dossiers, un domaine où "XML apporte des gains de productivité. Il sera inutile par exemple de remettre une citation en italique dans un texte, et la hiérarchie de l'article sera mémorisée".

Le projet en chiffre

• Fonds documentaire de 800 000 articles ou 6 Go de données (avant numérisation du fond antérieur à 1987, qui remonte jusqu'à 1944), géré par 10 documentailstes.
• Production d'environ 200 articles par jour.
• Taille de l'index : 20 GO dans le système précédent, 3 Go avec Xylème.
• Invesstissement : 300 000 euros (logiciels et services, prix catalogue).

 

Le Monde met donc en relation Sinequa et Xyleme, et leur demande de s'entendre pour proposer une solution commune qui soit capable de transformer les documents en XML, de les indexer automatiquement, de les stocker... et de les retrouver. Après un test de montée en charge, la solution est adoptée. Et si seul le quotidien du soir est pour l'instant concerné, l'architecture mise en place pourrait remplacer à terme les outils des autres publications du groupe, si elles le souhaitent : Le Monde diplomatique, le site lemonde.fr, le Midi libre, Centre Presse, Courrier international...

Olivier Rafal