Une station de travail pour classer, cartographier et analyser l'information bibliographique dans une perspective de veille scientifique et technique

Luc GRIVEL, Claire FRANÇOIS



Cet article développe dans sa première partie les caractéristiques méthodologiques et technologiques d'une station d'analyse de l'information scientifique et technique fonctionnant sous UNIX et basée sur la norme SGML. Celle-ci permet de classer et représenter graphiquement d'énormes quantités d'information bibliographique en s'appuyant sur deux méthodes permettant de construire des cartes thématiques : une méthode éprouvée, les mots associés, et une autre plus récente associant une technique de classification, les K-means axiales, à une technique d'analyse factorielle courante : l'Analyse en Composantes Principales (ACP). Les deux méthodes sont présentées en détail et comparées d'un point de vue théorique. Il en ressort qu'il existe une grande symétrie entre les deux processus, expliquant les accords observés expérimentalement entre les résultats des deux méthodes.

En abordant dans la deuxième partie le problème de la qualification des résultats afin de limiter les risques d'erreurs lors de leur interprétation, nous exposons sur un exemple une démarche d'analyse et mettons l'accent sur la possibilité de mesurer les accords entre les résultats des deux méthodes d'analyse par des indicateurs globaux. Il reste cependant que les méthodes offrent des représentations différentes : classes de mots-clés structurées par les relations de cooccurrences dans un cas, classes de mots-clés floues et recouvrantes représentées par des demi-axes dans l'autre ; cartes thématiques fournissant des informations de natures différentes : indicateurs structurels et visualisation des réseaux locaux dans un cas, oppositions des thèmes selon deux axes principaux dans l'autre cas. Une richesse au niveau des représentations qui font de ce poste de travail un véritable instrument d'exploitation de l'information bibliographique dans une perspective de veille scientifique. En conclusion, nous présentons les évolutions envisagées pour cette station.





          

Introduction

Dans un contexte de veille scientifique, l'analyse infométrique de l'information scientifique et technique comprend non seulement une analyse de contenu à partir des mots-clés, résumés et titres mais aussi une analyse de ses acteurs, leurs relations, leurs moyens de communications (revues, rapports, congrès, ...), son actualité.

Dans cette perspective, nous présentons ici une station d'analyse de l'information scientifique et technique développée dans le cadre du programme de recherche en infométrie de l'INIST [1]/CNRS [2]. D'un point de vue fonctionnel, elle doit non seulement fournir tous les indicateurs numériques usuellement mis en oeuvre pour prendre la mesure de l'information bibliographique, mais également proposer des représentations du contenu de la production scientifique [3]. Elle automatise l'élaboration des distributions bibliométriques (statistiques unidimensionnelles sur les champs bibliographiques), et elle supporte deux méthodes permettant de construire des cartes thématiques : une méthode éprouvée, les mots associés [Callon et al 1983]), et une autre plus récente associant une technique de classification, les K-means axiales [Lelu 1990 et 1993] à une technique d'analyse factorielle courante : l'Analyse en Composantes Principales (ACP).

Notre objectif est de classer et représenter d'énormes quantités d'information bibliographique afin d'en extraire des synthèses élaborées utilisables pour effectuer une veille scientifique (données chiffrées caractérisant un ensemble de références bibliographiques, hypertextes thématiques, documents de synthèse tels que des cartes de l'information scientifique et technique).


La première partie de cet article décrit les méthodes mises en oeuvre pour représenter le contenu de l'information et montre leur spécificité et leur complémentarité. Nous y exposons également nos choix technologiques, puis nous décrivons l'objet technique réalisé : une chaîne de traitement infométrique sous Unix, basée sur la norme SGML.


La deuxième partie est consacrée à l'analyse des résultats. Nous abordons ici le problème de la qualification des résultats afin de limiter les risques d'erreurs lors de leur interprétation. L'analyse des distributions bibliométriques n'est qu'esquissée. Elle ne présente, à notre avis, pas de difficultés majeures, puisqu'il est possible de s'appuyer sur des lois qui décrivent leur comportement. Par contre, l'exploitation des résultats de méthodes d'analyse de données demande quelques précautions car il ne faut pas oublier qu'elles procèdent par réduction de données. Nous exposons donc une démarche d'analyse basée sur l'observation d'indicateurs permettant d'apprécier la qualité des résultats produits par notre station de travail. Pour illustrer cette démarche, nous utilisons les résultats du traitement d'un petit corpus [4] de références bibliographiques (quelques centaines de documents).


En conclusion, nous effectuons un bilan comparatif des deux méthodes et décrivons les évolutions futures de la station de travail.


          

2 - Choix méthodologiques et technologiques

                         


2.1 - Méthodes mises en oeuvre

Si les méthodes à mettre en oeuvre pour obtenir les distributions bibliométriques sont relativement bien standardisées et banalisées, il n'en est pas de même pour la représentation de l'IST. C'est pourquoi nous nous contenterons de développer ce deuxième aspect.


Les indicateurs que nous utilisons pour représenter le contenu de l'information sont les cartes thématiques. D'une manière générale, nous définissons une carte thématique comme étant une représentation de la topologie des relations entre des disciplines ou des thèmes de recherche, telle qu'elles sont matérialisées sous la forme de données bibliographiques. Pour construire ces cartes, notre choix s'est porté en priorité sur deux méthodes d'analyse de corpus documentaire déjà décrites dans la littérature : la méthode des mots associés implémentée par le logiciel SDOC, et une méthode associant les K-means axiales à une Analyse en Composantes Principales (ACP) implémentée par le logiciel NEURODOC.


Pour des raisons historiques, ces méthodes sont bien connues de notre programme de recherche. Nous bénéficions de l'expérience acquise par le SERPIA [5], département de R & D du CDST [6] avant la fondation de l'INIST. En effet, la méthode des mots associés est le fruit d'une collaboration entre le Centre de Sociologie de l'Innovation de l'Ecole des Mines de Paris et le CDST [Callon et al 1983]. Le logiciel développé à l'époque s'appelle LEXIMAPPE. Quant à la méthode basée sur les K-means axiales et l'ACP, elle a été mise au point par A. Lelu, alors qu'il était membre du SERPIA [Lelu 1990].


Ces deux méthodes utilisent les mots-clés qui indexent les références bibliographiques pour construire les structures thématiques "enfouies" dans les bases de données. Pour schématiser, elles trouvent les thèmes abordés et classent les documents selon ces thèmes. Ceux-ci sont ensuite disposés sur un espace à 2 dimensions : "carte thématique".

Complémentarité des méthodes

A. Lelu a démontré que les 2 méthodes sont symétriques l'une de l'autre [page 93, Lelu 93].

En résumé, les K-means Axiales effectuent une classification des lignes dans un tableau documents x descripteurs, tandis que les Mots Associés effectuent une classification des colonnes de ce même tableau, en utilisant le même indice de similarité [9].


Or, dans nos applications, les tableaux de données sont très creux et peuvent se segmenter le plus souvent en blocs de lignes et de colonnes quasi-indépendants les uns des autres. Dans ce cas limite, la classification sur les lignes et la classification sur les colonnes aboutissent à détecter les mêmes blocs dans le tableau.

En effet, dans nos expérimentations, nous n'avons pas relevé de contradictions entre les résultats des deux méthodes sur un même fichier de données. En les paramétrant de façon à obtenir un nombre identique de classes à partir d'un même fichier de données, il est courant d'observer entre 60 et 80 % de classes similaires. Les deux méthodes détectent sensiblement les mêmes blocs. Leur emploi sur un même fichier permet donc d'obtenir des représentations différentes des classes que nous récapitulons ici :

                         


2.2 - Technologie informatique

Nos choix ont visé :

Pour atteindre le premier objectif, nous avons utilisé les techniques du Génie Logiciel : modularité par décomposition en programmes indépendants, adoption de standards. La station de travail a été conçue comme un outil modulaire doté d'un ensemble de fonctionnalités qui peuvent être mises en oeuvre selon les besoins de l'analyse.


Pour atteindre le deuxième objectif, nous avons estimé qu'il fallait avant tout banaliser et standardiser le processus de traitement de l'information en l'automatisant.


  1. Une conception modulaire basée sur des standards

    La nature textuelle des données à analyser, la diversité de leur structure, le nombre de champs différents à traiter pour mener à bien une étude infométrique, nous ont amenés à adopter la norme SGML [10] pour la description de la structure logique de tous les documents manipulés par les outils de la station. Les avantages immédiats de ce choix sont : distinction nette entre contenant et contenu, codage unique des caractères accentués, règles de balisage, existence d'outils sur le marché, ...


    A titre d'exemple, une notice bibliographique provenant d'un serveur ou d'un CD-Rom se présente généralement comme suit :

    La structure logique d'une telle information est très simple : une suite de champs repérés par un identifieur. Il est alors facile de définir les règles lexicales qui permettent d'identifier le début, la fin d'une notice, le début ou la fin d'un champ à l'intérieur de la notice de manière à la transformer en document SGML.


    En SGML, chaque élément structurel est repéré par une balise de début : <identifieur de l'élément> et une balise de fin : </identifieur de l'élément>. La notice ci-dessus peut d'écrire en format SGML :

    Une fois que toutes les données sont décrites dans ce format pivot, il est plus facile de concevoir des outils génériques utilisant les propriétés du balisage SGML. La plupart des traitements sur de tels documents se réduisent à associer des actions à un élément de la grammaire et, dans bien des cas, travailler au niveau lexicographique suffit. Ces caractéristiques nous ont conduits à développer une boîte à outils (appelée ILIB) basée sur SGML et sur UNIX [Ducloy et al 1991]. En effet des programmes générés par Lex et des outils UNIX tels que Awk sont bien adaptés pour extraire de l'information "à la volée" sur un flot de données structurées, puis la traiter.


    La station de travail est ainsi constituée de modules indépendants de traitement de l'information qui communiquent entre eux par flot de données en s'appuyant sur le mécanisme de pipe d'UNIX. En collaboration avec H. Millerand et J. Kasprzak du service étude de la direction informatique INIST, nous avons effectué des tests d'applications de SDOC et NEURODOC sur de gros volumes de données (transcripts dans le guide technique de SDOC et NEURODOC). A titre d'exemple, le traitement de 16 000 références bibliographiques par l'un ou l'autre des outils prend environ dix heures sur une machine déjà ancienne, Sun Sparc 1, avec 16 Mo de mémoire vive. Il faut noter que ce n'est pas la phase de classification elle-même qui est longue, mais la phase de documentation des classes (libellés des mots-clés, titres, sources, auteurs, ...) ; celle-ci prend plus de la moitié du temps d'exécution. Elle sera optimisée ultérieurement.


  2. Interface utilisateur : Scénarii d'analyse standard et mise en forme des résultats

    Dans le souci de faciliter l'utilisation de cette station de travail, nous avons défini des scénarii d'analyse standards. Ces derniers sont matérialisés par des "fichiers de paramètres standards" où sont définis les paramètres de l'analyse (directement dépendants de la méthode choisie) et les différentes éditions ou mises en forme de résultats souhaitées. L'utilisateur peut donc éditer un fichier de paramètres standard, le modifier, l'enregistrer sous un autre nom, puis demander l'exécution de telle ou telle phase de traitement à partir du nouveau fichier de paramètres.


    Nous avons apporté un soin particulier à la mise en forme des résultats avec comme objectif d'obtenir des représentations lisibles et combinables favorisant l'intuition et les rapprochements d'idées. Pour cela, nous nous sommes appuyés sur trois techniques :

                         


2.3 - La chaîne de traitement infométrique

[Polanco et al. 1993a]


La figure 4 présente le déroulement général d'une application scientométrique.

Figure 4 -- La chaîne de traitement infométrique.



Le schéma de traitement proposé comprend 6 phases successives :

  1. acquisition des données à analyser,
  2. préparation des données,
  3. distributions bibliométriques,
  4. analyse des données,
  5. mise en forme des résultats,
  6. analyse scientométrique des résultats.

Les phases 2 à 5 sont automatisées et seront décrites dans ce paragraphe. La phase d'acquisition des données (1) est manuelle et dépend des données à étudier; elle ne sera pas détaillée ici. L' analyse scientométrique des résultats (phase 6) est manuelle; elle est traitée dans la deuxième partie de l'article.


          

3 - Analyse scientométrique des résultats

                         


3.1 - Exploitation des distributions bibliométriques

A partir des différentes distributions, plusieurs types d'observations peuvent être effectuées. Pour un domaine donné, on peut ainsi quantifier sa magnitude (nombre d'articles, nombre de revues), son actualité (selon la date de publication), sa localisation (selon le pays d'édition des revues scientifiques), l'importance des périodiques scientifiques (selon le nombre d'articles dont ils sont la source au cours d'une période déterminée), la localisation des auteurs (selon leur appartenance institutionnelle) et son vocabulaire d'indexation.


Tous ces éléments seront également utilisés pour orienter une analyse approfondie d'un domaine particulier. Ils permettront de définir un corpus de références bibliographiques homogène et pertinent, sur lequel les méthodes d'analyse des données peuvent être appliquées. Par exemple, on peut utiliser la loi de Bradford pour focaliser son attention sur les revues les plus "productives" en termes d'articles recueillis dans le corpus, ainsi que la loi de Zipf pour déterminer le vocabulaire d'indexation pertinent pour l'analyse. Cette loi nous permet de séparer le vocabulaire d'indexation en trois groupes :


C'est donc le second ensemble de mots-clés qui fournit l'information la plus intéressante et qui est traité par les méthodes d'analyse de données.

                         


3.2 - Exploitation des résultats des méthodes d'analyse de données

Pour chaque méthode, nous décrirons la structure des classes obtenues, puis le protocole d'interprétation des classes et cartes. Celui-ci est basé sur l'observation d'indicateurs générés automatiquement permettant d'apprécier la qualité de la classification obtenue d'un point de vue global puis local à chaque classe. Nous suivrons un plan rigoureusement parallèle pour permettre une comparaison entre les deux méthodes. Nous utiliserons les résultats du traitement d'un corpus de références extraites de la base PASCAL, au début de l'année 1990, dans le domaine des Sciences de l'ingénieur : "Intelligence Artificielle : systèmes experts". Ce corpus comprend 316 références, il est indexé par 955 mots-clés dont 665 de fréquence 1 (soit 70% du vocabulaire d'indexation).

La première étape des deux analyses présentées ci-dessous a consisté en une sélection du vocabulaire d'indexation en se basant sur la loi de Zipf :



          

4 - Bilan et évolutions de la station de travail

Notre station de travail permet de caractériser et d'analyser par deux méthodes différentes un ensemble de références bibliographiques. Il nous semble important d'insister encore une fois sur la possibilité de mesurer les accords entre les résultats des deux méthodes d'analyse par des indicateurs globaux (réduction de donnée, taux de recouvrement, nombre de thèmes identiques ou voisins, taille des classes de documents). Il reste cependant que les méthodes offrent des représentations différentes : classes de mots-clés structurées par les relations de cooccurrences dans un cas, classes de mots-clés floues et recouvrantes représentées par des demi-axes dans l'autre. On a vu également que les cartes fournissaient des informations de natures différentes : indicateurs structurels et visualisation des réseaux locaux pour SDOC, oppositions des thèmes selon deux axes principaux pour NEURODOC. Cette richesse au niveau des représentations ainsi que la possibilité de comparer globalement les résultats justifient à notre avis la présence des deux méthodes au sein de la station, chaque méthode apportant un éclairage analytique particulier.


Les évolutions de notre station de travail à court, moyen et long terme :

          

Remerciements

La station d'analyse infométrique est le produit d'une équipe. Nous remercions nos collègues du Programme de Recherche en Infométrie, Xavier Polanco, Dominique Besagni, Chantal Muller et Jean Royauté pour leurs développements, critiques et réflexions ainsi qu'Alain Lelu pour ses apports (écrits et verbaux) concernant la symétrie des deux méthodes.

          

Nota

Notre bibliographie est volontairement circonscrite à notre filière méthodologique dans la mesure où notre objectif dans cet article n'est pas de comparer notre station de travail ou les méthodes utilisées avec d'autres, mais de présenter une réalisation du programme de recherche infométrie, et une démarche d'analyse. Diverses études ont été menées à partir des outils présents sur cette station : étude TELETHESE "Santé, Sciences et Sciences Sociales" (40 000 thèses analysées en mars 1992 pour le ministère de l'éducation nationale), dans le domaine des cognisciences [Ducloy et Polanco 1992], l'économie de l'information [Polanco et al. 1993b], la sociologie (14 000 références de la base FRANCIS en sociologie de 1989 à 1991) [Polanco et Grivel 1994], l'histoire sociale allemande à partir de la base SOLIS de l' Informationszentrum Sozialwissenschaften (IZ) [Grivel et al.], la revue Scientometrics [Polanco et François 1994], etc.


          

Références

CALLON M., COURTIAL J-P., TURNER W.A., BAUIN S. 1983 - "From Translation to Problematic Networks: An Introduction to Co-Word Analysis" in Social Science Information, vol. 22, pp. 191-235.


CALLON M., LAW J., RIP (eds). 1986 - "Mapping the Dynamics of Science and Technology", London : The Macmillan Press Ltd.


CALLON M., COURTIAL J-P., PENAN H.1993 - "La scientométrie" - Presses Universitaires de France, collection "Que sais-je", Paris.


COURTIAL J-P. 1990 - "Introduction à la scientométrie", Anthropos - Economica, Paris.


DUCLOY J., CHARPENTIER P., FRANÇOIS C., GRIVEL L. 1991 - "Une boîte à outils pour le traitement de l'information scientifique et technique", Génie logiciel et systèmes experts, nº 25, pp 80-90, Paris.


DUCLOY J., POLANCO X.1992 -"D'une boîte à outils à la description du domaine des cognisciences", Journées d'étude ADEST "Prendre la mesure des sciences et techniques : la scientométrie en action", Paris, 1-11 juin 1992.

GRIVEL L., LAMIREL J.C. 1993 - "An analysis tool for scientometric studies integrated in an hypermedia environment", ICO93, 4th International Conference on Cognitive and Computer Sciences for Organizations, Montréal, (Quebec) Canada, pp.146-154, 4-7 mai 1993.


GRIVEL L., MUTSCHKE P., POLANCO X. "Thematic mapping on bibliographic databases by cluster analysis: a description of SDOC environment with SOLIS", à paraître


LEBART L., SALEM A. 1988 - "Analyse statistique des données textuelles", DUNOD, Paris 1988, 207 pages.


LELU A. 1990 - "Modèles neuronaux pour données textuelles - Vers l'analyse dynamique des données" - Journées ASU de statistiques, Tours, France.


LELU A. 1990 - "Modèles neuronaux de projection associative et analyse des données" - Approches symboliques et numériques pour l'apprentissage de connaissances à partir des données - sous la direction d'E. DIDAY et Y. KODRATOFF, pp. 283-305, CEPADUES, Toulouse.


LELU A. 1993 - "Modèles neuronaux pour l'analyse de données documentaires et textuelles", Thèse de doctorat de l'université de Paris VI, 4 mars 1993, 238 pages.


LELU A. et FRANCOIS C. 1992 - "Automatic generation of hypertext links in information retrieval systems", communication au colloque ECHT'92, Milan, D. Lucarella & al. eds, ACM Press, New York.

PETERS H.P.F., VAN RAAN A.F.J. 1993 - "Co-word based science maps of chemical engineering, Part II : Representations by combined clustering and multidimensional scaling", Research Policy, vol. 22, 1993, p.47-70.


POLANCO X. et FRANCOIS C. 1994 - "Les enjeux de l'information scientifique et technique à travers une analyse d'infométrie cognitive utilisant une méthode de classification automatique et de représentation conceptuelle (NEURODOC)", Actes du colloque ORSTOM/UNESCO "Les sciences hors occident au XXe siècle, Paris, 19-23 septembre 1994.


POLANCO X. et GRIVEL L. 1994 - "Mapping knowledge: the use of co-word analysis techniques for mapping a sociology data file of four publishing countries (France, Germany, United Kingdom and United State of America), Proceedings of the 4th International conference of Bibliometrics, Informetrics and Scientometrics - 11-15 Septembre 1993, Berlin, Germany, (article à paraître en 1994 dans un volume spécial d'Informetrics).


POLANCO X., FRANCOIS C., BESAGNI D., MULLER C., GRIVEL L 1993a - "Le programme de recherche infométrie", Les systèmes d'information élaborée, Ile-Rousse, 9-11 juin 1993


POLANCO X., FRANCOIS C., BESAGNI D., MULLER C., GRIVEL L 1993b - "Un exemple de traitement de l'information par une approche infométrique : le cas de l'économie de l'information", 3ème conférence internationale sur la recherche en informations - Nouvelles technologies de l'information : les défis pour pour la recherche en économie de l'information, Poigny-la-Forêt, France, 11-13 juillet 1993.


TURNER W. 1994 - "Penser l'entrelacement de l'Humain et du Technique : les réseaux hybrides d'intelligence "- Solaris nº "Pour une nouvelle économie du savoir", Presses universitaires de Rennes, pp. 21-50.



          

Notes

[1]
INIST : Institut de l'Information Scientifique et Technique.

[2]
CNRS : Centre National de la Recherche Scientifique.

[3]
Nous n'effectuerons pas ici un état de l'art des méthodes infométriques permettant de construire ce type de représentations. Le lecteur désirant faire le point sur le domaine trouvera au sein de ce numéro une excellente dans le texte "Aux sources de la scientométrie" de Xavier Polanco.

[4]
Il est entendu que nous l'appliquons également pour le traitement de gros corpus.

[5]
SERPIA : Service d'Etude et de Réalisation de Produits d'Information Avancés.

[6]
CDST : Centre de Documentation Scientifique et Technique du CNRS.

[7]
Un cluster est une classe de mots entre lesquels il existe des associations fortes.

[8]
Immédiatement dans la forme adaptative de l'algorithme, et après passage de tous les documents dans sa forme non adaptative.

[9]
L'algorithme de classification utilisé, le simple lien, utilise uniquement l'ordre des paires de mots-clés pour regrouper les mots au sein d'une même classe. Il est invariant par transformation monotone de la matrice de similarités. Aussi du point de vue du résultat de la classification, il est indifférent d'utiliser Eij ou sa racine et donc considérer qu'il s'agit du même indice de similarité.

[10]
SGML : Standard Generalized Mark-up Language.

[11]
PostScript» est une marque déposée de Adobe. Nroff et troff sont des formatteurs de texte disponibles en standard sous UNIX. LaTeX est un environnement (langage et programme) bâtit sur TeX, marque déposée de American Mathematical Society, disponible par ftp ://ftp.inria.fr/TeX/.

[12]
 Un document hypertexte est un fichier de texte où figurent des liens vers d'autres parties du document lui-même ou vers d'autres documents. La présence de liens dans un document est mise en évidence par une signalétique pré-définie (boutons, mots en gras ou encadrés, ...). Cela signifie, qu'en cliquant sur ces zones (appelées également ancres), on accède à un autre document. Dans notre cas, les documents ne contiennent pas seulement du texte mais aussi des images (cartes thématiques). Ce sont des documents hypermedia.

[13]
Suite de caractères encadrée par un caractère jouant un rôle de séparateur [Lebart et Salem 1988].

[14]
Macintosh® et Hypercard® sont des marques déposées de Apple Computer Inc..

[15]
Nous rappelons que la pondération utilisée pour calculer la valeur de "typicité" permet de faire ressortir les mots-clés fréquents dans cette classe et rares dans l'ensemble des documents.


© "Les sciences de l'information : bibliométrie, scientométrie, infométrie". In Solaris, nº 2, Presses Universitaires de Rennes, 1995