Revue SOLARIS Décembre 1999 / Janvier 2000 ISSN : 1265-4876 |
![]() ![]() ![]() ![]() |
Du document électronique à son usage : le rôle central de la normalisation
J.-L. Benoît*, Ch. Bernet*, P. Bonhomme**, L. Romary**,
N.Viscogliosi**
![]() |
Résumé La classification en genres résiste mal au foisonnement et à la complexité du fait littéraire. On peut donc concevoir qu'un langage de codage qui voudrait s'appliquer à n'importe quel genre littéraire devra associer une capacité d'analyse fine et multiforme à une normalisation des règles qui le régissent. La normalisation joue en effet un rôle central dans la gestion des fonds textuels littéraires informatisés puisqu'elle permet aux textes électroniques d'être à la fois indépendants vis-à-vis du logiciel et aisément échangeables et comparables avec d'autres sources L'objectif de cet article est de mettre en évidence le rôle essentiel d'une démarche de normalisation lorsque l'on est amené à gérer des fonds textuels informatisés. Plus concrètement, notre approche de la norme SGML, et plus récemment de la recommandation XML, est illustrée par des exemples de représentation de l'information textuelle à l'aide des directives de la TEI et par un aperçu de l'utilisation des feuilles de style XSL pour la présentation de ces données. Mots-clés : genre littéraire; SGML; XML; XSL; normalisation; TEI; théâtre; document électronique; SILFIDE; corpus littéraire Abstract Classifying texts into genres is a difficult task with regards to the abundance and complexity of the literature production. Consequently, an encoding language which would intend to apply to any literary genre will have to combine the ability of fine and multiform analysis with a normalization of the rules that govern it. Standardization plays indeed an important part in the management of electronic and literary text collections since it allows the electronic text to be at the same time sofware independent, easily transmissible and comparable with different sources. The aim of this paper is to highlight the essential role of a normalization approach when managing electronic text collections. In concrete terms, our approach of the SGML standard and more recently of the XML recommendation is illustrated with examples of textual information representation using the TEIguidelines and with an XSL stylesheet outline to display these data. |
Présentation ou représentation -- Il est important de dissocier, lorsque l'on passe d'un format imprimé à une version électronique, les informations d'ordre purement typographique de celles qui renseignent sur l'organisation logique du texte ou l'identification d'éléments particuliers. Identifier une suite de mots comme étant en italiques dans le texte original ne permet pas de faire une différence entre une emphase, une expression d'origine étrangère ou, dans le cas du théâtre, une indication scénique. En fonction de ce que l'on souhaite effectivement garder de l'édition d'origine, on peut vouloir ajouter quelques marques typographiques, mais il est clair qu'il faut disposer d'un moyen d'exprimer des informations relevant du contenu.
Indépendance des données vis-à-vis du logiciel -- Pérenniser un document électronique, c'est entre autres s'affranchir des contraintes liées à un logiciel particulier qui imposerait un format propriétaire de représentation des données. De tels formats sont trop sujets à évolution et le risque est grand (l'expérience le prouve) de ne plus pouvoir accéder à une information parce que le logiciel qui a servi à la créer n'est plus disponible. Par ailleurs, il est indispensable que tout projet académique soit capable de s'appuyer sur une offre logicielle variée comprenant en particulier des logiciels dits libres.
Comparer et transmettre des documents -- L'indépendance vis-à-vis du logiciel doit s'accompagner d'une véritable démarche de normalisation pour réellement harmoniser les pratiques de gestion de ressources textuelles entre les différentes institutions ou laboratoires concernés. L'objectif est d'aboutir à un traitement uniforme et cohérent de textes relevant du même domaine ou appartenant au même genre. Il s'agit en effet, d'une part, d'être capable de comparer des données d'origines différentes et de façon duale de pouvoir échanger ces données avec d'autres sites en utilisant un protocole "aveugle", c'est-à-dire ne nécessitant pas une connaissance préalable du codage employé.
Des données qui se suffisent à elles-mêmes -- On arrive ainsi à envisager un mode de gestion des documents textuels qui repose sur un codage normalisé, issu si possible de pratiques normatives existantes, et surtout qui permette à un document électronique d'être parfaitement autonome, tant du point de vue de la plate-forme logicielle qui va l'accueillir que du point de vue de l'utilisateur qui doit se l'approprier pour un usage peut-être différent de celui qui a conduit à sa création. D'un point de vue théorique, on est proche des notions de document semi-structuré (Buneman et alii, 1996 ; Abiteboul, 1997 ; Abiteboul et alii, 1997) qui, par opposition aux modèles classiques de bases de données, ne nécessitent pas de connaissance préalable d'un schéma abstrait décrivant leur organisation. Ce sont exactement ces notions qui ont d'abord conduit à la mise en oeuvre de la norme SGML dans les années 80 puis à la définition simplifiée de son cousin XML dans le cadre du développement de ces techniques au sein du réseau Internet. La cohérence entre les contraintes que nous nous fixons et les perspectives technologiques proposées par de tels standards expliquent les choix que nous avons pu faire dans le cadre des travaux présentés dans cet article.
XML ouvre en fait les portes de l'Internet aux documents structurés et comble ainsi les lacunes et les déviances des applications purement basées sur le langage HTML. XML, qui fournit une méthode uniforme pour la description et l'échange de l'information structurée sur le Web, établit le pont entre la richesse et la complexité de SGML et la pauvreté sémantique d'HTML.
Parmi les différences notables entre XML et SGML, la principale concerne les notions de document valide et de document bien formé. En effet, un document XML peut ne pas contenir de déclaration de type de document (DTD). Nous parlerons dans ce cas de document bien formé, à la différence des documents valides qui eux, tout comme avec SGML, possèdent une DTD et en respectent le schéma de codage. L'avantage principal de la notion de document bien formé est la possibilité d'extraire des fragments de document et de les traiter ou de les échanger sans leur attribuer de DTD. Pour résumer, on édite en " valide " et on transmet en " bien formé ".
La TEI est un projet international d'un système de codage commun des textes, en SGML, qu'il était devenu urgent de mettre au point dans la diversité chaotique des systèmes utilisés dans les années 80. Le projet, lancé en 1987, aboutit à un système de conventions qui répond aux besoins fondamentaux de la plupart des projets d'encodage de textes, quelles qu'en soient la nature et la taille. En 1994, paraît un guide d'encodage : le TEI Guidelines for Electonic Text Encoding and Interchange [5] qui est une aide détaillée et régulièrement mise à jour. Le consortium TEI, nouvellement créé, s'est penché sur la mise en conformité des directives avec la recommandation XML.
De même, une seule feuille de style pourra être appliquée à l'ensemble des documents d'un corpus respectant les mêmes règles de codage. Afin, par exemple, de modifier l'apparence à l'affichage de l'ensemble des documents, il suffit de modifier cette seule feuille de style.
XSL se compose de deux langages :
Un texte électronique de qualité, bien saisi, bien codé, enrichi d'informations sémantiques, linguistiques ou autres, peut perdre considérablement de son intérêt et de sa valeur s'il n'est pas, par ailleurs, décrit correctement et clairement situé parmi un ensemble de documents. Ainsi par exemple, de nombreuses oeuvres littéraires sont accessibles en texte intégral sur Internet mais bien peu citent une édition de référence, ce qui est un obstacle à leur utilisation dans la Recherche.
S'il va de soi qu'un document comporte au minimum un titre, le plus souvent un ou plusieurs auteurs, voire un éditeur, une date de parution etc., il peut être utile, sinon nécessaire, de rechercher d'autres informations parfois implicites, n'appartenant pas au texte lui-même. Par exemple, des requêtes telles que "la littérature féminine" ou "telle édition de tel document" ne peuvent aboutir si on ne dispose pas d'indications aussi simples que le sexe de l'auteur et la source précise du texte.
Toutes ces informations sont recueillies dans un en-tête, ou header, qui précède le texte proprement dit. Selon le type de document considéré et l'objectif visé lors de la collecte et du codage, elles peuvent représenter une grande diversité qu'il devient important d'organiser.
Constitué de quatre parties essentielles, cet en-tête permet de décrire en profondeur :
Les exemples suivants, tirés d'un corpus réel [7], illustrent la "dérive" de l'utilisation de balises, par ailleurs conforme à la TEI, provenant de l'interprétation du sens de ces balises par différents membres d'un même projet. La balise <title> contient à la fois le titre, la langue et l'auteur dans un ordre et une syntaxe variable.
Exemples :
<title>the Republic an electronic version (in Bulgarian) </title>
<author>Plato</author>
<title>Plato's Republic - New Translation</title>
<title>Plato's Republic in German</title>
De ce constat et d'une réflexion poussée sur les éléments pertinents à prendre en compte pour décrire un document est né l'en-tête Silfide minimal. Il s'agissait au départ d'élaborer un modèle d'en-tête applicable à l'ensemble du fonds Silfide et contenant les informations nécessaires et suffisantes, structurées, permettant d'exploiter au mieux les ressources décrites. La difficulté pour constituer un tel en-tête générique résidait dans la résolution du paradoxe suivant :
Le travail d'harmonisation a porté aussi bien sur le type d'informations que sur leur syntaxe. En effet, les recommandations de la TEI n'imposent aucune contrainte sur le contenu des balises; or la forme de l'information peut être aussi importante que l'information elle-même, comme le montrent les exemples suivants :
Exemples :
<name>Paul Claudel</name>
<name>Claudel, Paul</name>
<name>Claudel P.</name>
Dans ces trois cas, conformes à la TEI, la variation de la syntaxe pourrait empêcher, par exemple, la constitution d'un index de noms d'auteurs automatique.
Un manuel d'élaboration d'en-tête Silfide intégrant tous ces aspects, et dont une version de travail est d'ores et déjà accessible [8], est actuellement en cours de rédaction.
Mais avant tout, les éditions des pièces de théâtre peuvent, comme toutes les autres publications, comporter des textes liminaires ou annexes qui doivent être marqués comme tels pour les distinguer du texte principal. En effet, il est fréquent de trouver, selon les époques ou selon les auteurs, un avant-propos, une dédicace, une épître dédicatoire, une introduction, une préface ou une postface. Certains textes annexes sont souvent présents dans les éditions des pièces de théâtre. Ce sont par exemple l'argument, qui expose brièvement le sujet et l'action de la pièce, parfois remplacé par un avertissement lorsque l'auteur ne se borne pas à parler du sujet qu'il traite, mais de sa manière de le traiter. Ces textes accessoires ont souvent une importance reconnue par l'histoire littéraire et doivent absolument figurer dans les saisies électroniques des pièces auxquelles ils sont associés. C'est le cas notamment des préfaces de certaines pièces classiques, dans lesquelles les dramaturges se situent par rapport à leurs sources, par rapport à leurs rivaux et donnent des précisions sur la réception de leurs oeuvres par le public (cf. les deux préfaces successives de Britannicus de Racine) ou encore des examens des pièces de Corneille, écrits pendant une période de retraite, dans lesquels le dramaturge livre ses réflexions critiques et doctrinales. Les examens sont généralement donnés, dans les éditions critiques de l'oeuvre de Corneille, non pas à leur place selon la chronologie (1660-1662) mais en association avec chacune des pièces concernées.
Dans le texte des pièces proprement dit, le balisage normalisé est le moyen d'accéder de manière sélective à différents types de données ou à différents niveaux de structure.
Le texte des pièces de théâtre est, par nature, composite. Il comporte, hormis le texte de scène proprement dit, une liste des personnages, des indications de structure et des indications scéniques, c'est-à-dire les didascalies (Ubersfeld, 1996).
Dès qu'elles atteignent une certaine longueur, les pièces de théâtre sont structurées. La forme la plus fréquente est, à l'image des pièces classiques, un découpage en actes et en scènes, mais on rencontre aussi des pièces articulées en tableaux (l'acte II de Rhinocéros d'Eugène Ionesco est découpé en deux tableaux) ou en parties, par exemple dans l'oeuvre de Paul Claudel, elles-mêmes découpées en scènes. Un découpage en journées comme dans le Soulier de satin est exceptionnel.
Ces structures plus ou moins régulières sont parfois précédées d'un prologue (La Toison d'Or de Corneille, Amphitryon et le Malade imaginaire de Molière, Esther de Racine) ou suivies d'un épilogue (le Soulier de Satin de P. Claudel), ceux-ci appartenant de plein droit au texte scénique. Les prologues du théâtre classique constituent généralement une pièce avant la pièce avec des rôles distincts de ceux de l'action principale.
Entre les actes, il arrive que se glissent des intermèdes, des ballets (par exemple les intermèdes et les ballets du Bourgeois gentilhomme et les entrées de ballets du Malade imaginaire de Molière).
Le niveau ultime de la structuration du texte de scène est la réplique, qui est nécessairement associée à un personnage de la pièce.
Les dialogues peuvent prendre différentes formes : on peut identifier les tirades (suites de paroles plus longues) en les opposant aux stichomythies (courtes répliques de même longueur). Les monologues ne sont pas toujours faciles à définir. D'une manière abusive, ils désignent les scènes dans lesquels le personnage parle seul. Mais le personnage (Oreste, dans la dernière scène d'Andromaque) ne l'est pas toujours. De plus, peut-on parler de monologue lorsqu'un personnage s'adresse à un autre qui reste muet&nosp;? Cas particuliers des monologues, les apartés dont le commencement est noté par une didascalie et, dans le théâtre ancien, les stances, qui sont distribuées en strophes, comme un poème lyrique.
Le balisage peut donc restituer chacun de ces niveaux, ainsi encore que les parties chantées, notamment dans les choeurs de certaines tragédies, telles les tragédies bibliques de Racine ou dans les intermèdes de certaines comédies, comme le Bourgeois gentilhomme déjà mentionné. Lorsque les pièces sont en vers -- et c'est fréquemment le cas dans le théâtre français jusqu'au 19e siècle -- un balisage normalisé des fins de vers ou des associations de mots (ou de phonèmes) à la rime ouvre la possibilité de mener des études de poétique à l'aide de l'édition électronique des textes saisis.
Cependant, la perspective d'échanger et de développer ces données, impossible avec un format interne, induisait le recours à un standard. Un travail de rétroconversion vers le format TEI a donc été entrepris, largement facilité par la similitude entre les deux approches. Seules quelques balises qui avaient pour but de donner une description physique du texte n'ont pas été conservées. À titre d'exemple la balise <center>, considérée comme purement éditoriale, a été supprimée.
Lorsque l'on définit un langage de balisage comme un langage capable de décrire la structure et le contenu d'un document, cela ne signifie pas -- est-il besoin de le rappeler ? -- qu'il établisse une quelconque séparation entre forme et fond, entre signifié et signifiant. Lorsque Claudel utilise des polices de caractères différentes pour décrire l'affiche de recrutement des caravelles dans Le Livre de Christophe Colomb, ce n'est pas anodin et il faut le mentionner (coll. de la Pléiade, Théâtre, t.2, p.1159). Le balisage d'un vers ne saurait ignorer la place de la césure et passer sous silence un rejet ou un enjambement. La place de chaque mot n'y est pas interchangeable. Au baliseur d'isoler les formes signifiantes et d'y appliquer le balisage convenable : la TEI possède un arsenal de balises capable de faire face.
Le travail de balisage se rapproche donc plus de la lecture que d'un travail éditorial mécanique. Baliser un texte, c'est d'abord bien en connaître la structure et bien le comprendre, pour en faciliter les lectures ultérieures.
On y trouvera en particulier : la description de la page de titre, la liste des personnages, des indications de temps et de lieu. A titre d'exemples, nous détaillons ici le codage de la liste des personnages, qui illustre différents mécanismes de la TEI.
-- La liste des personnages : <castList>
<castList> contient la liste des personnages ou des groupes de personnages ( y compris muets), parfois le lien qui les unit entre eux, éventuellement le nom de l'acteur qui a tenu le rôle à la première de la pièce.
On déclare ici le nom des personnages auxquels on attribue un identifiant ("id") qui permet de les repérer tout au long de la pièce.
Ex :
< castList>
<head>PERSONNAGES</head>
<castItem>
<role id="CH"><name>CHARLES Ier</name></role>
<roleDesc>roi d'Angleterre</roleDesc>
</castItem>
[...]
<castItem>
<role id="CR"><name>CROMWELL</name></role>
</castItem>
[...]
<castGroup>
<head rend="accolade">principaux amis de Cromwell. Personnages muets.</head>
<castItem><role><name>FLEETVOLD</name></role></astItem>
<castItem><role><name>BARCLAY</name></role></catItem>
[...]
</castGroup>
[...]
<castItem>
<roleDesc>TOUS LES MEMBRES DU PARLEMENT</roleDesc>
</castItem>
</castlist>
La même balise <div> est utilisée pour coder tous les niveaux, qui sont distingués grâce à l'utilisation des attributs.
Ex :
<div type="acte" n="1" >
<head>ACTE PREMIER</head>
<div type="scene" n="1">
<head>SCÈNE PREMIÈRE</head>
[...]
</div>
[...]
</div>
-- Les indications de jeux de scène, ou "didascalies" [12]
Les didascalies, uniformément codées par l'élément <stage>, recouvrent des cas de figure différents qui sont clairement distingués par les valeurs de l'attribut "type".
Ainsi, <stage> sera utilisé :
-- au début d'une scène, pour identifier les interlocuteurs
en présence (type="personnage").
Ex :
<div type="scene" n="1">
<head>SCÈNE PREMIÈRE</head>
<stage type="personnage">LA REINE, STRAFFORD</stage>
[...]
</div>
-- pour indiquer un mouvement, un élément de mise en scène (type="mouvement") :
Ex :
[...]
<stage type="mouvement">Elle s'assied.</stage>
[...]
-- pour préciser, dans une prise de parole, une situation
particulière du locuteur, un aparté, etc. (type="phatique")
:
Ex :
[...]
<speaker>CROMWELL</speaker><stage type="phatique">, aux conjurés.</stage>
[...]
<speaker>LE ROI</speaker><stage type="phatique">, seul.</stage>
[...]
Les vers, puisqu'il s'agit d'une pièce en vers, sont codés et numérotés grâce à l'élément <l>.
Exemple (extrait de l'Acte I, scène II) :
<div type="scene" n="2">
<head>SCENE II</head>
<stage>IRETON, CROMWELL, STRAFFORD</stage>
[...]
<sp who="CR">
<speaker>CROMWELL</speaker>
<l n="201">Vous me semblez surpris, Seigneur, par ma présence?</l>
<l n="202">Mes efforts cependant servent votre vengeance.</l>
<l n="203">Quel était l'entretien qu'a troublé mon abord?</l>
</sp>
<sp who="ST">
<speaker>STRAFFORD</speaker>
<l n="204">Voici la liberté que vous vantez si fort?</l>
<l n="205">Bientôt l'on ne pourra dans toute l'Angleterre</l>
<l n="206">Sans l'ordre de Cromwell, ou parler ou se taire;</l>
<l n="207">L'amour de la vengeance est peu fait pour mon coeur,</l>
<l n="208">Je prétends, aujourd'hui, vous le prouver, Seigneur.</l>
</sp>
[...]
<stage>Il sort.</stage>
</div>
L'attribut "who" de l'élément <sp> prend la valeur de l'identifiant, tel qu'il a été déclaré dans l'en-tête (cf. supra), du personnage qui s'exprime; ceci est fort utile lorsqu'un personnage apparaît sous plusieurs désignations.
Exemple :
<sp who="CH"><speaker>CHARLES</speaker></sp>
<sp who="CH"><speaker>LE ROI</speaker></sp>
Ainsi, l'extrait suivant du fichier XML :
<div type="acte" n="1">
<head>ACTE PREMIER</head>
<div type="scene" n="1">
<head>SCÈNE PREMIÈRE</head>
<stage>LA REINE, STRAFFORD</stage>
<sp who="MH"><speaker>LA REINE</speaker>
<l n="1">Arrêtons-nous, Strafford, je me soutiens à peine!...</l>
<stage>Elle s'assied.</stage>
<l n="2">En l'état où je suis, qui me croirait la Reine?</l>
<l n="3">Moi qui reçus le jour pour imposer des lois,</l>
<l n="4">Il faut, en abordant le palais de vos Rois,</l>
<l n="5">À l'heureuse indigence emprunter sa livrée!...</l>
[...]
</sp>
pourrait ressembler, une fois interprété par une feuille de style XSL, à ceci :
ACTE I SCÈNE PREMIÈRE LA REINE, STRAFFORD
LA REINE
Arrêtons-nous, Strafford, je me soutiens à peine!... |
La feuille de style écrite le théâtre ainsi que la pièce Cromwell publiée intégralement sont consultables sur le site de l'INaLF [13].
Il est donc important, lors du montage de ce type de projet, de clairement définir les objectifs à atteindre afin d'opter pour une stratégie adéquate permettant, dans le laps de temps imparti et avec les forces en présence, de faire évoluer la plus grande partie des fonds existants vers des ensembles de ressources normalisées de référence. Cette stratégie doit tenir compte des besoins et des objectifs finaux, de la granularité du codage, de la pérennité des données à construire et ne doit en aucun cas tenir compte du type d'application qui exploitera les données. En effet, il est primordial de séparer les ressources à utiliser de l'application même si, parfois, la frontière entre les données et les fonctionnalités est très étroite. L'avantage de cette démarche est d'obtenir des ressources textuelles indépendantes de toute application. On évite ainsi la duplication des données et on ouvre la porte à de futurs applications et besoins. Dans le même état d'esprit, cela revient à considérer une ressource primaire comme une entité vivante, qui va s'enrichir et s'améliorer avec le temps, par l'intermédiaire d'un système d'annotations externes.
La normalisation est ici doublement au coeur des préoccupations puisqu'il s'agit, d'une part, de faire converger les outils et méthodes de travail de rédacteurs répartis sur plusieurs continents et, d'autre part, d'appliquer un modèle normatif à un type de données particulier : les terminologies. Dans ce domaine, le niveau de structuration des informations est extrêmement élevé; l'élaboration de normes terminologiques, d'ailleurs, a préoccupé les terminologues avant les informaticiens, et dans les mêmes termes : rendre les documents réutilisables par d'autres, échangeables, et maintenant interprétables par des automates standards. L'avènement du document électronique permet de faire converger les deux aspects et d'offrir aux terminologues des outils et des techniques appropriées pour atteindre ces objectifs.
Parmi les formats disponibles, le choix pour DHYDRO s'est porté sur MARTIF [16](norme ISO-12200, 1998) qui s'appuie sur SGML et sur les travaux de la TEI. A l'heure actuelle, MARTIF permet de représenter l'ensemble des données de DHYDRO en préservant toutes les informations existantes. Ce format ajoute même une richesse de codage qui ouvre des perspectives nouvelles en termes de fonctionnalités d'un outil de saisie et en termes de finesse de consultation.
© "Solaris", nº 6, Décembre 1999 / Janvier 2000.