Revue SOLARIS
Décembre 1999 / Janvier 2000
ISSN : 1265-4876
accueil sommaire du dossier courrier aux éditeurs

       
Du document électronique à son usage : le rôle central de la normalisation

J.-L. Benoît*, Ch. Bernet*, P. Bonhomme**, L. Romary**, N.Viscogliosi**



*INaLF (Institut National de la Langue Française) - Institut National de la Langue Française
44, av. de la Libération - B.P.30687-54063 NANCY CEDEX - Tél. (33) 03 83 21 76
http://www.inalf.cnrs.fr/
Mél : jean-luc.Benoît@inalf.cnrs.fr - Mél : charles.bernet@inalf.cnrs.fr

**LORIA (Laboratoire Lorrain de Recherche en Informatique et ses Applications)
Campus Scientifique - BP 239 - 54506 VANDOEUVRE-LES-NANCY CEDEX - Tél. : (33) 03 83 59 20 37
http://www.loria.fr
Mél : patrice.bonhomme@loria.fr - Mél : laurent.romary@loria.fr - Mél : nadia.viscogliosi@loria.fr


logo Solaris Résumé

La classification en genres résiste mal au foisonnement et à la complexité du fait littéraire. On peut donc concevoir qu'un langage de codage qui voudrait s'appliquer à n'importe quel genre littéraire devra associer une capacité d'analyse fine et multiforme à une normalisation des règles qui le régissent. La normalisation joue en effet un rôle central dans la gestion des fonds textuels littéraires informatisés puisqu'elle permet aux textes électroniques d'être à la fois indépendants vis-à-vis du logiciel et aisément échangeables et comparables avec d'autres sources L'objectif de cet article est de mettre en évidence le rôle essentiel d'une démarche de normalisation lorsque l'on est amené à gérer des fonds textuels informatisés. Plus concrètement, notre approche de la norme SGML, et plus récemment de la recommandation XML, est illustrée par des exemples de représentation de l'information textuelle à l'aide des directives de la TEI et par un aperçu de l'utilisation des feuilles de style XSL pour la présentation de ces données.

Mots-clés : genre littéraire; SGML; XML; XSL; normalisation; TEI; théâtre; document électronique; SILFIDE; corpus littéraire

     
Abstract

Classifying texts into genres is a difficult task with regards to the abundance and complexity of the literature production. Consequently, an encoding language which would intend to apply to any literary genre will have to combine the ability of fine and multiform analysis with a normalization of the rules that govern it. Standardization plays indeed an important part in the management of electronic and literary text collections since it allows the electronic text to be at the same time sofware independent, easily transmissible and comparable with different sources. The aim of this paper is to highlight the essential role of a normalization approach when managing electronic text collections. In concrete terms, our approach of the SGML standard and more recently of the XML recommendation is illustrated with examples of textual information representation using the TEIguidelines and with an XSL stylesheet outline to display these data.




  1. Introduction

  2. Codage d'un document textuel : éléments éditoriaux et techniques

  3. Un texte bien documenté : l'importance de l'en-tête

  4. L'exemple des textes de théâtre

  5. Conclusion et perspectives

  6. Bibliographie




top 1. Introduction

L'objectif de cet article est de mettre en évidence, au travers d'expériences concrètes, le rôle essentiel d'une démarche de normalisation lorsque l'on a à gérer des fonds textuels informatisés. Il s'agit pour nous de montrer qu'il est possible d'adopter une politique éditoriale rationnelle qui permette à la fois de prendre en compte les patrimoines existants et d'en assurer une certaine pérennité par le biais de pratiques reproductibles et documentées. Il faut être capable, lorsque l'on manipule des textes électroniques, de tenir compte à la fois du passé et de l'avenir. En effet, il existe de nombreuses sources de documents électroniques qui ont adopté des modes de représentation très différents et souvent incompatibles (format propre à un traitement de texte, HTML, codage propre à une institution, etc.); il faut espérer que l'on ne tombe pas dans les mêmes travers méthodologiques et que l'on soit véritablement en mesure de transmettre un patrimoine informatisé réutilisable par d'autres.


1.1 Principes généraux

Au centre d'une telle démarche éditoriale se trouve bien évidemment la notion de texte, ou plus précisément de document, qui englobe le texte lui-même ainsi qu'un ensemble d'informations que l'on souhaite pouvoir lui attacher. De fait, on ne peut mettre en oeuvre une base de documents textuels sans s'être posé au préalable un certain nombre de questions relatives aux objectifs d'un tel projet.

Présentation ou représentation -- Il est important de dissocier, lorsque l'on passe d'un format imprimé à une version électronique, les informations d'ordre purement typographique de celles qui renseignent sur l'organisation logique du texte ou l'identification d'éléments particuliers. Identifier une suite de mots comme étant en italiques dans le texte original ne permet pas de faire une différence entre une emphase, une expression d'origine étrangère ou, dans le cas du théâtre, une indication scénique. En fonction de ce que l'on souhaite effectivement garder de l'édition d'origine, on peut vouloir ajouter quelques marques typographiques, mais il est clair qu'il faut disposer d'un moyen d'exprimer des informations relevant du contenu.

Indépendance des données vis-à-vis du logiciel -- Pérenniser un document électronique, c'est entre autres s'affranchir des contraintes liées à un logiciel particulier qui imposerait un format propriétaire de représentation des données. De tels formats sont trop sujets à évolution et le risque est grand (l'expérience le prouve) de ne plus pouvoir accéder à une information parce que le logiciel qui a servi à la créer n'est plus disponible. Par ailleurs, il est indispensable que tout projet académique soit capable de s'appuyer sur une offre logicielle variée comprenant en particulier des logiciels dits libres.

Comparer et transmettre des documents -- L'indépendance vis-à-vis du logiciel doit s'accompagner d'une véritable démarche de normalisation pour réellement harmoniser les pratiques de gestion de ressources textuelles entre les différentes institutions ou laboratoires concernés. L'objectif est d'aboutir à un traitement uniforme et cohérent de textes relevant du même domaine ou appartenant au même genre. Il s'agit en effet, d'une part, d'être capable de comparer des données d'origines différentes et de façon duale de pouvoir échanger ces données avec d'autres sites en utilisant un protocole "aveugle", c'est-à-dire ne nécessitant pas une connaissance préalable du codage employé.

Des données qui se suffisent à elles-mêmes -- On arrive ainsi à envisager un mode de gestion des documents textuels qui repose sur un codage normalisé, issu si possible de pratiques normatives existantes, et surtout qui permette à un document électronique d'être parfaitement autonome, tant du point de vue de la plate-forme logicielle qui va l'accueillir que du point de vue de l'utilisateur qui doit se l'approprier pour un usage peut-être différent de celui qui a conduit à sa création. D'un point de vue théorique, on est proche des notions de document semi-structuré (Buneman et alii, 1996 ; Abiteboul, 1997 ; Abiteboul et alii, 1997) qui, par opposition aux modèles classiques de bases de données, ne nécessitent pas de connaissance préalable d'un schéma abstrait décrivant leur organisation. Ce sont exactement ces notions qui ont d'abord conduit à la mise en oeuvre de la norme SGML dans les années 80 puis à la définition simplifiée de son cousin XML dans le cadre du développement de ces techniques au sein du réseau Internet. La cohérence entre les contraintes que nous nous fixons et les perspectives technologiques proposées par de tels standards expliquent les choix que nous avons pu faire dans le cadre des travaux présentés dans cet article.


1.2 Cadre de ce travail

La réflexion et les applications présentées ici sont le fruit d'une collaboration de plusieurs mois entre le Service des Bases Textuelles de l'INaLF et l'équipe Langue et Dialogue du LORIA visant à mettre en commun une expertise philologique et technique sur le texte et son informatisation. Fruit des expériences acquises au sein du projet Silfide [1] (cf. Romary et alii, 1999; Bonhomme et alii, 1998), cette collaboration a pour objectifs :




top 2 Codage d'un document textuel : éléments éditoriaux et techniques


2.1 Les informations à prendre en compte

La mise en oeuvre d'un projet éditorial lié au codage de documents textuels informatisés requiert une analyse précise des éléments d'information à prendre en compte. On ne peut en effet se limiter à la simple transcription, sous la forme d'une suite de caractères ASCII, des textes d'origine. De fait, on peut dégager quatre grandes classes de données susceptibles d'être représentées dans un document textuel :
  1. en premier lieu, il faut pouvoir associer à tout texte informatisé, des informations documentaires précises qui renseignent à la fois sur l'origine du contenu textuel (auteur, titre, édition de référence), mais aussi sur le contenu électronique proprement dit (responsabilité de l'édition électronique, conditions de distribution du document, niveaux et choix de codage, etc.);

  2. il est parfois utile, on le verra dans le cas du théâtre, d'associer des éléments connexes au texte lui-même, tels que préfaces, introductions, etc. En fonction de l'usage que l'on veut faire du document informatisé, il faudra se demander si l'on garde des éléments tels que les index ou les tables des matières qui sont soit faciles à reconstituer, soit redondants par rapport à des modes d'accès plus élaborés qu'autorise le texte informatisé;

  3. l'une des étapes essentielles dans l'informatisation d'un texte reste malgré tout l'identification de sa structure. Celle-ci peut être considérée à différents niveaux : il y a bien sûr le découpage en grandes divisions et sous-divisions qui introduit une hiérarchisation du texte ; il y a le niveau du paragraphe qui, en fonction du genre, peut s'exprimer sous la forme de strophes, de tours de parole etc. Enfin, il faut repérer les marques plus fines des ruptures de lignes quand celles-ci sont significatives, soit explicitement dans un poème, soit de façon plus informelle (verset claudelien, par exemple). A ce stade, notons que selon l'édition de référence, ou simplement à des fins de vérification, on pourra garder certaines informations liées à la structure physique du texte, comme les marques de rupture de page;

  4. enfin, on peut mettre en évidence une quatrième classe d'informations, plus fluctuante, constituée d'éléments qui ne sont pas nécessairement explicites dans le texte d'origine. L'identification ("annotation") de ces éléments peut néanmoins faciliter la gestion et surtout l'accès au texte informatisé. Suivant la perspective éditoriale adoptée, mais également l'usage qui sera fait du document, on pourra ainsi marquer la présence de noms propres (voir par exemple Bruneseaux, 1998), d'abréviations, d'expressions d'origine étrangère, etc. Même si, dans certains cas, ces informations sont repérées par des éléments typographiques dans le texte source, le travail d'annotation reposera toujours sur une certaine subjectivité de celui qui effectue l'opération.


2.2 Quel cadre adopter pour baliser un texte

                  
schéma 1




top 3 - Un texte bien documenté : l'importance de l'en-tête

Un texte électronique de qualité, bien saisi, bien codé, enrichi d'informations sémantiques, linguistiques ou autres, peut perdre considérablement de son intérêt et de sa valeur s'il n'est pas, par ailleurs, décrit correctement et clairement situé parmi un ensemble de documents. Ainsi par exemple, de nombreuses oeuvres littéraires sont accessibles en texte intégral sur Internet mais bien peu citent une édition de référence, ce qui est un obstacle à leur utilisation dans la Recherche.

S'il va de soi qu'un document comporte au minimum un titre, le plus souvent un ou plusieurs auteurs, voire un éditeur, une date de parution etc., il peut être utile, sinon nécessaire, de rechercher d'autres informations parfois implicites, n'appartenant pas au texte lui-même. Par exemple, des requêtes telles que "la littérature féminine" ou "telle édition de tel document" ne peuvent aboutir si on ne dispose pas d'indications aussi simples que le sexe de l'auteur et la source précise du texte.

Toutes ces informations sont recueillies dans un en-tête, ou header, qui précède le texte proprement dit. Selon le type de document considéré et l'objectif visé lors de la collecte et du codage, elles peuvent représenter une grande diversité qu'il devient important d'organiser.


3.1 L'en-tête TEI

La TEI rend très bien compte de cette diversité et permet avec une grande souplesse d'élaborer des en-têtes pour un grand nombre de types de documents.

Constitué de quatre parties essentielles, cet en-tête permet de décrire en profondeur :


3.2 L'en-tête Silfide

Les possibilités proposées par la TEI pour structurer ces données, nous l'avons vu, sont très étendues. Il est facile de concevoir qu'à partir d'un même document et des mêmes objectifs d'encodage, le résultat pourra être différent selon les utilisateurs. Il nous a donc semblé nécessaire dans le cadre de notre collaboration et, à terme, pour envisager de nouveaux projets, de définir un en-tête type adapté à la nature des documents considérés. En effet, la manipulation de ces documents (en particulier leur affichage et l'application d'outils de recherche) implique la présence obligatoire de certains éléments et le respect d'une sémantique rigoureuse de ces éléments. De même, l'application ultérieure d'une feuille de style implique une régularité dans la description des données.

Les exemples suivants, tirés d'un corpus réel [7], illustrent la "dérive" de l'utilisation de balises, par ailleurs conforme à la TEI, provenant de l'interprétation du sens de ces balises par différents membres d'un même projet. La balise <title> contient à la fois le titre, la langue et l'auteur dans un ordre et une syntaxe variable.

Exemples :

<title>the Republic an electronic version (in Bulgarian) </title>

<author>Plato</author>

<title>Plato's Republic - New Translation</title>

<title>Plato's Republic in German</title>

De ce constat et d'une réflexion poussée sur les éléments pertinents à prendre en compte pour décrire un document est né l'en-tête Silfide minimal. Il s'agissait au départ d'élaborer un modèle d'en-tête applicable à l'ensemble du fonds Silfide et contenant les informations nécessaires et suffisantes, structurées, permettant d'exploiter au mieux les ressources décrites. La difficulté pour constituer un tel en-tête générique résidait dans la résolution du paradoxe suivant :

Un soin particulier a été apporté à la gestion des langues (langues du texte, du titre, des en-têtes, des versions originales,...) dans la mesure où une part des développements autour de Silfide, serveur d'abord francophone, concerne l'alignement de textes multilingues.

Le travail d'harmonisation a porté aussi bien sur le type d'informations que sur leur syntaxe. En effet, les recommandations de la TEI n'imposent aucune contrainte sur le contenu des balises; or la forme de l'information peut être aussi importante que l'information elle-même, comme le montrent les exemples suivants :

Exemples :

<name>Paul Claudel</name>

<name>Claudel, Paul</name>

<name>Claudel P.</name>

Dans ces trois cas, conformes à la TEI, la variation de la syntaxe pourrait empêcher, par exemple, la constitution d'un index de noms d'auteurs automatique.

Un manuel d'élaboration d'en-tête Silfide intégrant tous ces aspects, et dont une version de travail est d'ores et déjà accessible [8], est actuellement en cours de rédaction.




top 4 - L'exemple des textes de théâtre


4.1 Les pièces de théâtre : un modèle de structuration

Le théâtre est, parmi les genres littéraires, l'un de ceux qui gagne le plus à être balisé en raison, d'une part, de l'agencement de la plupart des pièces en structures à plusieurs niveaux et, d'autre part, de l'imbrication de types de discours différents dans le corps du texte.

Mais avant tout, les éditions des pièces de théâtre peuvent, comme toutes les autres publications, comporter des textes liminaires ou annexes qui doivent être marqués comme tels pour les distinguer du texte principal. En effet, il est fréquent de trouver, selon les époques ou selon les auteurs, un avant-propos, une dédicace, une épître dédicatoire, une introduction, une préface ou une postface. Certains textes annexes sont souvent présents dans les éditions des pièces de théâtre. Ce sont par exemple l'argument, qui expose brièvement le sujet et l'action de la pièce, parfois remplacé par un avertissement lorsque l'auteur ne se borne pas à parler du sujet qu'il traite, mais de sa manière de le traiter. Ces textes accessoires ont souvent une importance reconnue par l'histoire littéraire et doivent absolument figurer dans les saisies électroniques des pièces auxquelles ils sont associés. C'est le cas notamment des préfaces de certaines pièces classiques, dans lesquelles les dramaturges se situent par rapport à leurs sources, par rapport à leurs rivaux et donnent des précisions sur la réception de leurs oeuvres par le public (cf. les deux préfaces successives de Britannicus de Racine) ou encore des examens des pièces de Corneille, écrits pendant une période de retraite, dans lesquels le dramaturge livre ses réflexions critiques et doctrinales. Les examens sont généralement donnés, dans les éditions critiques de l'oeuvre de Corneille, non pas à leur place selon la chronologie (1660-1662) mais en association avec chacune des pièces concernées.

Dans le texte des pièces proprement dit, le balisage normalisé est le moyen d'accéder de manière sélective à différents types de données ou à différents niveaux de structure.

Le texte des pièces de théâtre est, par nature, composite. Il comporte, hormis le texte de scène proprement dit, une liste des personnages, des indications de structure et des indications scéniques, c'est-à-dire les didascalies (Ubersfeld, 1996).

Dès qu'elles atteignent une certaine longueur, les pièces de théâtre sont structurées. La forme la plus fréquente est, à l'image des pièces classiques, un découpage en actes et en scènes, mais on rencontre aussi des pièces articulées en tableaux (l'acte II de Rhinocéros d'Eugène Ionesco est découpé en deux tableaux) ou en parties, par exemple dans l'oeuvre de Paul Claudel, elles-mêmes découpées en scènes. Un découpage en journées comme dans le Soulier de satin est exceptionnel.

Ces structures plus ou moins régulières sont parfois précédées d'un prologue (La Toison d'Or de Corneille, Amphitryon et le Malade imaginaire de Molière, Esther de Racine) ou suivies d'un épilogue (le Soulier de Satin de P. Claudel), ceux-ci appartenant de plein droit au texte scénique. Les prologues du théâtre classique constituent généralement une pièce avant la pièce avec des rôles distincts de ceux de l'action principale.

Entre les actes, il arrive que se glissent des intermèdes, des ballets (par exemple les intermèdes et les ballets du Bourgeois gentilhomme et les entrées de ballets du Malade imaginaire de Molière).

Le niveau ultime de la structuration du texte de scène est la réplique, qui est nécessairement associée à un personnage de la pièce.

Les dialogues peuvent prendre différentes formes : on peut identifier les tirades (suites de paroles plus longues) en les opposant aux stichomythies (courtes répliques de même longueur). Les monologues ne sont pas toujours faciles à définir. D'une manière abusive, ils désignent les scènes dans lesquels le personnage parle seul. Mais le personnage (Oreste, dans la dernière scène d'Andromaque) ne l'est pas toujours. De plus, peut-on parler de monologue lorsqu'un personnage s'adresse à un autre qui reste muet&nosp;? Cas particuliers des monologues, les apartés dont le commencement est noté par une didascalie et, dans le théâtre ancien, les stances, qui sont distribuées en strophes, comme un poème lyrique.

Le balisage peut donc restituer chacun de ces niveaux, ainsi encore que les parties chantées, notamment dans les choeurs de certaines tragédies, telles les tragédies bibliques de Racine ou dans les intermèdes de certaines comédies, comme le Bourgeois gentilhomme déjà mentionné. Lorsque les pièces sont en vers -- et c'est fréquemment le cas dans le théâtre français jusqu'au 19e siècle -- un balisage normalisé des fins de vers ou des associations de mots (ou de phonèmes) à la rime ouvre la possibilité de mener des études de poétique à l'aide de l'édition électronique des textes saisis.


4.2 Le corpus de travail

Un corpus de 400 pièces, rassemblé par un groupe de travail à l'INaLF sous le nom de "théâtre français", avait fait l'objet d'un premier codage selon des règles internes [9] dans le but de développer des outils d'interrogation. Ainsi les divisions en actes et scènes, la structure en vers étaient indiquées, tout comme l'alternance entre les prises de paroles, l'identité des locuteurs, les didascalies, les vers coupés entre plusieurs locuteurs et les avatars du texte.

Cependant, la perspective d'échanger et de développer ces données, impossible avec un format interne, induisait le recours à un standard. Un travail de rétroconversion vers le format TEI a donc été entrepris, largement facilité par la similitude entre les deux approches. Seules quelques balises qui avaient pour but de donner une description physique du texte n'ont pas été conservées. À titre d'exemple la balise <center>, considérée comme purement éditoriale, a été supprimée.

Lorsque l'on définit un langage de balisage comme un langage capable de décrire la structure et le contenu d'un document, cela ne signifie pas -- est-il besoin de le rappeler ? -- qu'il établisse une quelconque séparation entre forme et fond, entre signifié et signifiant. Lorsque Claudel utilise des polices de caractères différentes pour décrire l'affiche de recrutement des caravelles dans Le Livre de Christophe Colomb, ce n'est pas anodin et il faut le mentionner (coll. de la Pléiade, Théâtre, t.2, p.1159). Le balisage d'un vers ne saurait ignorer la place de la césure et passer sous silence un rejet ou un enjambement. La place de chaque mot n'y est pas interchangeable. Au baliseur d'isoler les formes signifiantes et d'y appliquer le balisage convenable : la TEI possède un arsenal de balises capable de faire face.

Le travail de balisage se rapproche donc plus de la lecture que d'un travail éditorial mécanique. Baliser un texte, c'est d'abord bien en connaître la structure et bien le comprendre, pour en faciliter les lectures ultérieures.


4.3 Cromwell à l'épreuve de la TEI

                  




top 5 - Conclusion et perspectives


5.1 Quelle stratégie pour faire évoluer les grands fonds&nosp;?

Nous avons essayé, par l'intermédiaire de ce document, de faire partager notre expérience acquise dans le cadre de nombreux projets nationaux et internationaux. Tous avaient comme point commun l'accès et la distribution de ressources linguistiques structurées en élaborant, à partir de grands fonds de ressources assemblés dans le passé. A terme, cette tâche s'est révélée, certes nécessaire, mais souvent lourde et laborieuse à mener à bien.

Il est donc important, lors du montage de ce type de projet, de clairement définir les objectifs à atteindre afin d'opter pour une stratégie adéquate permettant, dans le laps de temps imparti et avec les forces en présence, de faire évoluer la plus grande partie des fonds existants vers des ensembles de ressources normalisées de référence. Cette stratégie doit tenir compte des besoins et des objectifs finaux, de la granularité du codage, de la pérennité des données à construire et ne doit en aucun cas tenir compte du type d'application qui exploitera les données. En effet, il est primordial de séparer les ressources à utiliser de l'application même si, parfois, la frontière entre les données et les fonctionnalités est très étroite. L'avantage de cette démarche est d'obtenir des ressources textuelles indépendantes de toute application. On évite ainsi la duplication des données et on ouvre la porte à de futurs applications et besoins. Dans le même état d'esprit, cela revient à considérer une ressource primaire comme une entité vivante, qui va s'enrichir et s'améliorer avec le temps, par l'intermédiaire d'un système d'annotations externes.


5.2 Illustrations directes

Afin d'illustrer ces propos, voici une brève description de projets retenus dans le cadre du programme Européen MLIS [14].
                  




top 6 - Bibliographie

retour
ABITEBOUL, S. (1997). "Querying semi-structured data". Actes ICDT'97.

retour
ABITEBOUL S., QUASS D., McHUGH J., WIDOM J & WEINER J. L. (1997). "The lorel query language for semi-structured data". Journal of Digital Libraries, 1(1).

retour
BLAMPAIN D., DESCOTTE S., HUSSON J.-L., ROHDE H., ROMARY L., Van CAMPENHOUDT M. et VISCOGLIOSI N. (1999). "Le projet européen DHYDRO : la normalisation à l'épreuve d'un forum terminologique". Conférence sur la Coopération dans le Domaine de la Terminologie en Europe de l'AET, Paris, 17-19 mai 1999.

retour
BONHOMME P., BOURION E., CRUZ-LARA S., JADELOT C., RASTIER F., ROMARY L., de SAINT-RAT C. et VISCOGLIOSI N. (1998). Rapport d'étape Silfide 1998.

retour
BRUNESEAUX F. (1998). "Noms propres, syntagmes nominaux, expressions référentielles : repérage et codage". Langues, 1, 1, pp. 46-60.

retour
BUNEMAN P., DAVIDSON S., HILLEBRAND G., et SUCIU D. (1996). "A query language and optimization techniques for unstructured data". Actes d'ACM-SIGMOD International Conference on Management of Data, pp. 505-516, Montreal, Canada.

retour
MARTIF, ISO/FDIS 12200 1998, Applications informatiques en terminologie - Format de transfert de données terminologiques exploitables par la machine (MARTIF) - Transfert négocié, Genève, ISO.

retour
JAKOBSON (1970). Essais de linguistique générale. Paris : Ed. du Seuil.

retour
ROMARY L., BONHOMME P., BRUNESEAUX F. et PIERREL J.-M. (1999). "Silfide : a system for open access and distributed delivery of TEI encoded documents". Computers and Humanities, 33, pp.31-38.

retour
SGML, ISO 8879 1986, Information processing -- Text and office systems -- Standard Generalized Markup Language (SGML).

retour
TEI-P3, Association for Computers and the Humanities (ACH), Association for Computational Linguistics (ACL) and Association for Literary and Linguistic Computing (ALLC) 1994, Guidelines for Electronic Text Encoding and Interchange (TEI-P3), 2 vol., .Ed.C.M. Sperberg-McQueen and Lou Burnard, Chicago, Oxford : Text Encoding Initiative.

retour
UBERSFELD A. (1996). Lire le théâtre I. Paris : Belin, 1996, p. 17-18.

retour
XML, Extensible Markup Language (XML) 1.0, W3C Recommendation 10-February-1998, Bray T., Paoli J., Sperberg-McQueen C.M.




top Notes

1
Silfide (Serveur Interactif pour la Langue Française, son Identité, sa Diffusion et son Etude) est un projet du CNRS et de l'AUPELF-UREF. Son objectif principal est de permettre l'accès d'une manière conviviale et raisonnée à des ressources textuelles (quelle que soit leur origine, écrite ou orale) à l'ensemble de la communauté universitaire travaillant à partir de la langue (linguistes, enseignants, informaticiens,...) à travers un réseau de serveurs informatiques et d'actions en alimentant les fonctions. http://www.loria.fr/projets/Silfide.

2
SGML ( Standard Generalized Markup Langage), le grand-père de tous les langages balisés, a été créé en 1960 sous l'impulsion d'IBM pour répondre aux problèmes liés au portage des documents d'une plate-forme logicielle ou matérielle vers une autre. En 1986 ce langage devint un standard officiel (ISO 8879:1986).

3
XML : eXtended Markup Language. [internet]. Consulté en novembre 1999 : <http://www.w3.org/TR/>

4
DTD : Document Type Definition

5
[internet]. Consulté en novembre 1999 : <http://etext.virginia.edu/TEI.html>

6
XSL : eXtensible Stylesheet Language

7
Projet TELRI : alignement d'un corpus multilingue (18 langues) de "La République" de Platon.

8
[internet]. Consulté en novembre 1999 : <http://www.loria.fr/projets/Silfide/informations/Docs/Divers/header.html>

9
Ces règles initiales ont été établies dans le cadre d'un groupe de travail à l'INaLF avec la collaboration de M. Chauvet (théâtre de la période préclassique), J. Dendien et J.-Y. Hamon (informatique) et Fr. Surdel (bibliographie).

10
[internet]. Consulté en novembre 1999 : <http://etext.lib.virginia.edu/tei-tocs3.html>

11
On peut rappeler ici quelques règles propres à l'encodage d'un texte. Le texte est encodé en suivant sa linéarité et en se soumettant à des règles strictes de transcription philologique. Comme exemple, on peut citer le point (le signe de ponctuation est distingué du point abréviatif) ou le trait d'union (le tiret de dialogue est distingué des coupures de mots en fin de ligne).

12
L'élément <stage> est propre à définir tous les types de jeux de scène, qu'ils s'appliquent aux personnages ou à leurs prises de paroles. Des éléments de synchronisation peuvent être ajoutés grâce à l'élément <timeline>qui met en correspondance des paroles prononcées avec des points situés sur une ligne de temps.
V. TEI Guidelines Part 4: Additional Tag Sets 14.5: Synchronization. [internet]. Consulté en novembre 1999 : <http://etext.lib.virginia.edu/tei-tocs3.html>
V. aussi Synchronized Multimedia Integration Language (SMIL) 1.0 Spécification.[internet]. Consulté en novembre 1999 : <http://www.w3.org/AudioVideo/Activity-new.html>

13
[internet]. Consulté en novembre 1999 : <http://zeus.inalf.cnrs.fr/sbt/html/default.htm>

14
MLIS : MultiLingual Information Society

15
[internet]. Consulté en novembre 1999 : < http://www.loria.fr/projets/MLIS/DHYDRO>

16
MARTIF : Machine-Readable Terminology Interchange Format


© "Solaris", nº 6, Décembre 1999 / Janvier 2000.