Multilinguisme et document numérique : la dimension technique à l'épreuve du codage des caractères. Claude de Loupy

Revue SOLARIS
Décembre 1999 / Janvier 2000
ISSN : 1265-4876

Multilinguisme et document numérique : la dimension technique à l'épreuve du codage des caractères

Claude de Loupy

Laboratoire Informatique d'Avignon
B.P. 1228, Agroparc
339 chemin des Meinajariès
84911 Avignon cedex 9
claude.de.loupy@lia.univ-avignon.fr

logo Solaris Résumé
Parmi les milliers de langues qui existent de part le monde, beaucoup risquent de disparaître du fait de leur non-intégration dans les nouveaux réseaux de communication. Avant de pouvoir intégrer les systèmes d'écriture qui supportent ces langues dans le contexte d'Internet, il convient de régler de nombreux problèmes techniques liés à l'origine américaine de ce réseau et à la très large prédominance de l'anglais dans tout le domaine informatique. Bien que de nombreuses normes de codage de caractères aient été créées (avec plus ou moins de succès) depuis ASCII, cette dernière reste omniprésente dans le fonctionnement d'Internet, pénalisant ainsi les textes rédigés dans d'autres langues que l'anglais ce qui implique une mauvaise gestion des autres systèmes de codage et donc le risque qu'un texte rédigé dans une autre langue que l'anglais ne soit pas convenablement transporté d'un point du réseau à un autre. Pourtant, la création de nouvelles normes (UNICODE, MIME, ESMTP, etc.) permet de surpasser ces problèmes. Mais l'utilisation de ces normes par tous les acteurs d'Internet est loin d'être réalisée. Si l'origine des problèmes liés à la diffusion de toutes les langues sur Internet semble purement technique, la continuité de ces difficultés montre que d'autres facteurs (que nous ne développerons pas ici) entrent en jeu.

Abstract
There exist thousands of languages in the world. A lot of them are likely to disappear because they have no access to the new communication means. Because computer science is dominated by English and because Internet was born in the USA, a lot of technical problems must be solved before all the languages have the real possibility to communicate via these new media. Though a lot of new character standards have been created since ASCII, this "American Standard" is considered the only one by a lot of protocols used for the Internet. As a result, the other standards are not correctly transferred. Even so, there are solutions, (UNICODE, MIME, ESMTP, etc.) but it will take a long time before all Internet actors use them. The original problem of the multilingual management on Internet must be technical. But, since solutions have been found, this problem must have more human explanations.

1 - Introduction
2 - L'identité linguistique
- 2.1 - La Déclaration Universelle de Droits Linguistiques
- 2.2 - Les langues minoritaires en danger
- 2.3 - L'anglais face aux autres langues
3 - Le codage informatique des caractères : ASCII et ISO-8859
- 3.1 - Les premiers systèmes de codage des caractères
- 3.2 - Le codage dans les systèmes informatiques
  - 3.2.1 - ASCII
  - 3.2.2 - La famille des ISO-8859
- 3.3 - Exemples de problèmes de codage liés aux normes ISO-8859
4 - UNICODE et SGML
- 4.1 - UNICODE
- 4.2 - Faut-il TOUT coder ?
- 4.3 - Les entités SGML
5 - Internet et l'avenir des langues
- 5.1 - La répartition de la population linguistique sur Internet
- 5.2 - La transmission des caractères sur Internet
  - 5.2.1 - Le courrier électronique
  - 5.2.2 - Les forums
  - 5.2.3 - WWW
- 5.3 - Les solutions existent
6 - Conclusion
7 - Bibliographie

1 - Introduction

La mondialisation actuelle des réseaux d'échange et de communication tend à isoler les groupes qui n'ont pas accès à ces réseaux. Ce constat peut aussi se vérifier dans le cas d'Internet. A priori, le "Réseau des réseaux" devrait permettre à tous les groupes humains d'exprimer leur spécificité culturelle et linguistique dans le monde entier et donc de maintenir une cohésion entre des éléments d'une communauté géographiquement éloignés. Malheureusement, de nombreux problèmes techniques, dus à des raisons historiques, empêchent les langues minoritaires de transiter correctement sur la Toile. En fait, seul l'anglais est totalement compatible avec Internet.

Pourtant, les solutions à ces problèmes existent aujourd'hui. De nombreux systèmes ont été développés depuis les débuts de l'informatique pour coder les langues dans un système binaire. La prise de conscience des difficultés posées par l'incompatibilité de ces systèmes a conduit à la création de normes permettant une gestion respectueuse des caractéristiques propres à chaque langue dans un contexte multilingue.

Dans le cadre de cet article, nous décrivons les problèmes techniques liés à la diffusion des caractères par Internet ainsi que les normes de codage ou de diffusion des caractères. Notre but est de montrer que des solutions permettant de résoudre ou de contourner les problèmes liés à la diffusion de presque toutes les langues humaines existent.

2 - L'identité linguistique

2.1 - La Déclaration Universelle de Droits Linguistiques
2.2 - Les langues minoritaires en danger
2.3 - L'anglais face aux autres langues

2.1 - La Déclaration Universelle de Droits Linguistiques

En juin 1996, plusieurs organisations non gouvernementales provenant de 90 pays différents et de tous les continents se sont réunies à Barcelone afin de discuter le texte de la Déclaration Universelle de Droits Linguistiques (D.U.D.L., 1996). Ce document vise à établir les droits inaliénables de toute communauté linguistique afin de préserver son identité culturelle.

Voici quelques extraits de cette déclaration pour laquelle des démarches sont actuellement en cours afin qu'elle soit reconnue par les Nations Unies :

Article 7-1 : Toutes les langues sont l'expression d'une identité collective et d'une manière distincte de percevoir et de décrire la réalité et de ce fait, elles doivent pouvoir bénéficier des conditions nécessaires pour leur développement dans toutes leurs fonctions.

Article 9 : Toute communauté a le droit de codifier, de standardiser, de préserver, de développer et de promouvoir son système linguistique, sans interférences induites ou forcées.

Article 10-3 : En application du principe d'égalité il faut disposer les moyens indispensables pour que cette égalité soit effective.

Article 38 : Toutes les langues et les cultures des communautés scientifiques doivent recevoir un traitement équitable et non discriminatoire dans les contenus des moyens de communication mondiaux.

Article 40 : Toute communauté linguistique a le droit de disposer, dans le domaine de l'informatique, d'équipements adaptés à son système linguistique et d'outils de production dans sa langue, afin de profiter pleinement du potentiel qu'offrent ces technologies pour l'auto-expression, l'éducation, la communication, l'édition, la traduction, et en général le traitement de l'information et de la diffusion culturelle.

2.2 - Les langues minoritaires en danger

La Communauté Européenne comprend, à elle seule, 15 États dans lesquels on parle environ 40 langues. En Europe, 160 langues sont parlées dont 70 % sont écrites. La base de données ethnologue recense plus de 6 700 langues parlées dans le monde (ethnologue, 1999).

Selon l'UNESCO, la moitié de ces langues est en voie de disparition (à très brève échéance). Dans certains cas, il s'agit de la mort plus ou moins naturelle d'une langue que plus personne ne parle. Mais il existe aussi ce que Skutnabb-Kangas [?] appelle des "génocides linguistiques". Car si les langues peuvent disparaître d'une mort naturelle, elles peuvent aussi être volontairement éliminées ! L'Histoire nous donne bien des exemples d'agressions volontaires (idéologiques ou politiques) envers des communautés linguistiques. On peut d'ailleurs en trouver des illustrations dans des événements récents (Kosovo, Algérie, etc.).

Un autre type d'agression provient du mépris affiché par certains envers des langues ou des systèmes d'écriture jugés inférieurs. Jean-Jacques Rousseau 1817), en parlant des systèmes idéographiques, syllabiques et alphabétiques affirmait : "Ces trois manières d'écrire répondent exactement aux trois divers états sous lesquels on peut considérer les hommes rassemblés en nation. La peinture des objets convient aux peuples sauvages ; les signes des mots et des propositions aux peuples barbares et l'alphabet aux peuples policés." Les anciens Égyptiens étaient donc des sauvages et les Chinois sont toujours des barbares. Encore de nos jours, des chercheurs occidentaux ont suivi ses traces, ainsi que le souligne Lecours 1996). Quant aux langues non écrites, on peut supposer que cette classification les attribue aux animaux !

Heureusement, la conception générale évolue. De nombreux travaux ont été entrepris en développement de ressources linguistiques pour d'autres langues que l'anglais et, particulièrement, pour les langues minoritaires. Car, justement, une des menaces qui pèsent sur les langues minoritaires est celle qu'exercent les langues dites dominantes. Parmi toutes les langues du monde, 80 % ne sont parlées que dans un seul pays et la moitié ne sont pratiquées que par moins de 5 000 individus. La raison économique, même s'il n'y avait qu'elle, empêcherait les instances médiatiques de produire une information dans chacune de ces langues. Or, à partir du moment où l'Information n'est donnée que dans d'autres langues, que celle pratiquée par un groupe, celui-ci n'a d'autre choix que de pratiquer une des langues plus répandues ou de se trouver marginalisé.

2.3 - L'anglais face aux autres langues

On considère souvent que l'anglais devient LA langue mondiale et que cette prédominance conduira à l'étouffement des autres langues. En fait, l'hégémonie de l'anglais n'est pas aussi forte qu'on le prétend. De tout temps, des langues se sont imposées comme langues "universelles". Ainsi en a-t-il été du sumérien, de l'akkadien, du grec, du latin et du français (pour le monde occidental ou proche-oriental). Les autres langues n'ont pas disparu pour autant. De plus, les impératifs commerciaux, dont l'importance croit avec la mondialisation, et le bon sens font que, pour vendre à une personne, il est préférable de s'adresser à elle dans sa langue plutôt que d'utiliser l'anglais, même si elle peut le comprendre.

De plus, il convient de rester prudent dans la défense de la langue pour ne pas tomber dans un fanatisme dangereux. Les langues doivent évoluer et l'inclusion de termes nouveaux en provenance de l'anglais dans le langage courant est tout à fait logique. Ce n'est d'ailleurs qu'un juste retour des choses en ce qui concerne le français. En effet, les emprunts de l'anglais aux langues latines sont très nombreux, même dans le domaine technique. Ainsi, Walter 1996) constate que sur 490 termes informatiques anglais présents dans trois ouvrages, 392 sont d'origine latine, dont 211 sont passés à l'anglais via le français. Il en va ainsi du terme computer qui vient du latin computus (compte) qui a donné le terme comput en français qui désigne les calculs effectués pour la détermination des dates des fêtes ecclésiastiques et, particulièrement pour la fête pascale.

D'ailleurs, il est arrivé relativement souvent, dans un passé suffisamment proche pour que nous en ayons trace, que de nouvelles langues émergent du mélange de deux ou trois cultures linguistiques. Ce phénomène crée des dialectes appelés pidgins (phénomène courant dans les îles du sud du Pacifique). Quand ceux-ci se stabilisent avec le temps, on les appelle alors créoles (comme le cajun en Louisiane). Or, les locuteurs de ces langues forment des communautés linguistiques à part entière et il convient de les protéger au même titre que des langues plus anciennes.

Il ne s'agit donc pas de faire de la résistance CONTRE une invasion anglophone, mais simplement de préserver une identité culturelle qui passe par une identité linguistique dans le maintien d'une cohérence du système propre à chaque langue. Pour cela, il est nécessaire qu'un groupe parlant un même langage puisse s'exprimer par les media disponibles aujourd'hui. Il est clair que les media écrits, radiophoniques ou télévisés ne peuvent pas faire l'effort (si toutefois ils le souhaitent) de produire de l'information dans chaque langue. En revanche, l'apparition d'Internet permet à toute entité, donc même à un individu, pour un coût considérablement inférieur, de diffuser sa culture et donc, théoriquement, sa spécificité linguistique.

Or, pour pouvoir être diffusée sur Internet, une langue doit pouvoir utiliser le système de transcription par écrit qui lui est propre. C'est-à-dire qu'un système de codage numérique des caractères qu'elle utilise doit exister et doit pouvoir être transmis au travers du réseau existant et être interprété par les outils qui serviront à visualiser les documents produits. Hélas, force est de constater que de nombreux obstacles subsistent à la diffusion de tous les systèmes d'écriture sur Internet. Ces obstacles font l'objet d'une description dans les paragraphes suivants. Voyons tout d'abord ceux liés au codage des caractères et les solutions qui existent.

3 - Le codage informatique des caractères : ASCII et ISO-8859

3.1 - Les premiers systèmes de codage des caractères
3.2 - Le codage dans les systèmes informatiques
- 3.2.1 - ASCII
- 3.2.2 - La famille des ISO-8859
3.3 - Exemples de problèmes de codage liés aux normes ISO-8859

Nous n'évoquerons, dans le cadre de ce dossier, que les difficultés liées au codage des caractères [1] ainsi qu'à leur transfert, en laissant de côté d'autres problèmes qui se posent à ceux qui veulent développer des applications multilingues [2].

Une description plus détaillée des normes ASCII, ISO-8859, ISO-10646 et UNICODE peut être trouvée dans André & Goossens 1995).

3.1 - Les premiers systèmes de codage des caractères

Le principe du codage des caractères existe quasiment depuis la création de l'écriture. En effet, les chefs politiques ou militaires ont rapidement compris qu'il fût nécessaire de coder leurs informations de manière à ce qu'elles ne soient pas accessibles à leurs ennemis. On a ainsi retrouvé les noms chiffrés d'un père et de son fils sur une tablette d'Uruk en caractères cunéiforme : 21.35.35.24.44 fils de 21.11.20.42 (BNF, 1998) ! Jules César codait son courrier en utilisant les nombres correspondant aux lettres dans l'alphabet mais en les décalant d'un nombre constant de lettres. Ainsi, César pouvait se transposer 4.5.20.2.19. On peut aussi citer le nom du célèbre HAL, de l'oeuvre d'Arthur C. Clarke, 2001 l'Odyssée de l'espace, qui n'est qu'un décalage de une lettre du nom d'une célèbre société informatique !

En 1794, Claude Chappe a mis au point son télégraphe optique qui permettait de transmettre une information textuelle codée de manière visuelle à l'aide de bras mécaniques. Cette ligne de transmission reliait Lille à Paris. Il ne s'agit pas, en fait, d'une invention totalement nouvelle puisque les Grecs et les Romains avaient déjà expérimenté un tel système. Ces derniers, en particulier, possédaient, au deuxième siècle de notre ère, un réseau de communication optique depuis l'Espagne jusqu'en Asie.

Le premier système international de codage des caractères fut développé par Samuel Morse et essayé, pour la première fois, en 1870. Tout comme celui du Télex, il est basé sur un système binaire : pour le Morse, on a des signaux longs et courts et pour le Télex, un signal qui passe ou ne passe pas. D'autres systèmes sont restés sur un mode de transmission optique comme le langage des sourds ou la communication par sémaphores de la marine.

3.2 - Le codage dans les systèmes informatiques

3.2.1 - ASCII

Le développement de l'informatique aux U.S.A. dans les années soixante donna lieu à la création d'une norme de codage qui allait marquer le domaine jusqu'à nos jours et sans doute encore pour longtemps. Il s'agit, bien sûr, de la norme ASCII (American Standard Code for Information Interchange). Elle est basée sur 7 bits [3] et permet donc de différencier 128 éléments différents. En l'occurrence, il s'agit des 26 lettres de l'alphabet latin sans accent en minuscule et majuscule, des chiffres, de caractères de contrôle non imprimables (retour chariot, retour à la ligne, etc.), de ponctuations et de signes divers ($, /, etc.). Par exemple, à la lettre A est associée la valeur 65 alors que la lettre B sera codée 66.

Cette norme a évolué et a donné naissance à plusieurs versions dont des versions plus adaptées à d'autres langues que l'anglais, mais même à l'intérieur d'une même communauté linguistique existaient des différences. L'Organisation Internationale de Normalisation (ISO) a donc décidé de fixer une bonne fois cette norme sous l'appellation ISO-646 en 1988.

La limitation aux seuls caractères non accentués est très gênante pour le codage d'autres langues que l'anglais car la plupart des systèmes linguistiques, soit utilisent plus de caractères, soit utilisent des diacritiques. En fait, à part l'anglais, le swahili et l'indonésien, aucune langue ne se satisfait de cette norme. Il ne s'agit pas de conserver des signes pour le seul plaisir d'être conforme à la tradition. Les diacritiques sont essentiels à la prononciation et à la compréhension de textes écrits dans une langue donnée. Leur suppression en français conduit à ne plus pouvoir distinguer élève de élevé sans s'aider du contexte. De plus, comment doit-on prononcer le nom d'Ambroise Paré si l'accent aigu disparaît ? Des systèmes de codage sur 8 bits ont donc été créés afin de doubler le nombre de caractères disponibles.
```
                  
```

3.2.2 - La famille des ISO-8859

Dix jeux de caractères [4] sur 8 bits sont aujourd'hui standardisés dans la famille ISO-8859. Il s'agit d'extensions de la norme ASCII puisque les 128 premiers caractères restent identiques à ceux de cette norme. Les 128 suivants sont utilisés afin de coder les caractères propres à une ou plusieurs langues.

Numéro

Alphabet

Date de normalisation

Langues cibles

8859-1

latin 1

1987

albanais, allemand, anglais, catalan, danois, féroïen, finnois, français, galicien, islandais, italien, néerlandais, norvégien, portugais et suédois

8859-2

latin 2

1987

allemand, anglais, croate, hongrois, polonais, roumain, slovaque, slovène et tchèque

8859-3

latin 3

1988

anglais, espéranto, galicien et turc

8859-4

latin 4

1988

allemand, anglais, danois, estonien, finnois, letton, lituanien, norvégien, suédois et sami

8859-5

latin/cyrillique

1988

anglais, bulgare, biélorusse, macédonien, russe, serbe et ukrainien

8859-6

latin/arabe

1987

latin et arabe

8859-7

latin/grec

1987

latin et grec

8859-8

latin/hébreu

1988

latin et hébreu

8859-9

latin 5

1989

variante du latin 1 pour le turc

8859-10

latin 6

1992

allemand, anglais, danois, estonien, féroïen, groenlandais, islandais, lapon, letton, lituanien, norvégien, sami et suédois

3.3 - Exemples de problèmes de codage liés aux normes ISO-8859

La plupart des standards 8 bits développés pour coder les caractères utilisés dans les différentes langues sont imparfaits. Ainsi, la norme ISO-8859-1, qui doit permettre d'écrire en français, n'inclue pas les ligatures "oe" et "OE". Or, celles-ci ne sont pas facultatives et sont véritablement des caractères de la langue française (Imprimerie Nationale, 1990). On pourrait penser qu'il suffirait de configurer les logiciels pour qu'ils remplacent toute succession de ces lettres par la ligature correspondante, mais un mot comme coexister oblige à séparer les deux lettres. Pour pouvoir écrire cœur correctement, il faut donc qu'un code spécifique existe pour la ligature. Ce problème a été corrigé avec ISO-8859-15 qui n'est pas encore officiellement adopté en tant que standard.

Pour certaines langues, le problème vient du fait que les polices de caractères sont très difficilement accessibles. Ainsi, les Estoniens, qui devraient écrire en ISO-latin-4 écrivent souvent soit avec l'ISO-latin-1 dans lequel il leur manque deux caractères soit avec l'ISO-latin-2 dans lequel il manque un caractère.

Enfin, il est très difficile de gérer un texte comportant plusieurs systèmes d'écriture. Les traitements de texte multilingues doivent jongler à la fois avec les différentes normes de codage et les polices associées. Bien sûr, si les textes sont produits et lus avec le même logiciel, il est toujours possible de créer son propre système de codage, mais dans le cas où les textes sont importés, il est indispensable de pouvoir gérer plusieurs normes de codage en même temps.

La difficulté à gérer des applications multilingues, dans un contexte ou existent un grand nombre de normes différentes d'un pays à l'autre et parfois au sein d'un même pays, a conduit à l'idée d'un jeu de caractères dit universel, dans lequel la plupart des caractères permettant de transcrire les langues existantes serait codée : ISO-10646.

4.1 - UNICODE

Le standard ISO-10646, basé sur 32 bits, doit permettre, en théorie, de coder plus de deux milliards de caractères ; cela semble amplement suffisant pour tous les besoins auxquels ont pourrait penser ! Cet ensemble a été divisé selon un cube de 256 groupes de 256 plans de 256 colonnes. Les cellules ainsi définies contiennent, chacune, 256 caractères. Chaque plan est donc un ensemble codé sur 16 bits. Pour l'instant, seul le premier plan (plan 0), appelé Basic Multilingual Plane (BMP) est disponible. Il correspond, caractère pour caractère, au codage UNICODE. Le plan 1 devrait coder les caractères d'écritures anciennes et des symboles musicaux.

Le consortium UNICODE [5] a été créé en 1989 et il regroupe les plus importants acteurs industriels de l'informatique. Le système UNICODE est basé sur un codage 16 bits et peut donc contenir 65 536 caractères différents. 38 885 sont déjà codés et permettent de transcrire la plupart des langues écrites utilisées actuellement (UNICODE). Il a été intégré à la norme ISO-10646 en 1991 sous le nom ISO-10646-UCS-2 (UCS signifiant Universal Character Set).

Les 128 premiers codes de la table UNICODE correspondent au codage ASCII. Vient ensuite ISO-8859-1. Toutes les normes ISO-8859 sont incluses dans ce système. Pour les caractères idéographiques chinois, japonais et coréens, les normes existantes, qui définissaient plus de 120 000 idéogrammes différents ont été regroupées et simplifiées selon un schéma appelé "Unification Han" pour être ramenées à 20 992 signes.

Pour chaque entrée d'UNICODE, plusieurs informations sont disponibles comme le nom du caractère, le type de caractère (chiffre, lettre, ponctuation, les correspondances majuscules/minuscules, etc.), etc. En tout, il y a environ 50 informations par code, ce qui fait un système très lourd à gérer. La création de jeux réduits permet de limiter la taille des informations à la stricte utilité dans un cadre précis, tout en conservant la compatibilité avec l'ensemble. Ainsi, un jeu d'un peu plus de 4 000 caractères permettrait de coder toutes les langues européennes.

4.2 - Faut-il TOUT coder ?

La possibilité de coder plus de deux milliards de caractères laisse songeur... est-il vraiment utile de disposer de tous ces caractères ? A supposer qu'il y ait suffisamment de ressources humaines pour récolter tous les caractères existants, à quoi cela servirait-il ?

Prenons le cas des abréviations. Du IXe au XVe siècle, les scribes d'Europe utilisaient un très grand nombre d'abréviations ; Cappelli en recense 14 000, sans même prétendre à l'exhaustivité (cité dans Ponot, 1995). Cela représente déjà le tiers du nombre de caractères codés dans UNICODE ! Chacune de ces abréviations étant un signe à part entière, est-il judicieux de les coder dans un formalisme de type ISO-10646 ? Le travail serait colossal et ne trouverait son utilité que dans de très rares cas.

De plus, il est nécessaire de prévoir la possibilité d'entrer de nouveaux caractères rapidement. On a pu voir les difficultés liées à l'arrivée du sigle euro sur la scène européenne et mondiale. Les claviers ont été modifiés, des mises à jour des logiciels ont dû être faites, etc. Le système ISO-8859-15 réserve un code pour ce signe en plus de certains ajouts à l'ISO-8859-1 concernant des caractères accentués du français ou du finnois.

4.3 - Les entités SGML

Une solution consiste à utiliser les normes évolutives, en particulier celles issues de SGML [6] (Standard Generalized Markup Language) comme la TEI (Ide & Véronis, 1995). "SGML est un métalangage qui permet de créer un langage approprié à la description de classes de documents" (Cacaly et al., 1997, p. 529). La description des classes de documents est donnée dans les DTD (Définitions de Types de Documents). Une introduction détaillée de la norme SGML pourra être trouvée dans (Sperberg-McQueen & Burnard, 1994).

Ces normes, en plus de fournir un balisage du texte, permettent de définir, pour chaque document, une suite de caractères définissant une entité à laquelle peut être associée un ou plusieurs glyphes. Ainsi, pour un texte codé en ASCII, le caractère é sera codé é. Il pourrait être représenté par une autre suite, à condition que cela soit défini dans la DTD. Un exemple de ce type de codage se trouve dans les pages HTML de la Toile où, par exemple, le caractère < est codé &lg;.

Il est alors tout à fait possible de créer des codes d'échange particuliers entre des spécialistes d'un domaine. Par exemple, le codage des hiéroglyphes peut se faire à l'aide de ces entités. Une personne ne disposant pas du logiciel ou des polices associées à ces entités verra des suites du type &tyw;. D'ailleurs, si le nom de l'entité est correctement choisi, il est possible de déterminer à quel élément elle fait référence. Dans le cas présent, l'indication de la prononciation tyw permet de déterminer que l'idéogramme associé représente un oiseau.

La connaissance, par le rédacteur et le lecteur, de ces entités dans un système qui leur est propre mais qui est décrit dans la DTD, et l'utilisation d'interfaces dédiées permet d'associer une représentation graphique appropriée dans une police spécifique. Bien sûr, on pourrait se dire que l'utilisation des entités SGML permet de coder tout type de document et qu'il n'est donc pas nécessaire de développer une norme de codage des caractères du cyrillique. Mais, numériser un texte russe à l'aide d'entités est très lourd, chaque caractère de l'écriture cyrillique étant représenté à l'aide de plusieurs caractères ASCII. Il convient donc de coder de manière stricte les caractères les plus couramment utilisés (les hiéroglyphes feront d'ailleurs probablement l'objet d'un codage dans la norme ISO-10646), tout en laissant la liberté d'introduire des caractères spécifiques en utilisant des entités de type SGML. Il est d'ailleurs possible d'utiliser le système UNICODE pour coder un texte SGML et donc de profiter des avantages des deux systèmes.

5 - Internet et l'avenir des langues

5.1 - La répartition de la population linguistique sur Internet
5.2 - La transmission des caractères sur Internet
- 5.2.1 - Le courrier électronique
- 5.2.2 - Les forums
- 5.2.3 - WWW
5.3 - Les solutions existent

Internet est né aux États-Unis à la fin des années 60 et s'appelait alors ARPANET [7]. Il s'agissait d'un réseau militaire auquel se sont adjoints des universités par la suite. La véritable explosion d'Internet ne s'est produite qu'au début des années 90. Les infrastructures et les normes utilisées sur la Toile portent encore largement la marque de son origine américaine. Cela implique de graves problèmes dans l'échange de textes entre les communautés non anglophones.

5.1 - La répartition de la population linguistique sur Internet

Le schéma suivant indique la répartition, en pourcentage, de la population linguistique sur Internet et dans le monde (G.I.S., 1999) ainsi que la répartition linguistique des sites (Babel, 1997) [8].

Répartition linguistique de la population mondiale, Internet et des documents présent sur la Toile

Langue

Population
mondiale

Population
Internet

Pourcentage
de sites

allemand

1,6

7,5

4

anglais

5,4

56,3

82,3

espagnol

5,6

7,7

1,1

français

1,2

3,9

1,5

japonais

2,1

7,8

1,6

autres

84,1

16,8

9,5

On voit très nettement que les proportions entre les communautés linguistiques ne sont absolument pas respectées quand on passe du monde réel à Internet. La prédominance des anglophones (56 %) sur la Toile est très nette. De plus, si l'on considère la représentation linguistique, non pas en population, mais en quantité de documents disponibles, les chiffres sont encore plus impressionnants (82 %).

Les différentes communautés linguistiques réagissent à cet état de fait plus ou moins fortement selon le poids qu'elles peuvent avoir dans les rapports internationaux et leur volonté politique. Néanmoins, l'importance d'une présence sur Internet semble reconnue par toutes les communautés actives. Malheureusement, la volonté seule ne suffit pas à permettre la création d'un univers linguistique virtuel. De nombreux problèmes existent qui font que la présence d'autres langues que l'anglais sur Internet ne se fait pas sans difficultés.

5.2 - La transmission des caractères sur Internet

Plusieurs protocoles sont utilisés sur Internet pour la communication des machines, l'aiguillage et le transfert de l'information. Les deux principaux sont I.P. (Internet Protocol) qui associe un numéro unique à une machine du réseau et T.C.P. (Transfer Control Protocol) qui gère la connexion entre deux machines. Tous ces protocoles sont parfaitement adaptés à la diffusion d'une information codée sur 8 bits [9] et tolèrent donc parfaitement la circulation d'autres langues que l'anglais.

Mais les problèmes surviennent dès qu'apparaît la notion de texte. Voyons quelques exemples de ces difficultés dans les trois services les plus utilisés sur Internet.

5.2.1 - Le courrier électronique

Le courrier électronique utilise le protocole SMTP (Simple Mail Transfert Protocole) pour le codage du document. Ce protocole utilise la norme RFC-822 qui est basée sur le codage ASCII, c'est-à-dire 7 bits, c'est-à-dire incapacité à gérer d'autres langues que l'anglais. Le huitième bit est, le plus souvent, corrompu car il est utilisé par les services de transfert et le codage d'un texte passant par un gestionnaire SMTP a de fortes chances d'être modifié. La norme ESMTP (Extended SMTP) permet ce transfert en tenant compte du huitième bit. Depuis janvier 1999, les messageries doivent gérer les caractères codés sur 8 bits pour être aux normes. Malheureusement, il subsiste encore un nombre non négligeable de serveurs de courriers électroniques qui n'intègrent pas cette norme (surtout dans les pays anglophones) et un utilisateur ne peut pas être sûr que son message n'arrivera pas corrompu à son destinataire. En effet, la configuration du réseau Internet est telle qu'un message a toutes les chances de passer par les États-Unis avant de parvenir à son but [10], d'où une corruption potentielle du huitième bit.

Une norme de codage permettant de ramener un texte codé sur 8 bits à 7 a été mise au point afin de contourner ce défaut des systèmes de gestion de courrier. Il s'agit de la norme M.I.M.E. (Multi-purpose Internet Mail Extension) (Brand, 1995, révisé 1997). Ce système remplace des caractères accentués par une série de caractères ASCII. Par exemple, le mot réseau sera transformé en r=E9seau. Le serveur recevant le message devra, lui, effectuer la transformation inverse. De plus, cette norme permet d'envoyer des éléments non textuels (image, son, vidéo, etc.) sans perte d'information. Bien sûr, il est nécessaire que le destinataire utilise un gestionnaire de courrier électronique compatible MIME, mais de tels logiciels sont disponibles gratuitement.

La possibilité de transmettre aussi le codage utilisé dans le texte permet au destinataire, s'il dispose d'une police conforme à cette norme d'afficher correctement le message. Ainsi, à condition qu'expéditeurs et destinataires de messages électroniques possèdent des logiciels comprenant MIME, tous les problèmes de codage des textes accentués ou ayant un grand nombre de caractères ou idéogrammes seraient réglés.

De nombreux utilisateurs d'Internet disposent encore de versions obsolète de gestion de courrier qui ne gèrent pas le codage MIME. S'il ne doit pas être difficile de convaincre un utilisateur non anglophone de se servir de logiciels compatibles avec MIME, il est en revanche moins évident de faire comprendre à un anglophone qu'il serait préférable d'en passer par là si l'on communique avec lui en anglais et donc en n'utilisant que des caractères ASCII. En fait, il suffit de penser que les noms propres comportent souvent des caractères accentués. Quantité de noms sont écorchés sur les listes anglophones car les personnes qui postent sur ces listes savent qu'un caractère non ASCII serait corrompu chez bon nombre d'utilisateurs. Or, l'absence de diacritique peut considérablement modifier la prononciation.
```
                  
```
5.2.2 - Les forums

Les forums permettent la transmission d'une information sur 8 bits sans réel problème. Cela est dû à des raisons historiques plus qu'à une bonne gestion des systèmes. En effet, la plupart des serveurs de forums ne se préoccupent pas du huitième bit. Celui-ci est donc ignoré et transmis sans être modifié. Les interfaces peuvent donc afficher des caractères accentués sans problème.
```
                  
```
5.2.3 - WWW

Si Internet est né aux États-Unis, le World Wide Web (la Toile qui s'étend au monde entier) ou WWW [11] a été créé en Suisse par des chercheurs du C.E.R.N.. C'est sans doute une des raisons pour lesquelles la norme utilisée par défaut pour le codage des caractères a d'abord été ISO-8859-1 et non ASCII. Le codage des texte du WWW se fait à l'aide du langage H.T.M.L. (Hyper Text Markup Language) qui est un dérivé de SGML et dont la première version a été publiée en 1991. Contrairement à une idée très répandue, il n'est pas nécessaire de coder tous les caractères accentués à l'aide d'entités HTML. Il est tout à fait possible de coder le texte en question avec n'importe quelle norme, à condition que le navigateur utilisé puisse la comprendre. Par défaut, la dernière version de HTML [12] (HTML 4.0) utilise UNICODE. L'utilisation d'une balise donnant le type de codage est disponible dans HTML. Ainsi, un texte codé en ISO-latin/cyrillique devrait contenir la balise :
<META HTTP-EQUIV="Content-Type" CONTENT="text/html;chraset=ISO-8859-5">

L'utilisation généralisée de cette balise permettrait de visualiser correctement une page utilisant tout type de système de codage à condition que celui-ci soit disponible sur le navigateur. UNICODE est déjà intégré dans les navigateurs de Netscape et de Microsoft, ainsi que plusieurs autres normes propres à certaines régions du monde.

Avant de pouvoir visualiser une page de la Toile, il faut pouvoir y accéder. À chaque machine est associé un numéro I.P.. Mais un tel numéro n'est pas très parlant et surtout difficile à mémoriser. Il est tout de même préférable de penser que l'on va se connecter au site www.élysée.fr plutôt que parler de la machine 193.252.69.53. Le Serveur de Nom de Domaine (DNS) permet d'effectuer la traduction de l'adresse littérale (URL) telle que vous la connaissez en l'adresse numérique telle qu'une machine la comprend. Malheureusement, les serveurs DNS sont basés sur la norme ASCII... encore elle ! Il est donc impossible d'utiliser des accents pour une adresse Internet. Ainsi, l'adresse précédente est-elle fausse. En fait, il s'agit de www.elysee.fr ! Pour la plus haute instance de l'État français, cela semble quelque peu insatisfaisant... De plus, les personnes de culture non latine sont obligées de transcrire leur nom dans un système d'écriture qui n'est pas le leur. Cela peut poser des problèmes de différenciation entre les personnes si deux graphies différentes dans la langue d'origine ont la même transcription avec les caractères ASCII. Ces problèmes peuvent paraître mineurs, mais ils constituent néanmoins une atteinte à la liberté de chacun de pleinement s'exprimer dans sa langue.

Bien sûr, l'utilisation des annuaires ou des moteurs de recherche permet de retrouver un site en visualisant son nom dans une langue quelconque alors que l'adresse elle-même est codée en ASCII. Mais puisque ce passage par un nom codé en toutes lettres est destiné à augmenter la convivialité d'Internet en évitant le passage par des chiffres, il serait judicieux de laisser la possibilité à des utilisateurs japonais (par exemple) de retenir le nom d'un site sans avoir à faire une traduction dans un codage qui n'est pas le leur. La gestion d'un codage UNICODE par les serveurs DNS permettrait à chacun d'accéder à un site en le nommant dans sa propre langue. Et il serait très possible d'utiliser une autre adresse dans un autre codage (latin par exemple) pour qu'un visiteur étranger puisse venir sur un site japonais.

Un dernier point fondamental, étant donnée la quantité d'information disponible sur la Toile, est qu'il est indispensable de pouvoir retrouver un document en passant par des moteurs de recherche. Or, ces derniers sont en majorité créés par des anglophones. Beaucoup d'entre eux ne gèrent pas correctement les accents, par exemple en ne faisant pas le lien entre un caractère accentué et son entité HTML équivalente ou en supprimant systématiquement tous les diacritiques.

5.3 - Les solutions existent

Certains prétendent que la présence des langues nationales tend à se faire de plus en plus faible par rapport à l'anglais sur Internet (Andries & Yergeau, 1995). D'autres affirment que le nombre de sites utilisant les langues nationales est en augmentation (Wehrli, 1996). Il est difficile de savoir comment vont évoluer les choses.

Néanmoins, il convient de rester vigilant et, surtout, de prendre les devants face à une situation qui pourrait devenir dramatique au fil des ans. Ainsi, Andries et Yergeau 1995) proposent 40 pistes pour augmenter la présence du français sur la Toile. Parmi celles-ci, 11 concernent la gestion des caractères, des langues, l'utilisation d'outils logiciels permettant un affichage correct des accents, les outils de recherche adaptés au français et l'augmentation des capacités des lignes de transfert de l'information dans les pays francophones.

La présence de toutes les communautés linguistiques sur Internet n'est donc pas simple. Pourtant, l'enjeu n'est rien moins que la survie de l'identité culturelle de ces communautés ! Il est important de refuser la marginalisation afin d'éviter la disparition.

6 - Conclusion

La façon d'aborder les problèmes de gestion des langues a changé depuis que le développement d'Internet a, en théorie du moins, rendu possible la diffusion de tous les systèmes d'écriture au niveau mondial. Aucune communauté linguistique ne peut admettre que la seule langue qui soit universellement acceptée par le réseau mondial soit l'anglais. Le respect des droits de l'individu tient aussi au respect de sa langue. De nombreux groupes se sont constitués afin d'améliorer les choses (W3C [13], IETF [14], TEI [15], etc.). Les solutions aux problèmes techniques du codage et de la transmission des langues par l'informatique existent. Encore faut-il avoir la volonté de les appliquer. Si ces difficultés subsistent encore, il faut plutôt chercher des raisons politiques, économiques, psychologiques ou sociales.

La mondialisation doit passer par la reconnaissance de la spécificité régionale sous peine de provoquer un rejet plus ou moins violent des groupes minoritaires. Ainsi, le respect de la culture linguistique doit faire partie de la nouvelle ère de l'information pour donner la possibilité à chaque communauté linguistique de s'exprimer dans sa langue sur les nouveaux médias. C'est particulièrement le cas pour les communautés linguistiques fortement minoritaires pour qui ce problème est devenu une question vitale.

Bibliographie

: ANDRÉ Jacques & GOOSSENS Michel (1995). "Codage des caractères : de l'ASCII à UNICODE et ISO/IEC-10646" [internet] <ftp://ftp.gutenberg.eu.org/pub/GUTenberg/publicationsPS/20-jamg.ps.gz>

: ANDRIES Patrick & YERGEAU François (1995). Augmenter la présence du français sur l'Internet : quarante pistes. Montréal (Canada) : Alis Technologies.

: BABEL (1997). Palmarès des langues de la Toile. [internet]. Consulté en septembre 1999. <http://www.isoc.org:8080/palmares.fr.html>.

: BNF (1998). L'Aventure des écritures. Dossiers pédagogiques. [internet]. Consulté en septembre 1999 <http://www.bnf.fr/web-bnf/pedagos/dossiecr/je-code.htm>.

: BRAND Guy (1997). Qu'est-ce que MIME ?. [internet]. Consulté en septembre 1999. <http://wwwchimie.u-strasbg.fr/membres/GB/MIME.html>.

: CACALY Serge, LE COADIC Yves, MELOT Michel, POMART Paul-Dominique & SUTTER Éric (1997). Dictionnaire encyclopédique de l'information et de la documentation. Paris : Nathan. 634 p. ISBN 2-09-190528-3.

: DUDL (1996). Déclaration universelle de droits linguistiques. [internet]. Consulté en septembre 1999. <http://www.indigo.ie/egt/udhr/udlr.html>.

: ETHNOLOGUE. [internet]. Consulté en septembre 1999. <http://www.sil.org/ethnologue>.

: GIS (1999). Global Internet Statistics (by language). [internet]. Consulté en septembre 1999. <http://www.euromktg.com/globstats/>.

: IDE Nancy & VÉRONIS Jean (éditeurs) (1995). The Text Encoding Initiative: Backgroud and Context. Dordrecht : Kluwer Academic Publishers.

: IMPRIMERIE NATIONALE (1990). Lexique des règles typographiques en usage à l'Imprimerie Nationale. Paris : Imprimerie nationale.

: LECOURS André-Roch (1996) "Les interactions entre le cerveau humain et les cultures langagières écrites". in Actes du colloque Le français et les langues scientifiques de demain. Montréal, Canada. pp. 111-127.

: PONOT René (1995). "Le Didot a-t-il besoin de ligatures ?". in Cahiers GUTenberg - numéro 22, septembre 1995 - Ligatures & caractères contextuels.

: ROUSSEAU Jean-Jacques (1817). Essai sur l'origine des langues. Réédition.

: SKUTNABB-KANGAS Tove. Linguistic genocide in education - wordlwide diversity or human rigths. à paraître.

: SPERBERG-McQUEEN C. M. & BURNARD Lou - éditeurs (1994). "A gentle introduction to SGML". Guidelines for Electronic Text Encoding and Interchange, P3. [internet]. Consulté en septembre 1999. <http://www-tei.uic.edu/orgs/tei/sgml/teip3sg/index.html>.

: UNICODE. [internet] <http://www.unicode.org/>.

: WALTER Henriette (1996). "L'évolution des langues de la communauté scientifique". in Actes du colloque Le français et les langues scientifiques de demain. Montréal, Canada. pp. 35-39.

: WERHLI Éric (1996). "Pour des inforoutes plurilingues". in Actes du colloque Le français et les langues scientifiques de demain. Montréal, Canada. pp. 319-323.

Notes

1: Il ne faut pas confondre caractère et glyphe. André et Goossens 1995) définissent ainsi la différence entre les deux notions : "un caractère est une unité d'information utilisée pour coder un texte, alors qu'un glyphe est une forme géométrique (une collection homogène de telles formes constitue une police) utilisée pour représenter un texte". .

2: De nombreuses autres difficultés existent par rapport au traitement des différentes langues par des moyens informatiques :
- La création de claviers adaptés à chaque type de langue, tout en optimisant les coût est un problème difficile. Des projets sont en cours afin de créer des claviers permettant d'écrire la plupart des langues par combinaison de touches.
- La gestion de différents types d'écriture dans un même traitement de texte : par exemple, l'arabe ou l'hébreu s'écrivent de droite à gauche, mais si des chiffres ou des caractères latins sont insérés dans un texte arabe, il doivent être écris de gauche à droite. Certaines langues s'écrivent verticalement, d'autres en boustrophédon, etc. La configuration d'un logiciel adapté aux différentes langues est donc difficile. Néanmoins, dans la norme HTML 4.0, des attributs propres au sens d'écriture existent et permettent donc l'affichage de parties de textes s'écrivant dans des sens différents. Certains navigateurs gèrent déjà cet attribut.
- Le traitement de la ligature : on appelle ligature, le remplacement de n glyphes successifs par un seul. Le problème consiste à indiquer à la machine que l'on veut remplacer la succession de deux lettres par un signe correspondant à ces deux lettres liées entre elles. A part dans certains cas particuliers comme le � français, on ne considère pas que la combinaison de deux lettres constitue un caractère à part entière.
- La gestion d'un ordre lexicographique spécifique à chaque langue. L'ordre lexicographique est essentiel à la recherche efficace d'une information, en particulier dans les dictionnaires et encyclopédies. Un tel ordre est dépendant de la langue.
- etc.

3: En informatique, toute information est codée à l'aide d'une suite de 1 ou de 0 (le courant passe ou ne passe pas). Cette information élémentaire est appelée bit, acronyme de Binary digIT. La combinaison de plusieurs informations élémentaires permet de coder des informations plus complexes. Le codage sur 7 bits permet de différencier 27, soit 128 éléments.

4: Les glyphes correspondant aux différents codes de ces normes sont visibles à l'adresse Internet suivante : <http://www.isoc.org:8080/codage/iso8859/jeuxiso.htm>.

5: <http://www.unicode.org>.

6: Un site consacré à SGML et XML se trouve à l'adresse Internet suivante : <http://www.oasis-open.org/cover/sgml-xml.html>.

7: Pour un historique détaillé et une étude plus approfondie d'Internet, on pourra consulter Histoire d'Internet : de la recherche scientifique au plus grand pays du monde de Stéphane Cottin & Pierre Mayeur à l'adresse <http://www.droitconstit.org/hilby.htm>.

8: Bien que la méthode employée par Babel comporte de nombreux points discutables (et discutés par les auteurs eux-mêmes), ces chiffres indiquent une très forte disparité entre la communauté anglophone et le reste du monde.

9: La diffusion correcte d'une information sur 8 bits permet de transmettre, de manière parfaite une information sur 16 bit (UNICODE) puisqu'il s'agit de la succession de deux informations 8 bits qui peuvent être correctement interprétées par le logiciel de lecture. Donc la gestion du transfert sur 8 bits règlerait tous les problèmes d'intégrité des textes dans une langue disposant d'un formalisme de codage quelconque.

10: Ce phénomène est dû à la configuration même du réseau. En principe, celui-ci devrait se présenter comme un réseau maillé où plusieurs chemins sont possibles d'un point à un autre afin d'augmenter la fiabilité du système. Mais, en fait, la structure réelle se présente plutôt sous la forme d'une étoile centrée sur les États-Unis. Ce phénomène est encore accentué par la rapidité du réseau américain par rapport aux autres réseaux mondiaux. Il est donc plus rapide de passer par cette voie, et les systèmes d'aiguillage font donc passer les données par les USA.

11: Certains mauvais esprits prétendent que WWW serait l'abréviation de Wait Wait Wait, du fait de la lenteur exaspérante qui est parfois celle d'Internet !

12: Les spécifications de HTML 4.0 du W3C peuvent être trouvées à l'adresse : <http://www.w3.org/TR/REC-html40-971218/>.

13: Le World Wide Web Consortium, < http://www.w3.org/>.

14: Internet Engineering Task Force <http://www.ietf.org/>.

15: Text Encoding Initiative <http://www.uic.edu/orgs/tei/>.

Numéro	Alphabet	Date de normalisation	Langues cibles
8859-1	latin 1	1987	albanais, allemand, anglais, catalan, danois, féroïen, finnois, français, galicien, islandais, italien, néerlandais, norvégien, portugais et suédois
8859-2	latin 2	1987	allemand, anglais, croate, hongrois, polonais, roumain, slovaque, slovène et tchèque
8859-3	latin 3	1988	anglais, espéranto, galicien et turc
8859-4	latin 4	1988	allemand, anglais, danois, estonien, finnois, letton, lituanien, norvégien, suédois et sami
8859-5	latin/cyrillique	1988	anglais, bulgare, biélorusse, macédonien, russe, serbe et ukrainien
8859-6	latin/arabe	1987	latin et arabe
8859-7	latin/grec	1987	latin et grec
8859-8	latin/hébreu	1988	latin et hébreu
8859-9	latin 5	1989	variante du latin 1 pour le turc
8859-10	latin 6	1992	allemand, anglais, danois, estonien, féroïen, groenlandais, islandais, lapon, letton, lituanien, norvégien, sami et suédois

Langue	Population mondiale	Population Internet	Pourcentage de sites
allemand	1,6	7,5	4
anglais	5,4	56,3	82,3
espagnol	5,6	7,7	1,1
français	1,2	3,9	1,5
japonais	2,1	7,8	1,6
autres	84,1	16,8	9,5