Revue SOLARIS Décembre 1999 / Janvier 2000 ISSN : 1265-4876 |
![]() ![]() ![]() ![]() |
Multilinguisme et document numérique : la dimension technique à l'épreuve du codage des caractères
Claude de Loupy
![]() |
Résumé Parmi les milliers de langues qui existent de part le monde, beaucoup risquent de disparaître du fait de leur non-intégration dans les nouveaux réseaux de communication. Avant de pouvoir intégrer les systèmes d'écriture qui supportent ces langues dans le contexte d'Internet, il convient de régler de nombreux problèmes techniques liés à l'origine américaine de ce réseau et à la très large prédominance de l'anglais dans tout le domaine informatique. Bien que de nombreuses normes de codage de caractères aient été créées (avec plus ou moins de succès) depuis ASCII, cette dernière reste omniprésente dans le fonctionnement d'Internet, pénalisant ainsi les textes rédigés dans d'autres langues que l'anglais ce qui implique une mauvaise gestion des autres systèmes de codage et donc le risque qu'un texte rédigé dans une autre langue que l'anglais ne soit pas convenablement transporté d'un point du réseau à un autre. Pourtant, la création de nouvelles normes (UNICODE, MIME, ESMTP, etc.) permet de surpasser ces problèmes. Mais l'utilisation de ces normes par tous les acteurs d'Internet est loin d'être réalisée. Si l'origine des problèmes liés à la diffusion de toutes les langues sur Internet semble purement technique, la continuité de ces difficultés montre que d'autres facteurs (que nous ne développerons pas ici) entrent en jeu. Abstract There exist thousands of languages in the world. A lot of them are likely to disappear because they have no access to the new communication means. Because computer science is dominated by English and because Internet was born in the USA, a lot of technical problems must be solved before all the languages have the real possibility to communicate via these new media. Though a lot of new character standards have been created since ASCII, this "American Standard" is considered the only one by a lot of protocols used for the Internet. As a result, the other standards are not correctly transferred. Even so, there are solutions, (UNICODE, MIME, ESMTP, etc.) but it will take a long time before all Internet actors use them. The original problem of the multilingual management on Internet must be technical. But, since solutions have been found, this problem must have more human explanations. |
La mondialisation actuelle des réseaux d'échange et de communication tend à isoler les groupes qui n'ont pas accès à ces réseaux. Ce constat peut aussi se vérifier dans le cas d'Internet. A priori, le "Réseau des réseaux" devrait permettre à tous les groupes humains d'exprimer leur spécificité culturelle et linguistique dans le monde entier et donc de maintenir une cohésion entre des éléments d'une communauté géographiquement éloignés. Malheureusement, de nombreux problèmes techniques, dus à des raisons historiques, empêchent les langues minoritaires de transiter correctement sur la Toile. En fait, seul l'anglais est totalement compatible avec Internet.
Pourtant, les solutions à ces problèmes existent aujourd'hui. De nombreux systèmes ont été développés depuis les débuts de l'informatique pour coder les langues dans un système binaire. La prise de conscience des difficultés posées par l'incompatibilité de ces systèmes a conduit à la création de normes permettant une gestion respectueuse des caractéristiques propres à chaque langue dans un contexte multilingue.
Dans le cadre de cet article, nous décrivons les problèmes techniques liés à la diffusion des caractères par Internet ainsi que les normes de codage ou de diffusion des caractères. Notre but est de montrer que des solutions permettant de résoudre ou de contourner les problèmes liés à la diffusion de presque toutes les langues humaines existent.
En juin 1996, plusieurs organisations non gouvernementales provenant de 90 pays différents et de tous les continents se sont réunies à Barcelone afin de discuter le texte de la Déclaration Universelle de Droits Linguistiques (D.U.D.L., 1996). Ce document vise à établir les droits inaliénables de toute communauté linguistique afin de préserver son identité culturelle.
Voici quelques extraits de cette déclaration pour laquelle des démarches sont actuellement en cours afin qu'elle soit reconnue par les Nations Unies :
Article 7-1 : Toutes les langues sont l'expression d'une identité collective et d'une manière distincte de percevoir et de décrire la réalité et de ce fait, elles doivent pouvoir bénéficier des conditions nécessaires pour leur développement dans toutes leurs fonctions.
Article 9 : Toute communauté a le droit de codifier, de standardiser, de préserver, de développer et de promouvoir son système linguistique, sans interférences induites ou forcées.
Article 10-3 : En application du principe d'égalité il faut disposer les moyens indispensables pour que cette égalité soit effective.
Article 38 : Toutes les langues et les cultures des communautés scientifiques doivent recevoir un traitement équitable et non discriminatoire dans les contenus des moyens de communication mondiaux.
Article 40 : Toute communauté linguistique a le droit de disposer, dans le domaine de l'informatique, d'équipements adaptés à son système linguistique et d'outils de production dans sa langue, afin de profiter pleinement du potentiel qu'offrent ces technologies pour l'auto-expression, l'éducation, la communication, l'édition, la traduction, et en général le traitement de l'information et de la diffusion culturelle.
La Communauté Européenne comprend, à elle seule, 15 États dans lesquels on parle environ 40 langues. En Europe, 160 langues sont parlées dont 70 % sont écrites. La base de données ethnologue recense plus de 6 700 langues parlées dans le monde (ethnologue, 1999).
Selon l'UNESCO, la moitié de ces langues est en voie de disparition (à très brève échéance). Dans certains cas, il s'agit de la mort plus ou moins naturelle d'une langue que plus personne ne parle. Mais il existe aussi ce que Skutnabb-Kangas [?] appelle des "génocides linguistiques". Car si les langues peuvent disparaître d'une mort naturelle, elles peuvent aussi être volontairement éliminées ! L'Histoire nous donne bien des exemples d'agressions volontaires (idéologiques ou politiques) envers des communautés linguistiques. On peut d'ailleurs en trouver des illustrations dans des événements récents (Kosovo, Algérie, etc.).
Un autre type d'agression provient du mépris affiché par certains envers des langues ou des systèmes d'écriture jugés inférieurs. Jean-Jacques Rousseau 1817), en parlant des systèmes idéographiques, syllabiques et alphabétiques affirmait : "Ces trois manières d'écrire répondent exactement aux trois divers états sous lesquels on peut considérer les hommes rassemblés en nation. La peinture des objets convient aux peuples sauvages ; les signes des mots et des propositions aux peuples barbares et l'alphabet aux peuples policés." Les anciens Égyptiens étaient donc des sauvages et les Chinois sont toujours des barbares. Encore de nos jours, des chercheurs occidentaux ont suivi ses traces, ainsi que le souligne Lecours 1996). Quant aux langues non écrites, on peut supposer que cette classification les attribue aux animaux !
Heureusement, la conception générale évolue. De nombreux travaux ont été entrepris en développement de ressources linguistiques pour d'autres langues que l'anglais et, particulièrement, pour les langues minoritaires. Car, justement, une des menaces qui pèsent sur les langues minoritaires est celle qu'exercent les langues dites dominantes. Parmi toutes les langues du monde, 80 % ne sont parlées que dans un seul pays et la moitié ne sont pratiquées que par moins de 5 000 individus. La raison économique, même s'il n'y avait qu'elle, empêcherait les instances médiatiques de produire une information dans chacune de ces langues. Or, à partir du moment où l'Information n'est donnée que dans d'autres langues, que celle pratiquée par un groupe, celui-ci n'a d'autre choix que de pratiquer une des langues plus répandues ou de se trouver marginalisé.
On considère souvent que l'anglais devient LA langue mondiale et que cette prédominance conduira à l'étouffement des autres langues. En fait, l'hégémonie de l'anglais n'est pas aussi forte qu'on le prétend. De tout temps, des langues se sont imposées comme langues "universelles". Ainsi en a-t-il été du sumérien, de l'akkadien, du grec, du latin et du français (pour le monde occidental ou proche-oriental). Les autres langues n'ont pas disparu pour autant. De plus, les impératifs commerciaux, dont l'importance croit avec la mondialisation, et le bon sens font que, pour vendre à une personne, il est préférable de s'adresser à elle dans sa langue plutôt que d'utiliser l'anglais, même si elle peut le comprendre.
De plus, il convient de rester prudent dans la défense de la langue pour ne pas tomber dans un fanatisme dangereux. Les langues doivent évoluer et l'inclusion de termes nouveaux en provenance de l'anglais dans le langage courant est tout à fait logique. Ce n'est d'ailleurs qu'un juste retour des choses en ce qui concerne le français. En effet, les emprunts de l'anglais aux langues latines sont très nombreux, même dans le domaine technique. Ainsi, Walter 1996) constate que sur 490 termes informatiques anglais présents dans trois ouvrages, 392 sont d'origine latine, dont 211 sont passés à l'anglais via le français. Il en va ainsi du terme computer qui vient du latin computus (compte) qui a donné le terme comput en français qui désigne les calculs effectués pour la détermination des dates des fêtes ecclésiastiques et, particulièrement pour la fête pascale.
D'ailleurs, il est arrivé relativement souvent, dans un passé suffisamment proche pour que nous en ayons trace, que de nouvelles langues émergent du mélange de deux ou trois cultures linguistiques. Ce phénomène crée des dialectes appelés pidgins (phénomène courant dans les îles du sud du Pacifique). Quand ceux-ci se stabilisent avec le temps, on les appelle alors créoles (comme le cajun en Louisiane). Or, les locuteurs de ces langues forment des communautés linguistiques à part entière et il convient de les protéger au même titre que des langues plus anciennes.
Il ne s'agit donc pas de faire de la résistance CONTRE une invasion anglophone, mais simplement de préserver une identité culturelle qui passe par une identité linguistique dans le maintien d'une cohérence du système propre à chaque langue. Pour cela, il est nécessaire qu'un groupe parlant un même langage puisse s'exprimer par les media disponibles aujourd'hui. Il est clair que les media écrits, radiophoniques ou télévisés ne peuvent pas faire l'effort (si toutefois ils le souhaitent) de produire de l'information dans chaque langue. En revanche, l'apparition d'Internet permet à toute entité, donc même à un individu, pour un coût considérablement inférieur, de diffuser sa culture et donc, théoriquement, sa spécificité linguistique.
Or, pour pouvoir être diffusée sur Internet, une langue doit pouvoir utiliser le système de transcription par écrit qui lui est propre. C'est-à-dire qu'un système de codage numérique des caractères qu'elle utilise doit exister et doit pouvoir être transmis au travers du réseau existant et être interprété par les outils qui serviront à visualiser les documents produits. Hélas, force est de constater que de nombreux obstacles subsistent à la diffusion de tous les systèmes d'écriture sur Internet. Ces obstacles font l'objet d'une description dans les paragraphes suivants. Voyons tout d'abord ceux liés au codage des caractères et les solutions qui existent.
Nous n'évoquerons, dans le cadre de ce dossier, que les difficultés liées au codage des caractères [1] ainsi qu'à leur transfert, en laissant de côté d'autres problèmes qui se posent à ceux qui veulent développer des applications multilingues [2].
Une description plus détaillée des normes ASCII, ISO-8859, ISO-10646 et UNICODE peut être trouvée dans André & Goossens 1995).
Le principe du codage des caractères existe quasiment depuis la création de l'écriture. En effet, les chefs politiques ou militaires ont rapidement compris qu'il fût nécessaire de coder leurs informations de manière à ce qu'elles ne soient pas accessibles à leurs ennemis. On a ainsi retrouvé les noms chiffrés d'un père et de son fils sur une tablette d'Uruk en caractères cunéiforme : 21.35.35.24.44 fils de 21.11.20.42 (BNF, 1998) ! Jules César codait son courrier en utilisant les nombres correspondant aux lettres dans l'alphabet mais en les décalant d'un nombre constant de lettres. Ainsi, César pouvait se transposer 4.5.20.2.19. On peut aussi citer le nom du célèbre HAL, de l'oeuvre d'Arthur C. Clarke, 2001 l'Odyssée de l'espace, qui n'est qu'un décalage de une lettre du nom d'une célèbre société informatique !
En 1794, Claude Chappe a mis au point son télégraphe optique qui permettait de transmettre une information textuelle codée de manière visuelle à l'aide de bras mécaniques. Cette ligne de transmission reliait Lille à Paris. Il ne s'agit pas, en fait, d'une invention totalement nouvelle puisque les Grecs et les Romains avaient déjà expérimenté un tel système. Ces derniers, en particulier, possédaient, au deuxième siècle de notre ère, un réseau de communication optique depuis l'Espagne jusqu'en Asie.
Le premier système international de codage des caractères fut développé par Samuel Morse et essayé, pour la première fois, en 1870. Tout comme celui du Télex, il est basé sur un système binaire : pour le Morse, on a des signaux longs et courts et pour le Télex, un signal qui passe ou ne passe pas. D'autres systèmes sont restés sur un mode de transmission optique comme le langage des sourds ou la communication par sémaphores de la marine.
Le développement de l'informatique aux U.S.A. dans les années soixante donna lieu à la création d'une norme de codage qui allait marquer le domaine jusqu'à nos jours et sans doute encore pour longtemps. Il s'agit, bien sûr, de la norme ASCII (American Standard Code for Information Interchange). Elle est basée sur 7 bits [3] et permet donc de différencier 128 éléments différents. En l'occurrence, il s'agit des 26 lettres de l'alphabet latin sans accent en minuscule et majuscule, des chiffres, de caractères de contrôle non imprimables (retour chariot, retour à la ligne, etc.), de ponctuations et de signes divers ($, /, etc.). Par exemple, à la lettre A est associée la valeur 65 alors que la lettre B sera codée 66.
Cette norme a évolué et a donné naissance à plusieurs versions dont des versions plus adaptées à d'autres langues que l'anglais, mais même à l'intérieur d'une même communauté linguistique existaient des différences. L'Organisation Internationale de Normalisation (ISO) a donc décidé de fixer une bonne fois cette norme sous l'appellation ISO-646 en 1988.
La limitation aux seuls caractères non accentués est très gênante pour le codage d'autres langues que l'anglais car la plupart des systèmes linguistiques, soit utilisent plus de caractères, soit utilisent des diacritiques. En fait, à part l'anglais, le swahili et l'indonésien, aucune langue ne se satisfait de cette norme. Il ne s'agit pas de conserver des signes pour le seul plaisir d'être conforme à la tradition. Les diacritiques sont essentiels à la prononciation et à la compréhension de textes écrits dans une langue donnée. Leur suppression en français conduit à ne plus pouvoir distinguer élève de élevé sans s'aider du contexte. De plus, comment doit-on prononcer le nom d'Ambroise Paré si l'accent aigu disparaît ? Des systèmes de codage sur 8 bits ont donc été créés afin de doubler le nombre de caractères disponibles.
Dix jeux de caractères [4] sur 8 bits sont aujourd'hui standardisés dans la famille ISO-8859. Il s'agit d'extensions de la norme ASCII puisque les 128 premiers caractères restent identiques à ceux de cette norme. Les 128 suivants sont utilisés afin de coder les caractères propres à une ou plusieurs langues.
Numéro |
Alphabet |
Date de normalisation |
Langues cibles |
8859-1 |
latin 1 |
1987 |
albanais, allemand, anglais, catalan, danois, féroïen, finnois, français, galicien, islandais, italien, néerlandais, norvégien, portugais et suédois |
8859-2 |
latin 2 |
1987 |
allemand, anglais, croate, hongrois, polonais, roumain, slovaque, slovène et tchèque |
8859-3 |
latin 3 |
1988 |
anglais, espéranto, galicien et turc |
8859-4 |
latin 4 |
1988 |
allemand, anglais, danois, estonien, finnois, letton, lituanien, norvégien, suédois et sami |
8859-5 |
latin/cyrillique |
1988 |
anglais, bulgare, biélorusse, macédonien, russe, serbe et ukrainien |
8859-6 |
latin/arabe |
1987 |
latin et arabe |
8859-7 |
latin/grec |
1987 |
latin et grec |
8859-8 |
latin/hébreu |
1988 |
latin et hébreu |
8859-9 |
latin 5 |
1989 |
variante du latin 1 pour le turc |
8859-10 |
latin 6 |
1992 |
allemand, anglais, danois, estonien, féroïen, groenlandais, islandais, lapon, letton, lituanien, norvégien, sami et suédois |
La plupart des standards 8 bits développés pour coder les caractères utilisés dans les différentes langues sont imparfaits. Ainsi, la norme ISO-8859-1, qui doit permettre d'écrire en français, n'inclue pas les ligatures "oe" et "OE". Or, celles-ci ne sont pas facultatives et sont véritablement des caractères de la langue française (Imprimerie Nationale, 1990). On pourrait penser qu'il suffirait de configurer les logiciels pour qu'ils remplacent toute succession de ces lettres par la ligature correspondante, mais un mot comme coexister oblige à séparer les deux lettres. Pour pouvoir écrire cur correctement, il faut donc qu'un code spécifique existe pour la ligature. Ce problème a été corrigé avec ISO-8859-15 qui n'est pas encore officiellement adopté en tant que standard.
Pour certaines langues, le problème vient du fait que les polices de caractères sont très difficilement accessibles. Ainsi, les Estoniens, qui devraient écrire en ISO-latin-4 écrivent souvent soit avec l'ISO-latin-1 dans lequel il leur manque deux caractères soit avec l'ISO-latin-2 dans lequel il manque un caractère.
Enfin, il est très difficile de gérer un texte comportant plusieurs systèmes d'écriture. Les traitements de texte multilingues doivent jongler à la fois avec les différentes normes de codage et les polices associées. Bien sûr, si les textes sont produits et lus avec le même logiciel, il est toujours possible de créer son propre système de codage, mais dans le cas où les textes sont importés, il est indispensable de pouvoir gérer plusieurs normes de codage en même temps.
La difficulté à gérer des applications multilingues, dans un contexte ou existent un grand nombre de normes différentes d'un pays à l'autre et parfois au sein d'un même pays, a conduit à l'idée d'un jeu de caractères dit universel, dans lequel la plupart des caractères permettant de transcrire les langues existantes serait codée : ISO-10646.
Le standard ISO-10646, basé sur 32 bits, doit permettre, en théorie, de coder plus de deux milliards de caractères ; cela semble amplement suffisant pour tous les besoins auxquels ont pourrait penser ! Cet ensemble a été divisé selon un cube de 256 groupes de 256 plans de 256 colonnes. Les cellules ainsi définies contiennent, chacune, 256 caractères. Chaque plan est donc un ensemble codé sur 16 bits. Pour l'instant, seul le premier plan (plan 0), appelé Basic Multilingual Plane (BMP) est disponible. Il correspond, caractère pour caractère, au codage UNICODE. Le plan 1 devrait coder les caractères d'écritures anciennes et des symboles musicaux.
Le consortium UNICODE [5] a été créé en 1989 et il regroupe les plus importants acteurs industriels de l'informatique. Le système UNICODE est basé sur un codage 16 bits et peut donc contenir 65 536 caractères différents. 38 885 sont déjà codés et permettent de transcrire la plupart des langues écrites utilisées actuellement (UNICODE). Il a été intégré à la norme ISO-10646 en 1991 sous le nom ISO-10646-UCS-2 (UCS signifiant Universal Character Set).
Les 128 premiers codes de la table UNICODE correspondent au codage ASCII. Vient ensuite ISO-8859-1. Toutes les normes ISO-8859 sont incluses dans ce système. Pour les caractères idéographiques chinois, japonais et coréens, les normes existantes, qui définissaient plus de 120 000 idéogrammes différents ont été regroupées et simplifiées selon un schéma appelé "Unification Han" pour être ramenées à 20 992 signes.
Pour chaque entrée d'UNICODE, plusieurs informations sont disponibles comme le nom du caractère, le type de caractère (chiffre, lettre, ponctuation, les correspondances majuscules/minuscules, etc.), etc. En tout, il y a environ 50 informations par code, ce qui fait un système très lourd à gérer. La création de jeux réduits permet de limiter la taille des informations à la stricte utilité dans un cadre précis, tout en conservant la compatibilité avec l'ensemble. Ainsi, un jeu d'un peu plus de 4 000 caractères permettrait de coder toutes les langues européennes.
La possibilité de coder plus de deux milliards de caractères laisse songeur... est-il vraiment utile de disposer de tous ces caractères ? A supposer qu'il y ait suffisamment de ressources humaines pour récolter tous les caractères existants, à quoi cela servirait-il ?
Prenons le cas des abréviations. Du IXe au XVe siècle, les scribes d'Europe utilisaient un très grand nombre d'abréviations ; Cappelli en recense 14 000, sans même prétendre à l'exhaustivité (cité dans Ponot, 1995). Cela représente déjà le tiers du nombre de caractères codés dans UNICODE ! Chacune de ces abréviations étant un signe à part entière, est-il judicieux de les coder dans un formalisme de type ISO-10646 ? Le travail serait colossal et ne trouverait son utilité que dans de très rares cas.
De plus, il est nécessaire de prévoir la possibilité d'entrer de nouveaux caractères rapidement. On a pu voir les difficultés liées à l'arrivée du sigle euro sur la scène européenne et mondiale. Les claviers ont été modifiés, des mises à jour des logiciels ont dû être faites, etc. Le système ISO-8859-15 réserve un code pour ce signe en plus de certains ajouts à l'ISO-8859-1 concernant des caractères accentués du français ou du finnois.
Une solution consiste à utiliser les normes évolutives, en particulier celles issues de SGML [6] (Standard Generalized Markup Language) comme la TEI (Ide & Véronis, 1995). "SGML est un métalangage qui permet de créer un langage approprié à la description de classes de documents" (Cacaly et al., 1997, p. 529). La description des classes de documents est donnée dans les DTD (Définitions de Types de Documents). Une introduction détaillée de la norme SGML pourra être trouvée dans (Sperberg-McQueen & Burnard, 1994).
Ces normes, en plus de fournir un balisage du texte, permettent de définir, pour chaque document, une suite de caractères définissant une entité à laquelle peut être associée un ou plusieurs glyphes. Ainsi, pour un texte codé en ASCII, le caractère é sera codé é. Il pourrait être représenté par une autre suite, à condition que cela soit défini dans la DTD. Un exemple de ce type de codage se trouve dans les pages HTML de la Toile où, par exemple, le caractère < est codé ≶.
Il est alors tout à fait possible de créer des codes d'échange particuliers entre des spécialistes d'un domaine. Par exemple, le codage des hiéroglyphes peut se faire à l'aide de ces entités. Une personne ne disposant pas du logiciel ou des polices associées à ces entités verra des suites du type &tyw;. D'ailleurs, si le nom de l'entité est correctement choisi, il est possible de déterminer à quel élément elle fait référence. Dans le cas présent, l'indication de la prononciation tyw permet de déterminer que l'idéogramme associé représente un oiseau.
La connaissance, par le rédacteur et le lecteur, de ces entités dans un système qui leur est propre mais qui est décrit dans la DTD, et l'utilisation d'interfaces dédiées permet d'associer une représentation graphique appropriée dans une police spécifique. Bien sûr, on pourrait se dire que l'utilisation des entités SGML permet de coder tout type de document et qu'il n'est donc pas nécessaire de développer une norme de codage des caractères du cyrillique. Mais, numériser un texte russe à l'aide d'entités est très lourd, chaque caractère de l'écriture cyrillique étant représenté à l'aide de plusieurs caractères ASCII. Il convient donc de coder de manière stricte les caractères les plus couramment utilisés (les hiéroglyphes feront d'ailleurs probablement l'objet d'un codage dans la norme ISO-10646), tout en laissant la liberté d'introduire des caractères spécifiques en utilisant des entités de type SGML. Il est d'ailleurs possible d'utiliser le système UNICODE pour coder un texte SGML et donc de profiter des avantages des deux systèmes.
Internet est né aux États-Unis à la fin des années 60 et s'appelait alors ARPANET [7]. Il s'agissait d'un réseau militaire auquel se sont adjoints des universités par la suite. La véritable explosion d'Internet ne s'est produite qu'au début des années 90. Les infrastructures et les normes utilisées sur la Toile portent encore largement la marque de son origine américaine. Cela implique de graves problèmes dans l'échange de textes entre les communautés non anglophones.
Le schéma suivant indique la répartition, en pourcentage, de la population linguistique sur Internet et dans le monde (G.I.S., 1999) ainsi que la répartition linguistique des sites (Babel, 1997) [8].
Répartition linguistique de la population mondiale, Internet et des documents présent sur la Toile
Langue |
Population |
Population |
Pourcentage |
allemand |
1,6 |
7,5 |
4 |
anglais |
5,4 |
56,3 |
82,3 |
espagnol |
5,6 |
7,7 |
1,1 |
français |
1,2 |
3,9 |
1,5 |
japonais |
2,1 |
7,8 |
1,6 |
autres |
84,1 |
16,8 |
9,5 |
On voit très nettement que les proportions entre les communautés linguistiques ne sont absolument pas respectées quand on passe du monde réel à Internet. La prédominance des anglophones (56 %) sur la Toile est très nette. De plus, si l'on considère la représentation linguistique, non pas en population, mais en quantité de documents disponibles, les chiffres sont encore plus impressionnants (82 %).
Les différentes communautés linguistiques réagissent à cet état de fait plus ou moins fortement selon le poids qu'elles peuvent avoir dans les rapports internationaux et leur volonté politique. Néanmoins, l'importance d'une présence sur Internet semble reconnue par toutes les communautés actives. Malheureusement, la volonté seule ne suffit pas à permettre la création d'un univers linguistique virtuel. De nombreux problèmes existent qui font que la présence d'autres langues que l'anglais sur Internet ne se fait pas sans difficultés.
Plusieurs protocoles sont utilisés sur Internet pour la communication des machines, l'aiguillage et le transfert de l'information. Les deux principaux sont I.P. (Internet Protocol) qui associe un numéro unique à une machine du réseau et T.C.P. (Transfer Control Protocol) qui gère la connexion entre deux machines. Tous ces protocoles sont parfaitement adaptés à la diffusion d'une information codée sur 8 bits [9] et tolèrent donc parfaitement la circulation d'autres langues que l'anglais.
Mais les problèmes surviennent dès qu'apparaît la notion de texte. Voyons quelques exemples de ces difficultés dans les trois services les plus utilisés sur Internet.
Le courrier électronique utilise le protocole SMTP (Simple Mail Transfert Protocole) pour le codage du document. Ce protocole utilise la norme RFC-822 qui est basée sur le codage ASCII, c'est-à-dire 7 bits, c'est-à-dire incapacité à gérer d'autres langues que l'anglais. Le huitième bit est, le plus souvent, corrompu car il est utilisé par les services de transfert et le codage d'un texte passant par un gestionnaire SMTP a de fortes chances d'être modifié. La norme ESMTP (Extended SMTP) permet ce transfert en tenant compte du huitième bit. Depuis janvier 1999, les messageries doivent gérer les caractères codés sur 8 bits pour être aux normes. Malheureusement, il subsiste encore un nombre non négligeable de serveurs de courriers électroniques qui n'intègrent pas cette norme (surtout dans les pays anglophones) et un utilisateur ne peut pas être sûr que son message n'arrivera pas corrompu à son destinataire. En effet, la configuration du réseau Internet est telle qu'un message a toutes les chances de passer par les États-Unis avant de parvenir à son but [10], d'où une corruption potentielle du huitième bit.
Une norme de codage permettant de ramener un texte codé sur 8 bits à 7 a été mise au point afin de contourner ce défaut des systèmes de gestion de courrier. Il s'agit de la norme M.I.M.E. (Multi-purpose Internet Mail Extension) (Brand, 1995, révisé 1997). Ce système remplace des caractères accentués par une série de caractères ASCII. Par exemple, le mot réseau sera transformé en r=E9seau. Le serveur recevant le message devra, lui, effectuer la transformation inverse. De plus, cette norme permet d'envoyer des éléments non textuels (image, son, vidéo, etc.) sans perte d'information. Bien sûr, il est nécessaire que le destinataire utilise un gestionnaire de courrier électronique compatible MIME, mais de tels logiciels sont disponibles gratuitement.
La possibilité de transmettre aussi le codage utilisé dans le texte permet au destinataire, s'il dispose d'une police conforme à cette norme d'afficher correctement le message. Ainsi, à condition qu'expéditeurs et destinataires de messages électroniques possèdent des logiciels comprenant MIME, tous les problèmes de codage des textes accentués ou ayant un grand nombre de caractères ou idéogrammes seraient réglés.
De nombreux utilisateurs d'Internet disposent encore de versions obsolète de gestion de courrier qui ne gèrent pas le codage MIME. S'il ne doit pas être difficile de convaincre un utilisateur non anglophone de se servir de logiciels compatibles avec MIME, il est en revanche moins évident de faire comprendre à un anglophone qu'il serait préférable d'en passer par là si l'on communique avec lui en anglais et donc en n'utilisant que des caractères ASCII. En fait, il suffit de penser que les noms propres comportent souvent des caractères accentués. Quantité de noms sont écorchés sur les listes anglophones car les personnes qui postent sur ces listes savent qu'un caractère non ASCII serait corrompu chez bon nombre d'utilisateurs. Or, l'absence de diacritique peut considérablement modifier la prononciation.
Les forums permettent la transmission d'une information sur 8 bits sans réel problème. Cela est dû à des raisons historiques plus qu'à une bonne gestion des systèmes. En effet, la plupart des serveurs de forums ne se préoccupent pas du huitième bit. Celui-ci est donc ignoré et transmis sans être modifié. Les interfaces peuvent donc afficher des caractères accentués sans problème.
Si Internet est né aux États-Unis, le World Wide Web (la Toile qui s'étend au monde entier) ou WWW [11] a été créé en Suisse par des chercheurs du C.E.R.N.. C'est sans doute une des raisons pour lesquelles la norme utilisée par défaut pour le codage des caractères a d'abord été ISO-8859-1 et non ASCII. Le codage des texte du WWW se fait à l'aide du langage H.T.M.L. (Hyper Text Markup Language) qui est un dérivé de SGML et dont la première version a été publiée en 1991. Contrairement à une idée très répandue, il n'est pas nécessaire de coder tous les caractères accentués à l'aide d'entités HTML. Il est tout à fait possible de coder le texte en question avec n'importe quelle norme, à condition que le navigateur utilisé puisse la comprendre. Par défaut, la dernière version de HTML [12] (HTML 4.0) utilise UNICODE. L'utilisation d'une balise donnant le type de codage est disponible dans HTML. Ainsi, un texte codé en ISO-latin/cyrillique devrait contenir la balise :
<META HTTP-EQUIV="Content-Type" CONTENT="text/html;chraset=ISO-8859-5">
L'utilisation généralisée de cette balise permettrait de visualiser correctement une page utilisant tout type de système de codage à condition que celui-ci soit disponible sur le navigateur. UNICODE est déjà intégré dans les navigateurs de Netscape et de Microsoft, ainsi que plusieurs autres normes propres à certaines régions du monde.
Avant de pouvoir visualiser une page de la Toile, il faut pouvoir y accéder. À chaque machine est associé un numéro I.P.. Mais un tel numéro n'est pas très parlant et surtout difficile à mémoriser. Il est tout de même préférable de penser que l'on va se connecter au site www.élysée.fr plutôt que parler de la machine 193.252.69.53. Le Serveur de Nom de Domaine (DNS) permet d'effectuer la traduction de l'adresse littérale (URL) telle que vous la connaissez en l'adresse numérique telle qu'une machine la comprend. Malheureusement, les serveurs DNS sont basés sur la norme ASCII... encore elle ! Il est donc impossible d'utiliser des accents pour une adresse Internet. Ainsi, l'adresse précédente est-elle fausse. En fait, il s'agit de www.elysee.fr ! Pour la plus haute instance de l'État français, cela semble quelque peu insatisfaisant... De plus, les personnes de culture non latine sont obligées de transcrire leur nom dans un système d'écriture qui n'est pas le leur. Cela peut poser des problèmes de différenciation entre les personnes si deux graphies différentes dans la langue d'origine ont la même transcription avec les caractères ASCII. Ces problèmes peuvent paraître mineurs, mais ils constituent néanmoins une atteinte à la liberté de chacun de pleinement s'exprimer dans sa langue.
Bien sûr, l'utilisation des annuaires ou des moteurs de recherche permet de retrouver un site en visualisant son nom dans une langue quelconque alors que l'adresse elle-même est codée en ASCII. Mais puisque ce passage par un nom codé en toutes lettres est destiné à augmenter la convivialité d'Internet en évitant le passage par des chiffres, il serait judicieux de laisser la possibilité à des utilisateurs japonais (par exemple) de retenir le nom d'un site sans avoir à faire une traduction dans un codage qui n'est pas le leur. La gestion d'un codage UNICODE par les serveurs DNS permettrait à chacun d'accéder à un site en le nommant dans sa propre langue. Et il serait très possible d'utiliser une autre adresse dans un autre codage (latin par exemple) pour qu'un visiteur étranger puisse venir sur un site japonais.
Un dernier point fondamental, étant donnée la quantité d'information disponible sur la Toile, est qu'il est indispensable de pouvoir retrouver un document en passant par des moteurs de recherche. Or, ces derniers sont en majorité créés par des anglophones. Beaucoup d'entre eux ne gèrent pas correctement les accents, par exemple en ne faisant pas le lien entre un caractère accentué et son entité HTML équivalente ou en supprimant systématiquement tous les diacritiques.
Certains prétendent que la présence des langues nationales tend à se faire de plus en plus faible par rapport à l'anglais sur Internet (Andries & Yergeau, 1995). D'autres affirment que le nombre de sites utilisant les langues nationales est en augmentation (Wehrli, 1996). Il est difficile de savoir comment vont évoluer les choses.
Néanmoins, il convient de rester vigilant et, surtout, de prendre les devants face à une situation qui pourrait devenir dramatique au fil des ans. Ainsi, Andries et Yergeau 1995) proposent 40 pistes pour augmenter la présence du français sur la Toile. Parmi celles-ci, 11 concernent la gestion des caractères, des langues, l'utilisation d'outils logiciels permettant un affichage correct des accents, les outils de recherche adaptés au français et l'augmentation des capacités des lignes de transfert de l'information dans les pays francophones.
La présence de toutes les communautés linguistiques sur Internet n'est donc pas simple. Pourtant, l'enjeu n'est rien moins que la survie de l'identité culturelle de ces communautés ! Il est important de refuser la marginalisation afin d'éviter la disparition.
La façon d'aborder les problèmes de gestion des langues a changé depuis que le développement d'Internet a, en théorie du moins, rendu possible la diffusion de tous les systèmes d'écriture au niveau mondial. Aucune communauté linguistique ne peut admettre que la seule langue qui soit universellement acceptée par le réseau mondial soit l'anglais. Le respect des droits de l'individu tient aussi au respect de sa langue. De nombreux groupes se sont constitués afin d'améliorer les choses (W3C [13], IETF[14], TEI[15], etc.). Les solutions aux problèmes techniques du codage et de la transmission des langues par l'informatique existent. Encore faut-il avoir la volonté de les appliquer. Si ces difficultés subsistent encore, il faut plutôt chercher des raisons politiques, économiques, psychologiques ou sociales.
La mondialisation doit passer par la reconnaissance de la spécificité régionale sous peine de provoquer un rejet plus ou moins violent des groupes minoritaires. Ainsi, le respect de la culture linguistique doit faire partie de la nouvelle ère de l'information pour donner la possibilité à chaque communauté linguistique de s'exprimer dans sa langue sur les nouveaux médias. C'est particulièrement le cas pour les communautés linguistiques fortement minoritaires pour qui ce problème est devenu une question vitale.
© "Solaris", nº 6, Décembre 1999 / Janvier 2000.