Revue SOLARIS
Décembre 1999 / Janvier 2000
ISSN : 1265-4876
accueil sommaire du dossier courrier aux éditeurs

       
Multilinguisme et document numérique : la dimension technique à l'épreuve du codage des caractères

Claude de Loupy



Laboratoire Informatique d'Avignon
B.P. 1228, Agroparc
339 chemin des Meinajariès
84911 Avignon cedex 9
claude.de.loupy@lia.univ-avignon.fr


logo Solaris Résumé

Parmi les milliers de langues qui existent de part le monde, beaucoup risquent de disparaître du fait de leur non-intégration dans les nouveaux réseaux de communication. Avant de pouvoir intégrer les systèmes d'écriture qui supportent ces langues dans le contexte d'Internet, il convient de régler de nombreux problèmes techniques liés à l'origine américaine de ce réseau et à la très large prédominance de l'anglais dans tout le domaine informatique. Bien que de nombreuses normes de codage de caractères aient été créées (avec plus ou moins de succès) depuis ASCII, cette dernière reste omniprésente dans le fonctionnement d'Internet, pénalisant ainsi les textes rédigés dans d'autres langues que l'anglais ce qui implique une mauvaise gestion des autres systèmes de codage et donc le risque qu'un texte rédigé dans une autre langue que l'anglais ne soit pas convenablement transporté d'un point du réseau à un autre. Pourtant, la création de nouvelles normes (UNICODE, MIME, ESMTP, etc.) permet de surpasser ces problèmes. Mais l'utilisation de ces normes par tous les acteurs d'Internet est loin d'être réalisée. Si l'origine des problèmes liés à la diffusion de toutes les langues sur Internet semble purement technique, la continuité de ces difficultés montre que d'autres facteurs (que nous ne développerons pas ici) entrent en jeu.

     
Abstract

There exist thousands of languages in the world. A lot of them are likely to disappear because they have no access to the new communication means. Because computer science is dominated by English and because Internet was born in the USA, a lot of technical problems must be solved before all the languages have the real possibility to communicate via these new media. Though a lot of new character standards have been created since ASCII, this "American Standard" is considered the only one by a lot of protocols used for the Internet. As a result, the other standards are not correctly transferred. Even so, there are solutions, (UNICODE, MIME, ESMTP, etc.) but it will take a long time before all Internet actors use them. The original problem of the multilingual management on Internet must be technical. But, since solutions have been found, this problem must have more human explanations.





top 1 - Introduction

La mondialisation actuelle des réseaux d'échange et de communication tend à isoler les groupes qui n'ont pas accès à ces réseaux. Ce constat peut aussi se vérifier dans le cas d'Internet. A priori, le "Réseau des réseaux" devrait permettre à tous les groupes humains d'exprimer leur spécificité culturelle et linguistique dans le monde entier et donc de maintenir une cohésion entre des éléments d'une communauté géographiquement éloignés. Malheureusement, de nombreux problèmes techniques, dus à des raisons historiques, empêchent les langues minoritaires de transiter correctement sur la Toile. En fait, seul l'anglais est totalement compatible avec Internet.

Pourtant, les solutions à ces problèmes existent aujourd'hui. De nombreux systèmes ont été développés depuis les débuts de l'informatique pour coder les langues dans un système binaire. La prise de conscience des difficultés posées par l'incompatibilité de ces systèmes a conduit à la création de normes permettant une gestion respectueuse des caractéristiques propres à chaque langue dans un contexte multilingue.

Dans le cadre de cet article, nous décrivons les problèmes techniques liés à la diffusion des caractères par Internet ainsi que les normes de codage ou de diffusion des caractères. Notre but est de montrer que des solutions permettant de résoudre ou de contourner les problèmes liés à la diffusion de presque toutes les langues humaines existent.




2 - L'identité linguistique


2.1 - La Déclaration Universelle de Droits Linguistiques

En juin 1996, plusieurs organisations non gouvernementales provenant de 90 pays différents et de tous les continents se sont réunies à Barcelone afin de discuter le texte de la Déclaration Universelle de Droits Linguistiques (D.U.D.L., 1996). Ce document vise à établir les droits inaliénables de toute communauté linguistique afin de préserver son identité culturelle.

Voici quelques extraits de cette déclaration pour laquelle des démarches sont actuellement en cours afin qu'elle soit reconnue par les Nations Unies :

Article 7-1 : Toutes les langues sont l'expression d'une identité collective et d'une manière distincte de percevoir et de décrire la réalité et de ce fait, elles doivent pouvoir bénéficier des conditions nécessaires pour leur développement dans toutes leurs fonctions.

Article 9 : Toute communauté a le droit de codifier, de standardiser, de préserver, de développer et de promouvoir son système linguistique, sans interférences induites ou forcées.

Article 10-3 : En application du principe d'égalité il faut disposer les moyens indispensables pour que cette égalité soit effective.

Article 38 : Toutes les langues et les cultures des communautés scientifiques doivent recevoir un traitement équitable et non discriminatoire dans les contenus des moyens de communication mondiaux.

Article 40 : Toute communauté linguistique a le droit de disposer, dans le domaine de l'informatique, d'équipements adaptés à son système linguistique et d'outils de production dans sa langue, afin de profiter pleinement du potentiel qu'offrent ces technologies pour l'auto-expression, l'éducation, la communication, l'édition, la traduction, et en général le traitement de l'information et de la diffusion culturelle.


2.2 - Les langues minoritaires en danger

La Communauté Européenne comprend, à elle seule, 15 États dans lesquels on parle environ 40 langues. En Europe, 160 langues sont parlées dont 70 % sont écrites. La base de données ethnologue recense plus de 6 700 langues parlées dans le monde (ethnologue, 1999).

Selon l'UNESCO, la moitié de ces langues est en voie de disparition (à très brève échéance). Dans certains cas, il s'agit de la mort plus ou moins naturelle d'une langue que plus personne ne parle. Mais il existe aussi ce que Skutnabb-Kangas [?] appelle des "génocides linguistiques". Car si les langues peuvent disparaître d'une mort naturelle, elles peuvent aussi être volontairement éliminées ! L'Histoire nous donne bien des exemples d'agressions volontaires (idéologiques ou politiques) envers des communautés linguistiques. On peut d'ailleurs en trouver des illustrations dans des événements récents (Kosovo, Algérie, etc.).

Un autre type d'agression provient du mépris affiché par certains envers des langues ou des systèmes d'écriture jugés inférieurs. Jean-Jacques Rousseau 1817), en parlant des systèmes idéographiques, syllabiques et alphabétiques affirmait : "Ces trois manières d'écrire répondent exactement aux trois divers états sous lesquels on peut considérer les hommes rassemblés en nation. La peinture des objets convient aux peuples sauvages ; les signes des mots et des propositions aux peuples barbares et l'alphabet aux peuples policés." Les anciens Égyptiens étaient donc des sauvages et les Chinois sont toujours des barbares. Encore de nos jours, des chercheurs occidentaux ont suivi ses traces, ainsi que le souligne Lecours 1996). Quant aux langues non écrites, on peut supposer que cette classification les attribue aux animaux !

Heureusement, la conception générale évolue. De nombreux travaux ont été entrepris en développement de ressources linguistiques pour d'autres langues que l'anglais et, particulièrement, pour les langues minoritaires. Car, justement, une des menaces qui pèsent sur les langues minoritaires est celle qu'exercent les langues dites dominantes. Parmi toutes les langues du monde, 80 % ne sont parlées que dans un seul pays et la moitié ne sont pratiquées que par moins de 5 000 individus. La raison économique, même s'il n'y avait qu'elle, empêcherait les instances médiatiques de produire une information dans chacune de ces langues. Or, à partir du moment où l'Information n'est donnée que dans d'autres langues, que celle pratiquée par un groupe, celui-ci n'a d'autre choix que de pratiquer une des langues plus répandues ou de se trouver marginalisé.


2.3 - L'anglais face aux autres langues

On considère souvent que l'anglais devient LA langue mondiale et que cette prédominance conduira à l'étouffement des autres langues. En fait, l'hégémonie de l'anglais n'est pas aussi forte qu'on le prétend. De tout temps, des langues se sont imposées comme langues "universelles". Ainsi en a-t-il été du sumérien, de l'akkadien, du grec, du latin et du français (pour le monde occidental ou proche-oriental). Les autres langues n'ont pas disparu pour autant. De plus, les impératifs commerciaux, dont l'importance croit avec la mondialisation, et le bon sens font que, pour vendre à une personne, il est préférable de s'adresser à elle dans sa langue plutôt que d'utiliser l'anglais, même si elle peut le comprendre.

De plus, il convient de rester prudent dans la défense de la langue pour ne pas tomber dans un fanatisme dangereux. Les langues doivent évoluer et l'inclusion de termes nouveaux en provenance de l'anglais dans le langage courant est tout à fait logique. Ce n'est d'ailleurs qu'un juste retour des choses en ce qui concerne le français. En effet, les emprunts de l'anglais aux langues latines sont très nombreux, même dans le domaine technique. Ainsi, Walter 1996) constate que sur 490 termes informatiques anglais présents dans trois ouvrages, 392 sont d'origine latine, dont 211 sont passés à l'anglais via le français. Il en va ainsi du terme computer qui vient du latin computus (compte) qui a donné le terme comput en français qui désigne les calculs effectués pour la détermination des dates des fêtes ecclésiastiques et, particulièrement pour la fête pascale.

D'ailleurs, il est arrivé relativement souvent, dans un passé suffisamment proche pour que nous en ayons trace, que de nouvelles langues émergent du mélange de deux ou trois cultures linguistiques. Ce phénomène crée des dialectes appelés pidgins (phénomène courant dans les îles du sud du Pacifique). Quand ceux-ci se stabilisent avec le temps, on les appelle alors créoles (comme le cajun en Louisiane). Or, les locuteurs de ces langues forment des communautés linguistiques à part entière et il convient de les protéger au même titre que des langues plus anciennes.

Il ne s'agit donc pas de faire de la résistance CONTRE une invasion anglophone, mais simplement de préserver une identité culturelle qui passe par une identité linguistique dans le maintien d'une cohérence du système propre à chaque langue. Pour cela, il est nécessaire qu'un groupe parlant un même langage puisse s'exprimer par les media disponibles aujourd'hui. Il est clair que les media écrits, radiophoniques ou télévisés ne peuvent pas faire l'effort (si toutefois ils le souhaitent) de produire de l'information dans chaque langue. En revanche, l'apparition d'Internet permet à toute entité, donc même à un individu, pour un coût considérablement inférieur, de diffuser sa culture et donc, théoriquement, sa spécificité linguistique.

Or, pour pouvoir être diffusée sur Internet, une langue doit pouvoir utiliser le système de transcription par écrit qui lui est propre. C'est-à-dire qu'un système de codage numérique des caractères qu'elle utilise doit exister et doit pouvoir être transmis au travers du réseau existant et être interprété par les outils qui serviront à visualiser les documents produits. Hélas, force est de constater que de nombreux obstacles subsistent à la diffusion de tous les systèmes d'écriture sur Internet. Ces obstacles font l'objet d'une description dans les paragraphes suivants. Voyons tout d'abord ceux liés au codage des caractères et les solutions qui existent.




3 - Le codage informatique des caractères : ASCII et ISO-8859

Nous n'évoquerons, dans le cadre de ce dossier, que les difficultés liées au codage des caractères [1] ainsi qu'à leur transfert, en laissant de côté d'autres problèmes qui se posent à ceux qui veulent développer des applications multilingues [2].

Une description plus détaillée des normes ASCII, ISO-8859, ISO-10646 et UNICODE peut être trouvée dans André & Goossens 1995).


3.1 - Les premiers systèmes de codage des caractères

Le principe du codage des caractères existe quasiment depuis la création de l'écriture. En effet, les chefs politiques ou militaires ont rapidement compris qu'il fût nécessaire de coder leurs informations de manière à ce qu'elles ne soient pas accessibles à leurs ennemis. On a ainsi retrouvé les noms chiffrés d'un père et de son fils sur une tablette d'Uruk en caractères cunéiforme : 21.35.35.24.44 fils de 21.11.20.42 (BNF, 1998) ! Jules César codait son courrier en utilisant les nombres correspondant aux lettres dans l'alphabet mais en les décalant d'un nombre constant de lettres. Ainsi, César pouvait se transposer 4.5.20.2.19. On peut aussi citer le nom du célèbre HAL, de l'oeuvre d'Arthur C. Clarke, 2001 l'Odyssée de l'espace, qui n'est qu'un décalage de une lettre du nom d'une célèbre société informatique !

En 1794, Claude Chappe a mis au point son télégraphe optique qui permettait de transmettre une information textuelle codée de manière visuelle à l'aide de bras mécaniques. Cette ligne de transmission reliait Lille à Paris. Il ne s'agit pas, en fait, d'une invention totalement nouvelle puisque les Grecs et les Romains avaient déjà expérimenté un tel système. Ces derniers, en particulier, possédaient, au deuxième siècle de notre ère, un réseau de communication optique depuis l'Espagne jusqu'en Asie.

Le premier système international de codage des caractères fut développé par Samuel Morse et essayé, pour la première fois, en 1870. Tout comme celui du Télex, il est basé sur un système binaire : pour le Morse, on a des signaux longs et courts et pour le Télex, un signal qui passe ou ne passe pas. D'autres systèmes sont restés sur un mode de transmission optique comme le langage des sourds ou la communication par sémaphores de la marine.


3.2 - Le codage dans les systèmes informatiques

                  


3.3 - Exemples de problèmes de codage liés aux normes ISO-8859

La plupart des standards 8 bits développés pour coder les caractères utilisés dans les différentes langues sont imparfaits. Ainsi, la norme ISO-8859-1, qui doit permettre d'écrire en français, n'inclue pas les ligatures "oe" et "OE". Or, celles-ci ne sont pas facultatives et sont véritablement des caractères de la langue française (Imprimerie Nationale, 1990). On pourrait penser qu'il suffirait de configurer les logiciels pour qu'ils remplacent toute succession de ces lettres par la ligature correspondante, mais un mot comme coexister oblige à séparer les deux lettres. Pour pouvoir écrire cœur correctement, il faut donc qu'un code spécifique existe pour la ligature. Ce problème a été corrigé avec ISO-8859-15 qui n'est pas encore officiellement adopté en tant que standard.

Pour certaines langues, le problème vient du fait que les polices de caractères sont très difficilement accessibles. Ainsi, les Estoniens, qui devraient écrire en ISO-latin-4 écrivent souvent soit avec l'ISO-latin-1 dans lequel il leur manque deux caractères soit avec l'ISO-latin-2 dans lequel il manque un caractère.

Enfin, il est très difficile de gérer un texte comportant plusieurs systèmes d'écriture. Les traitements de texte multilingues doivent jongler à la fois avec les différentes normes de codage et les polices associées. Bien sûr, si les textes sont produits et lus avec le même logiciel, il est toujours possible de créer son propre système de codage, mais dans le cas où les textes sont importés, il est indispensable de pouvoir gérer plusieurs normes de codage en même temps.




4 - UNICODE et SGML

La difficulté à gérer des applications multilingues, dans un contexte ou existent un grand nombre de normes différentes d'un pays à l'autre et parfois au sein d'un même pays, a conduit à l'idée d'un jeu de caractères dit universel, dans lequel la plupart des caractères permettant de transcrire les langues existantes serait codée : ISO-10646.


4.1 - UNICODE

Le standard ISO-10646, basé sur 32 bits, doit permettre, en théorie, de coder plus de deux milliards de caractères ; cela semble amplement suffisant pour tous les besoins auxquels ont pourrait penser ! Cet ensemble a été divisé selon un cube de 256 groupes de 256 plans de 256 colonnes. Les cellules ainsi définies contiennent, chacune, 256 caractères. Chaque plan est donc un ensemble codé sur 16 bits. Pour l'instant, seul le premier plan (plan 0), appelé Basic Multilingual Plane (BMP) est disponible. Il correspond, caractère pour caractère, au codage UNICODE. Le plan 1 devrait coder les caractères d'écritures anciennes et des symboles musicaux.

Le consortium UNICODE [5] a été créé en 1989 et il regroupe les plus importants acteurs industriels de l'informatique. Le système UNICODE est basé sur un codage 16 bits et peut donc contenir 65 536 caractères différents. 38 885 sont déjà codés et permettent de transcrire la plupart des langues écrites utilisées actuellement (UNICODE). Il a été intégré à la norme ISO-10646 en 1991 sous le nom ISO-10646-UCS-2 (UCS signifiant Universal Character Set).

Les 128 premiers codes de la table UNICODE correspondent au codage ASCII. Vient ensuite ISO-8859-1. Toutes les normes ISO-8859 sont incluses dans ce système. Pour les caractères idéographiques chinois, japonais et coréens, les normes existantes, qui définissaient plus de 120 000 idéogrammes différents ont été regroupées et simplifiées selon un schéma appelé "Unification Han" pour être ramenées à 20 992 signes.

Pour chaque entrée d'UNICODE, plusieurs informations sont disponibles comme le nom du caractère, le type de caractère (chiffre, lettre, ponctuation, les correspondances majuscules/minuscules, etc.), etc. En tout, il y a environ 50 informations par code, ce qui fait un système très lourd à gérer. La création de jeux réduits permet de limiter la taille des informations à la stricte utilité dans un cadre précis, tout en conservant la compatibilité avec l'ensemble. Ainsi, un jeu d'un peu plus de 4 000 caractères permettrait de coder toutes les langues européennes.


4.2 - Faut-il TOUT coder ?

La possibilité de coder plus de deux milliards de caractères laisse songeur... est-il vraiment utile de disposer de tous ces caractères ? A supposer qu'il y ait suffisamment de ressources humaines pour récolter tous les caractères existants, à quoi cela servirait-il ?

Prenons le cas des abréviations. Du IXe au XVe siècle, les scribes d'Europe utilisaient un très grand nombre d'abréviations ; Cappelli en recense 14 000, sans même prétendre à l'exhaustivité (cité dans Ponot, 1995). Cela représente déjà le tiers du nombre de caractères codés dans UNICODE ! Chacune de ces abréviations étant un signe à part entière, est-il judicieux de les coder dans un formalisme de type ISO-10646 ? Le travail serait colossal et ne trouverait son utilité que dans de très rares cas.

De plus, il est nécessaire de prévoir la possibilité d'entrer de nouveaux caractères rapidement. On a pu voir les difficultés liées à l'arrivée du sigle euro sur la scène européenne et mondiale. Les claviers ont été modifiés, des mises à jour des logiciels ont dû être faites, etc. Le système ISO-8859-15 réserve un code pour ce signe en plus de certains ajouts à l'ISO-8859-1 concernant des caractères accentués du français ou du finnois.


4.3 - Les entités SGML

Une solution consiste à utiliser les normes évolutives, en particulier celles issues de SGML [6] (Standard Generalized Markup Language) comme la TEI (Ide & Véronis, 1995). "SGML est un métalangage qui permet de créer un langage approprié à la description de classes de documents" (Cacaly et al., 1997, p. 529). La description des classes de documents est donnée dans les DTD (Définitions de Types de Documents). Une introduction détaillée de la norme SGML pourra être trouvée dans (Sperberg-McQueen & Burnard, 1994).

Ces normes, en plus de fournir un balisage du texte, permettent de définir, pour chaque document, une suite de caractères définissant une entité à laquelle peut être associée un ou plusieurs glyphes. Ainsi, pour un texte codé en ASCII, le caractère é sera codé &eacute;. Il pourrait être représenté par une autre suite, à condition que cela soit défini dans la DTD. Un exemple de ce type de codage se trouve dans les pages HTML de la Toile où, par exemple, le caractère < est codé &lg;.

Il est alors tout à fait possible de créer des codes d'échange particuliers entre des spécialistes d'un domaine. Par exemple, le codage des hiéroglyphes peut se faire à l'aide de ces entités. Une personne ne disposant pas du logiciel ou des polices associées à ces entités verra des suites du type &tyw;. D'ailleurs, si le nom de l'entité est correctement choisi, il est possible de déterminer à quel élément elle fait référence. Dans le cas présent, l'indication de la prononciation tyw permet de déterminer que l'idéogramme associé représente un oiseau.

La connaissance, par le rédacteur et le lecteur, de ces entités dans un système qui leur est propre mais qui est décrit dans la DTD, et l'utilisation d'interfaces dédiées permet d'associer une représentation graphique appropriée dans une police spécifique. Bien sûr, on pourrait se dire que l'utilisation des entités SGML permet de coder tout type de document et qu'il n'est donc pas nécessaire de développer une norme de codage des caractères du cyrillique. Mais, numériser un texte russe à l'aide d'entités est très lourd, chaque caractère de l'écriture cyrillique étant représenté à l'aide de plusieurs caractères ASCII. Il convient donc de coder de manière stricte les caractères les plus couramment utilisés (les hiéroglyphes feront d'ailleurs probablement l'objet d'un codage dans la norme ISO-10646), tout en laissant la liberté d'introduire des caractères spécifiques en utilisant des entités de type SGML. Il est d'ailleurs possible d'utiliser le système UNICODE pour coder un texte SGML et donc de profiter des avantages des deux systèmes.




5 - Internet et l'avenir des langues

Internet est né aux États-Unis à la fin des années 60 et s'appelait alors ARPANET [7]. Il s'agissait d'un réseau militaire auquel se sont adjoints des universités par la suite. La véritable explosion d'Internet ne s'est produite qu'au début des années 90. Les infrastructures et les normes utilisées sur la Toile portent encore largement la marque de son origine américaine. Cela implique de graves problèmes dans l'échange de textes entre les communautés non anglophones.


5.1 - La répartition de la population linguistique sur Internet

Le schéma suivant indique la répartition, en pourcentage, de la population linguistique sur Internet et dans le monde (G.I.S., 1999) ainsi que la répartition linguistique des sites (Babel, 1997) [8].

Répartition linguistique de la population mondiale, Internet et des documents présent sur la Toile

Langue

Population
mondiale

Population
Internet

Pourcentage
de sites

allemand

1,6

7,5

4

anglais

5,4

56,3

82,3

espagnol

5,6

7,7

1,1

français

1,2

3,9

1,5

japonais

2,1

7,8

1,6

autres

84,1

16,8

9,5

On voit très nettement que les proportions entre les communautés linguistiques ne sont absolument pas respectées quand on passe du monde réel à Internet. La prédominance des anglophones (56 %) sur la Toile est très nette. De plus, si l'on considère la représentation linguistique, non pas en population, mais en quantité de documents disponibles, les chiffres sont encore plus impressionnants (82 %).

Les différentes communautés linguistiques réagissent à cet état de fait plus ou moins fortement selon le poids qu'elles peuvent avoir dans les rapports internationaux et leur volonté politique. Néanmoins, l'importance d'une présence sur Internet semble reconnue par toutes les communautés actives. Malheureusement, la volonté seule ne suffit pas à permettre la création d'un univers linguistique virtuel. De nombreux problèmes existent qui font que la présence d'autres langues que l'anglais sur Internet ne se fait pas sans difficultés.


5.2 - La transmission des caractères sur Internet

Plusieurs protocoles sont utilisés sur Internet pour la communication des machines, l'aiguillage et le transfert de l'information. Les deux principaux sont I.P. (Internet Protocol) qui associe un numéro unique à une machine du réseau et T.C.P. (Transfer Control Protocol) qui gère la connexion entre deux machines. Tous ces protocoles sont parfaitement adaptés à la diffusion d'une information codée sur 8 bits [9] et tolèrent donc parfaitement la circulation d'autres langues que l'anglais.

Mais les problèmes surviennent dès qu'apparaît la notion de texte. Voyons quelques exemples de ces difficultés dans les trois services les plus utilisés sur Internet.

                  


5.3 - Les solutions existent

Certains prétendent que la présence des langues nationales tend à se faire de plus en plus faible par rapport à l'anglais sur Internet (Andries & Yergeau, 1995). D'autres affirment que le nombre de sites utilisant les langues nationales est en augmentation (Wehrli, 1996). Il est difficile de savoir comment vont évoluer les choses.

Néanmoins, il convient de rester vigilant et, surtout, de prendre les devants face à une situation qui pourrait devenir dramatique au fil des ans. Ainsi, Andries et Yergeau 1995) proposent 40 pistes pour augmenter la présence du français sur la Toile. Parmi celles-ci, 11 concernent la gestion des caractères, des langues, l'utilisation d'outils logiciels permettant un affichage correct des accents, les outils de recherche adaptés au français et l'augmentation des capacités des lignes de transfert de l'information dans les pays francophones.

La présence de toutes les communautés linguistiques sur Internet n'est donc pas simple. Pourtant, l'enjeu n'est rien moins que la survie de l'identité culturelle de ces communautés ! Il est important de refuser la marginalisation afin d'éviter la disparition.




6 - Conclusion

La façon d'aborder les problèmes de gestion des langues a changé depuis que le développement d'Internet a, en théorie du moins, rendu possible la diffusion de tous les systèmes d'écriture au niveau mondial. Aucune communauté linguistique ne peut admettre que la seule langue qui soit universellement acceptée par le réseau mondial soit l'anglais. Le respect des droits de l'individu tient aussi au respect de sa langue. De nombreux groupes se sont constitués afin d'améliorer les choses (W3C [13], IETF[14], TEI[15], etc.). Les solutions aux problèmes techniques du codage et de la transmission des langues par l'informatique existent. Encore faut-il avoir la volonté de les appliquer. Si ces difficultés subsistent encore, il faut plutôt chercher des raisons politiques, économiques, psychologiques ou sociales.

La mondialisation doit passer par la reconnaissance de la spécificité régionale sous peine de provoquer un rejet plus ou moins violent des groupes minoritaires. Ainsi, le respect de la culture linguistique doit faire partie de la nouvelle ère de l'information pour donner la possibilité à chaque communauté linguistique de s'exprimer dans sa langue sur les nouveaux médias. C'est particulièrement le cas pour les communautés linguistiques fortement minoritaires pour qui ce problème est devenu une question vitale.


          

Bibliographie

retour
ANDRÉ Jacques & GOOSSENS Michel (1995). "Codage des caractères : de l'ASCII à UNICODE et ISO/IEC-10646" [internet] <ftp://ftp.gutenberg.eu.org/pub/GUTenberg/publicationsPS/20-jamg.ps.gz>

retour
ANDRIES Patrick & YERGEAU François (1995). Augmenter la présence du français sur l'Internet : quarante pistes. Montréal (Canada) : Alis Technologies.

retour
BABEL (1997). Palmarès des langues de la Toile. [internet]. Consulté en septembre 1999. <http://www.isoc.org:8080/palmares.fr.html>.

retour
BNF (1998). L'Aventure des écritures. Dossiers pédagogiques. [internet]. Consulté en septembre 1999 <http://www.bnf.fr/web-bnf/pedagos/dossiecr/je-code.htm>.

retour
BRAND Guy (1997). Qu'est-ce que MIME ?. [internet]. Consulté en septembre 1999. <http://wwwchimie.u-strasbg.fr/membres/GB/MIME.html>.

retour
CACALY Serge, LE COADIC Yves, MELOT Michel, POMART Paul-Dominique & SUTTER Éric (1997). Dictionnaire encyclopédique de l'information et de la documentation. Paris : Nathan. 634 p. ISBN 2-09-190528-3.

retour
DUDL (1996). Déclaration universelle de droits linguistiques. [internet]. Consulté en septembre 1999. <http://www.indigo.ie/egt/udhr/udlr.html>.

retour
ETHNOLOGUE. [internet]. Consulté en septembre 1999. <http://www.sil.org/ethnologue>.

retour
GIS (1999). Global Internet Statistics (by language). [internet]. Consulté en septembre 1999. <http://www.euromktg.com/globstats/>.

retour
IDE Nancy & VÉRONIS Jean (éditeurs) (1995). The Text Encoding Initiative: Backgroud and Context. Dordrecht : Kluwer Academic Publishers.

retour
IMPRIMERIE NATIONALE (1990). Lexique des règles typographiques en usage à l'Imprimerie Nationale. Paris : Imprimerie nationale.

retour
LECOURS André-Roch (1996) "Les interactions entre le cerveau humain et les cultures langagières écrites". in Actes du colloque Le français et les langues scientifiques de demain. Montréal, Canada. pp. 111-127.

retour
PONOT René (1995). "Le Didot a-t-il besoin de ligatures ?". in Cahiers GUTenberg - numéro 22, septembre 1995 - Ligatures & caractères contextuels.

retour
ROUSSEAU Jean-Jacques (1817). Essai sur l'origine des langues. Réédition.

retour
SKUTNABB-KANGAS Tove. Linguistic genocide in education - wordlwide diversity or human rigths. à paraître.

retour
SPERBERG-McQUEEN C. M. & BURNARD Lou - éditeurs (1994). "A gentle introduction to SGML". Guidelines for Electronic Text Encoding and Interchange, P3. [internet]. Consulté en septembre 1999. <http://www-tei.uic.edu/orgs/tei/sgml/teip3sg/index.html>.

retour
UNICODE. [internet] <http://www.unicode.org/>.

retour
WALTER Henriette (1996). "L'évolution des langues de la communauté scientifique". in Actes du colloque Le français et les langues scientifiques de demain. Montréal, Canada. pp. 35-39.

retour
WERHLI Éric (1996). "Pour des inforoutes plurilingues". in Actes du colloque Le français et les langues scientifiques de demain. Montréal, Canada. pp. 319-323.




top Notes

1
Il ne faut pas confondre caractère et glyphe. André et Goossens 1995) définissent ainsi la différence entre les deux notions : "un caractère est une unité d'information utilisée pour coder un texte, alors qu'un glyphe est une forme géométrique (une collection homogène de telles formes constitue une police) utilisée pour représenter un texte". .

2
De nombreuses autres difficultés existent par rapport au traitement des différentes langues par des moyens informatiques :
- La création de claviers adaptés à chaque type de langue, tout en optimisant les coût est un problème difficile. Des projets sont en cours afin de créer des claviers permettant d'écrire la plupart des langues par combinaison de touches.
- La gestion de différents types d'écriture dans un même traitement de texte : par exemple, l'arabe ou l'hébreu s'écrivent de droite à gauche, mais si des chiffres ou des caractères latins sont insérés dans un texte arabe, il doivent être écris de gauche à droite. Certaines langues s'écrivent verticalement, d'autres en boustrophédon, etc. La configuration d'un logiciel adapté aux différentes langues est donc difficile. Néanmoins, dans la norme HTML 4.0, des attributs propres au sens d'écriture existent et permettent donc l'affichage de parties de textes s'écrivant dans des sens différents. Certains navigateurs gèrent déjà cet attribut.
- Le traitement de la ligature : on appelle ligature, le remplacement de n glyphes successifs par un seul. Le problème consiste à indiquer à la machine que l'on veut remplacer la succession de deux lettres par un signe correspondant à ces deux lettres liées entre elles. A part dans certains cas particuliers comme le français, on ne considère pas que la combinaison de deux lettres constitue un caractère à part entière.
- La gestion d'un ordre lexicographique spécifique à chaque langue. L'ordre lexicographique est essentiel à la recherche efficace d'une information, en particulier dans les dictionnaires et encyclopédies. Un tel ordre est dépendant de la langue.
- etc.

3
En informatique, toute information est codée à l'aide d'une suite de 1 ou de 0 (le courant passe ou ne passe pas). Cette information élémentaire est appelée bit, acronyme de Binary digIT. La combinaison de plusieurs informations élémentaires permet de coder des informations plus complexes. Le codage sur 7 bits permet de différencier 27, soit 128 éléments.

4
Les glyphes correspondant aux différents codes de ces normes sont visibles à l'adresse Internet suivante : <http://www.isoc.org:8080/codage/iso8859/jeuxiso.htm>.

5
<http://www.unicode.org>.

6
Un site consacré à SGML et XML se trouve à l'adresse Internet suivante : <http://www.oasis-open.org/cover/sgml-xml.html>.

7
Pour un historique détaillé et une étude plus approfondie d'Internet, on pourra consulter Histoire d'Internet : de la recherche scientifique au plus grand pays du monde de Stéphane Cottin & Pierre Mayeur à l'adresse <http://www.droitconstit.org/hilby.htm>.

8
Bien que la méthode employée par Babel comporte de nombreux points discutables (et discutés par les auteurs eux-mêmes), ces chiffres indiquent une très forte disparité entre la communauté anglophone et le reste du monde.

9
La diffusion correcte d'une information sur 8 bits permet de transmettre, de manière parfaite une information sur 16 bit (UNICODE) puisqu'il s'agit de la succession de deux informations 8 bits qui peuvent être correctement interprétées par le logiciel de lecture. Donc la gestion du transfert sur 8 bits règlerait tous les problèmes d'intégrité des textes dans une langue disposant d'un formalisme de codage quelconque.

10
Ce phénomène est dû à la configuration même du réseau. En principe, celui-ci devrait se présenter comme un réseau maillé où plusieurs chemins sont possibles d'un point à un autre afin d'augmenter la fiabilité du système. Mais, en fait, la structure réelle se présente plutôt sous la forme d'une étoile centrée sur les États-Unis. Ce phénomène est encore accentué par la rapidité du réseau américain par rapport aux autres réseaux mondiaux. Il est donc plus rapide de passer par cette voie, et les systèmes d'aiguillage font donc passer les données par les USA.

11
Certains mauvais esprits prétendent que WWW serait l'abréviation de Wait Wait Wait, du fait de la lenteur exaspérante qui est parfois celle d'Internet !

12
Les spécifications de HTML 4.0 du W3C peuvent être trouvées à l'adresse : <http://www.w3.org/TR/REC-html40-971218/>.

13
Le World Wide Web Consortium, < http://www.w3.org/>.

14
Internet Engineering Task Force <http://www.ietf.org/>.

15
Text Encoding Initiative <http://www.uic.edu/orgs/tei/>.


© "Solaris", nº 6, Décembre 1999 / Janvier 2000.