[Help] [Aide] [Up]

Science Tribune - Article - Août 1998

http://www.tribunes.com/tribune/art98/abdel.htm

Traitement automatique de l'information et désambiguisation



M. Abd El Kader

Laboratoire Stratégie et Technologie, Ecole Centrale de Paris, Grande Voie des Vignes, Châtenay-Malabry 92295, France.


L'information est au centre des activités humaines depuis toujours. Mais dans les sociétés modernes le développement accéléré de ces activités, leur extension et leur interconnexion à l'échelle de la planète, augmentent le volume de l'information à un niveau jamais atteint, et imposent à sa circulation un rythme critique.

Aucun secteur d'activité n'est epargné; toutes les professions doivent faire face à cette situation et trouver le temps et les moyens pour gérer l'énorme masse d'informations qui est indispensable à leur développement. Qu'il s'agisse du médecin, des hommes de la technique ou de l'économie, ... et même des scientifiques, quel est le professionnel qui peut prétendre maîtriser ne serait-ce que l'information qui touche directement, et spécifiquement, son travail?


De l'information manuelle au traitement automatique de l'information par ordinateur

Jusqu'à une date récente, le traitement de cette information était essentiellement manuel, et le support materiel principal était le papier. Le passage progressif à un support électronique n'a pour l'instant que peu modifié son traitement. Chacun reste confronté à une masse d'informations brutes, dont le traitement lui incombe complètement, et qu'il ne peut absorber, faute de temps suffisant .

La seule solution possible à cette situation est le traitement automatique de l'information par ordinateur. Naturellement, de nombreuses recherches sont en cours, et des applications spécifiques résolvant en partie ce problème existent déjà dans un certain nombre de domaines (traduction automatique, linguistique automatique, bases de données, traitement élaboré de l'information, veille technologique, bibliométrie, etc).

Nous pensons qu'une approche plus générale de ce problème doit être développée. Il n'y a pas seulement un problème technique à resoudre. Il y a une rupture avec la conception même que nous avons de l'information, de ses formes, et plus profondément de son support (ou vecteur) principal jusqu'à maintenant: le langage naturel. Les réflexions qui suivent sont developpées dans cette perspective. Nous nous limitons à l'analyse de l'information écrite.


Ce que l'ordinateur doit et peut faire

Ce qu'attend généralement l'utilisateur du traitement automatique de l'information, c'est un ensemble de résultats qu'on peut résumer ainsi:

- une synthèse de l'information en cours, mettant en valeur les thèmes principaux et leur mise en perspective par rapport au déjà connu (évolution, nouveautés);

- la possibilité d'accéder aisément aux détails de chaque thème traité;

- et, subsidiairement, la réponse à des questions relatives aux résultats précédents.

Les formes sous lesquelles on attend généralement ces résultats - textes synthétiques, tables des sommaires, graphiques ou tableaux commentés, fiches detaillées, etc - sont des reproductions du traitement 'manuel', que chaque professionnel connait quand il fait lui-même le travail. Cela sous-entend que l'on garde le même vecteur pour l'information - le langage naturel - et, conséquemment, des procédures de traitement analogues à celles qu'utilise le cerveau. Autrement dit, on attend implicitement que l'ordinateur singe l'homme. Or l'ordinateur n'est qu'un outil, et tout outil intelligemment conçu ne doit pas fonctionner comme son créateur. Imaginez une voiture qui pour se déplacer imiterait la marche de l'homme!

Le cerveau humain, est le créateur, le support et le destinataire du langage; les spécificités et la complexité de l'un se traduisent dans les caractéristiques fluctuantes et ambigues de l'autre; seul un cerveau humain peut débrouiller les difficultés et les subtilités du langage naturel. Ces difficultés et subtilités, qui constituent une richesse (1), ne peuvent être transposées telles quelles dans l'ordinateur. Celui-ci est bête et obtu; son langage ne soufre aucune ambiguité et se bloque à chaque incertitude.

En outre, le langage humain n'a pas que des avantages. Il est linéaire et sequentiel (les organes de l'ouïe et de la parole, par lesquels passe le langage, ne fonctionnent pas autrement (a)), alors que les réalités qu'il décrit sont généralement de nature multidimensionnelle.

Et l'ordinateur n'a pas que des infériorités, car il n'est pas limité par la linéarité; au contraire son organisation et ses modes de calcul se prêtent tout particulièrement aux traitements multidimensionnels, sans compter ses capacités de mémoire et de rapidité de calcul pratiquement illimitées, comparées à celles de l'homme.

Il résulte de ceci que pour réaliser les objectifs indiqués plus haut, à savoir transformer une masse d'informations en vrac, en information à la fois synthétique et analytique, mise en perspective et evaluée grâce à l'information traitée accumulée, le traitement automatique doit être tout autre chose que le traitement manuel.


Les formes de l'information en vrac

L'information écrite se présente sous des formes extrêmement variées: textes (textes en langage naturel, textes structurés,...), données (données brutes, données élaborées, bases de données, ...), graphiques, dessins, codes, etc. Les documentalistes classent ces formes en information primaire, secondaire, tertiaire, etc, mais, pour simplifier, nous allons retenir deux formes générales:
- l'information non traitée,
- et l'information structurée.
L'information non traitée est l'information 'brute', telle que l'informateur à la source la formule, généralement en langage naturel, et telle qu'on la trouve, par exemple, dans les journaux ou sur Internet; c'est 1e cas de ce texte même.

Nous avons fait allusion plus haut aux difficultés du langage naturel, qui font l'objet de nombreuses recherches en linguistique (1). Ces difficultés ne permettent pas encore un traitement automatique direct et fiable de l'information brute. Nous la laissons de côté pour l'instant; nous y reviendrons en conclusion.

Nous allons examiner l'autre type d'information, l'information brute sur laquelle un travail minimum de débroussaillage a été effectué, soit à la source, soit par un informateur intermédiaire, qui a ordonné et structuré les éléments constitutifs de l'information jusqu'à un certain degré. Nous prenons un exemple bien connu, sur lequel de nombreux travaux ont déjà donné des résultats significatifs: les bases - ou banques - de données bibliographiques.


Caractéristiques des bases de données bibliographiques

L'information des bases de données bibliographiques a l'avantage d'être parfaitement définie et même normalisée (b). L'information brute, d'où elle est issue, est constituée par des articles, ou d'autres textes, de journaux specialisés tels que les revues scientifiques. Cette information est fragmentée, classée, répartie en rubriques, et enchassée dans une structure préétablie (la notice bibliographique). Parmi ces rubriques, éléments de cette structure, nous trouvons les auteurs, leurs laboratoires et adresses, les titres et résumés d'articles, les titres des journaux analysés, etc.

En quoi cette information structurée est plus apte au traitement automatique que l'information non traitée? La réponse se trouve dans les caractéristiques de la structuration.


Structuration des bases de données bibliographiques

Une notice bibliographique est l'ensemble de zones 'homogènes', chaque zone est destinée à une rubrique, dont les entités sont de même nature (auteurs, laboratoires, titres, etc). Des liens implicites ou explicites existent entre ces entités: deux auteurs signant ensemble un article établissent un lien de cosignature entre eux; mais il y une quantité d'autres liens que la structure génère: liens à deux ou à plusieurs entre entités différentes; exemples: lien d'appartenance d'un ou plusieurs auteurs à un laboratoire, lien de ce dernier avec un pays (entité contenue dans l'adresse), etc. Enfin, des liens existent entre notices différentes, dans la mesure où celles-ci recèlent les mêmes entités.

Ainsi la structuration ici a deux caractéristiques:

- elle isole dans le texte initial, indifferencié (pour l'ordinateur), des entités à plusieurs niveaux: la notice qui correspond à l'article, les rubriques qui correspondent à des entités plus ou moins complexes (qu'on peut à nouveau structurer en sous-rubriques: le pays, la ville, .. dans l'adresse; les mots-clés dans le résumé ou le titre, etc). Cette différentiation n'est autre qu'une première désambiguisation, puisqu'elle permet d'identifier automatiquement des entités utiles à la compréhension du texte.

- cette première désambiguisation entraîne l'identification de liens entre les entités qui ont été isolées: liens entre l'ensemble des entités identifiées, à chaque niveau de la structure et entre les niveaux. L'identification de ces liens est une deuxième désambiguisation, qui permet par exemple de savoir automatiquement quel auteur a écrit quel article et avec quel(s) autre(s) auteur(s).

Ces deux caractéristiques permettent donc à l'ordinateur de fournir à l'utilisateur des bases bibliographiques une série d'informations désambiguisées liées à la structure choisie (c'est cette possibilité qui est utilisée par les divers logiciels d'interrogation des bases de données). Mais, d'une part, ces informations ne constituent qu'une très faible partie de l'ensemble de l'information contenue dans les articles et, d'autre part, ces informations ne sont pas complètement désambiguisées (homonymie des auteurs, polysémie des mots-clés, etc).


Désambiguisation par comparaison des liens

L'existence d'entités definies et de liens entre elles permet de poursuivre la désambiguisation. Pour lever l'homonymie des auteurs, la comparaison des entités qui leur sont associées (laboratoire, pays, mots-cles, etc), permet généralement de vérifier si, par exemple, les Dupond JF et Dupond J qui ont successivement signé 3 et 2 articles, sont membres ou non du même laboratoire.

Cette méthode de désambiguisation par comparaison des liens, n'est qu'une application de l'aphorisme "dis moi qui tu fréquentes, je te dirai qui tu es", pris dans son sens le plus large. On peut la généraliser pour poursuivre la désambiguisation à un autre niveau.

Si nous considérons l'ensemble des 'individus' appartenant à une entité (les auteurs, les laboratoires, etc) et comparons leurs liens mutuels, nous pouvons les séparer en groupes distincts tels, qu'un individu quelconque d'un groupe n'ait aucun lien avec les individus des autres groupes. Dans le cas des auteurs, par exemple, nous aboutissons à des groupes d'auteurs d'une même specialité scientifique n'ayant pas de liens avec les autres groupes (2). Nous isolons sur un critère (ici la cosignature) de nouvelles entités (specialités scientifiques) qui fournissent une autre possibilité de représentation de l'information initiale.


Méthodes de désambiguisation par comparaison des liens

L'application généralisée de ces procédures de désambiguisation permet d'aboutir à un système d'entités de complexité croissante reparties sur plusieurs niveaux, ayant des liens à chaque niveau et entre niveaux.

Pour effectuer ces procédures, l'information initiale sous forme de notices, constituant une chaîne séquentielle, aura été éclatée en autant de fichiers que d'entités présentes dans la structure des notices. Cet ensemble structuré et normalisé peut être alors importé dans une base de données relationnelle; ce qui
- d'une part signifie que chaque entité peut être associée à un système de tables, ou sous une autre forme, à un ensemble de matrices, explicitant l'ensemble des liens internes et externes de cette entité. Ainsi, une information linéaire et séquentielle aura été transformée en information éclatée et sous forme multidimensionnelle (3) (4).
- d'autre part, implique, puisque que l'information est en flux continu, que l'information en cours pourra être confrontée et comparée à l'information accumulée et déjà traitée, pour en apprécier l'évolution et la nouveauté.


L'utilisation des bases bibliographiques relationnelles

Une structure de ce type rassemble l'information initiale sous forme éclatée puis restructurée, sur la base des liens réels, explicites ou implicites, qui existent entre les entités désambiguisées. Certaines de ces bases fonctionnent en 'hypertexte' (3). Ce fonctionnement transforme les textes de l'information initiale en une sorte de 'dictionnaire' ce qui, bien que supérieur au traitement manuel, n'en est que le prolongement. La logique du traitement automatique doit être poussée jusqu'au bout, de façon à exploiter au maximum les possibilités de l'ordinateur. Il faut donc utiliser l'ensemble des liens materialisés. Cela peut se faire notamment à travers:
- des logiciels d'interrogation de la base relationnelle (pour l'analyse detaillée des informations stockées),
- des logiciels de traitement multidimensionnel des matrices (synthèses des divers aspects de cette information).


Traitement automatique de l'information mise sous forme matricielle

Cette information se prête par sa nature aux traitements à caractere multidimensionnel. Les méthodes utilisées dans ces traitements ont déjà fourni des résultats significatifs dans de nombreux domaines, et ce champ de recherche est en plein developpement. Il n'est pas utile ici de les aborder, mais il faut souligner que les formes dans lesquelles l'information initiale est mise par ces traitements sont différentes de ce que le cerveau a l'habitude d'appréhender, et qu'il y a nécéssité pour lui d'une adaptation et d'un apprentissage.

Qu'apporte ces traitements par rapport à l'information initiale? La forme linéaire et séquentielle de celle-ci, et sa longueur, ne permettent pas l'appréhension de l'information dans sa totalité par notre cerveau. L'analyse multidimentionnelle le permet, en presentant un tableau synthétique (cartes, reseaux,..), ou chaque entité est située par rapport aux autres en fonction de l'ensemble des liens existant entre elles. Si nous reprenons l'exemple des auteurs, il est possible, dans un domaine spécifique, de les représenter en un tableau synthétique par spécialités et en réseau, explicitant le role de chacun dans sa spécialité (2) (3).


Conclusion

Ce que nous avons voulu montrer à travers l'exemple des bases bibliographiques, c'est l'ébauche d'une nouvelle conception de l'information et de ses formes, par l'utilisation de l'outil nouveau, l'ordinateur. Le langage naturel y est remplacé par un langage formé d'entités définies de manière univoque, et d'un ensemble complexe de liens entre entités: liens internes à chaque entité, et liens entre entités de divers niveaux. Ce langage permet, dans une première phase de traitement, de lever les ambiguités issues de l'information initiale, par des techniques de désambiguisation comparant les entités à travers leurs liens. Cette première phase permet au langage désambiguisé de s'exprimer, non pas linéairement, à l'image du langage naturel, mais sous forme multidimensionnelle, soit analytiquement pour répondre à des requêtes que traite un logiciel d'interrogation, soit synthétiquement par le traitement multidimensionnel.

Naturellement, il s'agit plus ici de souligner l'émergence de ces nouvelles conceptions et démarches, de montrer la nécéssité d'une rupture par rapport à la conception habituelle que nous avons, que de résoudre le problème soulevé dans l'introduction. Nous avons étudié, à titre indicatif, une forme relativement simple de l'information (les bases de données structurées) mais c'est le problème de comment aborder l'information 'brute' présente dans le langage naturel qui pose le plus de difficultés.

Ce qui est suggéré le long de ce texte, c'est que la question préalable est: dans quel langage devons-nous 'traduire' le langage naturel et non pas par quelle méthode. Si nous restons dans le cadre mental du langage naturel, nous continuerons à fabriquer un langage à l'usage du cerveau. Pour être plus brutal, disons qu'il ne s'agit pas d'aménager le langage naturel, mais de le 'casser', et de reconstituer sur des critères appropriés, un nouveau langage à l'usage de l'ordinateur, en respectant ses capacités.


Notes

(a) En dehors du langage, l'oreille peut fonctionner en multidimensionnel, notamment en musique.

(b) La norme MARC (Bibliothèque du Congrès des Etats-Unis) définit un format bibliographique.


Références

1. Numéro consacré à l'ambiguité linguistique, Bulag, 21, 1995-96, Université de Franche-Comté, Centre Lucien Tesnière.

2. Le Couadic YF. La science de l'information, 1994, PUF.

3. Abd-El-Kader M, Miquel JF, Paul A, Doré JC. Une méthode d'analyse des thèmes et réseaux de la coopération scientifique nationale et internationale sur les céramiques dans la base SCI, In: Les systèmes de l'information élaborée, Ile Rousse, 9-11 juin 1995.

4. Abd-El-Kader M, Ojasoo T, Miquel JF, Okubo Y, Doré JC. Hierarchical author networks: An analysis of European Molecular Biology Laboratory (EMBL) publications.Scientometrics 42, 405-421, 1998.


[Up]