Présentation
EnglishAuteur(s)
-
Claude CHRISMENT : Docteur ès sciences - Professeur d’informatique à l’université Toulouse III Paul-Sabatier
-
Jacques LE MAITRE : Habilité à diriger des recherches - Professeur d’informatique à l’université de Toulon et du Var
-
Florence SÈDES : Habilitée à diriger des recherches - Maître de conférences en informatique à l’université Toulouse II
Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.
Lire l’articleINTRODUCTION
Les applications dans le domaine documentaire reposent sur la fonction de mémorisation qui doit être intégrée à d’autres fonctionnalités autorisant l’exploration, la réutilisation partielle du contenu des documents mémorisés et parfois même leur restructuration. A titre d’exemple, on peut citer toutes les applications informatiques liées aux activités de test d’intégration et de maintenance d’objets structurés – assemblage de composants – qu’elles s’inscrivent dans un contexte de génie logiciel (composants logiciels), spatial (intégration de satellites : composants satellites), aérospatial (composants d’avions), etc. Généralement, les composants sont décrits dans des manuels de spécification qui doivent être repris (réutilisés, adaptés) dans le cadre des activités d’intégration, de test, de maintenance. Les problèmes liés à la multiplicité des sources de données hétérogènes se sont encore accrus avec l’essor du Web. Il est nécessaire de disposer d’outils d’intégration et de modèles pour avoir une vision abstraite et synthétique, et rendre accessibles et manipulables ces grands volumes de données constitués en véritables entrepôts.
La mise en œuvre de tels systèmes de gestion de documents électroniques nécessite généralement le recours aux systèmes de gestion de bases de données pour assurer les fonctions interdépendantes de mémorisation et d’accès aux informations. L’accès et la recherche d’informations dans les documents électroniques s’effectuent généralement selon trois modes. Le premier, essentiellement utilisé pour des données textuelles, consiste à rechercher une chaîne – plus généralement un motif – dans un texte : on le rencontre dans les systèmes de recherche d’informations qui mettent en œuvre des mécanismes d’indexation « en texte intégral » et d’appariement textuel. Le deuxième repose sur la connaissance a priori d’une structure totale définie sur les données manipulées : on le rencontre dans les systèmes de gestion de bases de données où il est mis en œuvre à travers le schéma de la base de données et un langage d’interrogation basé sur un ensemble fini d’opérateurs. Le troisième met en œuvre des mécanismes de balayage et de navigation sur des informations faiblement structurées. On le rencontre dans les systèmes hypertextes et en particulier sur le Web. Ces trois approches doivent être supportées par tout système de gestion de documents électroniques.
Le concept de document est associé à celui d’informations semi-structurées qui sont caractérisées par leur absence totale ou partielle de structure, depuis l’information tout à fait non structurée jusqu’à l’information semi-structurée, ainsi que leur hétérogénéité : multiplicité des formats, des formalismes, des structures, des types, des médias, etc. Les documents sont mémorisés dans un entrepôt, ou base documentaire, support à l’interrogation et à la manipulation, via des opérateurs d’indexation, filtrage, extraction. La modélisation de toute base documentaire se doit d’être générique, évolutive, indépendante du niveau de granularité des unités documentaires et des normes de représentation.
La première partie de cet article présente l’architecture de la base documentaire. Dans cette section, il convient de bien positionner le concept de structure attaché aux objets documentaires mémorisés dans la base documentaire par rapport à la structure de la base elle-même (concept de schéma dans les bases de données). Dans la deuxième partie, compte tenu des spécificités de l’approche documentaire (notamment l’hétérogénéité), les caractéristiques du processus d’intégration de documents semi-structurés dans la base doivent être explicitées. La troisième partie aborde la manipulation de documents au travers d’opérateurs sous-tendus par les fonctionnalités d’un langage générique. Nous avons adopté cette approche pour rendre notre présentation indépendante de la syntaxe d’un langage spécifique et avoir une couverture fonctionnelle élargie. La dernière partie donne un bref aperçu des langages d’interrogation et de manipulation, parmi les plus représentatifs.
DOI (Digital Object Identifier)
Cet article fait partie de l’offre
Documents numériques Gestion de contenu
(76 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive
Présentation
3. Un langage de manipulation de documents
La problématique de la recherche d'informations dans les bases d'objets documentaires peut être abordée selon différentes facettes, essentiellement liées à deux contextes que l’on a l’habitude d’opposer, qui sont celui des bases de données et celui des systèmes de recherche d'information (SRI).
Le premier se caractérise par une recherche d'informations qui s'effectue via des langages de requêtes de type SQL/OQL [4], relativement complexes à appréhender à cause de leur degré d'abstraction. Les documents manipulés doivent se conformer au mieux à une structure rigide encapsulée dans le schéma de la base de données. L'interrogation de document(s) structuré(s), en général stockés dans des SGBD(R/OO), est elle aussi contrainte, dans ce contexte, par la spécification d'un schéma vérifié par données et requêtes, ainsi que par la correspondance exacte entre requêtes et valeurs retournées.
Le second, celui des SRI, concerne les bases textuelles dont la structure est moins fortement, voire pas du tout explicitée, ce qui rend difficile toute interprétation sémantique afin de l'exploiter dans le processus de formulation de requêtes. L'interrogation de type SRI se fait en effet à partir de requêtes en langage (pseudo) naturel, après indexation « texte intégral », par recherche de mots-clés et appariement textuel reposant sur des lexiques ou thesaurus. Les documents répondant, même partiellement, à la requête sont rangés par degré de similitude décroissant avec celle-ci.
Dans ces deux contextes, les recherches nécessitent une localisation ponctuelle d'un point d'entrée (via une requête SQL ou une requête sous forme de liste de mots-clés) suivie d'un parcours par navigation.
Comme nous l’avons montré dans la première partie de cet article, les documents font référence à un modèle de données ayant des propriétés spécifiques des modèles relationnel [3] et objet [2], notamment à travers les structures d’arbres (description hiérarchique) et de réseaux (liens de référence). Il est donc naturel que l’on cherche à étendre SQL ou OQL pour ce type de modèle. L’objectif de cette partie est de présenter l'extension du langage SQL pour manipuler des documents électroniques, au travers d’un langage fictif appelé DQL (Document Query Language), ainsi que d'exposer des éléments sur les tendances actuelles de ces familles de langages.
Le...
Cet article fait partie de l’offre
Documents numériques Gestion de contenu
(76 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive
Un langage de manipulation de documents
ANNEXES
1 Annexe : Exemples de requêtes
Cette illustration est basée sur la formulation de requêtes sur un document exemple en SgmlQL.
-
Document exemple (figure 1 et localisateur correspondant)
Nota :-
-
Les caractères sont volontairement mis sous leur forme non accentuée afin d’éviter tout problème de format (cf. filtre d’élimination des accents § 2.2).
-
Pour plus de lisibilité, dans le localisateur, nous avons intégré le contenu des unités documentaires entre les balises d’identification.
-
-
-
Requêtes
Q1. Titre du document
Nota :ceci suppose que chaque unité documentaire (UD) a un titre, et que le premier titre rencontré dans une UD est celui de l’UD : le premier titre rencontré dans le document est celui du document ; idem pour la section, le chapitre…
first TIT within $doc ;
Réponse : <TIT> SgmlQL: un langage de requetes pour la manipulation de documents SGML</TIT>
Q2. Contenu du titre de doc (restitué sans les balises)
Nota :l'opérateur text s'applique à une unité documentaire et retourne une chaîne qui est le contenu de l'UD sans trace de balisage : il concatène les feuilles dont l'UD est racine (sans...
Cet article fait partie de l’offre
Documents numériques Gestion de contenu
(76 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive