1 - ARCHITECTURE DE BASE DOCUMENTAIRE

1.1 - Éléments de terminologie
1.2 - Organisation générale
1.3 - Espace de mémorisation : les nœuds

Figure 2 - Document balisé Figure 3 - Localisateur
1.4 - Espace de structuration : les unités documentaires

Figure 5 - SL4399711-web
1.5 - Espace de structuration : les ancres

2 - INTÉGRATION DE DOCUMENTS SEMI-STRUCTURÉS

2.1 - Choix d’une représentation-pivot
2.2 - Réécriture
2.3 - Quelques références de systèmes

3 - UN LANGAGE DE MANIPULATION DE DOCUMENTS

3.1 - Construction d’un composant
3.2 - Indexation

Figure 11 - Index composés
3.3 - Filtrage
3.4 - Extraction
3.5 - Transformation d’un élément

4 - LANGAGES DE MANIPULATION DE DOCUMENTS ÉLECTRONIQUES

4.1 - Aperçu général
4.2 - Une approche actuelle : les langages d’interrogation du Web

5 - CONCLUSION

Bibliographie & annexes

Article de référence | Réf : H7248 v1

Architecture de base documentaire
Bases de données documentaires

Auteur(s) : Claude CHRISMENT, Jacques LE MAITRE, Florence SÈDES

Date de publication : 10 mai 2000 | Read in English

Pour explorer cet article
Télécharger l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !

Présentation

Auteur(s)

Claude CHRISMENT : Docteur ès sciences - Professeur d’informatique à l’université Toulouse III Paul-Sabatier
Jacques LE MAITRE : Habilité à diriger des recherches - Professeur d’informatique à l’université de Toulon et du Var
Florence SÈDES : Habilitée à diriger des recherches - Maître de conférences en informatique à l’université Toulouse II

Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.

Lire l’article

INTRODUCTION

Les applications dans le domaine documentaire reposent sur la fonction de mémorisation qui doit être intégrée à d’autres fonctionnalités autorisant l’exploration, la réutilisation partielle du contenu des documents mémorisés et parfois même leur restructuration. A titre d’exemple, on peut citer toutes les applications informatiques liées aux activités de test d’intégration et de maintenance d’objets structurés – assemblage de composants – qu’elles s’inscrivent dans un contexte de génie logiciel (composants logiciels), spatial (intégration de satellites : composants satellites), aérospatial (composants d’avions), etc. Généralement, les composants sont décrits dans des manuels de spécification qui doivent être repris (réutilisés, adaptés) dans le cadre des activités d’intégration, de test, de maintenance. Les problèmes liés à la multiplicité des sources de données hétérogènes se sont encore accrus avec l’essor du Web. Il est nécessaire de disposer d’outils d’intégration et de modèles pour avoir une vision abstraite et synthétique, et rendre accessibles et manipulables ces grands volumes de données constitués en véritables entrepôts.

La mise en œuvre de tels systèmes de gestion de documents électroniques nécessite généralement le recours aux systèmes de gestion de bases de données pour assurer les fonctions interdépendantes de mémorisation et d’accès aux informations. L’accès et la recherche d’informations dans les documents électroniques s’effectuent généralement selon trois modes. Le premier, essentiellement utilisé pour des données textuelles, consiste à rechercher une chaîne – plus généralement un motif – dans un texte : on le rencontre dans les systèmes de recherche d’informations qui mettent en œuvre des mécanismes d’indexation « en texte intégral » et d’appariement textuel. Le deuxième repose sur la connaissance a priori d’une structure totale définie sur les données manipulées : on le rencontre dans les systèmes de gestion de bases de données où il est mis en œuvre à travers le schéma de la base de données et un langage d’interrogation basé sur un ensemble fini d’opérateurs. Le troisième met en œuvre des mécanismes de balayage et de navigation sur des informations faiblement structurées. On le rencontre dans les systèmes hypertextes et en particulier sur le Web. Ces trois approches doivent être supportées par tout système de gestion de documents électroniques.

Le concept de document est associé à celui d’informations semi-structurées qui sont caractérisées par leur absence totale ou partielle de structure, depuis l’information tout à fait non structurée jusqu’à l’information semi-structurée, ainsi que leur hétérogénéité : multiplicité des formats, des formalismes, des structures, des types, des médias, etc. Les documents sont mémorisés dans un entrepôt, ou base documentaire, support à l’interrogation et à la manipulation, via des opérateurs d’indexation, filtrage, extraction. La modélisation de toute base documentaire se doit d’être générique, évolutive, indépendante du niveau de granularité des unités documentaires et des normes de représentation.

La première partie de cet article présente l’architecture de la base documentaire. Dans cette section, il convient de bien positionner le concept de structure attaché aux objets documentaires mémorisés dans la base documentaire par rapport à la structure de la base elle-même (concept de schéma dans les bases de données). Dans la deuxième partie, compte tenu des spécificités de l’approche documentaire (notamment l’hétérogénéité), les caractéristiques du processus d’intégration de documents semi-structurés dans la base doivent être explicitées. La troisième partie aborde la manipulation de documents au travers d’opérateurs sous-tendus par les fonctionnalités d’un langage générique. Nous avons adopté cette approche pour rendre notre présentation indépendante de la syntaxe d’un langage spécifique et avoir une couverture fonctionnelle élargie. La dernière partie donne un bref aperçu des langages d’interrogation et de manipulation, parmi les plus représentatifs.

Cet article est réservé aux abonnés.
Il vous reste 93% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !

L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.

+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.

De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

DOI (Digital Object Identifier)

https://doi.org/10.51257/a-v1-h7248

Cet article fait partie de l’offre

Documents numériques Gestion de contenu

(68 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Lecture en cours
Présentation

Page
suivante

Intégration de documents semi-structurés

1. Architecture de base documentaire

1.1 Éléments de terminologie

Les fonctions d’accès et de recherche de documents reposent sur la représentation fournie par la fonction de mémorisation. Cette représentation correspond à une métastructure indépendante des caractéristiques de l’ensemble des documents à mémoriser, qui disposent eux-mêmes de leur propre structure.

Dans le contexte des bases documentaires, le concept de structure est fondamental compte tenu des multiples structures que l’on peut attacher à un document : physique, logique, sémantique, syntaxique, graphique, temporelle, hypertextuelle, linguistique, rhétorique, structures du discours, de présentation… De façon informelle, un document est considéré comme un assemblage d’éléments (fragments de documents) étiquetés, éventuellement typés, désignés par le vocable « unités documentaires ». Cet assemblage respecte un certain nombre de règles et contraintes, qui peuvent être encapsulées au sein d’une grammaire. C’est cet assemblage qui correspond au concept de structure. Sa spécification dépend du contexte imposé par l’application documentaire.

Il est fréquent de rencontrer des documents avec des structures similaires, et l’on parle dans ce cas de structure générique partagée par l’ensemble de ces documents. Par ailleurs, si l’on considère un document particulier, il est toujours possible d’affiner sa structure générique en décomposant ses unités documentaires. On construit donc une nouvelle structure plus fine, qui sera qualifiée de structure spécifique par rapport à la structure à partir de laquelle elle a été générée.

Par opposition aux approches bases de données – relationnelles ou objets – dans lesquelles on établit un schéma exhaustif auquel les données doivent adhérer, dans le domaine des bases documentaires on est tenu d’autoriser des données sans format : on parle dès lors d’informations semi-structurées, pour lesquelles aucune structure générique n’est connue a priori, et qui sont au contraire auto-descriptives, c’est-à-dire à structure incluse. Alors que la formulation de requêtes dans un environnement base de données se fait en fonction du schéma (structure générique qui contraint les données), dans un environnement d’objets documentaires, les requêtes sont formulées sur...

Cet article est réservé aux abonnés.
Il vous reste 93% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !

L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.

+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.

De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

Cet article fait partie de l’offre

Documents numériques Gestion de contenu

(68 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Lecture en cours
Architecture de base documentaire

Page
précédentePrésentation

Page
suivante

Intégration de documents semi-structurés

ANNEXES

1 Annexe : Exemples de requêtes
2 Références bibliographiques
3 Quelques sites de références pour les langages d’interrogation

1 Annexe : Exemples de requêtes

Cette illustration est basée sur la formulation de requêtes sur un document exemple en SgmlQL.

Document exemple (figure 1 et localisateur correspondant)
Nota :
- - Les caractères sont volontairement mis sous leur forme non accentuée afin d’éviter tout problème de format (cf. filtre d’élimination des accents § 2.2).
  - Pour plus de lisibilité, dans le localisateur, nous avons intégré le contenu des unités documentaires entre les balises d’identification.

Requêtes

Q1. Titre du document

Nota :
ceci suppose que chaque unité documentaire (UD) a un titre, et que le premier titre rencontré dans une UD est celui de l’UD : le premier titre rencontré dans le document est celui du document ; idem pour la section, le chapitre…

first TIT within $doc ;

Réponse : <TIT> SgmlQL: un langage de requetes pour la manipulation de documents SGML</TIT>

Q2. Contenu du titre de doc (restitué sans les balises)

Nota :
l'opérateur text s'applique à une unité documentaire et retourne une chaîne qui est le contenu de l'UD sans trace de balisage : il concatène les feuilles dont l'UD est racine (sans...

Cet article est réservé aux abonnés.
Il vous reste 94% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !

L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.

+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.

De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

Cet article fait partie de l’offre

Documents numériques Gestion de contenu

(68 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Architecture de base documentaire Bases de données documentaires

Auteur(s)

INTRODUCTION

Cet article est réservé aux abonnés.Il vous reste 93% à découvrir.

L'expertise technique et scientifique de référence

DOI (Digital Object Identifier)

1. Architecture de base documentaire

Cet article est réservé aux abonnés.Il vous reste 93% à découvrir.

L'expertise technique et scientifique de référence

ANNEXES

Cet article est réservé aux abonnés.Il vous reste 94% à découvrir.

L'expertise technique et scientifique de référence

Architecture de base documentaire
Bases de données documentaires

Cet article est réservé aux abonnés.
Il vous reste 93% à découvrir.

Cet article est réservé aux abonnés.
Il vous reste 93% à découvrir.

Cet article est réservé aux abonnés.
Il vous reste 94% à découvrir.