Présentation
Auteur(s)
-
Philippe LEFÈVRE : Ingénieur ESE - Direction des Études et Recherches d’EDF
Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.
Lire l’articleINTRODUCTION
L’invention du procédé d’impression typographique par Gutenberg vers 1440 a transformé radicalement notre société par une diffusion plus large et plus rapide des connaissances. L’avènement actuel des réseaux et la dématérialisation de l’information, qui devient électronique et numérique, constituent une révolution de même importance.
Le rêve d’un monde sans papier, qui hante les professionnels de l’informatique et de la documentation depuis bientôt quatre décennies, semble sur le point de devenir une réalité : on ne peut plus ouvrir une revue informatique sans y trouver plusieurs articles sur Internet, les bases de données en ligne, les CD-ROM... L’information est devenue aujourd’hui omniprésente, et sa maîtrise est considérée comme un facteur essentiel de réussite. Or cette information est constituée à 80 % de données textuelles. Les connaissances, qu’elles soient techniques, scientifiques, historiques, économiques, juridiques, médicales... sont en majorité mémorisées et véhiculées par des textes. Celles qui ont été publiées récemment sont directement accessibles sous forme électronique. Par contre, la majorité du patrimoine culturel et technique de l’humanité n’est encore disponible que sous forme de documents papier. Les entreprises et les collectivités sont ainsi confrontées à un besoin énorme de retraitement, dit aussi conversion rétrospective, pour passer à un format électronique.
Ce besoin, en plus du défi de faire lire l’ordinateur comme un être humain, a motivé de nombreuses études depuis les années 1960. Elles ont produit de multiples logiciels de reconnaissance de caractères. Les résultats ont souvent été décevants, car la complexité du problème avait été largement sous-estimée au départ, et les puissances informatiques nécessaires à l’accomplissement d’une telle tâche avec une productivité suffisante ne sont disponibles que depuis peu.
DOI (Digital Object Identifier)
Cet article fait partie de l’offre
Documents numériques Gestion de contenu
(76 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive
Présentation
7. Reconnaissance industrielle et voies d’évolution
L’existence sur le marché de logiciels bureautiques performants et peu onéreux, comme Omnipage, TextBridge ou Fine Reader peut faire croire qu’il n’y a plus rien à étudier dans le domaine de la reconnaissance des documents imprimés. En réalité, ces logiciels commerciaux ne répondent qu’à une fraction des besoins : la reconnaissance de documents assez simples, d’un nombre de pages limité (quelques dizaines), sans prise en compte de la structuration, avec un taux d’erreur non contrôlé...
La problématique de la conversion rétrospective industrielle fait ressortir des exigences bien supérieures sur plusieurs points :
-
documents techniques très complexes, incluant des tableaux, des formules mathématiques et chimiques, des schémas et graphiques... ;
-
applications mettant en jeu des volumes de plusieurs millions de pages ;
-
documents fortement structurés, dont la conversion nécessite la prise en compte de cette structure ;
-
taux d’erreurs garantis pour certaines applications : la norme en édition est de moins d’un caractère en erreur sur 10 000 ; pour certaines applications critiques (nomenclatures d’une centrale nucléaire ou d’un avion), le zéro erreur est exigé.
Un logiciel comme PRASAD [2] est un élément de réponse aux exigences de reprise industrielle, mais ne résoud pas encore tous les problèmes.
Les voies de recherche et d’amélioration sont les suivantes :
-
garantie du taux de reconnaissance et balisage des erreurs possibles ;
-
reconnaissance des fontes utilisées dans les textes ;
-
reconnaissance des textes de qualité très dégradée ;
-
localisation et reconnaissance des formules mathématiques ;
-
reconnaissance des tableaux : structure et contenu ;
-
reconnaissance de la structure logique des documents : utilisation de modèles, aide à la constitution de ces modèles...
Certains travaux de...
Cet article fait partie de l’offre
Documents numériques Gestion de contenu
(76 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive
Reconnaissance industrielle et voies d’évolution
BIBLIOGRAPHIE
-
(1) - VAN HERWIJNEN (E.) - Practical SGML. - Kluwer Academic Publishers (1992).
-
(2) - LEFÈVRE (P.), FELTER (C.), LOBBRECHT (P.) - Reconnaissance de documents : passage du document papier à l’information électronique. - Revue Epure, EDF Direction des Études et Recherches no 58 (1998).
-
(3) - DREYFUS (J.), RICHAUDEAU (F.) - La chose imprimée. - Retz (1985).
-
(4) - INGOLD (R.) - Structures de documents et lecture optique : une nouvelle approche. - Presses polytechniques romandes (1990).
-
(5) - SGML-ODA : Présentation des concepts et comparaison fonctionnelle. - Afnor (1991).
-
(6) - JACNO (M.) - Anatomie de la lettre. - Compagnie française d’éditions (1978).
-
...
DANS NOS BASES DOCUMENTAIRES
ANNEXES
* - Le catalogue du système universitaire de documentation peut être consulté en ligne : http://www.sudoc.abes.fr
BEHEIM (L.) - Coopération entre segmentation et reconnaissance des caractères imprimés dégradés. - Université de Paris-6 (2001).
LAVIROTTE (S.) - Reconnaissance structurelle de formules mathématiques typographiées et manuscrites. - Université de Nice (2000).
HAUT DE PAGE
En français :
Traitement du Signal http://www.lis.inpg.fr/revue
En anglais :
IEEE...
Cet article fait partie de l’offre
Documents numériques Gestion de contenu
(76 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive