Reconnaissance de l’imprimé : Traitements préliminaires

1.1 - Domaine d’intérêt
1.2 - Supports et formes de documents
1.3 - Formes images
1.4 - Formes électroniques codées
1.5 - Reconnaissance de documents
1.6 - Avantages des formes électroniques codées par rapport aux formes image
1.7 - Applications

2 - DOCUMENTS IMPRIMÉS : CONTENU ET STRUCTURE

2.1 - Mise en page
2.2 - Zones présentes dans un document
2.3 - Notions de typographie
2.4 - Structure physique et structure logique

3 - COMPOSANTES D’UN SYSTÈME DE RECONNAISSANCE

3.1 - Acquisition ou numérisation
3.2 - Redressement
3.3 - Binarisation
3.4 - Segmentation des pages
3.5 - Reconnaissance des caractères
3.6 - Reconnaissance de la structure logique
3.7 - Transcodage

4 - TRAITEMENTS PRÉLIMINAIRES

4.1 - Variété et encombrement des images de documents

Figure 3 - Exemples de tramage
4.2 - Acquisition des images et choix des modes de travail
4.3 - Redressement

SL4398587-web
4.4 - Binarisation
4.5 - Segmentation des pages à partir du texte
4.6 - Détection et localisation des tableaux
4.7 - Détection et localisation des formules mathématiques
4.8 - Détection et localisation des graphiques

5 - RECONNAISSANCE DES CARACTÈRES (OCR)

5.1 - Structure des caractères et variété
5.2 - Déformations dues à l’impression, la reproduction, la numérisation
5.3 - Erreurs de reconnaissance et mesure des performances
5.4 - Définition de la reconnaissance de caractères
5.5 - Processus mis en œuvre
5.6 - Les trois générations de logiciels d’OCR. Typologie des méthodes

Tableau 1
5.7 - Extraction des caractéristiques et primitives

Figure 15 - Squelette d’un caractère
5.8 - Décision et classement
5.9 - Classification et apprentissage
5.10 - Combinaison de plusieurs méthodes de reconnaissance
5.11 - Posttraitements : levées d’ambiguïtés et utilisation de lexiques
5.12 - Reconnaissance des fontes

6 - RECONNAISSANCE DES ZONES NON TEXTUELLES

6.1 - Tableaux
6.2 - Formules mathématiques
6.3 - Graphiques et schémas

7 - RECONNAISSANCE INDUSTRIELLE ET VOIES D’ÉVOLUTION

8 - CONCLUSION

Bibliographie & annexes

Présentation

Auteur(s)

Philippe LEFÈVRE : Ingénieur ESE - Direction des Études et Recherches d’EDF

Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.

Lire l’article

INTRODUCTION

L’invention du procédé d’impression typographique par Gutenberg vers 1440 a transformé radicalement notre société par une diffusion plus large et plus rapide des connaissances. L’avènement actuel des réseaux et la dématérialisation de l’information, qui devient électronique et numérique, constituent une révolution de même importance.

Le rêve d’un monde sans papier, qui hante les professionnels de l’informatique et de la documentation depuis bientôt quatre décennies, semble sur le point de devenir une réalité : on ne peut plus ouvrir une revue informatique sans y trouver plusieurs articles sur Internet, les bases de données en ligne, les CD-ROM... L’information est devenue aujourd’hui omniprésente, et sa maîtrise est considérée comme un facteur essentiel de réussite. Or cette information est constituée à 80 % de données textuelles. Les connaissances, qu’elles soient techniques, scientifiques, historiques, économiques, juridiques, médicales... sont en majorité mémorisées et véhiculées par des textes. Celles qui ont été publiées récemment sont directement accessibles sous forme électronique. Par contre, la majorité du patrimoine culturel et technique de l’humanité n’est encore disponible que sous forme de documents papier. Les entreprises et les collectivités sont ainsi confrontées à un besoin énorme de retraitement, dit aussi conversion rétrospective, pour passer à un format électronique.

Ce besoin, en plus du défi de faire lire l’ordinateur comme un être humain, a motivé de nombreuses études depuis les années 1960. Elles ont produit de multiples logiciels de reconnaissance de caractères. Les résultats ont souvent été décevants, car la complexité du problème avait été largement sous-estimée au départ, et les puissances informatiques nécessaires à l’accomplissement d’une telle tâche avec une productivité suffisante ne sont disponibles que depuis peu.

Cet article est réservé aux abonnés.
Il vous reste 94% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !

L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.

+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.

De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

DOI (Digital Object Identifier)

https://doi.org/10.51257/a-v1-h1348

Cet article fait partie de l’offre

Documents numériques Gestion de contenu

(68 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Lecture en cours
Présentation

Page
suivante

Reconnaissance des caractères (OCR)

4. Traitements préliminaires

4.1 Variété et encombrement des images de documents

On a vu que le type d’image couramment utilisé en GED est une représentation biniveau des documents. Elle présente l’avantage d’occuper une place mémoire relativement réduite : 1,2 mégaoctets en 300 dpi, 2 mégaoctets en 400 dpi. Grâce aux méthodes de compression de l’information (CCITT Groupe 3 et Groupe 4), ces valeurs sont divisées par un facteur 10 à 20 — on obtient ainsi des images de pages dont la taille est comprise entre 60 et 250 kilooctets.

Ce codage biniveau est adéquat pour le texte et les schémas, mais pas pour les photos. Pour les traduire correctement, un codage en niveaux de gris ou en couleurs est nécessaire : à chaque point élémentaire sont associés soit une information de luminance sur 8 bits (d’où 256 valeurs de niveau de gris possibles), soit trois informations de couleurs (3 × 8 bits).

En fait, les images des documents ne sont pas stockées sous cette forme, car cela occupe trop de place en mémoire : 16 mégaoctets pour une page A4 en 256 niveaux à 16 points au mm (400 dpi), 29 mégaoctets pour une page couleur à 12 points au mm (300 dpi). En outre, cela présenterait peu d’intérêt car l’œil humain a une perception moins fine des couleurs que des contrastes. La solution dans ce cas est donnée par le tramage : on simule les niveaux de gris par une densité variable de pixels noirs sur fond blanc (figure 3). Une image biniveau peut donc contenir à la fois du texte, des schémas et des photos tramées.

HAUT DE PAGE

4.2 Acquisition des images et choix des modes de travail

Les logiciels d’OCR opèrent la plupart du temps à partir d’images biniveaux, pour les raisons d’encombrement mémoire expliquées précédemment. La reconnaissance de caractères impose des contraintes sur la résolution. Une numérisation à 300 dpi (environ 12 points/mm) suffit pour les documents contenant des caractères de corps 10 et plus ; en dessous du corps 10, une résolution de 400 dpi (environ 16 points/mm) est nécessaire. Néanmoins, pour la tâche plus large de reconnaissance de documents, des images à niveaux de gris sont nécessaires dans les deux cas suivants :

les...

Cet article est réservé aux abonnés.
Il vous reste 94% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !

L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.

+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.

De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

Cet article fait partie de l’offre

Documents numériques Gestion de contenu

(68 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Lecture en cours
Traitements préliminaires

Page
précédenteComposantes d’un système de reconnaissance

Page
suivante

Reconnaissance des caractères (OCR)

BIBLIOGRAPHIE

(1) - VAN HERWIJNEN (E.) - Practical SGML. - Kluwer Academic Publishers (1992).
(2) - LEFÈVRE (P.), FELTER (C.), LOBBRECHT (P.) - Reconnaissance de documents : passage du document papier à l’information électronique. - Revue Epure, EDF Direction des Études et Recherches no 58 (1998).
(3) - DREYFUS (J.), RICHAUDEAU (F.) - La chose imprimée. - Retz (1985).
(4) - INGOLD (R.) - Structures de documents et lecture optique : une nouvelle approche. - Presses polytechniques romandes (1990).
(5) - SGML-ODA : Présentation des concepts et comparaison fonctionnelle. - Afnor (1991).
(6) - JACNO (M.) - Anatomie de la lettre. - Compagnie française d’éditions (1978).
...

DANS NOS BASES DOCUMENTAIRES

ANNEXES

1 Thèses
2 Revues spécialisées
3 Normalisation
4 Logiciels
5 Organismes
1. 5.1 Laboratoires universitaires anglophones
2. 5.2 Laboratoires universitaires francophones
6 Manifestations scientifiques

1 Thèses

* - Le catalogue du système universitaire de documentation peut être consulté en ligne : http://www.sudoc.abes.fr

BEHEIM (L.) - Coopération entre segmentation et reconnaissance des caractères imprimés dégradés. - Université de Paris-6 (2001).

LAVIROTTE (S.) - Reconnaissance structurelle de formules mathématiques typographiées et manuscrites. - Université de Nice (2000).

HAUT DE PAGE

2 Revues spécialisées

En français :

Traitement du Signal http://www.lis.inpg.fr/revue

En anglais :

IEEE...

Cet article est réservé aux abonnés.
Il vous reste 95% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !

L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.

+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.

De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

Cet article fait partie de l’offre

Documents numériques Gestion de contenu

(68 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Traitements préliminaires Reconnaissance de l’imprimé

Auteur(s)

INTRODUCTION

Cet article est réservé aux abonnés.Il vous reste 94% à découvrir.

L'expertise technique et scientifique de référence

DOI (Digital Object Identifier)

4. Traitements préliminaires

Cet article est réservé aux abonnés.Il vous reste 94% à découvrir.

L'expertise technique et scientifique de référence

BIBLIOGRAPHIE

DANS NOS BASES DOCUMENTAIRES

ANNEXES

Cet article est réservé aux abonnés.Il vous reste 95% à découvrir.

L'expertise technique et scientifique de référence

Traitements préliminaires
Reconnaissance de l’imprimé

Cet article est réservé aux abonnés.
Il vous reste 94% à découvrir.

Cet article est réservé aux abonnés.
Il vous reste 94% à découvrir.

Cet article est réservé aux abonnés.
Il vous reste 95% à découvrir.