OCR : Tranformez une image en texte

DOCUMENTATION EN LIGNE
DE WINDEV, WEBDEV ET WINDEV MOBILE

Version :

Accueil | Connexion | Français

Aide / WLangage / Fonctions WLangage / Fonctions standard / Fonctions OCR

Présentation
Comment utiliser l'OCR natif ?
Modèle de la langue
Lecture de l'image ou du PDF
Remarques

WINDEV

WEBDEV

WINDEV Mobile

Autres

Voir Aussi

Fonctions de gestion de l'OCR (Optical Character Recognition) intégré

OCR : Tranformez une image en texte

Présentation

Un OCR (Optical Character Recognition) analyse une image pour extraire les textes présents dans cette image. A partir de la version 26, vous pouvez intégrer des fonctionnalités d'OCR dans vos applications et vos sites.
Le moteur d'OCR est un réseau de neurones, l'OCR décrypte les images contenant du texte.
Prenez la photo d'un contrat avec votre téléphone, et récupérez le texte dans Word !
Un OCR est également très utile pour une GED, afin d'indexer les contenus.

Comment utiliser l'OCR natif ?

Pour récupérer un texte via l'OCR natif, il faut :

Charger si nécessaire le modèle correspondant à la langue utilisée.
Utiliser la fonction OCRExtraitTexte en indiquant le nom de l'image ou du document PDF à analyser.

Modèle de la langue

Par défaut, les modèles des langues suivants sont fournis : français, anglais et espagnol. Le modèle correspondant à la langue en cours est utilisé.

Pour reconnaître d'autres langues via l'OCR natif, il suffit de :

Livrer le modèle d'entrainement du réseau de neurones correspondant à la langue (fichier ".traineddata" à fournir dans le répertoire de l'exécutable) :
- Les modèles sont téléchargeables gratuitement à l'adresse suivante :
  - https://github.com/tesseract-OCR/tessdata (modèles classiques, fonctionnant sur toutes les plateformes).
  - https://github.com/tesseract-OCR/tessdata_fast
  - https://github.com/tesseract-OCR/tessdata_best
- La liste des langues est disponible à l'adresse suivante : https://github.com/tesseract-ocr/tessdoc/blob/master/Data-Files-in-different-versions.md
Utiliser la fonction OCRChargeLangue pour charger la langue voulue.

Sous iOS, l'OCR natif de Apple est utilisé. Cet OCR natif est disponible uniquement à partir de iOS 13. Actuellement, Apple propose uniquement la langue anglaise pour cet OCR.

Lecture de l'image ou du PDF

La fonction OCRExtraitTexte renvoie l'ensemble des textes de l'image. Le contenu autre que le texte est ignoré. Si nécessaire, cette fonction permet d'analyser uniquement une partie d'une image : il suffit d'indiquer les coordonnées de la partie à analyser.

La fonction OCRExtraitBlocTexte analyse une image et renvoie un ensemble de rectangles contenant chacun un bloc de texte.

Remarques

Afin d'améliorer la qualité du résultat obtenu, il est conseillé de :
- Avoir une image de bonne résolution.
- Recadrer l'image autour du texte si possible (évitez les zones inutiles).
- Limiter l'inclinaison du texte. Si l'image est légèrement en biais, l'OCR peut arriver à détecter le texte, mais la qualité sera détériorée.
  Les images en biais peuvent être lues.
- Limiter le nombre de modèles/langues utilisés.
Si l'image manipulée correspond à un champ Image, il faut savoir que l'image source est directement manipulée. Par conséquent, les modifications réalisées dans le champ Image (taille de l'image par exemple) ne seront pas prises en compte. Pour prendre en compte ces modifications, il est nécessaire d'enregistrer l'image.
Si l'image manipulée correspond à un fichier PDF (via un champ Image ou non), la qualité du PDF est forcée à 300 DPI.
L'OCR est disponible uniquement pour détecter un texte imprimé. Il n'est pas disponible pour une écriture manuscrite.
Le texte "blanc" n'est pas reconnu.

Liste des exemples associés :

Exemples unitaires (WINDEV) : Les fonctions OCR

[ + ] Cet exemple montre l'utilisation des fonctions OCR de WINDEV.
Ces fonctions permettent d'analyser une image afin d'en extraire le texte.
Il est possible de spécifier la langue du document analysé afin de détecter plus finement.
Il est également possible de récupérer les positions des blocs de texte trouvés.

Voir Aussi

Fonctions de gestion de l'OCR (Optical Character Recognition) intégré

Version minimum requise

Version 26

Documentation également disponible pour…

Commentaires

Cliquez sur [Ajouter] pour publier un commentaire

Dernière modification : 15/06/2023

Signaler une erreur ou faire une suggestion | Aide en ligne locale