Comment effectuer l’OCR sur des fichiers PDF scannés

Posté le 12 juin 2017 by

La technologie OCR (Reconnaissance Optique de Caractères) est devenue indispensable ; elle nous permet d’extraire le texte et les images à partir de fichiers scannés et de pouvoir les modifier. Sans OCR, il nous faudrait tout resaisir manuellement alors que les procédures de dématérialisation se multiplient et conduisent souvent pendant une phase de transition à une augmentation du nombre de documents numérisés.

La performance de l’OCR se mesure selon le nombre de faux positifs (reconnaissance de caractères qui n’en sont pas) et selon le taux d’erreur lorsque les caractères à reconnaître sont proches, par exemple un « L » minuscule (l) avec un « i » majuscule (I). Pour améliorer ses performances, l’OCR utilise des dictionnaires et des patterns propres à chaque langue pour déterminer, en fonction des fréquences d’apparition et probabilités, parfois même des champs lexicaux, quel est le mot à reconnaître. Les seuls outils à considérer pour OCériser des documents en français doivent demander à l’utilisateur la langue du document à analyser, à défaut l’outil ne fonctionnera probablement optimalement qu’avec des documents en anglais.

Dans cet article, nous vous présentons la fonction OCR performante de PDFelement 6.

PDFelement 6 est un éditeur de PDF comprenant de nombreuses fonctions permettant de gérer vos fichiers PDF :
Ajout et suppression de texte ou d’image, modification de la police et de la taille ;
Ajout de notes, possibilité de surligner ou souligner du texte ;
Modification des pages par la suppression ou l’ajout de pages, recadrage, etc. ;
Fusion de plusieurs fichiers en un seul PDF ou division d’un PDF en plusieurs fichiers ;
Conversion de PDF en de multiples formats (Word, Excel, PPT, TEXT, etc.) ;
Création de formulaires PDF ;
Et surtout, l’OCR vous permettant d’extraire les données d’un fichier scanné.

Partie 1 – Étapes pour effectuer l’OCR sur des fichiers PDF scannés avec PDFelement 6
Partie 2 – Modifier le Fichier Après l’OCR

Partie 1 : Étapes pour effectuer l’OCR sur des fichiers PDF scannés avec PDFelement 6

Étape 1 : Télécharger le Plug-In OCR

Quand vous achetez la version pro de PDFelement 6, il vous faudra installer le module externe OCR. Lorsque vous souhaitez utiliser l’OCR pour la première fois, un message apparaîtra pour vous demander de télécharger le plug-in OCR.

Étape 2 : Ouvrir le Fichier Scanné

Lancez Wondershare PDFelement 6 et cliquez sur « Ouvrir » pour parcourir vos dossiers et sélectionner le fichier scanné comportant du texte.

Étape 3 : Extraire le Texte du Fichier Scanné

Une fois le fichier ouvert, un message apparaîtra vous proposant d’exécuter l’OCR. Si ce n’est pas le cas, cliquez simplement sur « OCR » dans la barre d’outils de l’onglet Modifier.

Étape 4 : Choix de la langue

Choisissez la langue (parmi de nombreuses langues disponibles) en cliquant sur « Changer la Langue », et choisissez l’intervalle de pages en cliquant sur « Personnaliser des Pages ». Enfin, cliquez sur OK pour effectuer l’OCR.

Attendez quelques secondes/minutes, le fichier modifiable s’ouvrira alors dans un nouvel onglet dans lequel vous pourrez l’éditer avant de l’enregistrer dans le format souhaité.

Partie 2 : Modifier le Fichier Après l’OCR

Avec PDFelement 6, vous avez la possibilité d’effectuer de nombreuses modifications sur le fichier scanné. Vous pourrez effectuer les éditions suivantes en utilisant PDFelement 6 :

1. Étape 1 – Modifier le texte et les images :
Sous l’onglet « Modifier », vous pouvez modifier, ajouter, supprimer du texte, ajouter ou supprimer une image, ajouter des en-têtes et pieds de pages, des filigranes et des arrière-plans.
2. Étape 2 – Modifier les pages :
Avec PDFelement 6, vous pouvez insérer, extraire, remplacer, recadrer, diviser et supprimer des Pages. Pour cela, rendez vous dans l’onglet « Page » et choisissez la fonctionnalité souhaitée sur la barre d’outils.

3. Étape 3 – Ajouter des annotations :
En allant dans l’onglet « Annotations », vous pourrez barrer, souligner, surligner le texte, ajouter des formes, des notes, des zones de texte et des tampons.

Un bon logiciel OCR donnera lieu à un fichier nécessitant peu de retouches. La fonction OCR permet d’exporter des documents scannés en de nombreux types de fichiers et Wondershare PDFelement 6 fait un excellent travail dans ce sens ! Vous aurez simplement à scanner votre document, l’ouvrir, lancer l’OCR et mettre votre fichier en page comme bon vous semble. Donc non seulement PDFelement 6 vous permet d’avoir accès aux données de fichiers scannés, mais en plus vous pourrez réorganiser vos fichiers PDF comme vous le souhaitez.