Liens connexes

Dépêche modérée par

Dépêche éditée par

: Reconnaissance optique de caractères avec OCRopus

Posté par Étienne Bersac (Jabber id, page perso, ). Modéré le 18 mai 2007.
0
Voilà un projet qu'il est nécessaire de mettre en lumière. OCRopus est un système d'analyse de document comprenant analyse de mise-en-page modulaire, reconnaissance optique de caractères modulaire tout cela en tenant compte de la langue.

OCRopus est né de deux projets de recherche : un lecteur d'écriture manuelle à haute performance développé dans le milieu des années 90 et utilisé par le US Census bureau et un projet d'analyse de mise-en-page de document à haute performance (évidemment) du team IUPR (Image Understanding and Pattern Recognition). Le projet a été lancé le 11 avril 2007 et est sponsorisé par Google. Il est mené par le professeur Thomas Breuel du centre de recherche allemand sur l'intelligence artificielle accompagné par des post-doctorants et des thésards.

Actuellement, le projet se base uniquement sur le moteur tesseract mais la conception modulaire du projet ouvre les portes à d'autres moteurs de reconnaissance optique de caractères tel hOCR.

Le projet compte sur les contributions de la communauté du logiciel libre pour implémenter le support de nouvelles langues, pour créer une application Gnome, intégrer la reconnaissance dans l'infrastructure de recherche du bureau Gnome, développer des outils divers et créer de nouveaux moteurs, etc.

> Lire la suite (7 commentaires, moyenne: 4,3).   [dépêche : 2660 caractères]

Actuellement, les plateformes linux x86 et X86_64 sont ciblées, bien que le but soit à terme de tourner n'importe où. On notera les limitations dues à tesseract qui mélange allègrement les différentes normes C (C89, C99, ANSI C) et C++, sans se soucier de la portabilité. Le code de OCRopus est actuellement principalement du C++ avec du python tandis que système de compilation est jam. Les yeux se tournent vers lua comme langage de scriptage interne de choix.

Actuellement, un aperçu technologique est fourni sous licence Apache/MIT et le code source de OCRopus est disponible. Cette version préliminaire inclue Tesseract pour la ROC, RAST pour l'analyse de mise-en-page un outil de modélisation de langage basé sur aspell ainsi que des outils de tests. Le format de sortie serait du HTML avec des informations spécifique à l'OCR embarqué dans le HTML.

La première version alpha devrait débarquer durant le 3ème trimestre 2007. Cette version devrait inclure la distinction entre les images et le texte ; une modélisation du langage basé sur OpenFST ; le support de hOCR ; le détramage et autres pré-traitement de l'image. La première bêta suivra au premier trimestre 2008 avant la finale au troisième trimestre 2008.

À l'horizon post 1.0, se profile l'apprentissage à la volée, une interface web service, la reconnaissance depuis le format PDF, appareil photo ou écran , et d'autre avancées plus techniques.

Le projet se veut utile et fait donc un appel pour le support d'autres langues ; l'empaquetage pour Ubuntu, Debian, Fedora et d'autres plateformes ; des interfaces graphiques pour Gnome, Windows, Macintosh ; l'intégration dans les moteurs de recherche Beagle, Spotlight, Google Desktop Search …

Une fois de plus, Google promeut en acte le logiciel libre. Alors que l'OCR est un domaine où le libre a un très grand retard, la libération de tesseract et l'initiation de ce projet ouvre de réelles perspectives. De plus, les propriétés du logiciels libres s'appliquent afin de doper le développement : réutilisation de projet existant (tesseract, hocr, RAST, OpenFST, …), appel à contributions, mutualisation du développement, …

Gageons que la reconnaissance optique de caractères et son intégration dans les systèmes pourrait devenir un domaine où le libre réussirait à construire une avance sur le logiciel propriétaire, comme il en a dans bien d'autres domaines (sécurité, portabilité, système de paquets, thémabilité, live-cd…).

Cette discussion est archivée, il n'est plus possible de laisser des commentaires.

Note : les commentaires appartiennent à ceux qui les ont postés. Nous n'en sommes pas responsables.

Moi pointilleux? non......

Posté par windu.2b (Jabber id, page perso, ) le 18/05/2007 à 07:26. (lien). Évalué à 10.

Je vais faire mon pointilleux, mais j'aimerais savoir un truc: c'est la news ou ce sont les développeurs du projet qui appelle spécifiquement à faire une appli pour Gnome?
Car je ne comprends pas trop ce détail: en quoi gnome est-il à privilégier par rapport à KDE (par ex. mais il en existe d'autres encore...)?

En fait, c'est surtout ce passage qui me fait tilter:

des interfaces graphiques pour Gnome, Windows, Macintosh ; l'intégration dans les moteurs de recherche Beagle, Spotlight, Google Desktop Search …

Donc Gnome est un OS, au même titre que Windows et Mac? O_o
Et Beagle n'est lui non plus pas le seul moteur de recherches existant sous Linux (mais là, je vais moins m'avancer: je ne connais pas trop ce domaine ni l'avancement des différents projets)....

j'ai trouvé

Posté par Étienne Bersac (Jabber id, page perso, ) le 18/05/2007 à 08:26. (lien). Évalué à 5.

Et moi qui commençait à me troturer pour trouver comment intégrer l'OCR dans Gnome Scan, j'ai maintenant un projet parfait qui ne demande plus qu'à être intégré :).

Étienne.

--
E Ultreïa !

Revenir en haut de page