Traitement des documents - Document processing

Le traitement documentaire est un domaine de recherche et un ensemble de procédés de production visant à rendre numérique un document analogique . Le traitement de documents ne vise pas simplement à photographier ou numériser un document pour obtenir une image numérique , mais aussi à le rendre numériquement intelligible. Cela inclut l'extraction de la structure du document ou de la mise en page puis du contenu, qui peut prendre la forme de texte ou d'images. Le processus peut impliquer des algorithmes traditionnels de vision par ordinateur , des réseaux de neurones convolutifs ou du travail manuel. Les problèmes abordés sont liés à la segmentation sémantique , à la détection d'objets , à la reconnaissance optique de caractères (OCR) , à la reconnaissance de texte manuscrit (HTR) et, plus largement, à la transcription , qu'elle soit automatique ou non. Le terme peut également comprendre la phase de numérisation du document à l'aide d'un scanner et la phase d'interprétation du document, par exemple à l'aide de technologies de traitement du langage naturel (NLP) ou de classification d'images . Elle est appliquée dans de nombreux domaines industriels et scientifiques pour l'optimisation des processus administratifs, le traitement du courrier et la numérisation d' archives analogiques et de documents historiques.

Fond

Le traitement de documents était initialement comme il l'est encore dans une certaine mesure une sorte de travail à la chaîne portant sur le traitement de documents , tels que des lettres et des colis, dans le but de trier, d'extraire ou d'extraire massivement des données. Ce travail peut être effectué en interne ou par l'externalisation des processus métier . Le traitement des documents peut en effet impliquer une sorte de travail manuel externalisé, comme la mécanique turque .

À titre d'exemple de traitement manuel de documents, aussi récent qu'en 2007, le traitement de documents pour « des millions de demandes de visa et de citoyenneté » concernait « environ 1 000 contractuels » travaillant à « gérer la salle du courrier et la saisie de données ».

Alors que le traitement des documents impliquait la saisie de données via le clavier bien avant l'utilisation d'une souris d'ordinateur ou d'un scanner d'ordinateur , un article de 1990 du New York Times concernant ce qu'il a appelé le « bureau sans papier » a déclaré que « le traitement des documents commence par le scanner ». Dans ce contexte, un ancien vice-président de Xerox , Paul Strassman, a exprimé une opinion critique, affirmant que les ordinateurs ajoutent plutôt que réduisent le volume de papier dans un bureau. Il a été dit que les documents d'ingénierie et de maintenance d'un avion pèsent "plus que l'avion lui-même".

Traitement automatique des documents

Au fur et à mesure que l' état de l'art progressait, le traitement des documents est passé à la gestion des « composants du document... en tant qu'entités de base de données ».

Une technologie appelée traitement automatique de documents ou parfois traitement intelligent de documents (IDP) est apparue comme une forme spécifique d' automatisation intelligente des processus (IPA), combinant l' intelligence artificielle telle que l' apprentissage automatique (ML), le traitement du langage naturel (NLP) ou la reconnaissance intelligente de caractères (ICR). ) pour extraire des données de plusieurs types de documents.

Applications

Le traitement automatique des documents s'applique à toute une gamme de documents, qu'ils soient structurés ou non. Par exemple, dans le monde des affaires et de la finance, les technologies peuvent être utilisées pour traiter des factures papier, des formulaires, des bons de commande, des contrats et des factures de devises. Les institutions financières utilisent le traitement intelligent des documents pour traiter des volumes élevés de formulaires tels que des formulaires réglementaires ou des documents de prêt. IDP utilise l'IA pour extraire et classer les données des documents, remplaçant ainsi la saisie manuelle des données.

En médecine, des méthodes de traitement de documents ont été développées pour faciliter le suivi des patients et rationaliser les démarches administratives, notamment par la numérisation des rapports d'analyses médicales ou de laboratoire. L'objectif est également de standardiser les bases de données médicales. Les algorithmes sont également directement utilisés pour aider les médecins dans le diagnostic médical, par exemple en analysant des images de résonance magnétique , ou des images microscopiques .

Le traitement des documents est également largement utilisé dans les sciences humaines et les sciences humaines numériques , afin d' en extraire historique des données grandes d'archives ou des collections patrimoniales. Des approches spécifiques ont été développées pour diverses sources, notamment des documents textuels, tels que des archives de journaux, mais aussi des images, ou des cartes.

Les technologies

Si, à partir des années 1980, les algorithmes traditionnels de vision par ordinateur ont été largement utilisés pour résoudre les problèmes de traitement de documents, ceux-ci ont été progressivement remplacés par les technologies de réseaux de neurones dans les années 2010. Cependant, les technologies traditionnelles de vision par ordinateur sont encore utilisées, parfois en conjonction avec des réseaux de neurones, dans certains secteurs.

De nombreuses technologies accompagnent le développement du traitement de documents, notamment la reconnaissance optique de caractères (OCR) et la reconnaissance de texte manuscrit (HTR), qui permettent de transcrire automatiquement le texte. Les segments de texte en tant que tels sont identifiés à l'aide d' algorithmes de détection d' instance ou d' objet , qui peuvent parfois également être utilisés pour détecter la structure du document. La résolution de ce dernier problème utilise parfois aussi des algorithmes de segmentation sémantique .

Ces technologies constituent souvent le cœur du traitement des documents. Cependant, d'autres algorithmes peuvent intervenir avant ou après ces processus. En effet, les technologies de numérisation de documents sont également concernées, que ce soit sous forme de numérisation classique ou tridimensionnelle. La numérisation de documents 3D peut notamment recourir à des dérivés de la photogrammétrie . Parfois, des scanners 2D spécifiques doivent également être développés pour s'adapter à la taille des documents ou pour des raisons d'ergonomie de numérisation. Le traitement des documents dépend également de l'encodage numérique des documents dans un format de fichier approprié . De plus, le traitement de bases de données hétérogènes peut s'appuyer sur des technologies de classification d'images .

A l'autre bout de la chaîne se trouvent divers algorithmes de complétion d'images, d'extrapolation ou de nettoyage de données. Pour les documents textuels, l'interprétation peut utiliser des technologies de traitement du langage naturel (NLP).

Languages

In other projects

Traitement des documents - Document processing

Contenu

Fond

Traitement automatique des documents

Applications

Les technologies

Voir également

Les références