Dokumentbehandling - Document processing

Dokumentbehandling är ett forskningsområde och en uppsättning produktionsprocesser som syftar till att göra ett analogt dokument digitalt. Dokumentbehandling syftar inte bara till att fotografera eller skanna ett dokument för att få en digital bild , utan också att göra det digitalt begripligt. Detta inkluderar att extrahera strukturen för dokumentet eller layouten och sedan innehållet, som kan ha form av text eller bilder. Processen kan inbegripa traditionella datorsynalgoritmer , konvolutionsneurala nätverk eller manuellt arbete. Problemen som behandlas är relaterade till semantisk segmentering , objektdetektering , optisk teckenigenkänning (OCR) , handskriven textigenkänning (HTR) och, mer allmänt, transkription , oavsett om den är automatisk eller inte. Termen kan också innefatta fasen att digitalisera dokumentet med hjälp av en skanner och fasen för att tolka dokumentet, till exempel med hjälp av naturligt språkbehandling (NLP) eller bildklassificeringsteknik . Den tillämpas inom många industriella och vetenskapliga områden för optimering av administrativa processer, postbehandling och digitalisering av analoga arkiv och historiska dokument.

Bakgrund

Dokumentbearbetningen var till en början en viss produktionslinjearbete som behandlar dokument , till exempel brev och paket, till en viss del i syfte att sortera, extrahera eller massivt extrahera data. Detta arbete kan utföras internt eller genom outsourcing av affärsprocesser . Dokumentbehandling kan verkligen innebära någon form av externiserat manuellt arbete, till exempel mekanisk turk .

Som ett exempel på manuell dokumentbehandling, så relativt nyligen som 2007, handlade dokumentbehandling för "miljontals visum- och medborgarskapsansökningar" om användning av "cirka 1 000 kontraktsarbetare" som arbetar för att "hantera postrum och datainmatning ".

Medan dokumentbearbetning innebar datainmatning via tangentbordet långt före användning av en datormus eller en datorscanner , stod det i en artikel från The New York Times från 1990 om vad det kallade det " papperslösa kontoret " att "dokumentbehandling börjar med skannern.". I detta sammanhang uttryckte en tidigare Xerox vice ordförande, Paul Strassman, en kritisk åsikt och sade att datorer lägger till snarare än att minska volymen papper på ett kontor. Det sades att konstruktions- och underhållsdokumenten för ett flygplan väger "mer än själva flygplanet".

Automatisk dokumentbehandling

När den senaste tekniken avancerade övergick dokumentbehandlingen till att hantera "dokumentkomponenter ... som databasenheter".

En teknik som kallas automatisk dokumentbehandling eller ibland intelligent dokumentbehandling (IDP) framkom som en specifik form av Intelligent Process Automation (IPA), som kombinerar artificiell intelligens som Machine Learning (ML), Natural Language Processing (NLP) eller Intelligent Character Recognition (ICR) ) för att extrahera data från flera typer av dokument.

Ansökningar

Automatisk dokumentbehandling gäller för en hel rad dokument, oavsett om de är strukturerade eller inte. Till exempel i affärs- och finansvärlden kan teknik användas för att behandla pappersbaserade fakturor, formulär, inköpsorder, kontrakt och valutaräkningar. Finansinstitut använder intelligent dokumentbehandling för att bearbeta stora mängder blanketter, till exempel regleringsformulär eller lånedokument. IDP använder AI för att extrahera och klassificera data från dokument och ersätter manuell datainmatning.

Inom medicin har dokumentbehandlingsmetoder utvecklats för att underlätta patientuppföljning och effektivisera administrativa förfaranden, särskilt genom att digitalisera medicinska eller laboratorieanalysrapporter. Målet är också att standardisera medicinska databaser. Algoritmer används också direkt för att hjälpa läkarna vid medicinsk diagnos, t.ex. genom att analysera magnetiska resonansbilder eller mikroskopiska bilder.

Dokumentbehandling används också i stor utsträckning inom humaniora och digital humaniora för att extrahera historiska stordata från arkiv eller arvssamlingar. Specifika tillvägagångssätt utvecklades för olika källor, inklusive textdokument, till exempel tidningsarkiv, men också bilder eller kartor.

Teknik

Om traditionella datorvisionsalgoritmer från 1980 -talet och framåt användes i stor utsträckning för att lösa problem med dokumentbearbetning, har dessa successivt ersatts av neurala nätverkstekniker under 2010 -talet. Traditionella datorsynstekniker används dock fortfarande, ibland i samband med neurala nätverk, i vissa sektorer.

Många teknologier stöder utvecklingen av dokumentbehandling, i synnerhet optisk teckenigenkänning (OCR) och handskriven textigenkänning (HTR), som gör att texten kan transkriberas automatiskt. Textsegment som sådana identifieras med hjälp av instans- eller objektdetekteringsalgoritmer , som ibland också kan användas för att detektera dokumentets struktur. Lösningen på det senare problemet använder ibland också semantiska segmenteringsalgoritmer .

Dessa tekniker utgör ofta kärnan i dokumentbehandling. Andra algoritmer kan emellertid ingripa före eller efter dessa processer. Faktum är att digitaliseringsteknik för dokument också är involverad, oavsett om det är i form av klassisk eller tredimensionell skanning. Digitaliseringen av 3D -dokument kan i synnerhet tillgripa derivat av fotogrammetri . Ibland måste specifika 2D -skannrar också utvecklas för att anpassas till storleken på dokumenten eller av skäl för att skanna ergonomi. Dokumentbehandlingen är också beroende av den digitala kodningen av dokumenten i ett lämpligt filformat . Dessutom kan behandlingen av heterogena databaser beroende på bildklassificeringsteknik.

I andra änden av kedjan finns olika bildfärdigställande, extrapolering eller datarensningsalgoritmer. För textdokument kan tolkningen använda teknik för naturligt språk (NLP).

Se även

Referenser