Asiakirjojen käsittely - Document processing
Asiakirjojen käsittely on tutkimusala ja sarja tuotantoprosesseja, joiden tarkoituksena on tehdä analogisesta asiakirjasta digitaalinen. Asiakirjojen käsittelyn tarkoituksena ei ole vain valokuvata tai skannata asiakirjaa digitaalisen kuvan saamiseksi , vaan myös tehdä siitä digitaalisesti ymmärrettävä. Tämä sisältää asiakirjan rakenteen tai asettelun ja sitten sisällön poimimisen , joka voi olla tekstin tai kuvien muodossa. Prosessi voi sisältää perinteisiä tietokonenäköalgoritmeja , konvoluution hermoverkkoja tai käsityötä. Käsitellyt ongelmat liittyvät semanttiseen segmentointiin , objektin havaitsemiseen , optiseen merkintunnistukseen (OCR) , käsinkirjoitettu tekstintunnistus (HTR) ja laajemmin transkriptioon , olipa se sitten automaattinen tai ei. Termi voi sisältää myös asiakirjan digitalisointivaiheen skannerilla ja asiakirjan tulkintavaiheen, esimerkiksi käyttämällä luonnollisen kielen käsittelyä (NLP) tai kuvien luokittelutekniikoita . Sitä käytetään monilla teollisilla ja tieteellisillä aloilla hallinnollisten prosessien optimointiin, postin käsittelyyn ja analogisten arkistojen ja historiallisten asiakirjojen digitalisointiin .
Tausta
Asiakirjojen käsittely oli alun perin jonkin verran laajempaa kuin eräänlainen tuotantolinja, joka käsitti asiakirjojen , kuten kirjeiden ja pakettien, käsittelyn tietojen lajittelemiseksi, poimimiseksi tai massiiviseksi poimimiseksi. Tämä työ voidaan suorittaa itse tai liiketoimintaprosessien ulkoistamisen avulla . Asiakirjojen käsittelyyn voi todellakin liittyä jonkinlaista ulkoista käsityötä, kuten mekaanista turkkia .
Esimerkkinä asiakirjojen manuaalisesta käsittelystä, suhteellisen äskettäin kuin vuonna 2007, "miljoonien viisumi- ja kansalaisuushakemusten" asiakirjojen käsittely käsitti "noin 1 000 sopimustyöntekijän" käyttämisen, jotka työskentelivät "postihuoneen ja tietojen syöttämisen hallinnoimiseksi ".
Vaikka asiakirjojen käsittely käsitti tietojen syöttämisen näppäimistöllä hyvissä ajoin ennen tietokoneen hiiren tai tietokoneen skannerin käyttöä , The New York Timesin vuonna 1990 julkaistu artikkeli " paperittomasta toimistosta " sanoi, että "asiakirjojen käsittely alkaa skannerista". Tässä yhteydessä entinen Xeroxin varapresidentti Paul Strassman ilmaisi kriittisen mielipiteensä sanoen, että tietokoneet lisäävät eikä vähentävät paperin määrää toimistossa. Sanottiin, että lentokoneen suunnittelu- ja huoltoasiakirjat painavat "enemmän kuin itse lentokone".
Automaattinen asiakirjojen käsittely
Koska tekniikan edistyessä asiakirjojen käsittely siirtynyt käsittelyyn "asiakirjaa komponentteja ... Tietokanta yhteisöjä."
Automaattinen asiakirjojen käsittely tai joskus älykäs asiakirjojen käsittely (IDP) -tekniikka kehittyi erityiseksi älykkään prosessiautomaation (IPA) muotoksi, jossa yhdistyvät tekoäly , kuten koneoppiminen (ML), luonnollisen kielen käsittely (NLP) tai älykäs merkkien tunnistus (ICR) ) poimia tietoja useista asiakirjatyypeistä.
Sovellukset
Automaattinen asiakirjojen käsittely koskee kaikkia asiakirjoja, olivatpa ne rakenteellisia tai ei. Esimerkiksi liike-elämän ja rahoituksen maailmassa tekniikoita voidaan käyttää paperipohjaisten laskujen, lomakkeiden, ostotilausten, sopimusten ja valuuttalaskujen käsittelyyn. Rahoituslaitokset käyttävät älykästä asiakirjojen käsittelyä suuren määrän lomakkeiden, kuten sääntelylomakkeiden tai laina -asiakirjojen, käsittelyyn. IDP käyttää tekoälyä tietojen keräämiseen ja luokittelemiseen asiakirjoista korvaamalla manuaalisen tietojen syöttämisen.
Lääketieteessä on kehitetty asiakirjojen käsittelymenetelmiä potilaiden seurannan helpottamiseksi ja hallinnollisten menettelyjen virtaviivaistamiseksi erityisesti digitoimalla lääketieteellisiä tai laboratorioanalyysiraportteja. Tavoitteena on myös standardoida lääketieteellisiä tietokantoja. Algoritmeja käytetään myös suoraan auttamaan lääkäreitä lääketieteellisessä diagnoosissa, esimerkiksi analysoimalla magneettikuvausta tai mikroskooppisia kuvia.
Asiakirjojen käsittelyä käytetään myös laajalti humanistisissa ja digitaalisissa humanistisissa tieteissä historiallisen suuren datan poimimiseksi arkistoista tai perintökokoelmista. Erityisiä lähestymistapoja kehitettiin eri lähteille, mukaan lukien tekstiasiakirjat, kuten sanomalehtien arkistot, mutta myös kuvat tai kartat.
Teknologiat
Jos 1980 -luvulta lähtien perinteisiä tietokonenäköalgoritmeja käytettiin laajalti asiakirjojen käsittelyongelmien ratkaisemiseen, ne on vähitellen korvattu neuroverkko -tekniikoilla 2010 -luvulla. Joillakin aloilla kuitenkin käytetään edelleen perinteisiä tietokonenäkötekniikoita, joskus yhdessä hermoverkkojen kanssa.
Monet tekniikat tukevat asiakirjojen käsittelyn kehittämistä, erityisesti optinen merkintunnistus (OCR) ja käsinkirjoitettu tekstintunnistus (HTR), jotka mahdollistavat tekstin transkription automaattisesti. Tekstisegmentit sellaisinaan tunnistetaan instanssin tai objektin tunnistusalgoritmeilla , joita voidaan joskus käyttää myös asiakirjan rakenteen havaitsemiseen. Jälkimmäisen ongelman ratkaisussa käytetään joskus myös semanttisia segmentointialgoritmeja .
Nämä tekniikat muodostavat usein asiakirjojen käsittelyn ytimen. Muut algoritmit voivat kuitenkin puuttua ennen tai jälkeen näitä prosesseja. Asiaan liittyy myös asiakirjojen digitointitekniikoita , joko klassisen tai kolmiulotteisen skannauksen muodossa. 3D -asiakirjojen digitalisointi voi erityisesti turvautua fotogrammetrian johdannaisiin . Joskus on myös kehitettävä erityisiä 2D -skannereita mukautumaan asiakirjojen kokoon tai skannausergonomiasta. Asiakirjojen käsittely riippuu myös asiakirjojen digitaalisesta koodauksesta sopivassa tiedostomuodossa . Lisäksi heterogeenisten tietokantojen käsittely voi luottaa kuvien luokittelutekniikoihin .
Ketjun toisessa päässä on erilaisia kuvankäsittely-, ekstrapolointi- tai tietojenpuhdistusalgoritmeja. Sanallisesti asiakirjat, tulkinta voi käyttää luonnollisen kielen käsittely (NLP) techologies.
Katso myös
- Asiakirjojen automaatio
- Asiakirjojen mallinnus
- Tietojenkäsittely
- Asiakirjojen kuvantaminen
- Kaksipuolinen skannaus
- Tekstin louhinta
- Työnkulku