Maskinlæsbare data - Machine-readable data
Maskinlæsbare data eller computerlæsbare data er data i et format, der kan behandles af en computer . Maskinlæsbare data skal være strukturerede data .
I USA definerer OPEN Government Data Act af 14. januar 2019 maskinlæsbare data som "data i et format, der let kan behandles af en computer uden menneskelig indgriben og samtidig sikre, at ingen semantisk betydning går tabt." Loven pålægger amerikanske føderale agenturer at offentliggøre offentlige data på en sådan måde og sikre, at "ethvert offentligt dataværktøj for agenturet er maskinlæsbart".
Maskinlæsbare data kan klassificeres i to grupper: menneskeligt læsbare data, der er markeret op , så den også kan læses af maskiner (f.eks mikroformater , RDFa , HTML ), og data-fil -formater beregnet primært til forarbejdning af maskiner ( CSV , RDF , XML , JSON ). Disse formater er kun maskinlæsbare, hvis dataene i dem er formelt struktureret; eksport af en CSV -fil fra et dårligt struktureret regneark opfylder ikke definitionen.
Maskinlæsbar er ikke synonym med digitalt tilgængelig . Et digitalt tilgængeligt dokument kan være online, hvilket gør det lettere for mennesker at få adgang via computere, men dets indhold er meget sværere at udtrække, transformere og behandle via computerprogrammeringslogik, hvis det ikke er maskinlæsbart.
Extensible Markup Language (XML) er designet til at være både menneskeligt og maskinlæsbart, og Extensible Stylesheet Language Transformation (XSLT) bruges til at forbedre præsentationen af dataene for menneskelig læsbarhed. For eksempel kan XSLT bruges til automatisk at gengive XML i Portable Document Format (PDF). Maskinlæsbare data kan automatisk transformeres for menneskelig læselighed, men generelt er det omvendte ikke sandt.
Med henblik på implementering af lov om modernisering af Government Performance and Results Act (GPRA), definerer Office of Management and Budget (OMB) "maskinlæsbart format" som følger: "Format i et standard computersprog (ikke engelsk tekst), der kan læses automatisk af en webbrowser eller et computersystem. (f.eks. xml). Traditionelle tekstbehandlingsdokumenter og bærbare dokumentformat (PDF) -filer læses let af mennesker, men er typisk vanskelige for maskiner at fortolke. Andre formater, f.eks. udvideligt markup -sprog ( XML), (JSON) eller regneark med headerkolonner, der kan eksporteres som kommaadskilte værdier (CSV), er maskinlæsbare formater. Da HTML er et strukturelt markeringssprog, der diskret mærker dele af dokumentet, kan computere samle dokumentkomponenter at samle indholdsfortegnelser, konturer, litteratursøgning bibliografier osv. Det er muligt at gøre traditionelle tekstbehandlingsdokumenter og andre formater maskinlæsbare, men dokumenterne skal indeholde forbedrede strukturelle elementer. "
Se også
Referencer