Maschinenlesbares Dokument - Machine-readable document
Ein maschinenlesbares Dokument ist ein Dokument, dessen Inhalt von Computern problemlos verarbeitet werden kann . Solche Dokumente unterscheiden sich von maschinenlesbaren Daten durch eine ausreichende Struktur, um den erforderlichen Kontext zur Unterstützung der Geschäftsprozesse bereitzustellen, für die sie erstellt wurden.
Definition
Daten ohne Kontext (Sprachgebrauch) sind bedeutungslos und weisen nicht die vier wesentlichen Merkmale vertrauenswürdiger Geschäftsunterlagen auf, die in ISO 15489 angegeben sind. Informationen und Dokumentation - Aktenverwaltung :
- Verlässlichkeit
- Authentizität
- Integrität
- Benutzerfreundlichkeit
Der größte Teil der Informationen besteht aus unstrukturierten Daten . Aus geschäftlicher Sicht bedeutet dies, dass sie "unreif" sind, dh Stufe 1 (chaotisch) des Capability Maturity Model . Eine solche Unreife fördert die Ineffizienz, verringert die Qualität und schränkt die Wirksamkeit ein. Unstrukturierte Informationen eignen sich auch nicht für Funktionen zur Verwaltung von Aufzeichnungen , liefern unzureichende Beweise für rechtliche Zwecke, erhöhen die Kosten für die Aufdeckung von Rechtsstreitigkeiten und machen den Zugriff und die Verwendung in routinemäßigen, laufenden Geschäftsprozessen unnötig umständlich .
Die maschinelle Lesbarkeit hat mindestens vier Aspekte:
- Erstens sollten Wörter oder Phrasen diskret abgegrenzt (markiert) werden, damit Computersoftware und / oder Hardwarelogik als einzelne konzeptionelle Elemente auf sie angewendet werden können.
- Zweitens sollte die Semantik jedes Elements angegeben werden, damit Computer den Menschen helfen können, ein gemeinsames Verständnis ihrer Bedeutungen und potenziellen Verwendungen zu erlangen.
- Drittens, wenn die Beziehungen zwischen den einzelnen Elementen ebenfalls spezifiziert sind, können Computer automatisch Rückschlüsse auf sie ziehen, wodurch der Mensch weiter von der Last entlastet wird, sie zu verstehen, insbesondere zu Zwecken der Untersuchung, Entdeckung und Analyse.
- Viertens: Wenn auch die Strukturen der Dokumente angegeben werden, in denen die Elemente vorkommen, wird das menschliche Verständnis weiter verbessert und die Daten werden für rechtliche und geschäftliche Qualitätszwecke zuverlässiger.
Bereits 1983 betonte das US Government Accountability Office (GAO) die Vorteile maschinenlesbarer Informationen. Noch früher, 1981, begann das GAO, über das Problem unzureichender Aufzeichnungspraktiken in der US-Bundesregierung zu berichten. Solche Mängel sind nicht nur auf die Regierung beschränkt, und Fortschritte in der Informationstechnologie bedeuten, dass die meisten Informationen jetzt "digital geboren" sind und daher möglicherweise viel einfacher mit automatisierten Mitteln verwaltet werden können. Als Zeugnis des Kongresses im Jahr 2010 wies das GAO jedoch auf Probleme bei der Verwaltung elektronischer Aufzeichnungen hin, und erst 2015 berichtete das GAO weiterhin über Unzulänglichkeiten bei der Leistung der Agenturen der Exekutive bei der Erfüllung der Anforderungen für die Verwaltung von Aufzeichnungen. Darüber hinaus wurden mehr als zwei Jahrzehnte nach dem Tod einer großen und ehemals hoch angesehenen Wirtschaftsprüfungsgesellschaft, Arthur Andersen , aufgrund eines Skandals um die Vernichtung von Aufzeichnungen ein zentrales Thema bei den Präsidentschaftswahlen 2016.
Am 4. Januar 2011 unterzeichnete Präsident Obama HR 2142, das Modernisierungsgesetz des Government Performance and Results Act (GPRA) von 2010 (GPRAMA), als PL 111-352. Gemäß Abschnitt 10 der GPRAMA müssen US-Bundesbehörden ihre Strategie- und Leistungspläne und Berichte in durchsuchbarem, maschinenlesbarem Format veröffentlichen. Darüber hinaus erließ er 2013 die Executive Order 13642, mit der der neue Standard für Regierungsinformationen im Allgemeinen geöffnet und maschinenlesbar gemacht wurde. Am 28. Juli 2016 hat das Amt für Verwaltung und Haushalt (OMB) in die überarbeitete Ausgabe des Rundschreibens A-130 die Anweisung aufgenommen, dass Agenturen offene, maschinenlesbare Formate verwenden und "öffentliche Informationen online auf eine Art und Weise veröffentlichen" sollen das fördert die Analyse und Wiederverwendung für ein möglichst breites Spektrum von Zwecken ", was bedeutet, dass die Informationen sowohl öffentlich zugänglich als auch maschinenlesbar sind. Am 14. Januar 2019 unterzeichnete Präsident Trump das Gesetz HR 4174, das OPEN Government Data Act (OGDA), das gesetzlich vorschreibt, dass Agenturen ihre öffentlichen Datenbestände in maschinenlesbarem Format zur Verfügung stellen müssen. Am 28. Juni 2019 erklärte OMB im Rundschreiben A-11 seine Absicht, mit der Einhaltung von Abschnitt 10 der GPRAMA zu beginnen.
Zur Unterstützung dieser politischen Ausrichtung ermöglicht der technologische Fortschritt eine effizientere und effektivere Verwaltung und Verwendung maschinenlesbarer elektronischer Aufzeichnungen. Es wurden dokumentenorientierte Datenbanken zum Speichern, Abrufen und Verwalten dokumentenorientierter Informationen entwickelt, die auch als halbstrukturierte Daten bezeichnet werden. XML (Extensible Markup Language ) ist eine Empfehlung des World Wide Web Consortium ( W3C ) , in der Regeln für die Codierung von Dokumenten in einem Format festgelegt sind, das sowohl für Menschen als auch für Maschinen lesbar ist. Viele XML-Editor- Tools wurden entwickelt, und die meisten, wenn nicht alle wichtigen Informationstechnologieanwendungen unterstützen XML mehr oder weniger stark. Die Tatsache, dass XML selbst ein offenes, maschinenlesbares Standardformat ist, macht es Anwendungsentwicklern relativ einfach, dies zu tun.
Die zugehörige XSD- Empfehlung (XML Schema ) des W3C legt fest, wie die Elemente in einem XML-Dokument formal beschrieben werden. In Bezug auf die Spezifikation von XML-Schemata ist die Organisation zur Weiterentwicklung strukturierter Informationsstandards (OASIS) eine führende Organisation zur Entwicklung von Standards . Viele technische Entwickler bevorzugen es jedoch, mit JSON zu arbeiten und die Struktur von JSON-Daten für die Validierung, Dokumentation und Interaktionskontrolle zu definieren. Das JSON-Schema wurde von der Internet Engineering Task Force (IETF) entwickelt.
Das Portable Document Format (PDF) ist ein Dateiformat, mit dem Dokumente unabhängig von Anwendungssoftware, -hardware und -betriebssystemen dargestellt werden. Jede PDF-Datei enthält eine vollständige Beschreibung der Präsentation des Dokuments, einschließlich Text, Schriftarten, Grafiken und anderer Informationen, die zum Anzeigen des Dokuments erforderlich sind. PDF / A ist eine ISO-standardisierte Version des PDF, die auf die Archivierung und Langzeitaufbewahrung elektronischer Dokumente spezialisiert ist. PDF / A-3 ermöglicht das Einbetten anderer Dateiformate, einschließlich XML, in PDF / A-konforme Dokumente, wodurch möglicherweise die beste Lesbarkeit für Mensch und Maschine erzielt wird. Die Markup-Sprache XSL-FO (XSL Formatting Objects) des W3C wird häufig zum Generieren von PDF-Dateien verwendet
Metadaten , Daten über Daten, können verwendet werden, um elektronische Ressourcen zu organisieren, eine digitale Identifizierung bereitzustellen und die Archivierung und Aufbewahrung von Ressourcen zu unterstützen. In gut strukturierten, maschinenlesbaren elektronischen Aufzeichnungen kann der Inhalt wird umfunktioniert , da beiden Daten und Metadaten. Im Zusammenhang mit elektronischen Aufzeichnungssystemen sind die Begriffe "Verwaltung" und "Metadaten" praktisch synonym. Bei ordnungsgemäßen Metadaten können die Funktionen zur Datensatzverwaltung automatisiert werden, wodurch das Risiko von Raubkopien von Beweismitteln und anderen betrügerischen Manipulationen von Datensätzen verringert wird . Darüber hinaus können solche Aufzeichnungen verwendet werden, um den Prozess der Prüfung von Daten, die in Datenbanken gespeichert sind , zu automatisieren , wodurch das Risiko einzelner Fehlerquellen verringert wird, die mit dem machiavellistischen Konzept einer einzelnen Wahrheitsquelle verbunden sind .
Blockchain (Datenbank) ist eine neue Technologie zur Pflege ständig wachsender Listen von Datensätzen, die vor Manipulationen und Überarbeitungen geschützt sind. Ein wichtiges Merkmal ist, dass jeder Knoten in einem dezentralen System über eine Kopie der Blockchain verfügt, sodass kein einzelner Fehlerpunkt manipuliert und betrogen werden kann .
Siehe auch
- Budapester Erklärung zu maschinenlesbaren Reisedokumenten
- Vergleich von XML-Editoren
- Vier Ecken (Gesetz)
- Integrität und insbesondere Datenintegrität
- Verknüpfte Daten
- Maschinenlesbarer Reisepass
- Auszeichnungssprache
- Daten öffnen
- Zuverlässigkeit (Statistik) , Datenintegrität , Zuverlässigkeit (Computernetzwerke) und Zuverlässigkeit (Forschungsmethoden)
- Strategy Markup Language (StratML)
- Strukturiertes Dokument
- Tag (Metadaten)
- Universal Business Language (UBL)
- XBRL (eXtensible Business Reporting Language)
Verweise
Externe Links
- OMB M-13-13 , Open Data Policy: Verwalten von Informationen als Asset, bei dem Agenturen offene, maschinenlesbare Datenformatstandards verwenden müssen
- NARA-Leitfaden zur Verwaltung von Webdatensätzen , Januar 2005, in dem die Merkmale vertrauenswürdiger Datensätze beschrieben werden.
- Eine Beteiligung am Herzen der Capone-Beratungsmethode für das Records Management: Best Practices für die Korrektur von Non-Records Non-Policy-Unsinn , 9. März 2015
- Der US-Code, der den Begriff "maschinenlesbar" zum 10. September 2016 mehr als 50 Mal enthält