Strukturiertes Dokument - Structured document
Ein strukturiertes Dokument ist ein elektronisches Dokument, bei dem eine Markierungsmethode verwendet wird, um das Ganze und Teile des Dokuments so zu identifizieren, dass sie über ihre Formatierung hinaus verschiedene Bedeutungen haben. Beispielsweise könnte ein strukturiertes Dokument einen bestimmten Teil als "Kapiteltitel" (oder "Codebeispiel" oder "Quatrain") und nicht als "Helvetica fett 24" oder "eingerückter Kurier" identifizieren. Solche Teile werden im Allgemeinen üblicherweise als "Komponenten" oder "Elemente" eines Dokuments bezeichnet.
Überblick
Strukturierte Dokumente konzentrieren sich im Allgemeinen auf die Kennzeichnung von Dingen, die für eine Vielzahl von Verarbeitungszwecken verwendet werden können, und nicht nur auf die Formatierung. Beispielsweise ist die explizite Kennzeichnung von "Kapiteltitel" oder "Hervorhebung" für Systeme für Sehbehinderte weitaus nützlicher als nur "Helvetica fett 24" oder "kursiv". Ebenso ermöglicht eine aussagekräftige Kennzeichnung der vielen Elemente auf einem technischen Informationsblatt eine weitaus bessere Integration in Datenbanken, Suchsysteme, Online-Kataloge usw.
Strukturierte Dokumente unterstützen im Allgemeinen mindestens hierarchische Strukturen, z. B. Listen, nicht nur Listenelemente. Abschnitte, nicht nur Abschnittsüberschriften; usw. Dies steht in krassem Gegensatz zu formatierungsorientierten Systemen. High-End-Systeme unterstützen auch mehrere unabhängige und / oder überlappende Komponentensätze.
Strukturierte Dokumentensysteme ermöglichen normalerweise das Erstellen expliziter Regeln, die Komponententypen definieren und wie sie kombiniert werden können. Ein solches Regelwerk wird in Analogie zu Datenbankschemata als "Schema" bezeichnet . Es gibt verschiedene formale Sprachen, um sie zu spezifizieren, wie XSD , Relax NG und Schematron . Ein strukturiertes Dokument, das den Regeln des Schemas entspricht, wird üblicherweise als "gemäß diesem Schema gültig" bezeichnet. Einige Systeme unterstützen auch Dokumente mit Komponenten beliebiger Typen und Kombinationen, jedoch mit syntaktischen Regeln für die Identifizierung dieser Komponenten.
Lie und Saarela stellten fest, dass " Standard Generalized Markup Language (SGML) Pionierarbeit für das Konzept strukturierter Dokumente geleistet hat", obwohl frühere Systeme wie Scribe , Augment und FRESS viele Funktionen und Fähigkeiten für strukturierte Dokumente bereitstellten und SGMLs Nachkommen- XML jetzt bevorzugt wird.
Eine sehr weit verbreitete Darstellung für strukturierte Dokumente ist HTML , ein vom W3C definiertes und beschriebenes Schema . HTML enthält jedoch nicht nur Tags für bedeutungsorientierte Komponenten wie Absatz, Titel und Code. aber auch formatorientierte wie kursiv, fett und die meisten Tabellen. In der Praxis wird HTML manchmal als strukturiertes Dokumentensystem verwendet, häufig jedoch als Formatierungssprache.
Viele Domänen verwenden strukturierte Dokumente über domänenspezifische Schemata, die sie gemeinsam entwickelt haben, z. B. JATS für das Veröffentlichen von Zeitschriften, TEI für literarische Dokumente, UBL und EDI für den Geschäftsaustausch, XTCE für die Telemetrie von Raumfahrzeugen, REST für Webschnittstellen und unzählige weitere. In all diesen Fällen werden bestimmte Schemata verwendet, die auf XML basieren .
XML ist das universelle Format für strukturierte Dokumente und Daten im Web
Strukturelle Semantik
Beim Schreiben strukturierter Dokumente liegt der Schwerpunkt auf der Codierung der logischen Struktur eines Dokuments, wobei weniger oder gar keine explizite Arbeit der Präsentation durch gedruckte Seiten oder Bildschirme für den Menschen gewidmet ist (in einigen Fällen wird eine solche Verwendung nicht einmal erwartet). Strukturierte Dokumente können leicht von Computersystemen verarbeitet werden, um abgeleitete Formen des Dokuments zu extrahieren und darzustellen. In den meisten Wikipedia-Artikeln wird beispielsweise automatisch ein Inhaltsverzeichnis aus den verschiedenen Überschriften-Tags im Hauptteil des Dokuments generiert. Da bei der SGML-Konvertierung des Oxford English Dictionary die vielen verschiedenen Bedeutungen, die mit der Verwendung von Kursivschrift in der Druckversion verbunden sind, explizit unterschieden wurden, können Suchwerkzeuge Einträge basierend auf Etymologie, Zitaten und vielen anderen interessanten Merkmalen abrufen. Wenn HTML eher strukturelle als nur formatierende Informationen bereitstellt, können sehbehinderte Benutzer leicht eine nützlichere Leseschnittstelle erhalten. Wenn Reiseveranstalter Reiserouten als strukturierte Dokumente und nicht nur als Anzeigen bereitstellen, können Benutzer-Tools die erforderlichen Fakten einfach extrahieren und an Kalender oder andere Anwendungen weitergeben.
In HTML kann ein Teil der logischen Struktur eines Dokuments der Dokumentkörper sein. <body> mit einer Überschrift der ersten Ebene; <h1> und einen Absatz; <p> .
<body>
<h1>Structured document</h1>
<p>A <strong class="selflink">structured document</strong> is an <a href="/wiki/Electronic_document" title="Electronic document">electronic document</a> where some method of <a href="/wiki/Markup_language" title="Markup language">markup</a> is used to identify the whole and parts of the document as having various meanings beyond their formatting.</p>
</body>
Eine der attraktivsten Eigenschaften strukturierter Dokumente besteht darin, dass sie in vielen Kontexten wiederverwendet und auf verschiedene Weise auf Mobiltelefonen, Fernsehbildschirmen, Sprachsynthesizern und jedem anderen Gerät dargestellt werden können, das für ihre Verarbeitung programmiert werden kann.
Andere Semantik
Eine andere Bedeutung kann Text zugeschrieben werden, der nicht im gleichen Sinne wie größere Objekte "strukturell" ist, aber dennoch als "Dokumentstruktur" betrachtet wird, da er eher Ansprüche über den Umfang und die Art oder die Ontologie von Teilen eines Dokuments als darüber ausdrückt Anweisungen zu seiner Präsentation. Im obigen HTML- Fragment <strong> bedeutet das Element, dass der beigefügte Text nachdrücklich ist. In visuellen Begriffen wird dies üblicherweise fett dargestellt, genau wie <b> ; Stattdessen würde eine Sprachschnittstelle wahrscheinlich eine Sprachbeugung verwenden. Der Begriff semantisches Markup schließt Markups aus, <b> die direkt keine andere Bedeutung als eine Anweisung an eine visuelle Anzeige ausdrücken (obwohl ein intelligenter Agent möglicherweise eine strukturelle Bedeutung erkennen kann, die hinter dem Tag lauert). Das "starke" Tag ist insofern "beschreibend" oder "strukturell", als es eine abstrakte, quasi-sprachliche Eigenschaft seines Inhalts kennzeichnen soll, anstatt die entsprechende Darstellung in einem bestimmten Medium zu beschreiben.
Einige andere strukturelle Tags in HTML enthalten <abbr>, <acronym>, <address>, <cite>, <del>, <dfn>, <ins>, <kbd>, and <q> . Andere Schemata wie DocBook und TEI haben eine weitaus größere Auswahl.
Das <a> Ankertag wird für eine andere etwas andere Art von Struktur verwendet, nämlich die Verbindungs- oder Querverweisstruktur, und nicht für die Intervallabschnittsteilung. Dies ist definitiv eine Struktur, und tatsächlich ist es möglich, ein alternatives Markup für Dokumente zu erstellen, das auf beide Arten dieselben bestimmten Strukturen ausdrückt (z. B. die Verwendung von Transclusion zur Darstellung von Abschnittsinhalten anstelle von Navigations-Hyperlink-Präsentationen).
HTML hatte von Anfang an auch Tags, die Präsentationssemantik ausdrücken, wie z. B. fett ( <b> ) oder kursiv ( <i> ), oder um Schriftgrößen zu ändern, oder die andere Auswirkungen auf die Präsentation hatten. Moderne Versionen von Markup-Sprachen raten von einem solchen Markup zugunsten eines beschreibenden Markups ab, das bestimmten Präsentationen über Stylesheets zugeordnet wird , eine Methode, die von Systemen wie Scribe und FRESS entwickelt wurde . Verschiedene Stylesheets können an jedes semantische oder präsentative Markup angehängt werden, um unterschiedliche Präsentationen zu erstellen, obwohl die Zuordnung eines Tag-Namens "kursiv" zu einer fett gedruckten Präsentation nicht ganz intuitiv ist.
Kontext und Absicht
Im Prinzip kann nur das, was "Struktur" oder Nichtstruktur ausmacht, variieren. In einem Buch speziell über Typografie kann es durchaus darauf ankommen, etwas als "kursiv" oder "fett" zu kennzeichnen. Zum Beispiel wird eine Diskussion darüber, wann bestimmte Stile verwendet werden sollen, wahrscheinlich Beispiele und Gegenbeispiele geben wollen, was nicht mehr sinnvoll wäre, wenn das Rendering nicht mit der Prosa synchron ist. In ähnlicher Weise kann eine bestimmte Ausgabe eines Dokuments nicht nur für seinen Inhalt, sondern auch für seine typografische Praxis von Interesse sein. In diesem Fall ist die Beschreibung dieser Praxis nicht nur wünschenswert, sondern auch notwendig. Dieses Problem betrifft jedoch nicht nur die Dokumentstruktur. Es tritt auch in der Grammatik auf, wenn über Grammatik gesprochen wird, und in vielen anderen Fällen.