close

Initiativ för textkodning

Gå till navigering Gå till sök
Image
officiella logotyp

The Text Encoding Initiative ( TEI ) är ett konsortium som utvecklar och upprätthåller en standard för representation av text i digital form. Detta är ett forskningsprojekt inom digital humaniora som åtnjuter bred spridning och användning i bibliotek och digitala textsamlingar och i skapandet av språkliga korpus [ citat behövs ] . Det är baserat på XML- språket , en förenklad version av SGML .

TEI:s riktlinjer

Vad TEI -riktlinjerna som helhet gör är att definiera en XML-grammatik. Det skiljer sig från andra textformat, som HTML och OpenDocument , genom att det är semantiskt och inte presentationsmärkning eller taggning, det vill säga att det handlar om vad texten är och fastställer innebörden av varje element och attribut. Riktlinjerna beskriver mer än 500 textelement grupperade i tjugo moduler, ibland mycket specialiserade, såsom modulen för ordböcker, teater, språklig korpus, transkription av primära källor, medan andra är allmänna och grundläggande för alla TEI-dokument. [ 1 ]

Exempel

<?xml version="1.0" encoding="UTF-8"?> 
<TEI  xmlns= "http://www.tei-c.org/ns/1.0" > 
     <teiHeader> 
                      <!–- krävs --> 
     </teiHeader> 
<text> 
     <front> 
              <!–- valfritt --> 
     </front> 
     <body> 
                <!–- krävs --> 
     </body> 
     <back> 
               <!–- valfritt --> 
     </ tillbaka> 
</text> 
</TEI>

Praktiskt exempel

<?xml version="1.0" encoding="UTF-8"?> 
  <teiHeader> 
      <fileDesc>  
         <titleStmt> 
            <title> KRISTUS FÖDELSE </title> 
            <författare> Federico García Lorca </author> 
         </titleStmt> 
         <publicationStmt> 
             <p> Exempel för Wikipedia </p> 
         </publicationStmt> 
         <sourceDesc> 
             <p> Transkriberad från en gammal utgåva </p> 
         </sourceDesc> 
      </fileDesc> 
  </teiHeader> 
  <text> 
     <body> 
        <head> KRISTUS FÖDELSE </head> 
           <lg> 
               <l> En herde ber om en mes för den böljande snön </l> 
               <l> vita hundar utsträckta mellan döva lyktor </l> 
               <l> Den lille Kristus av lera har knäppt fingrar </l> 
               <l> På de eviga kanterna av brutet trä. </l> 
           </lg> 
           <lg> 
               <l> Myror och kalla fötter kommer! </l>  
               <l> Två droppar blod bryter himlen. </l>  
               <l> Demonens magar ekar genom dalarna </l>  
               <l> blåser och ekar av skaldjurskött. </l>  
           </lg> 
           <lg> 
               <l> Vargar och paddor sjunger i de gröna eldarna </l>  
               <l> krönt av levande myrstackar i gryningen </l>  
               <l> Mulan har en dröm om stora fans </l>  
               <l> och en tjur drömmer en tjur av hål och vatten. </l>  
           </lg> 
           <lg>  
               <l> Pojken gråter med en trea i pannan. </l> 
               <l> Saint Joseph ser tre bronstaggar i höet </l> 
               <l> blöjor andas ut ett ökenljud </l> 
               <l> med stränglösa cittra och halsskurna röster </l> 
           < /lg > 
           <lg> 
               <l> Manhattan snow pressar annonser </l> 
               <l> och bär ren grace för falska stridsspetsar. </l> 
               <l> Idiotiska präster och fjäderbeklädda keruber </l> 
               <l> följer Luther runt de höga hörnen. </l> 
           </lg>  
     </body> 
  </text> 
</TEI>

Historik

Bakgrund

Före skapandet av TEI hade humanisterna inga gemensamma standarder för kodning av elektroniska texter. Under åren har forskare utvecklat olika metoder med målet att representera specialtecken och koda logiska indelningar av en text, samt representera analytisk och tolkningsinformation och reducera den kritiska textapparaten till en enda linjär sekvens. [ 2 ]

På grund av avsaknaden av ett standardformat och enhetligt format, mellan 1960 och 1980 , började kodningsscheman utvecklas från grunden och baserade på anpassningar av befintliga. Befintliga system speglade i första hand utvecklarnas intressen och var skräddarsydda för de program de använde. För det mesta var de oförenliga med forskning från andra humanister, eftersom de måste modifieras väsentligt för att kunna använda dem, så länge de kunde återanvändas. [ 2 ]

När Computing Humanities-gemenskapen insåg detta problem , gick de samman och försökte flera gånger ( San Diego, 1977; Pisa, 1980) att utveckla kodningsstandarder för datorläsbara texter. Emellertid nåddes ingen konsensus och de avbröts. [ 2 ]

Ursprung

Text Encoding Initiative föddes på en konferens som anordnades av Association for Computers and the Humanities (ACH) vid Vassar College 1987 och finansierades av US National Endowment for the Humanities (på spanska, National Foundation of the United States för Humaniora ). Ett 30-tal representanter från olika arkiv, datorhumanistiska centra, forskningsprojekt och professionella organisationer deltog i konferensen för att ompröva genomförbarheten av standardisering och ge rekommendationer angående dess omfattning, struktur, innehåll och ordalydelse, nu kända som "Poughkeepsie Principles" ( i engelska , Poughkeepsie Principles ). [ n 1 ]​ [ 2 ]​ [ 3 ]

Kongressen blev en framgång, eftersom man å ena sidan lärde sig mer om problemen med kodifiering och de principer som borde följas för att lösa detta problem klargjordes. Däremot kunde Vassargruppen samlas och vara sammansatt av en större representation av nyckelorganisationer och aktiva forskningscentra än vid tidigare möten. Dessutom gav den senaste utvecklingen av Standard Generalized Markup Language ett verktyg för att utveckla ett enkelt, flexibelt och utbyggbart kodningsschema för att möta textforskningens olika behov. Den konsensus som nåddes vid kongressen var att detta behov växte och behövde åtgärdas omgående. [ 4 ]

Utveckling av kodningsriktlinjer

Efter konferensen enades Association for Computational Linguistics (ACL) och Association for Literary and Linguistic Computing (ALLC) om att gå med i ACH som sponsorer för att utveckla riktlinjerna för standarden. [ 5 ] Dessa tre organisationer har åtagit sig att vägleda arbetet och söka finansiering för att stödja TEI som ett internationellt och flerspråkigt projekt. Men man insåg snart att detta projekt inte bara var av intresse inom humaniora, utan också kunde tillämpas på olika tillämpningar inom språkindustrin. [ 4 ]

1994 publicerade TEI sin första fullständiga version av riktlinjerna för kodning och utbyte av maskinläsbara texter , medredigerad av Michael Sperberg-McQueen och Lou Bernard . [ 6 ]​ [ 7 ]​ [ 4 ]​ [ n 2 ]

Under sina första versioner, fram till P3, utvecklades TEI på basis av SGML. I version P4, publicerad 2002, dök den första specifikationen i XML upp . [ 9 ] Version P5 släpptes 2007 [ 10 ] Den senaste versionen av P5 är 3.3.0 och släpptes den 31 januari 2018 under kodnamnet Johnny Rotten . [ 11 ]

Anteckningar

  1. ^ Poughkeepsie ( Dutchess County , New York ) är staden där Vassar College ligger , där den första kongressen hölls.
  2. Dessa riktlinjer lyckades etablera SGML- standarden som den lämpliga arbetsmiljön för dess utveckling; specificera begränsningar och rekommendationer när du använder SGML; analysera och identifiera kategorier och egenskaper hos textdatakodning; specificera en uppsättning effektiva, flexibla och utvidgbara allmänna definitioner för textstruktur; skapa en metodspecifikation för dokumentationen i elektroniska textfiler, kompatibel med bibliotekskonventioner, med funktionen att fungera som en historik över texterna för att kunna validera deras ursprung och de ändringar som har gjorts; ange konventioner för speciella texttyper eller textegenskaper. [ 8 ]

Referenser

  1. ^ "Bilaga C-element" . tei-c.org . 2018 . Hämtad 8 februari 2018 . 
  2. a b c d Ide och Sperberg-McQueen, 1995 , sid. 5.
  3. ^ "Förberedelsen av riktlinjer för textkodning" . tei-c.org . 13 november 1987 . Hämtad 2 januari 2018 . 
  4. a b c Ide och Sperberg-McQueen, 1995 , sid. 6.
  5. "iv. Om dessa riktlinjer - TEI-riktlinjerna . www.tei-c.org (på engelska) . Hämtad 31 december 2017 . 
  6. ^ "Designprinciper för riktlinjer för textkodning" . tei-c.org (på engelska) . 14 december 1988. Arkiverad från originalet 4 januari 2018 . Hämtad 2 januari 2018 . 
  7. Sperberg-McQueen och Burnard, 1994 .
  8. Ide och Sperberg-McQueen, 1995 .
  9. ^ "TEI: P4 riktlinjer" . tei-c.org . Hämtad 8 februari 2018 . 
  10. ^ "TEI: P5 riktlinjer" . tei-c.org . Hämtad 8 februari 2018 . 
  11. ^ "Tei P5 version 3.3.0 release notes" . tei-c.org . Hämtad 8 februari 2018 . 

Bibliografi

Externa länkar