close

Tekstkodningsinitiativ

Gå til navigation Gå til søg
Image
officielt logo

The Text Encoding Initiative ( TEI ) er et konsortium, der udvikler og vedligeholder en standard for repræsentation af tekst i digital form. Dette er et forskningsprojekt inden for digital humaniora , der nyder bred udbredelse og anvendelse i biblioteker og digitale tekstsamlinger og i skabelsen af ​​sproglige korpus [ reference nødvendig ] . Det er baseret på XML -sproget , en forenklet version af SGML .

TEI retningslinjerne

Hvad TEI-retningslinjerne som helhed gør, er at definere en XML-grammatik. Det adskiller sig fra andre tekstformater, såsom HTML og OpenDocument , ved at det er semantisk og ikke præsentationsmarkering eller tagging, det vil sige, at det er optaget af, hvad teksten er og fastslår betydningen af ​​hvert element og egenskab. Retningslinjerne beskriver mere end 500 tekstelementer grupperet i tyve moduler, nogle gange højt specialiserede, såsom modulet for ordbøger, teater, sproglig korpus, transskription af primære kilder, mens andre er generelle og grundlæggende for ethvert TEI-dokument. [ 1 ]

Eksempler

<?xml version="1.0" encoding="UTF-8"?> 
<TEI  xmlns= "http://www.tei-c.org/ns/1.0" > 
     <teiHeader> 
                      <!–- påkrævet --> 
     </teiHeader> 
<text> 
     <front> 
              <!–- valgfri --> 
     </front> 
     <body> 
                <!–- påkrævet --> 
     </body> 
     <bagside> 
               <!–- valgfri --> 
     </ tilbage> 
</text> 
</TEI>

Praktisk eksempel

<?xml version="1.0" encoding="UTF-8"?> 
  <teiHeader> 
      <fileDesc>  
         <titleStmt> 
            <title> KRISTUS FØDSEL </title> 
            <forfatter> Federico García Lorca </author> 
         </titleStmt> 
         <publicationStmt> 
             <p> Eksempel på Wikipedia </p> 
         </publicationStmt> 
         <sourceDesc> 
             <p> Transskriberet fra en gammel udgave </p> 
         </sourceDesc> 
      </fileDesc> 
  </teiHeader> 
  <text> 
     <body> 
        <head> KRISTUS FØDSEL </head> 
           <lg> 
               <l> En hyrde beder om en mejse til den bølgende sne </l> 
               <l> hvide hunde strakt ud mellem døve lanterner </l> 
               <l> Den lille Kristus af ler har knækket fingre </l> 
               <l> På de evige kanter af knækket træ. </l> 
           </lg> 
           <lg> 
               <l> Myrer og kolde fødder kommer! </l>  
               <l> To dryp blod bryder himlen. </l>  
               <l> Dæmonens maver ekko gennem dalene </l>  
               <l> slag og ekko af skaldyrskød. </l>  
           </lg> 
           <lg> 
               <l> Ulve og tudser synger i de grønne bål </l>  
               <l> kronet af levende myretuer fra daggry </l>  
               <l> Muldyret har en drøm om store fans </l>  
               <l> og en tyr drømmer en tyr af huller og vand. </l>  
           </lg> 
           <lg>  
               <l> Drengen græder med en treer på panden. </l> 
               <l> Sankt Josef ser tre bronzetorne i høet </l> 
               <l> bleer udånder en ørkenstøj </l> 
               <l> med snorløse citrer og halsudskårne stemmer </l> 
           < /lg > 
           <lg> 
               <l> Manhattan sne presser reklamer </l> 
               <l> og bærer ren ynde for falske sprænghoveder. </l> 
               <l> Idiote præster og fjerbeklædte keruber </l> 
               <l> følger Luther rundt i de høje hjørner. </l> 
           </lg>  
     </body> 
  </text> 
</TEI>

Historie

Baggrund

Før oprettelsen af ​​TEI havde humanisterne ingen fælles standarder for kodning af elektroniske tekster. I årenes løb har forskere udviklet forskellige metoder med det formål at repræsentere specialtegn og indkode logiske opdelinger af en tekst, samt at repræsentere analytisk og fortolkende information og reducere det kritiske tekstapparat til en enkelt lineær sekvens. [ 2 ]

På grund af manglen på et standard og ensartet format begyndte man mellem 1960 og 1980 at udvikle kodningsskemaer fra bunden og baseret på tilpasninger af eksisterende. Eksisterende ordninger afspejlede primært deres udvikleres interesser og var skræddersyet til de programmer, de brugte. For det meste var de uforenelige med andre humanisters forskning, fordi de skulle modificeres væsentligt for at kunne bruge dem, så længe de kunne genbruges. [ 2 ]

Da Computing Humanities-samfundet anerkendte dette problem , fandt de sammen og forsøgte flere gange ( San Diego, 1977; Pisa, 1980) at udvikle kodningsstandarder for computerlæsbare tekster. Der blev dog ikke opnået enighed, og de blev afbrudt. [ 2 ]

Oprindelse

The Text Encoding Initiative blev født på en konference arrangeret af Association for Computers and the Humanities (ACH) på Vassar College i 1987 og blev finansieret af US National Endowment for Humanities (på spansk, National Foundation of the United States for Humaniora ). Omkring 30 repræsentanter fra forskellige arkiver, humanistiske computercentre, forskningsprojekter og professionelle organisationer deltog i konferencen for at genoverveje gennemførligheden af ​​standardisering og komme med anbefalinger vedrørende dens omfang, struktur, indhold og ordlyd, nu kendt som "Poughkeepsie Principles" ( i Engelsk , Poughkeepsie Principles ). [ n 1 ]​ [ 2 ]​ [ 3 ]

Kongressen var en succes, da man på den ene side lærte mere om problemerne med kodificering, og de principper, der skulle følges for at løse dette problem, blev afklaret. På den anden side kunne Vassar-gruppen samles og være sammensat af en større repræsentation af nøgleorganisationer og aktive forskningscentre end ved tidligere møder. Derudover gav den nylige udvikling af Standard Generalized Markup Language et værktøj til at udvikle et simpelt, fleksibelt og udvideligt kodningsskema for at imødekomme de forskellige behov for tekstforskning. Den konsensus, der blev opnået på kongressen, var, at dette behov voksede og skulle løses omgående. [ 4 ]

Udvikling af kodningsvejledninger

Efter konferencen blev Association for Computational Linguistics (ACL) og Association for Literary and Linguistic Computing (ALLC) enige om at tilslutte sig ACH som sponsorer for at udvikle retningslinjerne for standarden. [ 5 ] Disse tre organisationer er forpligtet til at vejlede indsatsen og søge finansiering til at støtte TEI som et internationalt og flersproget projekt. Det blev dog hurtigt erkendt, at dette projekt ikke kun var af interesse for humaniora, men også kunne anvendes til forskellige applikationer i sprogindustrien. [ 4 ]

I 1994 udgav TEI sin første komplette version af retningslinjerne for kodning og udveksling af maskinlæsbare tekster , co - redigeret af Michael Sperberg-McQueen og Lou Bernard . [ 6 ]​ [ 7 ]​ [ 4 ]​ [ n 2 ]

Under de første versioner, op til P3, blev TEI udviklet på basis af SGML. I version P4, udgivet i 2002, dukkede den første specifikation i XML op . [ 9 ] Version P5 blev udgivet i 2007 [ 10 ] Den seneste version af P5 er 3.3.0 og blev udgivet den 31. januar 2018 under kodenavnet Johnny Rotten . [ 11 ]

Noter

  1. ^ Poughkeepsie ( Dutchess County , New York ) er byen, hvor Vassar College ligger , hvor den første kongres blev afholdt.
  2. Disse retningslinjer formåede at etablere SGML- standarden som det passende arbejdsmiljø for dens udvikling; specificere begrænsninger og anbefalinger ved brug af SGML; analysere og identificere kategorier og karakteristika ved tekstdatakodning; specificere et sæt effektive, fleksible og udvidelige generelle definitioner for tekststruktur; skabe en metodisk specifikation for dokumentationen i elektroniske tekstfiler, kompatibel med bibliotekskonventioner, med den funktion at fungere som en historie for teksterne for at kunne validere deres oprindelse og de ændringer, der er foretaget; specificere konventioner for særlige teksttyper eller tekstegenskaber. [ 8 ]

Referencer

  1. ^ "Bilag C Elementer" . tei-c.org . 2018 . Hentet 8. februar 2018 . 
  2. a b c d Ide og Sperberg-McQueen, 1995 , s. 5.
  3. ^ "Forberedelse af retningslinjer for tekstkodning" . tei-c.org . 13. november 1987 . Hentet 2. januar 2018 . 
  4. a b c Ide og Sperberg-McQueen, 1995 , s. 6.
  5. "iv. Om disse retningslinjer - TEI-retningslinjerne . www.tei-c.org (på engelsk) . Hentet 31. december 2017 . 
  6. ^ "Designprincipper for retningslinjer for tekstkodning" . tei-c.org (på engelsk) . 14. december 1988. Arkiveret fra originalen 4. januar 2018 . Hentet 2. januar 2018 . 
  7. Sperberg-McQueen og Burnard, 1994 .
  8. Ide og Sperberg-McQueen, 1995 .
  9. ^ "TEI: P4 retningslinjer" . tei-c.org . Hentet 8. februar 2018 . 
  10. ^ "TEI: P5 retningslinjer" . tei-c.org . Hentet 8. februar 2018 . 
  11. ^ "TEI P5 version 3.3.0 release notes" . tei-c.org . Hentet 8. februar 2018 . 

Bibliografi

Eksterne links