close

Tekstkodingsinitiativ

Gå til navigasjon Gå til søk
Image
offisiell logo

The Text Encoding Initiative ( TEI ) er et konsortium som utvikler og vedlikeholder en standard for representasjon av tekst i digital form. Dette er et forskningsprosjekt innen digital humaniora som nyter bred spredning og bruk i biblioteker og digitale tekstsamlinger og i utformingen av språklige korpus [ referanse nødvendig ] . Det er basert på XML -språket , en forenklet versjon av SGML .

TEI-retningslinjene

Det TEI-retningslinjene som helhet gjør er å definere en XML-grammatikk. Den skiller seg fra andre tekstformater, som HTML og OpenDocument , ved at den er semantisk og ikke presentasjonsmarkering eller tagging, det vil si at den er opptatt av hva teksten er og fastslår betydningen av hvert element og attributt. Retningslinjene beskriver mer enn 500 tekstelementer gruppert i tjue moduler, noen ganger høyt spesialiserte, slik som modulen for ordbøker, teater, språklig korpus, transkripsjon av primærkilder, mens andre er generelle og grunnleggende for ethvert TEI-dokument. [ 1 ]

Eksempler

<?xml version="1.0" encoding="UTF-8"?> 
<TEI  xmlns= "http://www.tei-c.org/ns/1.0" > 
     <teiHeader> 
                      <!–- kreves --> 
     </teiHeader> 
<text> 
     <front> 
              <!–- valgfritt --> 
     </front> 
     <body> 
                <!–- obligatorisk --> 
     </body> 
     <back> 
               <!–- valgfritt --> 
     </ tilbake> 
</tekst> 
</TEI>

Praktisk eksempel

<?xml version="1.0" encoding="UTF-8"?> 
  <teiHeader> 
      <fileDesc>  
         <titleStmt> 
            <title> KRISTUS FØDSEL </title> 
            <forfatter> Federico García Lorca </author> 
         </titleStmt> 
         <publicationStmt> 
             <p> Eksempel for Wikipedia </p> 
         </publicationStmt> 
         <sourceDesc> 
             <p> Transkribert fra en gammel utgave </p> 
         </sourceDesc> 
      </fileDesc> 
  </teiHeader> 
  <text> 
     <body> 
        <head> KRISTUS FØDSEL </head> 
           <lg> 
               <l> En hyrde ber om en meis for den bølgende snøen </l> 
               <l> hvite hunder strukket ut mellom døve lykter </l> 
               <l> Den lille Kristus av leire har knipset fingrene </l> 
               <l> På de evige kantene av knust tre. </l> 
           </lg> 
           <lg> 
               <l> Maur og kalde føtter kommer! </l>  
               <l> To sild av blod bryter himmelen. </l>  
               <l> Demonens mage ekko gjennom dalene </l>  
               <l> slag og ekko av skalldyrkjøtt. </l>  
           </lg> 
           <lg> 
               <l> Ulver og padder synger i de grønne bålene </l>  
               <l> kronet av levende maurtuer fra daggry </l>  
               <l> Muldyret har en drøm om store fans </l>  
               <l> og en okse drømmer en okse av hull og vann. </l>  
           </lg> 
           <lg>  
               <l> Gutten gråter med en treer i pannen. </l> 
               <l> Saint Joseph ser tre bronsetorner i høyet </l> 
               <l> bleier puster ut en ørkenstøy </l> 
               <l> med strengløse sitrar og halskuttede stemmer </l> 
           < /lg > 
           <lg> 
               <l> Manhattan snø presser annonser </l> 
               <l> og bærer ren ynde for falske stridshoder. </l> 
               <l> Idiote prester og fjærkledde kjeruber </l> 
               <l> følger Luther rundt de høye hjørnene. </l> 
           </lg>  
     </body> 
  </text> 
</TEI>

Historie

Bakgrunn

Før opprettelsen av TEI hadde humanistene ingen felles standarder for koding av elektroniske tekster. Gjennom årene har forskere utviklet ulike metoder med mål om å representere spesialtegn og kode logiske inndelinger av en tekst, samt representere analytisk og fortolkende informasjon og redusere det kritiske tekstapparatet til en enkelt lineær sekvens. [ 2 ]

På grunn av mangelen på et standard og enhetlig format, mellom 1960 og 1980 , begynte kodingsplaner å bli utviklet fra bunnen av og basert på tilpasninger av eksisterende. Eksisterende ordninger reflekterte først og fremst interessene til utviklerne deres og var skreddersydd til programmene de brukte. For det meste var de uforenlige med forskningen til andre humanister, fordi de måtte modifiseres vesentlig for å kunne bruke dem, så lenge de kunne gjenbrukes. [ 2 ]

Da Computing Humanities-samfunnet anerkjente dette problemet , kom de sammen og prøvde flere ganger ( San Diego, 1977; Pisa, 1980) å utvikle kodingsstandarder for datamaskinlesbare tekster. Det ble imidlertid ikke oppnådd enighet, og de ble avviklet. [ 2 ]

Opprinnelse

The Text Encoding Initiative ble født på en konferanse organisert av Association for Computers and the Humanities (ACH) ved Vassar College i 1987, og ble finansiert av US National Endowment for the Humanities (på spansk, National Foundation of the United States for Humaniora ). Rundt 30 representanter fra forskjellige arkiver, humanistiske datasentre, forskningsprosjekter og profesjonelle organisasjoner deltok på konferansen for å revurdere gjennomførbarheten av standardisering og komme med anbefalinger angående omfanget, strukturen, innholdet og ordlyden, nå kjent som "Poughkeepsie-prinsippene" ( i Engelsk , Poughkeepsie-prinsipper ). [ n 1 ]​ [ 2 ]​ [ 3 ]

Kongressen ble en suksess, siden man på den ene siden lærte mer om problemene med kodifisering og prinsippene som skulle følges for å løse dette problemet ble avklart. På den annen side kunne Vassar-gruppen samles og være sammensatt av en større representasjon av sentrale organisasjoner og aktive forskningssentre enn ved tidligere møter. I tillegg ga den nylige utviklingen av Standard Generalized Markup Language et verktøy for å utvikle et enkelt, fleksibelt og utvidbart kodeskjema for å møte de ulike behovene til tekstforskning. Konsensus som ble oppnådd på kongressen var at dette behovet var økende og måtte tas opp snarest. [ 4 ]

Utvikling av retningslinjer for koding

Etter konferansen ble Association for Computational Linguistics (ACL) og Association for Literary and Linguistic Computing (ALLC) enige om å bli med i ACH som sponsorer for å utvikle retningslinjene for standarden. [ 5 ] Disse tre organisasjonene er forpliktet til å veilede innsatsen og søke finansiering for å støtte TEI som et internasjonalt og flerspråklig prosjekt. Imidlertid ble det snart erkjent at dette prosjektet ikke bare var av interesse for humaniora, men også kunne brukes på ulike applikasjoner i språkindustrien. [ 4 ]

I 1994 publiserte TEI sin første komplette versjon av retningslinjer for koding og utveksling av maskinlesbare tekster , co - redigert av Michael Sperberg-McQueen og Lou Bernard . [ 6 ]​ [ 7 ]​ [ 4 ]​ [ n 2 ]

Under de første versjonene, frem til P3, ble TEI utviklet på grunnlag av SGML. I versjon P4, publisert i 2002, dukket den første spesifikasjonen i XML opp . [ 9 ] Versjon P5 ble utgitt i 2007 [ 10 ] Den siste versjonen av P5 er 3.3.0 og ble utgitt 31. januar 2018 under kodenavnet Johnny Rotten . [ 11 ]

Notater

  1. ^ Poughkeepsie ( Dutchess County , New York ) er byen der Vassar College ligger , hvor den første kongressen ble holdt.
  2. Disse retningslinjene klarte å etablere SGML -standarden som det passende arbeidsmiljøet for utviklingen; spesifisere restriksjoner og anbefalinger ved bruk av SGML; analysere og identifisere kategorier og egenskaper ved tekstdatakoding; spesifisere et sett med effektive, fleksible og utvidbare generelle definisjoner for tekststruktur; lage en metodisk spesifikasjon for dokumentasjonen i elektroniske tekstfiler, kompatibel med bibliotekskonvensjoner, med funksjonen til å tjene som en historie for tekstene for å kunne validere deres opprinnelse og modifikasjoner som er gjort; spesifisere konvensjoner for spesielle teksttyper eller tekstfunksjoner. [ 8 ]

Referanser

  1. ^ "Vedlegg C-elementer" . tei-c.org . 2018 . Hentet 8. februar 2018 . 
  2. a b c d Ide og Sperberg-McQueen, 1995 , s. 5.
  3. ^ "Utarbeidelse av retningslinjer for tekstkoding" . tei-c.org . 13. november 1987 . Hentet 2. januar 2018 . 
  4. a b c Ide og Sperberg-McQueen, 1995 , s. 6.
  5. "iv. Om disse retningslinjene - TEI-retningslinjene . www.tei-c.org (på engelsk) . Hentet 31. desember 2017 . 
  6. ^ "Designprinsipper for retningslinjer for tekstkoding" . tei-c.org (på engelsk) . 14. desember 1988. Arkivert fra originalen 4. januar 2018 . Hentet 2. januar 2018 . 
  7. Sperberg-McQueen og Burnard, 1994 .
  8. Ide og Sperberg-McQueen, 1995 .
  9. ^ "TEI: P4 retningslinjer" . tei-c.org . Hentet 8. februar 2018 . 
  10. ^ "TEI: P5 retningslinjer" . tei-c.org . Hentet 8. februar 2018 . 
  11. ^ "TEI P5 versjon 3.3.0 versjonsmerknader" . tei-c.org . Hentet 8. februar 2018 . 

Bibliografi

Eksterne lenker