Tekstforenkling - Text simplification
Tekstforenkling er en operation, der bruges i naturlig sprogbehandling til at modificere, forbedre, klassificere eller på anden måde behandle et eksisterende korpus af menneskelig læsbar tekst på en sådan måde, at prosaens grammatik og struktur i høj grad forenkles, mens den underliggende betydning og information forbliver det samme. Tekstforenkling er et vigtigt forskningsområde, fordi naturlige menneskelige sprog normalt indeholder store ordforråd og komplekse sammensatte konstruktioner, der ikke let kan behandles gennem automatisering . Med hensyn til at reducere sprogdiversitet kan semantisk kompression anvendes til at begrænse og forenkle et sæt ord, der bruges i givne tekster.
Eksempel
Tekstforenkling er illustreret med et eksempel fra Siddharthan (2006). Den første sætning indeholder to relative klausuler og en sammenhængende udsætning. Et tekstforenklingssystem sigter mod at forenkle første sætning til anden sætning.
- Analisten bemærkede også, at den bidrog til fastheden i kobber, var en rapport fra Chicago-indkøbsagenter, der går forud for den fulde indkøbsagentrapport, der forfalder i dag og giver en indikation af, hvad den fulde rapport kan indeholde.
- Også bidraget til fastheden i kobber, bemærkede analytikeren, var en rapport fra Chicago indkøbsagenter. Chicago-rapporten går forud for den samlede rapport om indkøbsagenter. Chicago-rapporten giver en indikation af, hvad den fulde rapport kan indeholde. Den fulde rapport forventes offentliggjort i dag.
En tilgang til tekstforenkling er leksikalsk forenkling via leksikal erstatning , en totrinsproces bestående af at identificere komplekse ord og erstatte dem med enklere synonymer. En nøgleudfordring her er at identificere komplekse ord, som udføres af en maskinindlæringsklassifikator trænet i mærkede data. En forbedring i forhold til klassiske metoder til anvendelse af binære etiketter på ord som enkle eller komplekse er at bede etiketterne om at sortere ord i rækkefølge efter kompleksitet dette resulterer i højere konsistens af resulterende etiketter.
Se også
- Automatiseret omskrivning
- Kontrolleret naturligt sprog
- Lexikalisk forenkling
- Lexikal udskiftning
- Semantisk kompression
- Normalisering af tekst
- Forenklet engelsk
- Grundlæggende engelsk
Referencer
- Wei Xu, Chris Callison-Burch og Courtney Napoles. " Problemer i den aktuelle forskning i tekstforenkling ". I Transactions of the Association for Computational Linguistics (TACL), bind 3, 2015, siderne 283–297.
- Advaith Siddharthan. " Syntaktisk forenkling og tekst samhørighed ". I Research on Language and Computation, bind 4, udgave 1, juni 2006, side 77–109, Springer Science, Holland.
- Siddhartha Jonnalagadda, Luis Tari, Joerg Hakenberg, Chitta Baral og Graciela Gonzalez. Mod effektiv sætningsforenkling til automatisk behandling af biomedicinsk tekst. I Proc. af NAACL-HLT 2009, Boulder, USA, juni. [1]