Zjednodušení textu - Text simplification
Zjednodušení textu je operace používaná při zpracování přirozeného jazyka k úpravě, vylepšení, klasifikaci nebo jinému zpracování existujícího korpusu textu čitelného pro člověka takovým způsobem, že gramatika a struktura prózy jsou značně zjednodušeny, zatímco základní význam a informace zůstávají stejný. Zjednodušení textu je důležitou oblastí výzkumu, protože přirozené lidské jazyky obvykle obsahují velké slovníky a složité složené konstrukce, které nelze snadno zpracovat automatizací . Z hlediska omezení jazykové rozmanitosti lze sémantickou kompresi použít k omezení a zjednodušení sady slov použitých v daných textech.
Příklad
Zjednodušení textu je ilustrováno na příkladu od Siddharthana (2006). První věta obsahuje dvě relativní věty a jednu spojenou slovesnou frázi. Cílem systému zjednodušení textu je zjednodušit první větu na druhou větu.
- Analytik poznamenal, že k pevnosti mědi přispěla také zpráva nákupních agentů z Chicaga, která předchází zprávě úplných nákupních agentů, která má dnes vyjít, a naznačuje, co by celá zpráva mohla obsahovat.
- Analytik poznamenal, že k pevnosti mědi přispěla také zpráva nákupních agentů z Chicaga. Zpráva z Chicaga předchází úplnou zprávu o nákupních agentech. Zpráva z Chicaga naznačuje, co by celá zpráva mohla obsahovat. Celá zpráva má vyjít dnes.
Jedním z přístupů ke zjednodušení textu je lexikální zjednodušení pomocí lexikální substituce , což je dvoustupňový proces spočívající v identifikaci složitých slov a jejich nahrazení jednoduššími synonymy. Klíčovou výzvou je zde identifikace složitých slov, kterou provádí klasifikátor strojového učení vyškolený na označených datech. Vylepšení oproti klasickým metodám použití binárních štítků na slova jako jednoduchá nebo složitá spočívá v požadavku etiketovačů na třídění slov v pořadí podle složitosti; výsledkem je vyšší konzistence výsledných štítků.
Viz také
- Automatické parafrázování
- Řízený přirozený jazyk
- Lexikální zjednodušení
- Lexikální substituce
- Sémantická komprese
- Normalizace textu
- Zjednodušená angličtina
- Základní angličtina
Reference
- Wei Xu, Chris Callison-Burch a Courtney Napoles. " Problémy v současném výzkumu zjednodušení textu ". In Transactions of the Association for Computational Linguistics (TACL), svazek 3, 2015, strany 283–297.
- Advaith Siddharthan. " Syntaktické zjednodušení a soudržnost textu ". In Research on Language and Computation, svazek 4, číslo 1, červen 2006, strany 77–109, Springer Science, Nizozemsko.
- Siddhártha Jonnalagadda, Luis Tari, Joerg Hakenberg, Chitta Baral a Graciela Gonzalez. Směrem k efektivnímu zjednodušení věty pro automatické zpracování biomedicínského textu. V Proc. NAACL-HLT 2009, Boulder, USA, červen. [1]