Ondřej Bojar obo@cuni.cz



Similar documents
Chapter 6. Decoding. Statistical Machine Translation

Jak pracuje. Ondřej Bojar Ústav formální a aplikované lingvistiky MFF UK. ELRC Training Workshop, 15. prosinec /28

Jak pracuje. Ondřej Bojar Ústav formální a aplikované lingvistiky MFF UK. ELRC Workshop, 14.

Phrase-Based MT. Machine Translation Lecture 7. Instructor: Chris Callison-Burch TAs: Mitchell Stern, Justin Chiu. Website: mt-class.

Statistical Machine Translation

Chapter 5. Phrase-based models. Statistical Machine Translation

aneb Perfekt perfektně.

Factored Translation Models

A Joint Sequence Translation Model with Integrated Reordering

Statistical Machine Translation Lecture 4. Beyond IBM Model 1 to Phrase-Based Models

Luk aˇ s R uˇ ziˇ cka Pomocn a slovesa

The XMU Phrase-Based Statistical Machine Translation System for IWSLT 2006

aneb Perfektní minulost.

NÁVRH Příklady hlášení obchodů

The Prague Bulletin of Mathematical Linguistics NUMBER 96 OCTOBER Ncode: an Open Source Bilingual N-gram SMT Toolkit

Jazyk C# (seminář 8)

A Joint Sequence Translation Model with Integrated Reordering

BIRD Internet Routing Daemon

Assessment of Risk Areas of a Tunnel Project based on Expert Opinion

Upozorňujeme,že můžete formáty pro čtečky převádět ON-LINE na internetu do formátu PDF apod.

Machine Translation and the Translator

The Transition of Phrase based to Factored based Translation for Tamil language in SMT Systems

aneb Co bylo, bylo, co zbylo, zbylo.

IRIS - English-Irish Translation System

HIERARCHICAL HYBRID TRANSLATION BETWEEN ENGLISH AND GERMAN

UEdin: Translating L1 Phrases in L2 Context using Context-Sensitive SMT

MOJEBILLBOARDY.CZ OUTDOOR ADVERTISING MATERIÁLY PRO UČITELE

YOUTUBE 4.0. Postup upgrade Youtube z Youtube 3.1 na Youtube 4.0 pro produkty EAGET X5R, M6, M7 a M9:

An End-to-End Discriminative Approach to Machine Translation

Factored bilingual n-gram language models for statistical machine translation

Computer Aided Translation

Automatizovaná formální verifikace

Přednášející... Kamil Juřík. Lead Consultant & Platform Architect

NEURAL NETWORKS IN INTRUSION DETECTION SYSTEMS NEURONOVÉ SÍTĚ V SYSTÉMECH PRO DETEKCI NAPADENÍ

8.2 Transformace, množinové operace

WK29B / WK29W. Bluetooth Wireless Slim Keyboard. User manual ( 2 5 ) Uživatelský manuál ( 6 10) Užívateľský manuál (11 15)

Studentská tvůrčí a odborná činnost STOČ Control of laboratory model 3D Printer. Martin JUREK

MICROSOFT WORD Mgr. Krejčí Jan (ZSJP) MICROSOFT WORD září / 21

Market Consistent Embedded Value

tance alignment and time information to create confusion networks 1 from the output of different ASR systems for the same

Fill each of the numbered blanks in the following passage. Use only one word in each space.

English Welcome Unit. Mgr. Martin Juchelka. Pracovní listy pro SOU, nematuritní obory Angličtina opakování ze ZŠ

Domain-specific terminology extraction for Machine Translation. Mihael Arcan

Customizing an English-Korean Machine Translation System for Patent Translation *

Safetex. Safety with style. Selling your products. Safetex Ltd. It s designed for /It comes with /It offers

Convergence of Translation Memory and Statistical Machine Translation

A New Input Method for Human Translators: Integrating Machine Translation Effectively and Imperceptibly

Building a Web-based parallel corpus and filtering out machinetranslated

7-2 Speech-to-Speech Translation System Field Experiments in All Over Japan

An Approach to Handle Idioms and Phrasal Verbs in English-Tamil Machine Translation System

VY_22_INOVACE_54 Present perfect. Vzdělávací oblast: Jazyk a jazyková komunikace Vzdělávací obor: Anglický jazyk Ročník: 8.,9.

The noisier channel : translation from morphologically complex languages

Hybrid Machine Translation Guided by a Rule Based System

A chart generator for the Dutch Alpino grammar

SYSTRAN Chinese-English and English-Chinese Hybrid Machine Translation Systems for CWMT2011 SYSTRAN 混 合 策 略 汉 英 和 英 汉 机 器 翻 译 系 CWMT2011 技 术 报 告

An Online Service for SUbtitling by MAchine Translation

SYSTRAN 混 合 策 略 汉 英 和 英 汉 机 器 翻 译 系 统

Návod k použití: Boxovací stojan DUVLAN s pytlem a hruškou kód: DVLB1003

VEDA VYDAVATEĽSTVO SLOVENSKEJ AKADÉMIE VIED

The Prague Bulletin of Mathematical Linguistics NUMBER 95 APRIL A Guide to Jane, an Open Source Hierarchical Translation Toolkit

Jane 2: Open Source Phrase-based and Hierarchical Statistical Machine Translation

Hybrid Strategies. for better products and shorter time-to-market

Factored Markov Translation with Robust Modeling

BEER 1.1: ILLC UvA submission to metrics and tuning task

The Impact of Morphological Errors in Phrase-based Statistical Machine Translation from English and German into Swedish

Agris on-line Papers in Economics and Informatics

Automatic post-editing of phrase-based machine translation outputs

UNSUPERVISED MORPHOLOGICAL SEGMENTATION FOR STATISTICAL MACHINE TRANSLATION


THUTR: A Translation Retrieval System

MORPHOLOGY BASED PROTOTYPE STATISTICAL MACHINE TRANSLATION SYSTEM FOR ENGLISH TO TAMIL LANGUAGE

ARP,TCP,IP utility -zjednodusene a rychle Jiri Kubina jiri.kubina@osu.cz Ver. 1.0 leden 2006

Translating the Penn Treebank with an Interactive-Predictive MT System

Word Completion and Prediction in Hebrew

Machine Translation. Agenda

Why Evaluation? Machine Translation. Evaluation. Evaluation Metrics. Ten Translations of a Chinese Sentence. How good is a given system?

Statistical Pattern-Based Machine Translation with Statistical French-English Machine Translation

An Iteratively-Trained Segmentation-Free Phrase Translation Model for Statistical Machine Translation

Machine Translation. Why Evaluation? Evaluation. Ten Translations of a Chinese Sentence. Evaluation Metrics. But MT evaluation is a di cult problem!

Applying Statistical Post-Editing to. English-to-Korean Rule-based Machine Translation System

MODULE CAN R/S MODULE CAN BUS MAGICAR MODUL CAN R/S MODUL CAN BUS MAGICAR

PROMT Technologies for Translation and Big Data

Machine translation techniques for presentation of summaries

Installation manual Wireless Keypad

Syntax-to-Morphology Mapping in Factored Phrase-Based Statistical Machine Translation from English to Turkish

Transcription:

Frázový statistický překlad z angličtiny do češtiny Ondřej Bojar obo@cuni.cz 9. říjen, 2006

Osnova Frázový statistický překlad krok po kroku Frázový překlad Hledání nejlepší hypotézy (beam search decoding) Ladění vah (minimum error rate training) Frázový statistický překlad o více faktorech Experimenty s překladem do češtiny Malý rozbor chyb Závěr O workshopu 1 Anglické části pocházejí z prezentací Philippa Koehna.

Translation Task: translate this sentence from German into English 2 er geht ja nicht nach hause

2 Translation step 1 Task: translate this sentence from German into English er geht ja nicht nach hause er he Pick phrase in input, translate

2 Translation step 2 Task: translate this sentence from German into English er geht ja nicht nach hause er ja nicht he does not Pick phrase in input, translate it is allowed to pick words out of sequence (reordering) phrases may have multiple words: many-to-many translation

2 Translation step 3 Task: translate this sentence from German into English er geht ja nicht nach hause er geht ja nicht he does not go Pick phrase in input, translate

2 Translation step 4 Task: translate this sentence from German into English er geht ja nicht nach hause er geht ja nicht nach hause he does not go home Pick phrase in input, translate

Translation options 3 er geht ja nicht nach hause he it, it, he it is he will be it goes he goes is are goes go is are is after all does yes is, of course not is not are not is not a not is not does not do not not do not does not is not to following not after not to after to according to in home under house return home do not house home chamber at home Many translation options to choose from in Europarl phrase table: 2727 matching phrase pairs for this sentence by pruning to the top 20 per phrase, 202 translation options remain

Translation options 3 er geht ja nicht nach hause he it, it, he it is he will be it goes he goes is are goes go is are is after all does yes is, of course not is not are not is not a not is not does not do not not do not does not is not to following not after not to after to according to in home under house return home do not The machine translation decoder does not know the right answer Search problem solved by heuristic beam search house home chamber at home

Decoding process: precompute translation options er geht ja nicht nach hause 4

Decoding process: start with initial hypothesis er geht ja nicht nach hause 4

Decoding process: hypothesis expansion er geht ja nicht nach hause 4 are

Decoding process: hypothesis expansion er geht ja nicht nach hause 4 he are it

Decoding process: hypothesis expansion er geht ja nicht nach hause 4 yes he goes home are does not go home it to

Decoding process: find best path er geht ja nicht nach hause 4 yes he goes home are does not go home it to

Complexity of search 5 Search space is exponential with number of input words Pruning required organize hypotheses in stacks each stack contains all hypotheses with the same number of input words translated only the top n hypothesis are kept in a stack (Moses default: 200) only hypothesis worse by factor α are kept in the stack (default: 0.03) when comparing hypotheses, future cost has to be considered heuristic beam search is polynomial with sentence length Typically, a reordering limit is used (maximum movement) search is linear with sentence length

Knowledge sources Many different knowledge sources useful language model reordering (distortion) model phrase translation model word translation model word count phrase count drop word feature phrase pair frequency additional language models additional features 6

7 Set feature weights Contribution of components p i determined by weight λ i Methods manual setting of weights: try a few, take best automate this process Learn weights set aside a development corpus set the weights, so that optimal translation performance on this development corpus is achieved requires automatic scoring method (e.g., BLEU)

Learning task Task: find weights, so that feature vector of the correct translations ranked first TRANSLATION LM TM WP SER 1 Mary not give slap witch green. -17.2-5.2-7 1 2 Mary not slap the witch green. -16.3-5.7-7 1 3 Mary not give slap of the green witch. -18.1-4.9-9 1 4 Mary not give of green witch. -16.5-5.1-8 1 5 Mary did not slap the witch green. -20.1-4.7-8 1 6 Mary did not slap green witch. -15.5-3.2-7 1 7 Mary not slap of the witch green. -19.2-5.3-8 1 8 Mary did not give slap of witch green. -23.2-5.0-9 1 9 Mary did not give slap of the green witch. -21.8-4.4-10 1 10 Mary did slap the witch green. -15.5-6.9-7 1 11 Mary did not slap the green witch. -17.4-5.3-8 0 12 Mary did slap witch green. -16.9-6.9-6 1 13 Mary did slap the green witch. -14.3-7.1-7 1 14 Mary did not slap the of green witch. -24.2-5.3-9 1 15 Mary did not give slap the witch green. -25.2-5.5-9 1 8 rank translation feature vector

Learn feature weights 9 generate n-best list Model change feature weights 1 2 3 4 5 6 3 6 5 2 4 1 score translations 1 2 3 4 5 6 find feature weights that move up good translations

Osnova 10 Frázový statistický překlad krok po kroku Frázový statistický překlad o více faktorech Motivace: morfologie Krok za krokem Další nápady na využití více faktorů Experimenty s překladem do češtiny Malý rozbor chyb Závěr O workshopu

10 Motivace pro víc faktorů: zlepšit tvarosloví Statistický překlad do morfologicky bohatých jazyků funguje hůř než opačně. Viz např. (Koehn, 2005). Motivace pro překlad angličtina čeština: Běžné BLEU 25% BLEU bez ohledu na slovní tvary 1 33% Dokonalým tvarováním slov by bylo možné zlepšit skóre o 8 bodů. 1 BLEU lematizovaného výstupu proti lematizovaným referencím.

Factored translation models Factored represention of words surface surface lemma lemma part of speech part of speech morphology morphology word class word class...... Benefits generalization, e.g. by translating lemmas, not surface forms richer model, e.g. using syntax for reordering, language modeling 11

12 Translation process: example Input: Häuser (Häuser, Haus, NNS) 1. Translation step: lemma lemma (?, house,?), (?, home,?) 2. Generation step: lemma part-of-speech (?, house, NN), (?, house, NNS), (?, home, NN), (?, homes, NNS) 3. Translation step: part-of-speech part-of-speech (?, house, NN), (?, house, NNS), (?, home, NN), (?, homes, NNS) 4. Generation step: lemma, part-of-speech surface (houses, house, NNS), (homes, home, NNS) Pořadí překladových kroků je pevně určeno konfigurací.

Another idea: Subject-verb agreement Lexical n-gram language model would prefer the paintings of the old man is beautiful old man is is a better trigram than old man are 13 Correct translation the paintings of the old man are beautiful - SBJ-plural - - - - V-plural - Special tag that tracks count of subject and verb p(-,sbj-plural,-,-,-,-,v-plural,-) > p(-,sbj-plural,-,-,-,-,v-singular,-) skip language model: p(sbj-plural,v-plural) > p(sbj-plural,v-singular)

Osnova 14 Frázový statistický překlad krok po kroku Frázový statistický překlad o více faktorech Experimenty s překladem do češtiny Scénáře překladu Jemnost morfologie Více dat? Malý rozbor chyb Závěr O workshopu

Testované scénáře překladu 14 Pouze překlad (P) Angličtina Čeština forma forma +LM morfologie lemma morfologie Překlad+kontrola (P+K) Angličtina Čeština forma forma +LM morfologie lemma morfologie +LM 2*překlad+kontrola (P+P+K) Angličtina Čeština forma forma +LM morfologie lemma morfologie +LM 2*překlad+generování (P+P+G) Angličtina Čeština forma forma +LM morfologie lemma +LM morfologie +LM

15 Výsledky scénářů Dev (std) Dev (opt) Test (opt) Baseline: Pouze překlad (P) 25.68 29.24 25.23 2*překlad+generování (P+P+G) 23.93 30.34 25.94 2*překlad+kontrola (P+P+K) 25.12 30.73 26.43 Překlad+kontrola (P+K) 23.51 30.88 27.23 Přidání faktorů (a jazykových modelů) pro morfologii vždy pomohlo. Čím složitější scénář, tím horší výsledek. Důvodem jsou zřejmě chyby v hledání (search errors): víc faktorů větší prostor hypotéz (možná stejným povrchem) hloubka zásobníku nemusí stačit

Míra detailu v reprezentaci morfologie (P+K) 16 Tagset Typů viděno Popis plné zn. 1098 Plná morfologická značka, 15 pozic, teoreticky 4000 různých značek. POS 173 Slovní druh a poddruh, u {N,A,P,R} navíc pád. CNG01 571 Jako POS, ale {N,A,P,R} odlišují pád, číslo a rod. CNG02 707 Pád, číslo a rod odlišen u {N,A,P,R,C,V}, lemma interpunkce přidáno ke značce. CNG03 899 Jména a číslovky vyjadřují pád, číslo a rod, zvýrazněno zvratné se/si. Slovesa vyjadřují číslo, rod, čas a vid, zvýrazněno být. Předložky vyjadřují pád i lemma, lemma přidáno ke značce {Z,T,I}, tvar čísel u C=.

Výsledky P+K s různě jemnou morfologíı 17 Dev (std) Dev (opt) Test (opt) Baseline: P (jediný faktor) 26.52 28.77 25.82 P+K, CNG01 22.30 29.86 26.14 P+K, POS 21.77 30.27 26.57 P+K, plné značky 22.56 29.65 27.04 P+K, CNG02 23.17 30.77 27.45 P+K, CNG03 23.27 30.75 27.62 Není chybou přidat detailní morfologii. Lépe však funguje specifická sada značek opírající se o znalost jazyka i morf. systému.

18 Více dat ve scénáři P+K P+K CNG03 mix m + mix v m P+K plné značky m m+ v P mix m v 23 24 25 26 27 28 29 m=malá data, 20k vět v doméně m + =malá data, 20k vět v doméně, ale navíc oddělené jazykové modely (840k vět mimo doménu) v=velká data, 20k vět v doméně a 840k vět mimo ni, oddělené jazykové modely vět mix=velká data, 20k vět v doméně a 840k vět mimo, smíšeno do společného jazykového modelu

19 Osnova Frázový statistický překlad krok po kroku Frázový statistický překlad o více faktorech Experimenty s překladem do češtiny Malý rozbor chyb Závěr O workshopu

Dosáhli jsme cíle zlepšit morfologii? 19 Na malých datech dosaženo významného zlepšení: English Czech: 20k vět, BLEU zvýšeno z 25.82% na 27.62% nebo až na 28.12% při použití dodatečných dat. Stále nedosahujeme úrovně lematizovaného BLEU (35%). Lokální shoda je již celkem dobrá: Mikrostudie: shoda přídavného a podstatného jména 74% adjektiv ve shodě, 2% v neshodě, (v dalších případech chybělo subst. ap.) Kde tedy zůstávají chyby v morfologii?

Mikrostudie chyb v překladu angličtina čeština 20 Mikrostudie na nejlepším dosaženém výstupu (BLEU 28,12%), intuitivní metrika: studováno 15 vět, z celk. počtu 77 dvojic sloveso-slovesné doplnění ve vstupním textu: překlad... zachoval význam... nebyl srozumitelný... úplně chyběl slovesa 43% 14% 21% doplnění 79% 12% 6% Navíc z případů, kdy sloveso i doplnění byly přeloženy správně, mělo 44% negramatickou nebo nesprávnou vazbu.

Ukázkové chyby 21 Vstup: Výstup MT: Glosa: Správně: Keep on investing. Pokračovalo investování. (grammar correct here!) Continued investing. (Meaning: The investing continued.) Pokračujte v investování. jazykový model vyhrál neprávem nutno zohlednit valenci na zdrojové straně. Vstup: brokerage firms rushed out ads... Výstup MT: brokerské firmy vyběhl reklamy Glosa: brokerage firms pl.fem ran sg.masc ads pl.nom,pl.acc,pl.voc,sg.gen Správná možnost 1: brokerské firmy vyběhly s reklamami pl.instr Správná možnost 2: brokerské firmy vydaly reklamy pl.acc Data na cílové straně možná dost bohatá k identifikaci: vyběhnout s instr Určitě nebudou dost bohatá pro všechny morfologické a lexikální varianty: vyběhl s reklamou, vyběhla s reklamami, vyběhl s prohlášením, vyběhli s oznámením,...

Osnova 22 Frázový statistický překlad krok po kroku Frázový statistický překlad o více faktorech Experimenty s překladem do češtiny Malý rozbor chyb Závěr Porovnání s angličtinou Návrat do reality (ukázka překladu) Shrnutí Celkové poučení O workshopu

Porovnání s angličtinou a lidmi 22 Do angličtiny Do češtiny Rozdíl Lidé 55.3±6.0 46.3±4.3-9.0 P, 20k vět 28.50 25.23-3.27 P+K, 20k vět 28.66 27.23-1.43 P, 860k vět, směs domén 34.12 25.40-8.72 BLEU lidí počítáno 5x a průměrováno větší rozptyl do angličtiny, protože i původní text sloužil jako jedna z referencí nižší skóre do češtiny může ukazovat na větší tvaroslovnou a slovoslednou volnost, ale také možná jen, že do angličtiny překládali přímočařeji P+K podle očekávání pomohlo víc do češtiny do angličtiny pomohlo víc dat a překvapivě nevadilo smísit domény

Ukázka překladu do češtiny (BLEU 28,12) 23 jsme asi navštívit, pokud reklama funguje. těžko na patách pátečního propadu akciového 190-point a nejistota, že to následovalo, několik velkých brokerských firem, které jsou kolébat nové reklamy, že známá zpráva : pokračovalo investování, trh je docela dobře. jejich posláním je, aby udrželi klienti prchají z trhu, jako individuální investoři udělali v droves po krachu v říjnu právě dny po krachu v roce 1987, hlavní brokerské firmy vyběhl reklamy na klidné investory. tentokrát kolem, jsou pohybující ještě rychlejší. We are about to see if advertising works. Hard on the heels of Friday s 190-point stock-market plunge and the uncertainty that s followed, a few big brokerage firms are rolling out new ads trumpeting a familiar message : Keep on investing, the market s just fine. Their mission is to keep clients from fleeing the market, as individual investors did in droves after the crash in October Just days after the 1987 crash, major brokerage firms rushed out ads to calm investors. This time around, they are moving even faster.

24 Shrnutí Frázový překlad do češtiny není zcela beznadějný. Podobně jako u jiných jazyků lokální shody přijatelné, problém celkové koherence. Kontrola morfologie ve vícefaktorovém překladu pomáhá (čj, nj, špaň.).... a to i v případě unsupervised morfologie (třídy slov místo značek, čínšť.). Efekt se snižuje při použití více dat (čj, špaň.). Efekt se snižuje při užití složitějšího scénáře. Jiná testovaná využití více faktorů zatím příliš nepomohla. aj nj: celková struktura věty, shoda čísla slovesa a subjektu aj čj: povrchová valence Data mimo doménu mohou i ubĺıžit.

Celkové poučení (znovu a znovu a znovu!) 25 1. Potřebuješ úkol a metriku kvality výstupu. Čím bĺıž je úkol ke každodenním problémům, tím lépe. 2. Napřed zkus nejjednodušší způsob, jak problém řešit. Čím víc jsi vzdělán/vychován, tím těžší bývá mít jednoduché nápady. 3. Testuj na málo datech, i když jich máš hodně. Ladění očividných chyb je rychlejší. Případné zlepšení bude markantnější ;-) 4. Opravuj chyby časté, nikoli chyby nápadné! Mikroevaluace je velmi užitečná. Projdi 10 vzorků výstupu, pojmenuj chyby, posčítej.

Osnova Frázový statistický překlad krok po kroku Frázový statistický překlad o více faktorech Experimenty s překladem do češtiny Malý rozbor chyb Závěr O workshopu 26

26 Celkově o workshopu Výsledky týmu SMT na workshopu: http://www.clsp.jhu.edu/ws2006/ Moses: systém pro strojový překlad, zřejmě bude LGPL. Vícefaktorové modely pro frázový překlad. Confusion networks (aproximace slovních grafů) pro překlad víceznačného vstupu. Budoucnost: Euromatrix: Edinburgh: Další využití více faktorů (reordering, lepší modely celkové koherence). ÚFAL: Stromečkový dekodér (navazuje na disertaci M. Čmejrka). MIT (M. Collins, B. Cowan): Překlad valenčních rámců, doplnění pak frázově. RWTH Aachen, ITC irst: Překlad mluvené řeči, confusion networks.

Jak dosáhnout úspěšného workshopu 27 Všechno musí být připraveno předem. Moses byl vyvíjen 9 měsíců předem, workshop jen ověřil použitelnost. Přesto první dva tři týdny neproběhl jediný experiment. Data byla připravena předem. Přesto se třetí týden ukázalo, že španělština má otazníky místo diakritiky a v češtině chybí půlka dat.

28 Literatura Koehn, Philipp. 2005. Europarl: A Parallel Corpus for Statistical Machine Translation. In Proceedings of MT Summit X, September.