Výhody a úskalí strojových překladačů

Aktuality |

Na který strojový překladač se můžete spolehnout? Odpověď na tuto otázku by měl dát celosvětový testovací maraton, který 1. března startuje na mnoha místech světa, mimo jiné i na Univerzitě Karlově v Praze.




***tisková zpráva CEET Communication

Své kvality poměří například nejznámější překladač Google s novým překladačem EU – Euromatrixem. Právě Euromatrix by mohl v budoucnu ušetřit Evropské unii stamiliony EUR.

Profesionální překladatelé přeložili do pěti jazyků 12 500 vybraných vět z článků nejznámějších zpravodajských serverů a deníků – BBC (angličtina), Le Monde (francouzština), Der Spiegel (němčina), El Mundo (španělština), ale také iDnes nebo Lidových novin (čeština). Stejné texty nyní projdou také strojovým překladem. „Porovnání lidského překladu se strojovým pak určí, jak moc se lze na strojové překladače spolehnout a který z nich je nejvhodnější pro jednotlivé jazykové kombinace,“ vysvětluje David Matuška ze společnosti CEET.

Právě českou překladatelskou agenturu CEET pověřila Evropská unie vyhodnocením tohoto projektu. „Strojový překlad ve spojení s překlady podporovanými počítačem a následnou „lidskou“ korekturou je budoucností překladatelského oboru. Je nezbytné být u vývoje a výzkumu těchto technologií,“ vysvětluje Matuška, proč se CEET rozhodl do projektu Evropské unie a do vývoje nového překladače investovat.

Evropské jazyky totiž dělají překvapivě strojům mnohem větší problémy než například překlady mezi angličtinou a čínštinou. Znaky jsou sice zcela jiné, ale tvaroslovně a slovosledně jsou si tyto jazyky podobnější. Překlady z a do češtiny výrazně komplikuje zejména skloňování a časování. „Nejde o to vyhodnotit, zda je některý ze softwarů nejlepší a ostatní se tím pádem mají zavrhnout, smysl vidím spíš v tom, aby šel vývoj všech strojových překladačů stále dopředu,“ upozornil Ondřej Bojar z Ústavu formální a aplikované lingvistiky Matematicko-fyzikální fakulty Univerzity Karlovy. Ta do testovací soutěže nasadila hned dva své systémy. Jedním z nich je právě zmíněný EuroMatrix, dále již zmíněný Moses a TectoMT, na jejichž vývoji zdejší odborníci pracují.

 

 

 

 

 

Časový harmonogram

1. – 5. 3. 2010

přihlášení účastníci, instituce, ale i nadšenci, nechají přeložit vybraný text svými softwary.

V Praze je to Ústav formální a aplikované lingvistiky MFF UK Praha, která se podílí i na vývoji Euromatrixu. K dalším přihlášeným patří kromě Googlu např. Systran či Moses

 

březen 2010

hotové strojové překlady zpracuje Univerzita v Edinburghu. Zde projdou speciálním počítačovým programem, který zhodnotí a porovná přesnost jednotlivých překladů na základě podobnosti s lidským překladem

 

 

březen – červenec 2010

lidské vyhodnocení (Univerzita John Hopkins, USA). Odborníci budou porovnávat vždy na stejném textu lidský překlad a s ním několik strojových. Subjektivně vyhodnotí, který z nich je přesnější a lepší. Objektivní náhled zajistí počet těchto výstupů. Na kontrole pracuje souběžně několik desítek lidí

 

 

červenec 2010

kompletní výsledky testování zpracuje a vyhodnotí CEET a vyhlásí na Konferenci Asociace pro počítačovou lingvistiku (Uppsala, Švédsko)

 

 

 

 

Co je to Euromatrix a jak funguje?

 

Většina strojových překladačů, včetně Googlu, pracuje výhradně na základě statistického modelu, kdy se do něj denně vkládají tisíce slov. On pak vyhodnocuje četnost a podle toho „překládá“. Bohužel jen 2–3 % takovýchto překladů jsou stoprocentně kvalitní. Euromatrix je ale hybridním modelem překladače, ke statistice přidává lingvistiku, a tím se kvalitativně dostává o několik kategorií výše.

 

Vývoj nejde bez peněz

 

Finančně podporuje vývoj Euromatrixu Evropská unie. Počítá totiž s tím, že jeho používání může jen v oblasti překladů nejrůznějších směrnic, smluv a úředních dokladů přinést výrazné úspory. „Celkově bude projekt Euromatrix Plus stát zhruba pět milionů eur, z toho 3,8 milionu eur „platí“ Evropská unie. Zhruba 1,1 milionu jde z rozpočtu výzkumných institucí, resp. z národních dotačních programů, a zhruba 60 000 eur investuje společnost CEET z vlastních zdrojů,“ vysvětlil Matuška.

 

„Pokud Evropská komise rozhodne o používání strojových překladů, mohla by zhruba za pět let začít spořit desítky milionů eur ročně,“ dodal. Investice do projektu Euromatrix Plus by se tak měla vrátit již po prvním roce aktivního používání.

Na který strojový překladač se můžete spolehnout? Odpověď na tuto otázku by měl dát celosvětový testovací maraton, který 1. března startuje na mnoha místech světa, mimo jiné i na Univerzitě Karlově v Praze. Své kvality poměří například nejznámější překladač Google s novým překladačem EU – Euromatrixem. Právě Euromatrix by mohl v budoucnu ušetřit Evropské unii stamiliony EUR.

 

Profesionální překladatelé přeložili do pěti jazyků 12 500 vybraných vět z článků nejznámějších zpravodajských serverů a deníků – BBC (angličtina), Le Monde (francouzština), Der Spiegel (němčina), El Mundo (španělština), ale také iDnes nebo Lidových novin (čeština). Stejné texty nyní projdou také strojovým překladem. „Porovnání lidského překladu se strojovým pak určí, jak moc se lze na strojové překladače spolehnout a který z nich je nejvhodnější pro jednotlivé jazykové kombinace,“ vysvětluje David Matuška ze společnosti CEET.

 

Právě českou překladatelskou agenturu CEET pověřila Evropská unie vyhodnocením tohoto projektu. „Strojový překlad ve spojení s překlady podporovanými počítačem a následnou „lidskou“ korekturou je budoucností překladatelského oboru. Je nezbytné být u vývoje a výzkumu těchto technologií,“ vysvětluje Matuška, proč se CEET rozhodl do projektu Evropské unie a do vývoje nového překladače investovat.

 

Evropské jazyky totiž dělají překvapivě strojům mnohem větší problémy než například překlady mezi angličtinou a čínštinou.Znaky jsou sice zcela jiné, ale tvaroslovně a slovosledně jsou si tyhle jazyky podobnější. Překlady z a do češtiny výrazně komplikuje zejména skloňování a časování. „Nejde o to vyhodnotit, zda je některý ze softwarů nejlepší a ostatní se tím pádem mají zavrhnout, smysl vidím spíš v tom, aby šel vývoj všech strojových překladačů stále dopředu,“ upozornil Ondřej Bojar z Ústavu formální a aplikované lingvistiky Matematicko-fyzikální fakulty Univerzity Karlovy. Ta do testovací soutěže nasadila hned dva své systémy. Jedním z nich je právě zmíněný EuroMatrix, dále již zmíněný Moses a TectoMT, na jejichž vývoji zdejší odborníci pracují.

 

 

 

 

 

Časový harmonogram

1. – 5. 3. 2010

přihlášení účastníci, instituce, ale i nadšenci, nechají přeložit vybraný text svými softwary.

V Praze je to Ústav formální a aplikované lingvistiky MFF UK Praha, která se podílí i na vývoji Euromatrixu. K dalším přihlášeným patří kromě Googlu např. Systran či Moses

 

březen 2010

hotové strojové překlady zpracuje Univerzita v Edinburghu. Zde projdou speciálním počítačovým programem, který zhodnotí a porovná přesnost jednotlivých překladů na základě podobnosti s lidským překladem

 

 

březen – červenec 2010

lidské vyhodnocení (Univerzita John Hopkins, USA). Odborníci budou porovnávat vždy na stejném textu lidský překlad a s ním několik strojových. Subjektivně vyhodnotí, který z nich je přesnější a lepší. Objektivní náhled zajistí počet těchto výstupů. Na kontrole pracuje souběžně několik desítek lidí

 

 

červenec 2010

kompletní výsledky testování zpracuje a vyhodnotí CEET a vyhlásí na Konferenci Asociace pro počítačovou lingvistiku (Uppsala, Švédsko)

 

 

 

 

Co je to Euromatrix a jak funguje?

 

Většina strojových překladačů, včetně Googlu, pracuje výhradně na základě statistického modelu, kdy se do něj denně vkládají tisíce slov. On pak vyhodnocuje četnost a podle toho „překládá“. Bohužel jen 2–3 % takovýchto překladů jsou stoprocentně kvalitní. Euromatrix je ale hybridním modelem překladače, ke statistice přidává lingvistiku, a tím se kvalitativně dostává o několik kategorií výše.

 

Vývoj nejde bez peněz

 

Finančně podporuje vývoj Euromatrixu Evropská unie. Počítá totiž s tím, že jeho používání může jen v oblasti překladů nejrůznějších směrnic, smluv a úředních dokladů přinést výrazné úspory. „Celkově bude projekt Euromatrix Plus stát zhruba pět milionů eur, z toho 3,8 milionu eur „platí“ Evropská unie. Zhruba 1,1 milionu jde z rozpočtu výzkumných institucí, resp. z národních dotačních programů, a zhruba 60 000 eur investuje společnost CEET z vlastních zdrojů,“ vysvětlil Matuška.

 

„Pokud Evropská komise rozhodne o používání strojových překladů, mohla by zhruba za pět let začít spořit desítky milionů eur ročně,“ dodal. Investice do projektu Euromatrix Plus by se tak měla vrátit již po prvním roce aktivního používání.








Související články




Komentáře

Napsat vlastní komentář

Pro přidání příspěvku do diskuze se prosím přihlašte v pravém horním rohu, nebo se prosím nejprve registrujte.