Člověk |
Anders Søgaard a jeho kolegové z kodaňské univerzity se rozhodli podpořit vývoj strojových překladačů a komunikačních nástrojů typu Apple Siri i pro jazyky s malým počtem mluvčích.
Svůj přístup vysvětlují následujícím způsobem. V první fázi je třeba systémy nakrmit velkým množstvím dat, které se získávají především z novinových článků nebo knih, odkud se pak jednak extrahují významy jednotlivých slov, jednak přímo srovnávají dva texty v různých jazycích (k tomu se třeba hodí překládané agenturní zpravodajství).
Malé jazyky, ale např. i africká jorubština s 28 miliony mluvčích, mají s těmito zdroji problémy (a to i včetně evropských jazyků: kolik novin vychází galicijsky?). Dvě sady dat tu nicméně k dispozici jsou relativně častěji: Wikipedia a Bible.
Wikipedia ovšem obsah nevytváří primárně jako překlady z větších jazyků. Něco jiného je ale Bible, ta existuje přeložena do téměř všech jazyků (uvádí se asi 1 500), a to slovo od slova – nejen zkráceniny a výtahy (běžné na Wiki). Překladu se navíc věnovala pozornost a bývá spíše konzervativní než volný, takže lze dobře párovat jednotlivá slova-výrazy. Pro vytvoření základního počítačového modelu daného jazyka pak stačí údajně už pár set stránek biblického textu; i když je otázka, zda se tak získá slovní zásoba a fráze, které budou třeba používat lidé komunikující s příslušnou mutací Siri.
Nicméně ani Wikipedii pro vytváření modelů autoři uvedeného výzkumu nezavrhují. I když texty nejsou vysloveně překlady, lze prý snadno čistě hrubou silou zjistit, že anglické glasses a německé Brille si jsou ekvivalentní (poznámka: což zrovna vypadá ale jako dost nešťastně zvolený příklad, když glass je právě současně sklo/sklenice). A podobně to funguje i pro jazyky s málo mluvčími. Logická námitka by ovšem opět mohla znít: S velštinou to pak přes Wiki asi půjde, budou ale vůbec v jorubštině (např.) existovat stejně/obdobně zpracovaná hesla?
Zdroj: ScienceDaily
Poznámka: Určitě by stálo za to rozlišit, zda cílem takových projektů je primárně nějak uchovat historické dědictví nebo prostě usnadnit život dnešním lidem. Umí dnes někdo velšsky, ale nikoliv anglicky? Z tohoto hlediska by asistentka Microsoft Cortana (by se nezmiňovala jen Apple Siri) dávala tedy zřejmě větší smysl v jorubštině.
Komentáře
14.10.2015, 13:20 cc
Dobře, dobře.
Jenom buďte opatrný, kterému. Na světě dnes pravděpodobně běhá víc lidí přesvědčených, že i Chomsky je nějaký filolog, než kolik jich vyznává Islám.
14.10.2015, 11:05 taco
touché
@cc No, já s dovolením budu věřit spíše nějakému filologovi, dobře?
14.10.2015, 00:19 cc
touché
On když se vezme jeden moderní překlad a jiný moderní překlad a to i v jednom jazyce, tak to kolikrát nekoresponduje ani myšlenkou natož nějakou větnou vazbou.
13.10.2015, 21:51 taco
hint
Navíc jde hlavně o to, že ta mašina se musí hlavně naučit vazby. Tedy co ve větě znamená fráze "vous pouvez" a čemu je to ekvivalentní. Pak vazby jmen (podstatný, přídavný). Že se v normálním překladu nebudou používat věci jako "filištín", nebo "svatyně" se má samosebou.
13.10.2015, 21:47 taco
překlady
Protože žijete ještě v minulém století, kdy byl maximálně kralickej překlad. Dneska jsou už modernější překlady, které se dají číst celkem na pohodu. Překlad Nového světa, Překlad 21, Jeruzalémská Bible například.
13.10.2015, 05:21 admin
slane
"a pohledni na lotovu zenu, ktera ve slanem jest zahlazena, ze ji jiz nikdy nepojde bus ni vlak, pozemsky i nebesky, zadny spoj nebude vyhovovat podminkam zadani." nabizi se lahudky, ale takhle to asi nemysli. ale ta slovni zasoba extrahovana z bible bude proti beznych zivotnim situacim opravdu mimo, to s emi zda tez.
12.10.2015, 10:41 cc
..
"Kolik spojů se mi hodí zítra ráno do Slaného a odpoledne zpátky?" - A učiní Hospodin, že nepřátelé tvoji, kteříž by povstali proti tobě, poraženi budou před tebou; jednou cestou vytáhnou proti tobě, a sedmi cestami před tebou utíkati budou.
12.10.2015, 10:37 cc
...
"Do kolika má otevřeno místní Alza?" - A brány jeho nebudou zavírány ve dne; noci zajisté tam nebude.
Napsat vlastní komentář
Pro přidání příspěvku do diskuze se prosím přihlašte v pravém horním rohu, nebo se prosím nejprve registrujte.