Mi az a nagykarbantartású trófeafeleség?

2012.03.22. 17:18

Az okostelefon szóval nem tudnak mit kezdeni, a bonyolult magyar ragozás kifog rajtuk, de alapfeladatokat nagyobb hibák nélkül látnak el. A héten indult el egy új internetes szótár, amely slágerek szövegének és viccek fordításával próbálja megfogni az internetezőket. Megnéztük, hogy mit tud a Topszótár, a most legnépszerűbb SZTAKI-szótár és összemértük két, teljes mondatokat és szövegrészleteket fordító alkalmazás tudását is.

Az internetes fordítóprogramok megjelenésével és elterjedésével új szintre lépett az emberek idegen nyelvekhez, idegen kultúrákhoz fűződő viszonya. Bárki elolvashatja a New York Times cikkeit, rendelhet arab webshopból vagy levelezhet kínai barátjával kínaiul. A módszer egyetlen veszélye, hogy a gép által fordított szöveg sokszor nagyon vad eredményeket produkál. (Klasszikus példa a lekváros bukta angolosítása: fuckup with marmalade.) Egy újonnan megjelent magyar netszótár kapcsán teszteltük (angolról magyarra és fordítva) az itthon legnépszerűbb alkalmazásokat.

A napokban vált nyilvánosan elérhetővé a Topszótár, amely populárisabb módon közelíti meg az internetes fordítás kérdését. A szótáron keresztül a felhasználó bármelyik fordítás eredményét egy gombnyomással posztolhatja Facebookon, akasztófajátékkal tanulhat új szavakat, valamint a fejlesztők népszerű dalok szövegeinek minőségi magyar megfelelőit is ígérik. Ezekkel a funkciókkal egyértelműen a fiatalabb korosztályt célozták meg az oldal készítői.

Nyelvtantudóst is rejt az oldal

A Topszótár rendkívül kényelmesnek tűnik: egy szó beírásakor a kereső figyelmeztet, ha rendhagyóan ragozott igét fordítana a felhasználó, vagy ha egy szó kivétel valamelyik szabály alól. A találatokat pedig jelentéscsoport szerint listázza, legfelülre a leggyakrabban használt jelentést téve.

A szolgáltatás még nem tökéletes. A legnagyobb hibája, hogy csupán angol és magyar nyelven használható. Magyarországon minden bizonnyal ez a legnépszerűbb párosítás, ám németül, franciául, olaszul, vagy spanyolul is sokan tanulnak. Egy másik hiányossság: az összetett kifejezésekkel (főleg magyarról angolra) nehezen vagy egyáltalán nem képes megbirkózni. Egy rövid, szak- és szlengszavakat is tartalmazó listával teszteltük az új szótárat:

szó SZTAKI Topszótár
handicap akadály, hátrány, megterhelés hátrány, akadály, teher
blink csillanás, pillantás, hunyorít pislog szándékosan elkerül, vibrál, csillan
match gyufa, házasság, mérkőzés, párja valaminek valakinek méló párja, egymáshoz illő
shooter vadász lövetű, céllövő, forgópisztoly, játékgolyó
f-stop 0 0
martial law hadijog, rögtönítélő bíráskodás, statárium hadijog, rögtönítélő bíráskodás, statárium
fat cat nagy kutya, nagy hal gazdasági burzsuj, nagymenő, pénzes pasas
credit default swap 0 0
froth hab, tajték, gyöngyözik, habzik gyöngyözik, habzik, tajtékzik
mad őrült, eszeveszett, bolond bolond, őrült, haragos, haláli, dögös

Angolról magyarra a SZTAKI-val és a Topszótárral

Böngészőbe épített extrafunkció a SZTAKI-ban

A hazai internetes szótárpiac abszolút vezetője a Magyar Tudományos Akadémia Számítástechnikai és Automatizálási Kutatóintézetének projektje, a SZTAKI szótár. A webes fordítás csak az egyik kutatási és alkalmazási területe az intézetnek, ami az adatbányászattól a hálózatkutatáson át a gépjárműirányítási navigációs rendszerek fejlesztéséig mindennel foglalkozik.

A fordítóprogram hat nyelven, az angol mellett németül, franciául, olaszul, spanyolul és lengyelül is elérhető. Legügyesebb funkciójának pedig az tűnik, hogy Internet Explorer böngészőt használók, az egér jobb gombos menüjébe is felvehetik a fordítás parancsot a kedvenc nyelvükön. A szó kijelölését követően elég egyet kattintani, és a felugró listából kiválasztva gyorsan meg is történik a fordítás.

A SZTAKI és a Topszótár fordítási képességét tekintve nem tapasztaltunk jelentős eltérést, nagyjából ugyanazok a szavak és összetett kifejezések fogtak ki mindkettőn, legyen szó angolról magyarra, vagy magyarról angolra történő fordításról.

szó SZTAKI Topszótár
tejhab 0 0
rekesz aperture, bay, box bunker box, crate, cell
anyóskarom 0 0
feltét 0 0
vágja to strike an attitude cut, trim, carve
leesik to come off, to fall fall, tumble, come mucker
okostelefon 0 0
fedez to cover, to screen cover, convoy, horse
kínvallatás to put sy to the rack racking
menő ace, goer, going, hip, posh, slick, trendy, going, whiz, goer, ace, cool, trendy

Magyarról angolra egyiknek sem megy olyan jól

Szabályszerűségek alapján dolgozik a fordítószoftver

Az internetes szótárak igazi újdonsága a hagyományos, könyvformátumhoz képest, hogy bármely számítógépről elérhetőek, és több szó fér beléjük, mint egy nyomtatott kiadványba. Frissítésük is gyorsabban történik, akár naponta is kerülhetnek új szavak a digitális szótárba. Az analóg szótár evolúciója a komplex szövegfordításhoz vezetett, ami már sokkal nehezebb, de sokak által megoldani kívánt problematika.

A világon a legtöbb pénzt valószínűleg a Google költi a gépesített fordítás tökéletesítésére. Translate nevű szolgáltatása jelenleg 62 nyelvet ismer fel és folyamatosan bővül. A Google fordítóprojektje 2007-ben indult és az akkor már mindenki által hatásosabbnak tekintett statisztikai alapú elemzés általi fordítást alkalmazza a nyelvtani szabály-alapú analízissel szemben. A statisztikán alapuló fordítás azt jelenti, hogy szókapcsolatok, ragozások és mindenféle nyelvi műveletek előfordulási gyakoriságából következtet szabályszerűségekre, amelyeket alkalmaz a lefordítandó szövegen.

Many people imagine bankers to be pinstriped, Porsche-driving men who have big houses and high-maintenance trophy wives. (Forrás: BBC)

Google Translate: Sokan elképzelni, hogy a bankárok pinstriped, Porsche-vezetés férfiak, akik nagy ház és a nagy karbantartási trófea feleség

webforditas.hu: Sok ember képzel el bankárokat hogy csíkos legyen, Porsche-vezetés olyan emberek, akiknek nagy házaik és nagykarbantartású trófeafeleségeik vannak.


Google Translate vs. webforditas.hu

A Google legkomolyabb hazai konkurense az internetes szövegfordítás terén a webforditas.hu, amely funkcióit tekintve gyakorlatilag ugyanazt tudja, mint a keresőóriás alkalmazása, és valamivel szűkösebb kínálattal, negyven nyelv felismerésével várja a látogatókat. A webforditas.hu gyökerei 1991-ig nyúlnak vissza, amikor négy budapesti mérnök létrehozta a MorphoLogic nevű csoportot, ami a számítógépes nyelvészet minden aspektusával foglalkozik. Termékeik felhasználási jogát olyan megacégek vásárolták meg, mint a Microsoft, IBM, Xerox és Adobe fejlesztőcégei. A MorphoLogic helyesírásellenőrzője dolgozik például a Microsoft Word magyar kiadásában. 

A fenti egyszerűbb és az alább olvasható összetettebb szöveg fordításából egyértelműen azt a következtetést vontuk le, hogy a webforditas.hu pontosabb, a valós jelentéshez sokkal közelebb álló fordításra képes (legalábbis angolról magyarra), mint a Google Translate.

Clubs are despicable. Cramped, overpriced furnaces with sticky walls and the latest idiot theme tunes thumping through the humid air so loud you can't hold a conversation, just bellow inanities at megaphone-level. And since the smoking ban, the masking aroma of cigarette smoke has been replaced by the overbearing stench of crotch sweat and hair wax. (Forrás: The Guardian)

webfordiatas.hu: A klubok megvetendőek. Szűk, túlárazott kemencék ragadós falak és a legújabb idióta téma dallamok, amik keresztül puffannak, az párás annyira hangosan szellőzik nem tudsz tartani egy beszélgetést, éppen nem tudsz ordítani ostobaságok szócső-szintnél. És a füstölő tiltás óta, az a cigarettafüst leplező aromáját felváltották az az ágyék hatalmaskodó bűze az izzadság és haj nőnek.

Google Translate: Klubok megvetendő. Szűk, túlárazott kemencében ragadós falak és a legújabb idióta téma dallamok dübörgő keresztül párás levegő, így nem tud hangosan társalogni, csak bőg inanities a megafon-szinten. És mivel a dohányzási tilalom, a maszkolás illata cigarettafüst váltotta fel a hatalmaskodó izzadság szaga lágyék és a haj viasz.

Bonyolultabb szöveggel még rosszabbul boldogulnak

Sem az egyszerűbb és az összetettebb szöveg fordítása nem ment gördülékenyen, a mondatok nyakatekertek, a mondatrészek közti összefüggések meg sem jelennek, a statisztikai alapú szövegelemzés láthatóan teljesen csődöt mond.  A számtalan hiányosság és hiba ellenére az viszont látszik, hogy a webforditas.hu sokkal jobban visszaadja egy angol szöveg tartalmát, mint a Google Translate. Ezt a különbséget akár annak is betudhatjuk, hogy a magyar projekt a kétezres évek elejétől elérhető, a keresőóriásé pedig csak három éve és a Google-nél valószínűleg sokadrangú prioritás a magyar szövegfelismerés pontossága.

Webfordítástól a társalgó robotokig

A fordítás kérdése nemcsak különböző nyelven beszélő emberek megértése szempontjából érdekes, hanem ember és gép viszonyában is mérföldkő lehet, gondoljunk csak a mesterséges intelligencia évtizedek óta a világot izgalomban tartó kérdésére és a beszélő robotokra. Utóbbi területtel kifejezetten a számítógépes nyelvészet foglalkozik, amely abból a hipotézisből indul ki, hogy az emberi agy olyan, mint egy számítógép, ami által megpróbálja modellálni az emberi intelligenciát.

Ahhoz, hogy legalább kommunikációs szinten megközelítse az embert egy robot, mentális reprezentációval kell rendelkeznie, fel kell ismernie, hogy neki mondanak valamit, értelmeznie kell és válaszolni tudnia. A tudósok erre irányuló vágyának több mint fél évszázados története van, az első jelentősebb siker Joseph Weizenbaum nevéhez fűzödik, akinek 1966-os Eliza nevű robotja alacsony színvonalon, de képes volt konstruktív beszélgetést folytatni. 

Egy beszélő robotnak érzékelnie kell a hangok akusztikai tulajdonságait, egy-egy nyelv sajátos hangrendszerét és megfelelő kiejtéssel, hangképzéssel kell rendelkeznie. A hanghullámokból álló beszéd azonban egyéntől függően (beszéd erőssége, artikulációs különbségek, hangmagasság) rendkívül variábilis (végtelen számú különbség lehet), ami komoly kihívás elé állítja a jövő kutatóit.