Szövegszerkesztők helyesírásversenye

2008.09.24. 12:05

Mire jó egy helyesírás-ellenőrző? Sokan rálegyintenének, hogy semmire, de ez így azért nem igaz. Az elütések zömét megmutatja, a klasszikus helyesírási hibákat kiszűri, de az egybeírás-különírás kérdésében kifejezetten béna mindegyik.

Három nagy helyesírás-ellenőrző programot vettünk szemügyre - a feladat nagysága és szerteágazó volta miatt a teszt szót kerüljük, bár születtek összesítő eredmények. Az OpenOffice nevű ingyenes irodai programcsomag és a Firefox által is használt Hunspell nevű helyesírás-ellenőrzőt, a Microsoft Office használta, a hazai Morphologic által fejlesztett Helyesek nevű programot, valamint a Google Dokumentumok szolgáltatás webes helyesírás-ellenőrzőjét nézegettük. Mit nem néztünk? Nem néztük a programok elválasztás-ellenőrző, valamint a szinonima- és nyelvhelyesség-ellenőrző moduljait (ez utóbbi csak a microsoftos Office-ban található).

Van azért, amire jó

Összegzésünk a cikk elején: többnyire alkalmasak a helyesírás-ellenőrzők az elgépelések, elütések javítására (pontosabban az erre való figyelmeztetésre), zömmel alkalmasak a durva helyesírási hibák, mint a j és ly összekeverésének, a hosszú-rövid ékezetek hibáinak kiküszöbölésére, feltéve, ha a hibás változat nem értelmes más szövegkörnyezetben. Például az egyenlőre és az egyelőre összekeverése súlyos hibának számít, de mivel mindkettő értelmes szó, ha egy elütés kapcsán kerül elő a szövegben, az ellenőrző nem fog figyelmeztetni. Épp az egyelőre-egyenlőre közti különbségre az Office nyelvhelyesség-ellenőrző modulja (a zöld aláhúzásos) figyelmeztet ugyan, de a had (hadsereg), illetve hadd (hadd menjen) közti különbségre nem, tehát a megállapítás - miszerint ha értelmes a rosszul írt szó, nem lehet építeni a szoftverekre - igaz.

Ám az ellenőrző programok nem értelmezik a szöveget, nem tudják kitalálni, hogy a szerző mit akart írni. Nem alkalmasak tehát a zsinórdíszítés (sujtás) és az ütés (sújtás) közül kiválasztani a megfelelőt, hiszen mindkettő helyes lehet a maga mondatában, de az ellenőrző nem tudja, hogy épp melyik mondatról van szó. Épp ezért a különírás-egybeírás kérdésében sincs okunk sok reményre. Az összetett kifejezéseket alkotó szavak ugyanis külön-külön is lehetnek értelmesek pl.: fa, kanál és fakanál, vagy tucat, számra és tucatszámra, a program pedig nem tudja, hogy mit gondolt a szerző: két szóra vagy csak egyre. A programok ilyen esetekben a legritkábban tesznek javítási ajánlatot, tehát a hibásan különírt szavak kérdésében nemigen érdemes rájuk hagyatkozni. Ez még akkor is igaz, ha az Office nyelvhelyesség-ellenőrzője néhány esetben képes legalábbis figyelmeztetni; az általunk kipróbált 24 külön-, illetve egybeírási hibát tartalmazó tesztmondtatból 23 esetben elsiklott a baki felett a szoftver (az OpenOffice-nak nincs nyelvhelyességi modulja ugyan, de pont ugyanennyi hibát vett észre, azaz: egyet).

Forrás: [origo]
Az új Office helyesírás-ellenőrzője munka közben

A hibásan egybeírt szavak vonatkozásában már valamivel jobb a helyzet, hiszen itt egyetlen szóról kell eldönteniük a programoknak, hogy az jó-e úgy leírva. Mindenesetre érdemes figyelembe venni, hogy az ellenőrzők megengedőek az összetett szavak kezelését illetően, így például a cipőasztal és a cserépvezető szavakat egyaránt elfogadják, bár ezeknek semmi értelmük nincs. A hibásan egybeírt szavak közül az ismert, gyakran használt kifejezések tekintetében gyakrabban találtunk helyesen felkínált javítási lehetőséget, míg a ritkábban használt vagy teljesen értelmetlen kifejezésekre a programok nem reagáltak.

Eltérő filozófia

Érdekes a két, megkeresésünkre válaszoló szakember véleménye a szoftverről. Az Org/Firefox Hunspelljét fejlesztő Németh László azt emelte ki, hogy nagyon odafigyelnek arra: egy hiba javításának égisze alatt ne kövessenek el még nagyobb hibát. Dr. Prószéky Gábor, a Microsoft Office által használt ellenőrzőt fejlesztő Morphologic vezetője pedig arra hivatkozik: a szoftvereknek a feladata inkább az, hogy megállítsák és elgondolkoztassák a szerzőt, hogy valóban helyes-e, amit írt.

A különféle megközelítést magyarázza a háttérben húzódó filozófia. A hunspelles Németh szerint egy olyan ember, aki nem olvasott, nem művelt - vagy egyszerűen csak nagyon fiatal -, szociális hátrányba keveredhet, ha a helyesírása alapján ez kiderül róla. A szoftver nekik segíthet a legtöbbet azzal, hogy a leggyakoribb hibákra ráirányítja a figyelmet. Így egy elektronikus formában szerkesztett önéletrajz vagy dolgozat alapján nem alakulhatnak ki előítéletek.

A Helyeseket fejlesztő Prószéky arra hívja fel a figyelmet, hogy a magyar nyelv szabályai nagyon sok elvi lehetőséget biztosítanak különféle írásmódra. A helyesírás-ellenőrzők szerepét abban látja, hogy megállítsák és elgondolkodtassák a szerzőt, hogy bár elméletben lehetséges az, amit leírt, gondolja át, hogy a gyakorlatban is működik-e. A helyesírás-ellenőrző számos esetben az utolsó állomás, hogy egy szöveget a véglegesítés előtt javítsanak. Ezért szerinte nem baj, ha több a figyelmeztetés, mint amennyi a valódi hiba; nagyobb baj, ha hibásan kerül ki a szöveg a szerző keze alól.

Szabad szoftver vagy fizetett fejlesztők

Míg a Hunspell egy szabad szoftver, amit bárki fejleszthet, a szólistát pedig - ellenőrzötten - bővítheti, a Morphologic szoftverét zárt fejlesztői csapat készíti. Persze az újdonságok a szabad szoftverben is tervezetten jelennek meg, például az OpenOffice újabb kiadásával. Az általunk mindkét fejlesztőnek megküldött, az ellenőrző szoftver által hibásan hagyott szavakat tartalmazó jegyzék sorsa is érdekes volt. A Hunspell fejlesztője tételes visszajelzést küldött arról, hogy mely kifejezéseket vette fel a szoftver következő kiadásába vagy milyen új szabályt alkotott, hogy ezeket legközelebb már javítsa a program. A Morphologicnak megküldött jegyzékkel kapcsolatban ilyen visszajelzést nem kaptunk - igaz, ott bonyolultabb a helyzet, mert a Microsoft a megrendelő, a fejlesztésekért a szoftveróriás fizet - ha fizet.

Forrás: [origo]
A Google szerint majdnem minden hiba

A Morphologic szoftverét nem csak az Office-hoz adják, ugyanez működik a kiadványszerkesztő QuarkXPress, a EuroOffice, a MagyarOffice, az Adobe és néhány Corel program mellett is. A fejlesztéseket a vásárlók, azaz a nagyobb szoftverkiadók határozzák meg, hiszen azt az összeget tudják a fejlesztésekre fordítani, amit a piacon kapnak a szoftverekért. A ma elvégzett javítgatások, fejlesztések például a Microsoft programok esetén már csak az Office 2011-es változatában jelennek meg - legközelebb akkor adják ki a az irodai szoftvercsomagot.

A Google helyesírás-ellenőrzője teljesen használhatatlan, egyáltalán bekapcsolni is értelmetlen. A kifejezetten a magyar nyelv ellenőrzéséhez kínált szolgáltatás nem ismeri fel a magyar ékezetes karaktereket, az ellenőrzés megakad ezeknél a betűknél, az ellenőrző csak egy szócsonkot vizsgál, ami nyilvánvalóan helytelen lesz (a kedélytelen szónál megvizsgálja a ked és a lytelen szavakat, melyeket hibásnak talál).

Forrás: [origo]
Az OpenOffice ellenőriz

Kapcsolatot kerestünk a Google helyesírás-ellenőrzőjének fejlesztőivel, hiszen nyilvánvalóan valamilyen súlyos hiba áll fenn, ám csak a sajtószóvivő útján üzentek, hogy valóban van egy hiba a rendszerben, de folyamatosan dolgoznak azon, hogy jobb legyen a helyesírás-ellenőrző és hogy várják a visszajelzéseket. Konkrét kérdéseinkre nem kaptunk választ. Így a Google szolgáltatását e pillanatban nem ajánljuk, és nem is értékelhetjük.

Abban a kérdéseinkre választ adó szakemberek egyetértettek: a magyar nyelv sajátosságai miatt lehetetlen véglegesnek tekintett és teljes körűen használható ellenőrzőt készíteni. Például a magyar nyelvben rendszeresen jelennek meg új összetett szavak (gondoljunk csak az elmúlt tíz évnek a számítástechnika és az internet okozta szókincsbővülésére), nincs lezárható "szószedet", csak a variációk színesednek.

A "tesztről"

Egy olyan táblázatban szereplő szavakon futtattuk át a három ellenőrzőt, melyet lapunk olvasószerkesztője gyűjtött sok éven át - számos tipikus és atipikus hiba szerepelt a jegyzékben. Egy oszlopban szerepeltek a helytelen, egy másikban a helyes kifejezések. Cirka 4-500 szavas gyűjteményről van szó, melyben a kifejezések a legváltozatosabb területekhez köthetők. A helyesírás-ellenőrzők (a Google kivételével, mely szinte valamennyi szót hibásnak találta) a rosszul leírt szavak mintegy felét látták hibásnak, és közel 50 esetben voltak eltérő véleménnyel arról, hogy az adott szó valóban hibás-e, vagy egyöntetűen jónak tartották a rossz verziót. A használt szoftverek az OpenOffice.org 2.4.1-es és a Microsoft Office 2007-es változatai voltak - mindkét esetben a szövegszerkesztőt próbálgattuk -, valamint a használhatatlan ellenőrzőjű Google Dokumentumok.

Mint fentebb kiderült, számos esetben nem használható az ellenőrző program, ezért csak azt az ellentmondásos félszáz esetet vettük figyelembe, amikor eltért a két szoftver véleménye (azaz ha már az egyik felismerte, hogy valami nem stimmel, a másik is megtehette volna), vagy mindkét szoftver átsiklott a hiba felett. Nem számoltuk bele az eredménybe azokat a hibákat, amelyek több értelemben használható szavak miatt mutatkoztak (például a had, hadd szavakat egyik sem jelezte hibának, és önmagában nem is azok, csak ha nem a megfelelő helyen használja valaki). Szintén nem számoltuk bele az összesítésbe a több szóból álló kifejezések hibáit fel nem ismerő eseteket, különös tekintettel a földrajzi nevekre - no nem mintha nem lenne elvárható, hogy a New York-i kifejezést leírva valaki meggyőződhessen annak helyes voltáról, de erre egyelőre még várni kell.

Pontoztuk az ellenőrzők munkáját: ha valamelyik felismerte és javította az adott szót, egy pontot kapott, ha egy jó szót akart egy hibás változatra javítani, akkor mínusz egyet. Ha felismerte, hogy rossz a szó, de nem adott tippet, fél, ha csupa rossz tippet adott, mínusz fél ponttal honoráltuk a reakciót. Ha valamelyik nem ismert fel egy hibát, egyszerűen nem adtunk pontot.

Vita alakult ki azonban a pontszámítás módszerével kapcsolatban: Prószéky szerint ha egy program kihagy egy hibát, az nem nulla pontot, hanem mínuszt ér. Mi azért döntöttünk végül a nulla pont mellett, mivel egy hibákat fel nem ismerő program semmivel nem viszi sem előrébb, sem hátrább a felhasználót (tehát mintha nem is lenne helyesírás-ellenőrzője), mint ahogy a nulla is se pozitív, se negatív minősítést nem jelent.

Az eredeti koncepció szerint összeadogatott pontok alapján meglepően elhúzott az OpenOffice.org ellenőrzője: 18,5 pontot kapott, míg a Microsoft Office mínusz egyet (Egyébként kiszámoltuk a Prószéky-féle módszerrel is: ha mínusz fél pontot adtunk volna a kihagyott ziccerekért, plusz 8, illetve mínusz 14,5 pont lett volna a végeredmény az OpenOffice javára.).

Érdemes szem előtt tartani, hogy a magyar nyelv szókincse - és ezzel együtt a szavak helytelenül való leírásának a lehetősége is - természetesen jóval nagyobb, mint az általunk vizsgált négyszáz szó. Ezért nem tekintjük reprezentatívnak a vizsgálódást, de érdemes felfigyelni a kigyűjtött szavak változatosságára és a relatíve nagy mintára is. A szógyűjtemény innen (OpenOffice formátum) vagy innen (Microsoft Office) letölthető, vagy az alábbi táblázat segít az eligazodásban (a letölthető és a táblázatban látható összegzés ugyanaz).

rossz OOO MSOW OOO MSOW
120-szobás 120 szobás nem ajánl felismeri, de nincs ötlete 0,00 0,50
13-részes 13 részes nem ajánl felismeri, de nincs ötlete 0,00 0,50
áfá-val áfával jót ajánl felismeri, de rossz tippet ad 1,00 -0,50
áfa-kulcs áfakulcs nem ajánl jó helyett rosszat ajánl 0,00 -1,00
alsórakpart alsó rakpart jót ajánl nem ajánl 1,00 0,00
amatőrizmus amatörizmus jót ajánl nem ajánl 1,00 0,00
Anyák Napja anyák napja nem ajánl nem ajánl 0,00 0,00
bármie bármije jót ajánl felismeri, de rossz tippet ad 1,00 -0,50
bármilye bármije nem ajánl jót ajánl 0,00 1,00
Buckingham Palota Buckingham-palota jót ajánl nem ajánl 1,00 0,00
euro (pénznem) euró (pénznem) jót ajánl nem ajánl 1,00 0,00
gargalizál gargarizál nem ajánl nem ajánl 0,00 0,00
feljelentés-kiegészítés feljelentéskiegészítés nem ajánl jó helyett rosszat ajánl 0,00 -1,00
Fideszes fideszes nem ajánl jó helyett rosszat ajánl 0,00 -1,00
foci Eb foci-Eb nem ajánl jó helyett rosszat ajánl 0,00 -1,00
foci-EB foci-Eb nem ajánl jó helyett rosszat ajánl 0,00 -1,00
Guantanamo Guantánamo felismeri, de rossz tippet ad jót ajánl -0,50 1,00
Guiness Guinness felismeri, de rossz tippet ad jót ajánl -0,50 1,00
gr g jót ajánl, de bizonytalanul nem ajánl 0,50 0,00
Hong-Kong Hongkong jót ajánl nem ajánl 1,00 0,00
Hong Kong Hongkong jót ajánl nem ajánl 1,00 0,00
jelentősség jelentőség csak automatikusan javít jót ajánl 0,50 1,00
Karácsony karácsony nem ajánl nem ajánl 0,00 0,00
Húsvét húsvét nem ajánl nem ajánl 0,00 0,00
kerthelység kerthelyiség nem ajánl nem ajánl 0,00 0,00
kollega kolléga jót ajánl nem ajánl 1,00 0,00
Kormány kormány nem ajánl nem ajánl 0,00 0,00
könyörgöm könyörgök nem ajánl nem ajánl 0,00 0,00
mennyasszony menyasszony jót ajánl nem ajánl 1,00 0,00
nagysikerű nagy sikerű jót ajánl nem ajánl 1,00 0,00
nemutolsósorban nem utolsósorban nem ajánl jót ajánl 0,00 1,00
Nők Napja nők napja nem ajánl nem ajánl 0,00 0,00
orvosszakértő orvos szakértő nem ajánl jót ajánl 0,00 1,00
paparazzik paparazzók jót ajánl nem ajánl 1,00 0,00
papírzsebkendő papír zsebkendő nem ajánl jót ajánl 0,00 1,00
példanélküli példa nélküli jót ajánl nem ajánl 1,00 0,00
pozícionál pozicionál jót ajánl nem ajánl 1,00 0,00
reggeliző tál reggelizőtál nem ajánl jó helyett rosszat ajánl -1,00 -1,00
robosztus robusztus jót ajánl nem ajánl 1,00 0,00
Sao Paolo Sao Paulo jót ajánl nem ajánl 1,00 0,00
szabaddemokrata szabad demokrata jót ajánl nem ajánl 1,00 0,00
szűntet szüntet jót ajánl nem ajánl 1,00 0,00
teltház telt ház jót ajánl nem ajánl 1,00 0,00
teltházas telt házas jót ajánl nem ajánl 1,00 0,00
törlesztő részlet törlesztőrészlet nem ajánl jó helyett rosszat ajánl 0,00 -1,00
tucat számra tucatszámra nem ajánl jó helyett rosszat ajánl 0,00 -1,00
videójáték videojáték jó helyett rosszat ajánl jót ajánl -0,50 0,00




18,50 -1,00

 

KAPCSOLÓDÓ CIKK