Szövegszerkesztők helyesírásversenye

Vágólapra másolva!
Mire jó egy helyesírás-ellenőrző? Sokan rálegyintenének, hogy semmire, de ez így azért nem igaz. Az elütések zömét megmutatja, a klasszikus helyesírási hibákat kiszűri, de az egybeírás-különírás kérdésében kifejezetten béna mindegyik.
Vágólapra másolva!

Három nagy helyesírás-ellenőrző programot vettünk szemügyre - a feladat nagysága és szerteágazó volta miatt a teszt szót kerüljük, bár születtek összesítő eredmények. Az OpenOffice nevű ingyenes irodai programcsomag és a Firefox által is használt Hunspell nevű helyesírás-ellenőrzőt, a Microsoft Office használta, a hazai Morphologic által fejlesztett Helyesek nevű programot, valamint a Google Dokumentumok szolgáltatás webes helyesírás-ellenőrzőjét nézegettük. Mit nem néztünk? Nem néztük a programok elválasztás-ellenőrző, valamint a szinonima- és nyelvhelyesség-ellenőrző moduljait (ez utóbbi csak a microsoftos Office-ban található).

Van azért, amire jó

Összegzésünk a cikk elején: többnyire alkalmasak a helyesírás-ellenőrzők az elgépelések, elütések javítására (pontosabban az erre való figyelmeztetésre), zömmel alkalmasak a durva helyesírási hibák, mint a j és ly összekeverésének, a hosszú-rövid ékezetek hibáinak kiküszöbölésére, feltéve, ha a hibás változat nem értelmes más szövegkörnyezetben. Például az egyenlőre és az egyelőre összekeverése súlyos hibának számít, de mivel mindkettő értelmes szó, ha egy elütés kapcsán kerül elő a szövegben, az ellenőrző nem fog figyelmeztetni. Épp az egyelőre-egyenlőre közti különbségre az Office nyelvhelyesség-ellenőrző modulja (a zöld aláhúzásos) figyelmeztet ugyan, de a had (hadsereg), illetve hadd (hadd menjen) közti különbségre nem, tehát a megállapítás - miszerint ha értelmes a rosszul írt szó, nem lehet építeni a szoftverekre - igaz.

Ám az ellenőrző programok nem értelmezik a szöveget, nem tudják kitalálni, hogy a szerző mit akart írni. Nem alkalmasak tehát a zsinórdíszítés (sujtás) és az ütés (sújtás) közül kiválasztani a megfelelőt, hiszen mindkettő helyes lehet a maga mondatában, de az ellenőrző nem tudja, hogy épp melyik mondatról van szó. Épp ezért a különírás-egybeírás kérdésében sincs okunk sok reményre. Az összetett kifejezéseket alkotó szavak ugyanis külön-külön is lehetnek értelmesek pl.: fa, kanál és fakanál, vagy tucat, számra és tucatszámra, a program pedig nem tudja, hogy mit gondolt a szerző: két szóra vagy csak egyre. A programok ilyen esetekben a legritkábban tesznek javítási ajánlatot, tehát a hibásan különírt szavak kérdésében nemigen érdemes rájuk hagyatkozni. Ez még akkor is igaz, ha az Office nyelvhelyesség-ellenőrzője néhány esetben képes legalábbis figyelmeztetni; az általunk kipróbált 24 külön-, illetve egybeírási hibát tartalmazó tesztmondtatból 23 esetben elsiklott a baki felett a szoftver (az OpenOffice-nak nincs nyelvhelyességi modulja ugyan, de pont ugyanennyi hibát vett észre, azaz: egyet).

Forrás: [origo]
Az új Office helyesírás-ellenőrzője munka közben

A hibásan egybeírt szavak vonatkozásában már valamivel jobb a helyzet, hiszen itt egyetlen szóról kell eldönteniük a programoknak, hogy az jó-e úgy leírva. Mindenesetre érdemes figyelembe venni, hogy az ellenőrzők megengedőek az összetett szavak kezelését illetően, így például a cipőasztal és a cserépvezető szavakat egyaránt elfogadják, bár ezeknek semmi értelmük nincs. A hibásan egybeírt szavak közül az ismert, gyakran használt kifejezések tekintetében gyakrabban találtunk helyesen felkínált javítási lehetőséget, míg a ritkábban használt vagy teljesen értelmetlen kifejezésekre a programok nem reagáltak.

Eltérő filozófia

Érdekes a két, megkeresésünkre válaszoló szakember véleménye a szoftverről. Az Org/Firefox Hunspelljét fejlesztő Németh László azt emelte ki, hogy nagyon odafigyelnek arra: egy hiba javításának égisze alatt ne kövessenek el még nagyobb hibát. Dr. Prószéky Gábor, a Microsoft Office által használt ellenőrzőt fejlesztő Morphologic vezetője pedig arra hivatkozik: a szoftvereknek a feladata inkább az, hogy megállítsák és elgondolkoztassák a szerzőt, hogy valóban helyes-e, amit írt.

A különféle megközelítést magyarázza a háttérben húzódó filozófia. A hunspelles Németh szerint egy olyan ember, aki nem olvasott, nem művelt - vagy egyszerűen csak nagyon fiatal -, szociális hátrányba keveredhet, ha a helyesírása alapján ez kiderül róla. A szoftver nekik segíthet a legtöbbet azzal, hogy a leggyakoribb hibákra ráirányítja a figyelmet. Így egy elektronikus formában szerkesztett önéletrajz vagy dolgozat alapján nem alakulhatnak ki előítéletek.

A Helyeseket fejlesztő Prószéky arra hívja fel a figyelmet, hogy a magyar nyelv szabályai nagyon sok elvi lehetőséget biztosítanak különféle írásmódra. A helyesírás-ellenőrzők szerepét abban látja, hogy megállítsák és elgondolkodtassák a szerzőt, hogy bár elméletben lehetséges az, amit leírt, gondolja át, hogy a gyakorlatban is működik-e. A helyesírás-ellenőrző számos esetben az utolsó állomás, hogy egy szöveget a véglegesítés előtt javítsanak. Ezért szerinte nem baj, ha több a figyelmeztetés, mint amennyi a valódi hiba; nagyobb baj, ha hibásan kerül ki a szöveg a szerző keze alól.

Szabad szoftver vagy fizetett fejlesztők

Míg a Hunspell egy szabad szoftver, amit bárki fejleszthet, a szólistát pedig - ellenőrzötten - bővítheti, a Morphologic szoftverét zárt fejlesztői csapat készíti. Persze az újdonságok a szabad szoftverben is tervezetten jelennek meg, például az OpenOffice újabb kiadásával. Az általunk mindkét fejlesztőnek megküldött, az ellenőrző szoftver által hibásan hagyott szavakat tartalmazó jegyzék sorsa is érdekes volt. A Hunspell fejlesztője tételes visszajelzést küldött arról, hogy mely kifejezéseket vette fel a szoftver következő kiadásába vagy milyen új szabályt alkotott, hogy ezeket legközelebb már javítsa a program. A Morphologicnak megküldött jegyzékkel kapcsolatban ilyen visszajelzést nem kaptunk - igaz, ott bonyolultabb a helyzet, mert a Microsoft a megrendelő, a fejlesztésekért a szoftveróriás fizet - ha fizet.

Forrás: [origo]
A Google szerint majdnem minden hiba

A Morphologic szoftverét nem csak az Office-hoz adják, ugyanez működik a kiadványszerkesztő QuarkXPress, a EuroOffice, a MagyarOffice, az Adobe és néhány Corel program mellett is. A fejlesztéseket a vásárlók, azaz a nagyobb szoftverkiadók határozzák meg, hiszen azt az összeget tudják a fejlesztésekre fordítani, amit a piacon kapnak a szoftverekért. A ma elvégzett javítgatások, fejlesztések például a Microsoft programok esetén már csak az Office 2011-es változatában jelennek meg - legközelebb akkor adják ki a az irodai szoftvercsomagot.

A Google helyesírás-ellenőrzője teljesen használhatatlan, egyáltalán bekapcsolni is értelmetlen. A kifejezetten a magyar nyelv ellenőrzéséhez kínált szolgáltatás nem ismeri fel a magyar ékezetes karaktereket, az ellenőrzés megakad ezeknél a betűknél, az ellenőrző csak egy szócsonkot vizsgál, ami nyilvánvalóan helytelen lesz (a kedélytelen szónál megvizsgálja a ked és a lytelen szavakat, melyeket hibásnak talál).

Forrás: [origo]
Az OpenOffice ellenőriz

Kapcsolatot kerestünk a Google helyesírás-ellenőrzőjének fejlesztőivel, hiszen nyilvánvalóan valamilyen súlyos hiba áll fenn, ám csak a sajtószóvivő útján üzentek, hogy valóban van egy hiba a rendszerben, de folyamatosan dolgoznak azon, hogy jobb legyen a helyesírás-ellenőrző és hogy várják a visszajelzéseket. Konkrét kérdéseinkre nem kaptunk választ. Így a Google szolgáltatását e pillanatban nem ajánljuk, és nem is értékelhetjük.

Abban a kérdéseinkre választ adó szakemberek egyetértettek: a magyar nyelv sajátosságai miatt lehetetlen véglegesnek tekintett és teljes körűen használható ellenőrzőt készíteni. Például a magyar nyelvben rendszeresen jelennek meg új összetett szavak (gondoljunk csak az elmúlt tíz évnek a számítástechnika és az internet okozta szókincsbővülésére), nincs lezárható "szószedet", csak a variációk színesednek.

A "tesztről"

Egy olyan táblázatban szereplő szavakon futtattuk át a három ellenőrzőt, melyet lapunk olvasószerkesztője gyűjtött sok éven át - számos tipikus és atipikus hiba szerepelt a jegyzékben. Egy oszlopban szerepeltek a helytelen, egy másikban a helyes kifejezések. Cirka 4-500 szavas gyűjteményről van szó, melyben a kifejezések a legváltozatosabb területekhez köthetők. A helyesírás-ellenőrzők (a Google kivételével, mely szinte valamennyi szót hibásnak találta) a rosszul leírt szavak mintegy felét látták hibásnak, és közel 50 esetben voltak eltérő véleménnyel arról, hogy az adott szó valóban hibás-e, vagy egyöntetűen jónak tartották a rossz verziót. A használt szoftverek az OpenOffice.org 2.4.1-es és a Microsoft Office 2007-es változatai voltak - mindkét esetben a szövegszerkesztőt próbálgattuk -, valamint a használhatatlan ellenőrzőjű Google Dokumentumok.

Mint fentebb kiderült, számos esetben nem használható az ellenőrző program, ezért csak azt az ellentmondásos félszáz esetet vettük figyelembe, amikor eltért a két szoftver véleménye (azaz ha már az egyik felismerte, hogy valami nem stimmel, a másik is megtehette volna), vagy mindkét szoftver átsiklott a hiba felett. Nem számoltuk bele az eredménybe azokat a hibákat, amelyek több értelemben használható szavak miatt mutatkoztak (például a had, hadd szavakat egyik sem jelezte hibának, és önmagában nem is azok, csak ha nem a megfelelő helyen használja valaki). Szintén nem számoltuk bele az összesítésbe a több szóból álló kifejezések hibáit fel nem ismerő eseteket, különös tekintettel a földrajzi nevekre - no nem mintha nem lenne elvárható, hogy a New York-i kifejezést leírva valaki meggyőződhessen annak helyes voltáról, de erre egyelőre még várni kell.

Pontoztuk az ellenőrzők munkáját: ha valamelyik felismerte és javította az adott szót, egy pontot kapott, ha egy jó szót akart egy hibás változatra javítani, akkor mínusz egyet. Ha felismerte, hogy rossz a szó, de nem adott tippet, fél, ha csupa rossz tippet adott, mínusz fél ponttal honoráltuk a reakciót. Ha valamelyik nem ismert fel egy hibát, egyszerűen nem adtunk pontot.

Vita alakult ki azonban a pontszámítás módszerével kapcsolatban: Prószéky szerint ha egy program kihagy egy hibát, az nem nulla pontot, hanem mínuszt ér. Mi azért döntöttünk végül a nulla pont mellett, mivel egy hibákat fel nem ismerő program semmivel nem viszi sem előrébb, sem hátrább a felhasználót (tehát mintha nem is lenne helyesírás-ellenőrzője), mint ahogy a nulla is se pozitív, se negatív minősítést nem jelent.

Az eredeti koncepció szerint összeadogatott pontok alapján meglepően elhúzott az OpenOffice.org ellenőrzője: 18,5 pontot kapott, míg a Microsoft Office mínusz egyet (Egyébként kiszámoltuk a Prószéky-féle módszerrel is: ha mínusz fél pontot adtunk volna a kihagyott ziccerekért, plusz 8, illetve mínusz 14,5 pont lett volna a végeredmény az OpenOffice javára.).

Érdemes szem előtt tartani, hogy a magyar nyelv szókincse - és ezzel együtt a szavak helytelenül való leírásának a lehetősége is - természetesen jóval nagyobb, mint az általunk vizsgált négyszáz szó. Ezért nem tekintjük reprezentatívnak a vizsgálódást, de érdemes felfigyelni a kigyűjtött szavak változatosságára és a relatíve nagy mintára is. A szógyűjtemény innen (OpenOffice formátum) vagy innen (Microsoft Office) letölthető, vagy az alábbi táblázat segít az eligazodásban (a letölthető és a táblázatban látható összegzés ugyanaz).

rosszOOOMSOWOOOMSOW
120-szobás120 szobásnem ajánlfelismeri, de nincs ötlete0,000,50
13-részes13 részesnem ajánlfelismeri, de nincs ötlete0,000,50
áfá-valáfávaljót ajánlfelismeri, de rossz tippet ad1,00-0,50
áfa-kulcsáfakulcsnem ajánljó helyett rosszat ajánl0,00-1,00
alsórakpartalsó rakpartjót ajánlnem ajánl1,000,00
amatőrizmusamatörizmusjót ajánlnem ajánl1,000,00
Anyák Napjaanyák napjanem ajánlnem ajánl0,000,00
bármie bármijejót ajánlfelismeri, de rossz tippet ad1,00-0,50
bármilyebármijenem ajánljót ajánl0,001,00
Buckingham PalotaBuckingham-palotajót ajánlnem ajánl1,000,00
euro (pénznem)euró (pénznem)jót ajánlnem ajánl1,000,00
gargalizálgargarizálnem ajánlnem ajánl0,000,00
feljelentés-kiegészítésfeljelentéskiegészítésnem ajánljó helyett rosszat ajánl0,00-1,00
Fideszesfideszesnem ajánljó helyett rosszat ajánl0,00-1,00
foci Ebfoci-Ebnem ajánljó helyett rosszat ajánl0,00-1,00
foci-EBfoci-Ebnem ajánljó helyett rosszat ajánl0,00-1,00
GuantanamoGuantánamofelismeri, de rossz tippet adjót ajánl-0,501,00
GuinessGuinnessfelismeri, de rossz tippet adjót ajánl-0,501,00
grgjót ajánl, de bizonytalanulnem ajánl0,500,00
Hong-KongHongkongjót ajánlnem ajánl1,000,00
Hong KongHongkongjót ajánlnem ajánl1,000,00
jelentősségjelentőségcsak automatikusan javítjót ajánl0,501,00
Karácsonykarácsonynem ajánlnem ajánl0,000,00
Húsvéthúsvétnem ajánlnem ajánl0,000,00
kerthelységkerthelyiségnem ajánlnem ajánl0,000,00
kollegakollégajót ajánlnem ajánl1,000,00
Kormánykormánynem ajánlnem ajánl0,000,00
könyörgömkönyörgöknem ajánlnem ajánl0,000,00
mennyasszonymenyasszonyjót ajánlnem ajánl1,000,00
nagysikerűnagy sikerűjót ajánlnem ajánl1,000,00
nemutolsósorbannem utolsósorbannem ajánljót ajánl0,001,00
Nők Napjanők napjanem ajánlnem ajánl0,000,00
orvosszakértőorvos szakértőnem ajánljót ajánl0,001,00
paparazzikpaparazzókjót ajánlnem ajánl1,000,00
papírzsebkendőpapír zsebkendőnem ajánljót ajánl0,001,00
példanélkülipélda nélkülijót ajánlnem ajánl1,000,00
pozícionálpozicionáljót ajánlnem ajánl1,000,00
reggeliző tálreggelizőtálnem ajánljó helyett rosszat ajánl-1,00-1,00
robosztusrobusztusjót ajánlnem ajánl1,000,00
Sao PaoloSao Paulojót ajánlnem ajánl1,000,00
szabaddemokrataszabad demokratajót ajánlnem ajánl1,000,00
szűntetszüntetjót ajánlnem ajánl1,000,00
teltháztelt házjót ajánlnem ajánl1,000,00
teltházastelt házasjót ajánlnem ajánl1,000,00
törlesztő részlettörlesztőrészletnem ajánljó helyett rosszat ajánl0,00-1,00
tucat számratucatszámranem ajánljó helyett rosszat ajánl0,00-1,00
videójátékvideojátékjó helyett rosszat ajánljót ajánl-0,500,00
18,50-1,00