Legenda bizonyítva: megszámoltuk Arany szavait

2015.03.30. 07:20

Közismert állítás, hogy Arany János a legnagyobb szókincsű költőnk. De tényleg igaz ez? Hogy megtudjuk, ráengedtük a big data technológiát a verses kötetekre.

Darabra pontosan megszámoltattuk számítógépekkel, hogy ki írt le több egyedi szót: Arany János vagy Petőfi, esetleg Ady, Kölcsey, Vörösmarty vagy éppen József Attila? Avagy felhasználtuk az elérhető big datát, a nagy mennyiségű adatok feldolgozását lehetővé tevő technológiát, hogy kiderítsünk egy legendát.

De mi is az a big data?
A big data a hatalmas adatrobbanás következtében keletkező információk kiaknázása. A rengeteg hordható okoskütyü, okostelefon, tablet, laptop, PC, a honlapok és közösségi oldalak által naponta rengeteg adat keletkezik. Nem elég tárolni, gyűjteni az óriási mennyiségű információt, azt rendszerezni kell, értelmezhetővé és elemezhetővé kell tenni. Éppen ebben segít a big data. A fejlett számítógépes elemzés szerepet játszik a vállalati stratégia kidolgozásában, társadalmi folyamatok modellezésében, trendekmegjóslásában is.

A számítástechnika, az internet és a közösségi média terjedésével egyre több és több adat keletkezik. Adatok arról, hogy egy felhasználó mikor jelentkezik be a Facebookra, hogy hol nyitotta meg a Google Térkép alkalmazását, hogy hogyan értékelte a paradicsomos pizza ízét a budapesti étteremben.

Rengeteg információ, amelyeket bár nehéz feldolgozni, de ha sikerül, akkor sokat tanulhatunk belőle. Általánosságban big datáról akkor beszélünk, ha több mint 1 milliárd sornyi adatunk van. Bár költőink igen termékenyek voltak, ennyit együtt sem tudtak összehozni. Maga a technológia és az adatvezérelt gondolkodásmód azonban segít megérteni azt, amit eddig csak sejtettünk munkásságuk mögött.

Arany János nyerte a versenyt

No de hány szót is írt le Arany János élete során? 287 425-öt – ha csak a költeményeit számoljuk. Összesen 59 697 egyedi szót használt, ha pedig a ragozott formákat nem tekintjük külön szónak, akkor valamivel több, mint 16 ezret. Ezzel pedig hivatalosan is megnyerte a magyar költők szókincsversenyét.

Összehasonlításképp a magyar nyelvben összesen 60–100 ezer egyedi szó van, egy átlagos értelmiségi egyévnyi beszédét rögzítve körülbelül 25-30 ezer szó fordulna elő.

Arany János nyerte a szókincsversenyt

Forrás: Wikipedia

József Attilát is megilleti egy kategóriagyőzelem, hiszen az összes leírt szavához képest arányaiban ő használja a legtöbb egyedi szót (31,26%), ugyanez az arány Arany Jánosnál "csak" 20,77 százalék.

  Költő Leírt szavak Egyedi szavak Egyedi szótövek Egyedi/leírt szavak
1 Arany János 287 425 59 697 ~16 000 20,77%
2 Vörösmarty Mihály 214 104 43 938 ~12 000 20,52%
3 Petőfi Sándor 154 721 32 855 ~9 600 21,23%
4 Ady Endre 124 574 30 243 ~10 400 24,28%
5 Babits Mihály 398 003 27 116 ~11 000 6,81%
6 József Attila 62 811 19 635 ~8 200 31,26%

A szépért mindenki odavan

A legtöbbször használt szavak közt a "szép" jelző minden költőnél előkelő helyen szerepelt, Arany János ezek után legtöbbször a "király", "ember", "nap" és "Toldi" kifejezéseket használta. A többi költőnél gyakran előfordult még a "magyar", a "bús" és az "Isten".

A különböző szövegelemzési algoritmusokkal fényt deríthetnénk arra is, hogy ki használja például a legegyszerűbb szavakat, ki dolgozik többszörösen összetett mondatokkal. Sőt, fejlettebb technológiák azt is meg tudják mondani, hogy ki a legpozitívabb vagy legnegatívabb hangulatú szerzőnk.

Rengeteg felhasználási területe van

Az adatelemzés üzletileg is értelmezhető. Ugyan még a legtöbb vállalat tart a közösségi médiától és a big data technológiától, a cégvezetők egyre pontosabban látják, mire is lehet felhasználni őket. A SAP-nak már az elmúlt két évben millióeurós bevételeket hozott a big data, ráadásul nemcsak profitot termel, de új állásokat is hoz létre: becslések szerint az Egyesült Államokban 2015 elejéig 3 millió munkahelyet teremtett.

Az Országos Meteorológiai Szolgálat is egyik nagy felhasználója a technológiának. A tömérdek mennyiségű adattal dolgozó klímaszimulációkkal azt szeretnék megbecsülni, milyen hatásai lesznek az éghajlatváltozásnak Magyarországon, különös tekintettel a városokra és a hosszú hőhullámokra. Ezeket az eredményeket aztán a várostervezésben is figyelembe vehetik a döntéshozók.

(A szerző adatelemző, az Adatlabor alapítója.)