Érdekel az bárkit is, hogy ki írta az újságcikket?

Fejlesztői szerint öt év múlva Pulitzer-díjat kaphat az első újságíró robot. Az Egyesült Államokban tavaly négyszázezer cikket állítottak elő a Narrative Science gépei. Magyar szakértők szerint a cég algoritmusa valóban alkalmas számokon alapuló tudósítások megírására, az olvasókat meg úgysem érdekli, hogy kik írják a cikkeket.

Az újságíró robot öt éven belül Pulitzer-díjat kaphat - mondta az amerikai Wired magazinnak Kristian Hammond, az adatokból szöveget gyártó szoftvert fejlesztő cég alapítója. A meglepő jóslatot Hammond azzal egészítette ki, hogy szerinte tizenöt év múlva nem lesz olyan területe az életünknek, ahol ne használnánk a Narrative Science (NS) fejlesztéséhez hasonló szöveggeneráló alkalmazásokat. A vezető azt is megkockáztatta, hogy 2030-ban a hírek kilencven százalékát algoritmusok fogják írni. Az elsőre meghökkentőnek tűnő vízió nem levegőben lógó ígéret vagy jól csengő médiahack: az Egyesült Államokban tavaly négyszázezer cikket állítottak elő a Narrative Science gépei, ez a szám a becslések szerint idén másfél millióra duzzad.

Olcsóbb, mint az ember

A Narrative Science a Northwestern University mérnökeinek és újságíróinak közös projektjeként indult, hivatalosan 2010-ben alapították a céget Chicagóban. A kezdeményezés célja, hogy olyan programot fejlesszenek, amely a tisztán statisztikai adatokból képes értelmes szöveget, például újságcikket írni. Az NS egy chicagói baseballmeccsről írta első tudósítását, ami olyan jól sikerült, hogy a programot azóta számos sportversenyen használják. Hammond szerint a szoftver mindenhol jó szolgálatot teljesíthet, ahol sok adatot kell szövegesen összefoglalni. Az NS egy nagy gyorsétteremlánc marketingosztályának is bedolgozik, és nagyban megkönnyíti azok munkáját, akiknek a végeláthatatlan táblázatokból kell kinyerniük a lényeges információkat.

A szakember szerint a szoftverük jelenleg az újságírás azon területein alkalmazható, ahol sok az adat, így például sport- és gazdasági témákban, ugyanakkor hamarosan a kevésbé statisztikán alapuló eseményekről, például politikai sajtótájékoztatókról is képesek lesznek tudósítani - állította a cég honlapján látható videóban.

A világsajtót bejáró projekttel kapcsolatban mindenhol megjegyezték, potenciálisan sok újságírónak veheti el az állását. Hammond szerint viszont ez nem igaz, hiszen az NS-t eddig is olyan területeken alkalmazták - például gyerekek sportmérkőzésein -, ahova egyébként nem küldtek volna tudósítót. Közben a fejlesztő mégis úgy véli, hogy a technológia hosszú távon jelentős költséget takaríthat meg a lapoknak, mert jóval olcsóbb, mint embereket fizetni.

Forrás: AFP/Uli Deck

Egy robot írja Luther bibliáját Karlsruhéban (képünk illusztráció)

Jó forgatókönyvvel a robot is tud hírezni

"Egy sporthír, politikai tudósítás, időjárás-jelentés, pletyka, szóbeli vizsga, étteremajánló, színházi beszámoló vagy vásárlási szituáció műfajilag mind jól behatárolható kontextus, beazonosítható belső szabályszerűségekkel, mintázattal rendelkezik" - mondta az [origo]-nak Szakadát István, a BME számítógépes nyelvészettel foglalkozó docense. Az oktató szerint ezek a műfajok önmagukban nagyon egyszerűek, tudni lehet, hogy milyen tulajdonnevekkel, igékkel operálnak, milyen tevékenységtípusok fordulnak elő bennük, milyen kapcsolat jellemzi a történet szereplőit, milyen mértékek használatosak bennük, milyen reguláris kifejezéseket rendelhetünk a történethez. Szakadát úgy látja, ezeket a kontextusokat mind fel lehet ismertetni géppel, és meg is taníthatóak a robotoknak, ezek alapján az NS-éhez hasonló algoritmus képes lehet arra, hogy egy adott történetet összeállítson.

Egy ilyen szoftvernél nem az adatok a lényegesek, hanem a forgatókönyv, amelybe belehelyezhetőek a számok - mondta Szakadát. "Veszi az ember, vagyis a gép a forgatókönyvet, amelyben szereptípusok, előfeltételek, elágazások, mintázatok, együttes előfordulások, együttes kizárások, limitek, kényszerek, vannak szóval rengeteg szabály, üres, kitöltendő mezőkkel, ahová konkrét adatokat, számokat, tulajdonneveket (hely-, ember-, cég-, pártneveket, időpontokat, számszerű eredményeket, telefonszámokat, rendszámokat stb.) lehet beírni. Ezeket veheti a gép a konkrét adattáblákból, valamint képesnek kell lennie a  szavakat értelmes és jól formált mondatokká összefűzni. Kell hozzá nyelvtechnológiai tudás is: elsősorban mondatkezelési, másodsorban szókezelési képesség, harmadsorban a szavak jelentésével és a szavak által jelölt élőlények, tárgyak, jelenségek tulajdonságaival is tisztában kell lennie.

A kutya nem tud integrálni

A gépek ma már magyarul is jó szókezelési képességgel rendelkeznek, azaz alacsony hibaszázalékkal fel tudják ismerni a szavak jelentését, és helyesírás-ellenőrzésben is magas szinten állnak - mondta a docens, aki szerint mondatkezelésben még elmaradnak a gépek, de szépen fejlődnek. Mondatkezelés közben azt kell tudniuk eldönteni, hogy például a "a kutya megugatta a gazdáját" és "a kutyának megugatta a gazdához" mondatok közül melyik a helyes, melyik a helytelen. A számítógépes nyelvészet szempontjából a legnagyobb kihívás még mindig az, hogy a mondatkezelésileg helyes, de nyelvi tartalom szempontjából értelmetlen mondatokat képes legyen kezelni. Például "a kutya megtanította integrálni a gazdáját" mondat szerkezetileg teljesen rendben van, de valójában képtelenség, ennek felismeréséhez pedig olyan háttértudásra van szükség, mint hogy a kutyák nem tudnak integrálni, ellenben tudnak ugatni és házat őrizni - mondta a szakember. Szakadát szerint a gépi nyelvészetnek ez a területe is fejleszthető, de rendkívül nagy tudásbázis betáplálására van szükség, és ez főleg a rétegterületeken jelent gondot.

A nemzetközi sajtóban az NS-sel kapcsolatban megjelent cikkek legtöbbször éles határvonalat húznak az emberi és a gépi erőforrás között, pedig ez az írás tekintetében sem feltétlenül állja meg a helyét. Szakadát szerint a legtöbbször az emberek is rutinszerűen cselekszenek, akár egy robot, de ezt nem veszik észre, éppen ebben áll a rutin lényege. Az oktató szerint ez a technológia - ha rendelkezésre állnak jó forgatókönyvek - kiválthat egy átlagos kommentátort vagy rövid szövegekkel operáló újságírót, viszont szerinte fontos tisztában lenni azzal, hogy ez a technika sosem lesz képes új minőséget, kreatív tudást előállítani ezen a műfajon belül.

Érdekli-e az embereket, hogy ki írta a cikket?

A rendelkezésre álló tudásokból - tehát, hogy létezik ez a technológia - szamárság olyasmire következtetni, hogy mi fog tíz-húsz év múlva történni, ugyanis a köztes idő eseménysorozatával nem lehet számolni - mondta az [origo]-nak György Péter, az ELTE médiakutatója. György szerint ez jól mérhető az internettel kapcsolatos jóslatoknál, amelyek fél évnél tovább sohasem tudták tartani magukat.

Hogy a technika kiválhatja-e az újságírók munkáját, annak eldöntésére György szerint a hitelesség kérdésén kell elgondolkodnunk. "A világon sok százmillió embert érdekel, hogy pontosan honnan és milyen úton kerül eléjük az információ, sok milliárdot viszont egyáltalán nem" - mondta György Péter, így ez a technika éppen használható lehet a vizuálisan ellenőrizhető események, például sportmérkőzések esetében, de az olyasminél már nem, hogy mit mondott az amerikai elnök.