Agyunk kétirányú kapcsolatokkal sűrűn összekötött területek hálózata, ahol az ellentétes irányú kapcsolatok jellege és szerepe még messze nem tisztázott. Amikor valamit meglátunk, az agyunk több szinten dolgozza fel az információt: az egyszerű formáktól a bonyolultabb fogalmakig. A mesterséges intelligencia (MI) eddigi képfelismerő rendszerei, amelyek például felismernek egy kutyát a telefonunk fotóján, egyirányú feldolgozással működnek: az információ csak „alulról felfelé” halad.
Az agy két irányban dolgozik
Az agyunk viszont két irányban dolgozik: nemcsak az alakítja az idegsejtek válaszát a feldolgozás adott szintjén, hogy a korábbi szintek mire jutottak, hanem az is, mi fog történni a következő feldolgozási szinten. Ez azt jelenti, hogy az agy mindig figyelembe veszi a környezetet és a kontextust is: nemcsak azt, hogy mit látunk, hanem azt is, mit jelent az, amit látunk (a meglátott kutya barát vagy ellenség, közelít vagy távolodik). Ennek a következménye pedig drámai: a neurális kódot nem csak az határozza meg, ami a feldolgozásban az adott feldolgozási szint előtt történt, hanem az is, ami a feldolgozás következő lépéseiben történik.
A HUN-REN Wigner Fizikai Kutatóközpont kutatói által kifejlesztett modell ezt a kétirányú információáramlást utánozza, azaz egy olyan MI-modellt hoztak létre, amely nemcsak lát, hanem az emberi agyhoz hasonlóan értelmez is. Ennek segítségével nemcsak az idegrendszer információfeldolgozási folyamatait tudjuk precízebben feltárni (köztük olyan érdekes jelenségeket is, mint például a látási illúziók), hanem megbízhatóbb és rugalmasabb gépi látási rendszereket is készíthetünk.
Csikor Ferenc és munkatársai munkájukban arra világítottak rá, hogy az idegrendszerünk összetettebb feladatot old meg, mint a telefonunkban rejlő képfelismerő algoritmus. Az idegrendszer ugyanis rugalmasan kíván megfelelni többféle kihívásnak, a megfigyelt állat típusának megállapításán túl arra is, hogy eldöntse, az állat barát vagy ellenség, felénk mozdul vagy tőlünk el.
Ahhoz, hogy rugalmasan tudjunk alkalmazkodni a különféle igényekhez, a hagyományos mély diszkriminatív modellek nem megfelelőek, helyettük a mély generatív modellekhez kell fordulni. A HUN-REN Wigner FK kutatói szerint a jövőben ezek az új MI-modellek ellenállóbbak lehetnek hibákkal vagy támadásokkal szemben, kevesebb felcímkézett tanítóadatból is tanulhatnak, valamint sokkal pontosabb gépi látási rendszereket tehetnek lehetővé.
Forrás: HUN-REN Wigner Fizikai Kutatóközpont
Neurális kód: az idegsejtek rövid elektromos impulzusok segítségével kommunikálnak egymással és az izmainkkal. Az idegsejtek közötti kommunikáció nyelve a neurális kód: ez biztosít információt a környezetben zajló folyamatokról, és arról, miképpen reagáljunk ezekre.
Mély diszkriminatív modellek: ezek az MI-eszközök a mélytanuló rendszerek közé tartoznak, melyek külső tanítóingerek hatására tudják minél hatékonyabban megkülönböztetni a különböző kategóriájú inputokat (például képeket) és hatékonyan ismerik fel a hasonlóságot az azonos kategóriájú inputok között (pl. telefonos arcfelismerés).
Mély generatív modellek: ezek az MI-rendszerek abban különböznek a diszkriminatív modellektől, hogy nem igényelnek külső tanítóingereket a tanuláshoz, ehelyett ezek az MI-eszközök magukat tanítják. A nagy nyelvi modellek és képgeneráló modellek (ChatGPT, Dall-E, Midjourney) egyaránt a generatív modellek közé tartoznak.