Még mindig szalagokon tárolja adatait a CERN

2016.10.06. 18:04

Petabájt. Még elképzelni is nehéz, mennyi adatot jelent ez - a CERN ATLAS részecskedetektora mégis másodpercenként ennyi információt szolgáltat a Nagy Hadronütköztetőnek, és ez még csak a detektorok egyike. A CRUNCH big datával foglalkozó konferencián Dirk Düllmann, a CERN elemzésért és dizájnért felelős szekciójának vezetője tartott előadást arról, hogyan birkózik meg a szervezet ekkora mennyiségű információval.

Egy petabájt egymillió gigabájtból épül fel. Ez nagyjából 13,3 év hosszúságú HD-videót jelent. 1,5 petabájtra 10 milliárd olyan fotó fér, amelyet a Facebookra optimizáltak. 20 petabájt 1995-ös viszonylatokban a világ összes merevlemezének a méretét adja, összeadva. 50 petabájtra pedig ráfér az emberiség összes írott könyve, a történelem kezdetétől számítva, a világ minden nyelvén. 

Az LHCb kísérletben használt berendezés egyik hatalmas mágnese a CERN-benForrás: CERN/LHC/Peter Ginter

Elképesztően sok adat kevés idő alatt

Ehhez képest a Nagy Hadronütköztető (LHC) egyetlen detektora, az ATLAS (A Toroidal LHC ApparatuS, Egy Toroidális LHC Apparátus) másodpercenként egy petabájt összadatot produkál. Persze a CERN kutatói nem tartják meg az összes adatot - van, ami haszontalannak bizonyul, és nem érdemes időt és tárhelyet fecsérelni arra, hogy megőrizzék. Így

nagyjából 50 petabájt adat marad évente, aminek helyet kell keresni

- és ez csak az egyik detektor a sok közül.

Dirk Düllmann, a CERN big datával foglalkozó szekciójának vezetője a CRUNCH konferencián tartott előadásában foglalta össze, hogyan képes a CERN ilyen elképesztő mennyiségű adatot kezelni. A szervezet működésének kezdete óta (1954) készít a mai napig visszakereshető adatbázist arról, hogy milyen folyamatok mennek végbe az ütköztetőkben. Eleinte gyakorlatilag noteszokban tartották a mérési eredményeket, ezek digitalizálásával együtt már több mint 140 perabájtnyi kísérleti eredményt tudhatnak maguk mögött.

Bármilyen furcsa, mindezt még mindig főként szalagokon őrzik.

Dirk Düllmann a CRUNCH konferencián tartott előadásánForrás: Nagy Nikoletta

Szalagokon, nem merevlemezeken

"Furcsának tűnhet, de a szalagos adattárolás még mindig az egyik leghatékonyabb és legolcsóbb megoldás" - mondta el Düllmann a Millenárison megtartott előadásában. "Ezt nem úgy kell elképzelni, hogy hatalmas kazettákat őrzünk a pincében - mindent folyamatosan újraírunk, mert a szalagos technológia is folyamatosan fejlődik, egyre kevesebb helyen egyre több adat fér el." Egy-egy szalag 500-700 GB adatot tud tárolni, tehát a tárolókapacitása akkora, mint egy modernebb otthoni gépben a merevlemezé.

A CERN két nagy adatközponttal rendelkezik: az egyik Genfben, a másik pedig éppen Budapesten, a Wigner Fizikai Kutatóközpont csillebérci telephelyén. A budapesti központ a CERN genfi adatparkjával azonos, legfelsőbb szintű adatfeldolgozó központ, ahol a véglegesen feldolgozott adatokat el is tárolják. Annak, hogy a szervezetnek két adatközpontja is van, nem csak a helyhiány volt az oka: a genfi centerben ennél is több számítógép már túlhevülne, és elvesznének az adatok.

Hogyan lehet adatokat lekérni?
Ha például egy fizikusnak szüksége van egy adatállományra (és van hozzáférése a CERN GRID-hez), akkor lekéri az adatokat, a robot ezt megkeresi neki, beteszi a szalagot az olvasóba, az adatok merevlemezre másolódnak, és a user onnan fogja direktben olvasni - írja a CERN blog. Ez nagyon fontos, mert nincs annyi olvasófej, hogy mindenkit egyszerre kiszolgáljon.

Több helyen, nagyobb biztonságban

Az adattárolás egyébként eléggé speciális módszerrel történik: azon túl, hogy a két adatközpontban szalagokon tartják az összes eddig mért adatot (a szalagok, mint említettük, hatékonyabbak, nem igényel áramot a használatuk, tartósabbak és olcsóbbak is, mint a merevlemezek), a világ minden táján tárolnak külön-külön adatcsoportokat, rendszerint különböző egyetemek kutatóintézeteiben. Ez azért is célszerű, mert így könnyebb finanszírozást szerezni a különböző adatcsoportokat felhasználó kutatásokra.

A hengeres alakú CMS detektor középpontjában ütköznek az LHC nagyenergiájú részecskenyalábjai. A kölcsönhatásban születő részecskék útjuk során elektronikus jeleket hoznak létre a detektor különböző rétegeiben. Ezekből rekonstruálják a fizikusok a lejátszódó elemi folyamatokatForrás: ELTE

"Az, hogy több helyen tároljuk a különböző adatokat, azt is szolgálja, hogy bebiztosítsuk magunkat: így sokkal nagyobb biztonságban vannak az eredményeink, mintha csak egy vagy két nagy szalagkönyvtárban tartanánk őket" - mondta az Origónak Düllmann. "Persze mindig megvan az esélye annak, hogy valahol elvesznek az adatok, de így egy másik helyen is megvannak, ahonnan újra be tudjuk őket kérni."

Nagyon minimális a szűrés

A CERN korábbi adatait ugyanis újra és újra előveszik, hogy mindig átvizsgálják őket, és összevessék a régi méréseket az újabb eredményekkel. Összesen 16 ezer szerveren találhatóak meg a különböző adatok. Annak érdekében, hogy biztosak lehessenek benne, hogy nem mentenek el fals eredményeket, az aktuális kísérletek előtt mindent kipróbálnak olyan részecskékkel, amelyeknek már ismerik pontos viselkedését - így kizárhatják, hogy a környezeti hatások miatt rossz kísérleteket végezzenek, és nem hoznak létre felesleges adatokat sem.

Nem mindent mentenek el a központi szerverekre sem - van egy bizonyos előszűrés, amely során a felesleges adatokat törlik. "Ez egy nagyon óvatos dolog, kevés az, ami nem megy át a szűrőn. Általában azokról az eredményekről van szó, amelyeket már ismerünk, és nincs szükségünk arra, hogy még egyszer elmentsük őket" - magyarázta Düllmann. Azt is megfigyelik, hogy az elvetésre ítélt adatoknak van-e bármi hatásuk a már meglévő adatokra - ez pedig hatalmas munka, hiszen több mint ötvenévnyi eredményt kell átfésülni.

Az LHC, a Nagy Hadron Ütköztető a világ legnagyobb méretű és legmagasabb energiájú részecskegyorsítójaForrás: ELTE

Egy poros fiók mélyén is lehet elveszett adat

Persze az is előfordul, hogy a folyamatos modernizálás és újraírás közben elveszik némi adat. "Ez a mennyiség azonban elenyésző ahhoz képest, amennyi hibaszázaléka a kísérleteknek egyébként is van" - mondta el az Origo kérdésére Düllmann. "Az újraírások során általában tudjuk, hogy mely területekről veszett el az adat, ki tudjuk következtetni, mi volt ott, de ha mégsem, a hibahatáron még mindig bőven belül vagyunk."

Düllmann arra is kitért: még mindig egyáltalán nem biztos, hogy minden egyes CERN-mérést sikerült felvinniük a központi szalagkönyvtárakba. Előfordult már ugyanis, hogy egy véletlenszerű egyetem egyik poros fiókjában papírra írva találtak olyan adatokat, amik nem voltak rajta a szalagokon - és ez még ugyanúgy előfordulhat a jövőben is.

KAPCSOLÓDÓ CIKKEK