Kék halál a számítógépén? Okolja a kozmikus sugárzást!

2017.02.18. 11:38

Tudtunkon kívül szubatomi részecskék záporoznak ránk a felső légkörből, és olykor megbolondítják elektronikus eszközeinket.

Amikor kék halál kíséretében összeomlik a rendszer, vagy lefagy a mobilunk, és végig kell bosszankodnunk a kikapcsolás-bekapcsolás időrabló procedúráját, általában a gyártót okoljuk a hibáért. Pedig előfordul, hogy a Microsoft, az Apple vagy a Samsung teljesen vétlen a dologban: a működési hibát okozhatják azok a töltéssel rendelkező részecskék is, amelyek a Naprendszeren kívülről érkező kozmikus sugárzás hatására keletkeznek a légkörben, és amelyek érzékszerveink számára észrevétlenül, ám folyamatosan bombázzák Földünket.

Ez igazából egy nagyon komoly probléma, mégis jobbára ismeretlen az emberek előtt" – hangoztatta Bharat Bhuva elektromérnök az AAAS ez évi kongresszusán. Az AAAS (American Association for the Advancement of Science) Amerika legpatinásabb össztudományos ernyőszervezete, a Science magazin kiadója. Bhuva, a Vanderbilt Egyetem kutatója „Felhős idő várható napkitörésekkel: az űridőjárás kockázatainak mérése” címmel tartotta előadását az idén Bostonban megrendezett AAAS-megakonferencián.

Kék halál egy bankautomatánForrás: Flickr

A fénysebesség néhányad részével közlekedő kozmikus sugarak a Föld légkörébe belépve ún. másodlagos részecskékből – nagyenergiájú neutronokből, müonokból, pionokból és alfa-részecskékből – álló részecskezáport indítanak. Valamennyiünk testét milliónyi ilyen részecske bombázza minden másodpercben. Nagy számuk ellenére ezek a szubatomi zuhatagok teljesen észrevétlenek maradnak a számunkra, és az élőlényekre nézve nem is bírnak semmilyen káros hatással. Azonban e részecskéknek egy apró hányada elegendő energiát hordoz ahhoz, hogy megzavarja mikroelektronikai eszközeink működését. Integrált áramkörökkel kölcsönhatva például átbillenthetnek egy-egy tárolt bitet a memóriában. Az ilyen eseményeket SEU-nak (single-event upset, kb.: egyedi zavaresemény) néven ismeri az elektronika.

Mivel megjósolhatatlan, mikor és hová csapódnak be ezek a részecskék, és nem is okoznak fizikai kárt, az általuk okozott működési zavarokat roppant nehéz jellemezni. Ezért aztán az SEU-k gyakoriságát sem könnyű megbecsülni. „Egyetlen bit átfordulásának számos oka lehet: okozhatja szoftver- vagy hardverhiba is. Egyedül akkor lehetünk biztosak abban, hogy SEU-val állunk szemben, ha minden más lehetséges okot kizártunk" – magyarázza Bhuva.

IllusztrációForrás: Pixabay

Dokumentált zavarok

Tudunk néhány dokumentált esetről, amikor SEU-k komoly problémát okoztak. 2003-ban például a belgiumi Schaerbeek városában egy elektromos szavazatszámláló berendezés egyetlen átkattant bitje 4096 plusz szavazatot adott az egyik jelöltnek. A hiba akár rejtve is maradhatott volna, ha a jelölt nem jutott volna így a lehetségesnél nagyobb számú szavazathoz. Így viszont fény derült a malőrre, és a gép regiszterében vissza lehetett követni az inkriminált egybites eseményt.

2008-ban pedig a Qantus légitársaság Szingapúrból Perth-be tartó járatának elektronikáját zavarta meg úgy egy SEU, hogy egyszeriben kikapcsolt az automata pilóta. Ettől a gép 23 másodperc alatt több mint 200 métert veszített a magasságából, és az utasok egyharmada olyan súlyos sérüléseket szenvedett, hogy a gépnek le kellett szállnia a legközelebbi reptéren.

Más olyan alkalmakról is vannak beszámolók, amikor repülőgépek fedélzeti számítógépének megmagyarázhatatlan hibái miatt járatokat kellett törölni, ami nyilvánvalóan súlyos veszteségeket okozott az érintett légitársaságoknak, és persze kellemetlenséget jelentett az utasoknak. Szakértők ezeknek az eseményeknek egy része mögött szinte teljes bizonyossággal SEU-kat sejtenek.

Pilótafülke (illusztráció)Forrás: Wikimedia Commons

Milyen gyakori?

Ritesh Mastipuram és Edwin Wee, a Cypress Semiconductor cég mérnökei még 2004-ben készítettek egy becslést arról, milyen gyakran érinthetik SEU-k a különböző fogyasztói elektronikus eszközöket. Számításaik értelemszerűen az eszközöknek egy korábbi generációjára vonatkoznak, ezért a konkrét paraméterek a mai gépekre már nem illenek, de a számok mégis jól érzékeltetik a probléma nagyságrendjét:

  • Egy 500 kilobájt memóriával rendelkező egyszerű mobiltelefonnál mindössze 28 évente egyszer lehet SEU okozta problémára számítani.
  • Azokon a „router farmokon", amilyeneket az internetszolgáltatók üzemeltetnek, már 25 gigabájt memória esetén is minden 17 órában előfordulhat olyan SEU-okozta hálózati hibaesemény, amely leállítja a működést.
  • Egy 10.6 kilométer magasságban közlekedő utasszállító repülőgépen (ahol a nagy magasság miatt a sugárzás mértéke jóval nagyobb a tengerszinten mérhetőnél) egy 500 kilobájt memóriájú laptopot használó utas elvben akár 5 óránként is belefuthat SEU okozta hibába.

Bhuva tagja a Vanderbilt Egyetemen 1987 óta működő kutatócsoportnak, amely az űrsugárzásnak az elektronikai rendszerekre gyakorolt hatását vizsgálja. A csoport eleinte kizárólag katonai és űrkutatási alkalmazásokkal foglalkozott, de 2001 óta a földi körülmények között használt fogyasztói elektronikai cikkeket is bevonják vizsgálataik körébe. Munkájuk végigkövette a chipek utolsó 8 generációját, és pillanatnyilag – számos mikroelektronikai cég, egyebek közt az AMD, a Broadcom, a Cisco Systems és a MediaTek megbízásából – a legmodernebb, mindössze 16 nanométeres FinFET 3D tranzisztorokkal szerelt chipeket tanulmányozzák.

„A félvezetőipar képviselőit intenzíven foglalkoztatja a probléma, hiszen a chipekben használt tranzisztorok méretének csökkenésével, ugyanakkor a digitális rendszerek teljesítményének és kapacitásának növekedésével egyre súlyosabb az SEU-k jelentette potenciális veszély – mondta el Bhuva. – Az is fokozza az aggályokat, hogy a mikroelektronikai áramkörök most már mindenütt jelen vannak, és a társadalom egyre erősebben függ tőlük."

IllusztrációForrás: Wikipédia

A vizsgálat

Ahhoz, hogy meghatározzák az SEU-k előfordulási gyakoriságát a 16 nanométeres FinFET tranzisztorokkal szerelt chipekben, a Vanderbilt munkatársai a vizsgálni kívánt integrált áramkörök mintapéldányait a Los Alamos-i Nemzeti Laboratóriumban neutronsugárzásnak tették ki, s közben figyelték, hány SEU történik bennük.

A kutatók az áramkörök hibarátáját a FIT-nek (failure in time, időegységenkénti hiba) elnevezett mértékegységben határozták meg. Egy FIT tranzisztoronként egy hibának felel meg egymilliárd működési óra alatt. Ez az egység elhanyagolhatóan kicsinek tűnhet, ám ha belegondolunk, hogy egy-egy eszközben több milliárdnyi tranzisztor is lehet, és a használatban lévő eszközök száma is bőven a milliárdos nagyságrendben mozog (csak a mobiltelefonok száma meghaladja a milliárdot világszerte), a számok nagyon hamar összeadódnak. A legtöbb eszköz FIT-ben kifejezett hibarátája a 100 és 1000 közötti tartományban mozog.

Bár a Vanderbilten végzett tanulmány részletei titkosak, Bhuva utalt az integrált áramköri technológia legutóbbi három – a 28, 20 és 16 nanométeres tranzisztoroknak megfelelő – generációja alapján kirajzolódó tendenciára. A tranzisztorok méretének zsugorodásával az egy logikai bit reprezentációjához szükséges elektromos töltés mennyisége is csökkent. Ezzel arányosan nőtt annak valószínűsége, hogy egy becsapódó nagyenergiájú részecske átfordít egy bitet 0-ról 1-re, vagy 1-ről 0-ra.

Ezt a trendet csak részben ellensúlyozza az a tény, hogy a kisebb méretű tranzisztorok kisebb céltérfogatot is képviselnek, tehát kevésbé valószínű, hogy épp telibe találja őket egy részecske. Ennél lényegesebb az a változás, hogy a jelenlegi legmodernebb, 16 nanométeres tranzisztorokat tartalmazó áramkörök 3-dimenziós architektúrájúak, szemben a korábbi 2-dimenziós architektúrával, és a jelek szerint az ilyen felépítésű áramkörök lényegesen kevésbé sérülékenyek az SEU-kkal szemben. Mindent együttvéve azonban mégis a készülékenkénti tranzisztorszám növekedése határozza meg a trendet, amely ily módon az SEU-kapcsolt hibaráta készülékre vetített valószínűségének emelkedése felé mutat.

A szakemberek tisztában vannak a problémával

Gyakorlati megoldásként sajnos nem jöhet szóba a mikroelektronikai készülékek nagyenergiájú részecskékkel szembeni leárnyékolása, mert több mint 3 méternyi betonburkolatot kellene minden áramkör köré építeni a részecskék kizárásához. Mégis léteznek olyan tervezési trükkök, amelyekkel drámaian csökkenthető a számítógépes chipek sebezhetősége.

Ha például abszolút kulcsfontosságú a megbízhatóság, egyszerűen három chippel kell egyszerre végeztetni ugyanazt a feladatot. Mivel elhanyagolható annak a valószínűsége, hogy két chipben egyidejűleg forduljon elő SEU, ha a háromból bármelyik két chip ugyanarra az eredményre jut, az biztosan helyes. A NASA ezzel a megoldással maximalizálja az űrhajók számítógépes rendszerének megbízhatóságát.

Bhuva szerint a jó hír az, hogy a légiiparban, az orvosiműszer-gyártásban, az információ-technológiában, a közlekedésben, az üzleti és az energiatermelő szektorban dolgozó szakemberek mind tisztában vannak a problémával, és lépéseket tesznek a helyzet kezelésére. „Az iparnak és a mérnököknek fájhat a fejük emiatt, de az általános közönségnek nem kell ez ügyben túlzottan aggódnia."