Elfér egy mini pc-n vagy egy várost foglal el? az AI modellek meglepő fizikai mérete

Hol „laknak” ezek a digitális agyak? Milyen fizikai valóság van a ChatGPT látszólag súlytalan varázslata mögött? A válasz egyszerre lenyűgöző és meglepő

Az előző cikkben megnéztük, mik azok az AI modellek, és milyen fő típusaik vannak a nyelvi modellektől a képgenerálókig. De egy fontos kérdés nyitva maradt: hol „laknak” ezek a digitális agyak? Milyen fizikai valóság van a ChatGPT látszólag súlytalan varázslata mögött?

A válasz egyszerre lenyűgöző és meglepő: egy AI modell lehet akkora, hogy elfér egy pendrive-on, de akkora is, mint egy kisebb város. Ebben a cikkben – az AI sorozatom második részében – beutazzuk ezt a hihetetlen skálát az otthoni mini PC-től a gigantikus szerverparkokig.

Az otthoni kísérletező: AI a saját gépeden

Az elmúlt egy-két év legnagyobb forradalma, hogy az AI modellek futtatása (szaknyelven: inferencia) már nem csak a tech óriások privilégiuma. Ma már bárki, aki rendelkezik egy erősebb otthoni számítógéppel, képes futtatni meglepően okos, nyílt forráskódú modelleket.

Mire van szükséged ehhez?

  • Egy modern PC vagy Mac: Egy erősebb processzorral (CPU) és legalább 16-32 GB memóriával (RAM).
  • Egy jó videókártya (GPU): Ez a legfontosabb összetevő. Egy modern NVIDIA (RTX sorozat) vagy Apple Silicon (M-széria) kártya drámaian felgyorsítja a folyamatot. A GPU-k párhuzamos számítási képességei ideálisak az AI modellek futtatásához.
  • Megfelelő szoftver: Olyan ingyenes, nyílt forráskódú eszközök, mint az Ollama vagy az LM Studio, hihetetlenül leegyszerűsítették a folyamatot. Ma már egyetlen parancs beírásával letölthetsz és futtathatsz olyan modelleket, mint a Meta Llama 3 vagy a Mistral.

Képzeld el úgy, mintha egy nagyon komplex videójátékot futtatnál. Az otthoni gépeden futó AI modellek tökéletesek kísérletezésre, szövegírásra, programozási feladatok segítésére, mindezt teljesen privát módon, anélkül, hogy az adataid elhagynák a gépedet.

A digitális titánok: városméretű szerverparkok

Amikor a ChatGPT-4-gyel vagy a Google Gemini-vel beszélgetsz, a kérésed nem egyetlen számítógépre fut be. A válasz egy olyan gigantikus infrastruktúrából érkezik, aminek a méreteit nehéz felfogni.

Ezek a modellek hatalmas, erre a célra épített adatközpontokban (szerverparkokban) élnek.

  • Hardver: Ahelyett, hogy egyetlen videókártya dolgozna, itt több tízezer, kifejezetten AI számításokra tervezett GPU működik együtt. Ezek nem a boltban kapható videókártyák. Egyetlen NVIDIA H100-as gyorsító ára meghaladhatja a 10-15 millió forintot. A Microsoft és a Google dollármilliárdokat költ arra, hogy ezekből a chipekből építsen szuperszámítógépeket.
  • Energia és hűtés: Ezek a szerverparkok egy kisebb város teljes energiafogyasztását is elérhetik. A több tízezer, maximális terhelésen pörgő chip elképesztő mennyiségű hőt termel, amit komplex folyadék- vagy léghűtési rendszerekkel kell elvezetni.
  • Példák:
    • Az OpenAI modelljei (ChatGPT) a Microsoft Azure adatközpontjaiban futnak, egy erre a célra épített, speciális infrastruktúrán.
    • A Google saját, egyedi tervezésű AI chipjeit (TPU – Tensor Processing Unit) használja a Gemini és más modellek futtatására, amiket gigantikus „TPU podokba” szerveznek.
Microsoft Azure datacenter

Microsoft Azure datacenter

A kép forrása: datacenters.microsoft.com

Mi okozza ezt a gigantikus különbséget?

Miért fér el az egyik modell egy otthoni gépen, míg a másikhoz egy erőmű kell? Két fő oka van:

  1. Tréning vs. futtatás (inferencia): A legbrutálisabb erőforrást egy modell betanítása igényli. Ez az a folyamat, amikor az AI „elolvassa” az internet egy jelentős részét. Analógiával élve: a tréning olyan, mintha egy diák az érettségire készülve az összes létező könyvet elolvasná és megpróbálná megérteni. A futtatás (inferencia) pedig az, amikor a vizsgán válaszol egy konkrét kérdésre. Az utóbbi sokkal kevesebb energiát igényel.
  2. A modell mérete (paraméterek száma): Az AI modellek „tudását” a paramétereik számával szokták jellemezni. Ezek lényegében a modell „neuronjainak” kapcsolódási pontjai. Minél több a paraméter, annál árnyaltabb és összetettebb tudásra tehet szert a modell.
    • Az otthon futtatható, nyílt forráskódú modellek általában 7 és 70 milliárd paraméter között mozognak.
    • A legfejlettebb, zárt modellek, mint a GPT-4, becslések szerint több mint egybillió (1,000,000,000,000) paraméterrel rendelkeznek. Ennek a hatalmas „agy”-nak a működtetése igényli a városméretű infrastruktúrát.

Az AI modellek világa tehát egy lenyűgöző kettősséget mutat: egyrészt egyre inkább demokratizálódik, lehetővé téve számunkra is, hogy otthon kísérletezzünk velük, másrészt a csúcstechnológia továbbra is néhány óriáscég kezében összpontosul, akik elképesztő erőforrásokat fektetnek a fejlesztésbe.

De ne ijedj meg a nagy számoktól! A legizgalmasabb az egészben, hogy a technológia egyre elérhetőbbé válik. A sorozat következő részében pontosan azt fogjuk megnézni, hogyan tudsz te is, lépésről lépésre feltelepíteni és futtatni egy nyílt forráskódú nyelvi modellt a saját gépeden az Ollama segítségével.