A nagy nyelvi modellek (LLM) transzformációs ereje megkérdőjelezhetetlen, azonban architektúra-szintű korlátaik – a „tudás-vágási időpont” (knowledge cutoff) és a hallucináció – komoly kockázatot jelentenek üzleti környezetben.
What is RAG? The complete guide to Retrieval-Augmented Generation: Theory and practice
1. Bevezetés: Az LLM-ek korlátai és a RAG forradalma
A nagy nyelvi modellek (LLM) transzformációs ereje megkérdőjelezhetetlen, azonban architektúra-szintű korlátaik – a „tudás-vágási időpont” (knowledge cutoff) és a hallucináció – komoly kockázatot jelentenek üzleti környezetben. Az MI alapvetően nem gondolkodik, hanem komplex mintázatokat ismer fel és valószínűségi alapon jósolja meg a következő szövegegységet. Ha például megkérdezzük, mi következik az „Az alma…” kezdet után, a modell statisztikai adatok alapján (például hétszer látta a „piros”, kétszer a „zöld” szót) a legvalószínűbb folytatást választja.
A probléma akkor jelentkezik, ha a válaszhoz olyan specifikus vagy friss adatra lenne szükség, amely nem szerepelt a tanítóhalmazban. Ekkor a modell „hallucinál”, azaz statisztikailag plauzibilis, de ténybelileg hamis választ generál. A Retrieval-Augmented Generation (RAG) erre kínál megoldást: ahelyett, hogy a modell belső, statikus tudására hagyatkoznánk, a rendszert egy külső, dinamikus tudásbázissal egészítjük ki, amely „puskaként” szolgál az inferencia során.
2. A RAG elméleti alapjai: Hogyan „tanul” az MI az adatokból?
A gépi tanulás matematikai alapja a hipotéziskeresés. A felügyelt tanulás során a cél egy olyan h függvény (hipotézis) megtalálása, amely a legjobban közelíti a valódi, de ismeretlen y=f(x) összefüggést. A lineáris osztályozók és neurális hálózatok a w súlyvektorok finomhangolásával keresik a konzisztens hipotézist. Itt érvényesül Ockham's Razor: több lehetséges megoldás közül a legegyszerűbbet (például alacsonyabb fokú polinomot) kell választanunk a jobb általánosításhoz. A matematikai formalizmusban a hipersík eltolásához (bias) egy extra x0=1 attribútumot vezetünk be, így a döntési határ precízen illeszthetővé válik.
A RAG szakít ezzel a súlymódosítási kényszerrel. Míg a finomhangolás (fine-tuning) a modell belső paramétereit változtatja meg, a RAG közvetlenül az y=f(x) kontextust adja át a prompt részeként.
| Hagyományos LLM tanítás | RAG megközelítés |
|---|---|
| Súlyok módosítása: A tanulás során a w súlyvektorok fixálódnak. | Kontextus augmentáció: A súlyok érintetlenek maradnak. |
| Konzisztens hipotézis kényszere: A modell a tanult sémákból generalizál. | Direkt adatátadás: A modell a kapott forrásdokumentumból dolgozik. |
| Statikus tudás: Új információhoz költséges újra-tanítás szükséges. | Dinamikus frissesség: Azonnali tudásbázis-bővítés feltöltéssel. |
| Zárt rendszer: Csak a vágási időpont előtti adatokhoz fér hozzá. | Nyílt rendszer: Hozzáférés vállalati és élő adatokhoz. |
3. A RAG működési mechanizmusa: Lépésről lépésre
- Adatforrás és beágyazás (Embeddings): A nyers szöveget szemantikai egységekre (chunks) bontjuk, majd egy speciális modell segítségével többdimenziós vektortérben (vector space) helyezzük el.
- Vektoros adatbázisok: A dokumentumokat nem szövegként, hanem matematikai koordinátákként tároljuk, ami lehetővé teszi a jelentésalapú keresést.
- Keresés és lekérdezés: A felhasználói kérdést szintén vektorrá alakítjuk, és megkeressük a hozzá legközelebb eső (legrelevánsabb) adatpontokat.
- Augmentáció: A kinyert forrásokat és az eredeti kérdést egy strukturált prompttá egyesítjük.
- Generálás: Az LLM elvégzi az inferenciát, de válaszát a kapott forrásokra korlátozza.
4. A technológia előnyei: Miért éri meg implementálni?
- Hallucináció drasztikus csökkentése: A modell nem a valószínűségi súlyai, hanem a mellékelt tények alapján válaszol.
- Saját adatok biztonsága: Szenzitív vállalati dokumentumok anélkül használhatók, hogy bekerülnének a publikus modellek tanítóhalmazába.
- Auditálhatóság: A válaszok végén pontos forrásmegjelölés (citáció) szerepel, így az információ visszakövethető.
- Költséghatékonyság: Nincs szükség drága GPU-kapacitásokat igénylő folyamatos újra-tanításra.
5. Gyakorlati megvalósítás: OpenWebUI és Ollama architektúra
A modern implementációk magja az Ollama (modellkezelés) és az OpenWebUI (interfész és RAG motor). Senior architektként fontos látni a rendszer skálázhatóságát: az OpenWebUI képes több Ollama példányt kezelni egy véletlenszerű kiválasztási stratégia (random selection load balancing) alapján. Ehhez elengedhetetlen, hogy a Model ID-k (például deepseek-r1:latest) karakterre pontosan megegyezzenek az összes node-on.
Konfigurációs sarokpontok:
- Modellspecifikus beállítások: A DeepSeek-R1 vagy Qwen3 jellegű logikai modelleknél az Ollamát a
--reasoning-parserflaggel kell indítani, hogy az OpenWebUI helyesen szeparálja a gondolati folyamatot a végleges választól. - RBAC (Szerepkör alapú hozzáférés): Az OpenWebUI három alapvető szerepkört kezel: Admin, User, és a regisztráció utáni várakozólistát kezelő Pending. A jogosultságkezelés additive (additive permissions), ami azt jelenti, hogy a felhasználó végső jogkörei a szerepköre és a csatolt csoportjai engedélyeinek uniójából adódnak össze.
6. Hibaelhárítás és technikai kihívások
A RAG rendszerek telepítésekor a leggyakoribb hiba a hálózati rétegek félreértése.
A „Localhost Trap”: Alapvető szabály, hogy a böngésző és a backend számára mást jelent a localhost. Míg a böngészőben a felhasználó saját gépét jelenti, addig a Docker konténeren belül futó OpenWebUI backend számára a saját konténerét.
- Megoldás: Backend kapcsolatokhoz (Ollama, API-k) használjunk fix belső IP-t vagy a
host.docker.internalcímet.
Gyakori tünetek és megoldások:
- „Unexpected token ‘d'” vagy JSON hiba: Jellemzően CORS vagy WebSocket konfigurációs hiba. Ellenőrizzük a
CORS_ALLOW_ORIGINváltozót. - Széteső Markdown (pl. ##, ** látható marad): Ezt az Nginx proxy buffering okozza, amely darabokra töri az SSE (Server-Sent Events) streamet. Megoldás:
proxy_buffering off;. - Végtelen töltés a modell-listánál: Ha egy konfigurált endpoint nem érhető el, a rendszer alapértelmezett 10 másodperces timeoutja összeadódik. Használjuk az
AIOHTTP_CLIENT_TIMEOUT_MODEL_LIST=2beállítást a válaszidő javításához. - SSL hitelesítési hibák: Belső eszközök (pl. Tika) esetén használjuk a következőket:
HTTPS_CHECK=FalseOLLAMA_SSL_VERIFICATION=False
7. Etika és felelősségteljes MI használat
A RAG bár technikai megoldás a hallucinációra, nem küszöböli ki az emberi torzítást (bias). Ha a tudásbázisba kerülő adatok előítéletesek vagy hibásak, a rendszer kritikátlanul fogja azokat tényként tálalni. Vállalati környezetben ezért a kontrollált adatbevitel és az RBAC alapú hozzáférés-szabályozás nem csak technikai, hanem etikai követelmény is. Az adatok bizalmasságát és a felelősségteljes algoritmus-használatot a transzparens forrásmegjelölés biztosítja.
8. Összegzés és a jövő kilátásai
A technológiai fejlődés az Általános Mesterséges Intelligencia (AGI) irányába mutat, ahol a gépek már nem csak mintázatokat követnek, hanem komplex, többlépcsős problémamegoldásra lesznek képesek. A RAG ma a legelérhetőbb és legbiztonságosabb módszer arra, hogy az MI-t ne csak szórakoztatásra, hanem valódi üzleti értéket termelő, szakspecifikus asszisztensként használjuk. A teszarypeter.hu olvasói számára a RAG implementálása jelenti a hidat a statikus nyelvi modellek és a valódi, adatközpontú intelligencia között.

