• Autor: Peter Vnuk
Firmy často sedia na obrovskom množstve vlastných znalostí. Majú dokumenty, návody, produktové podklady, smernice, prezentácie, interné wiki, e-maily aj historické know-how, len sa k nim ľudia nedostávajú dostatočne rýchlo. Obchodník hľadá posledný argument k produktu, podpora overuje starší postup, nový kolega sa pýta na pravidlo, ktoré už vo firme existuje, a technický špecialista stráca čas vyhľadávaním informácií, namiesto toho, aby ich rovno používal. Interný AI asistent dokáže z týchto zdrojov vytvoriť praktickú znalostnú vrstvu, ak má správne pripravené dáta, bezpečnostné pravidlá a technický základ.
Najväčší prínos vzniká tam, kde ľudia opakovane hľadajú odpovede vo veľkom množstve firemných materiálov a potrebujú vedieť, odkiaľ odpoveď pochádza. Typicky ide o produktové know-how, zákaznícku podporu, interné procesy, technickú dokumentáciu, obchodnú argumentáciu alebo rozsiahly archív článkov a materiálov.
Dobrý začiatok vyzerá jednoducho. Firma vyberie jeden korpus, jednu skupinu používateľov a jeden merateľný problém. Technická podpora môže rýchlejšie nájsť správny postup, obchodný tím dohľadať aktuálne produktové argumenty a obsahový tím overiť, čo už o danej téme vo firme existuje. Malý pilotný projekt pomáha rýchlejšie overiť prínos, znížiť bezpečnostné riziká a získať jasnejšiu odpoveď na otázku, či má projekt reálnu hodnotu.
| Oblasť použitia | Typická hodnota pre firmu |
|---|---|
| Interná znalostná báza | Rýchlejšie odpovede na opakované otázky zamestnancov. |
| Zákaznícka podpora | Jednoduchšie vyhľadanie postupov, výnimiek a starších riešení. |
| Obchod a produkt | Lepšia práca s argumentmi, parametrami a produktovými podkladmi. |
| Dokumentácia a archív | Kontrola duplicít, súvisiacich materiálov a starších verzií. |
| Onboarding | Rýchlejšia orientácia nových kolegov vo firemných pravidlách. |
Interný AI asistent má najväčší prínos vo chvíli, keď sa dokáže oprieť o konkrétne firemné zdroje a ukázať, z čoho odpoveď vychádza. Práve tu prichádza na rad RAG.
RAG, teda Retrieval-Augmented Generation, spája inteligentné vyhľadávanie s jazykovým modelom. Systém najprv nájde relevantné časti firemných dokumentov a až potom ich odovzdá modelu ako kontext pre odpoveď. Vďaka tomu sa asistent opiera o konkrétne interné dáta, uvádza overiteľné zdroje a dokáže pracovať aj s informáciami, ktoré bežný jazykový model nemá vo svojej všeobecnej znalosti.
Prakticky to funguje tak, že sa dokumenty rozdelia na menšie časti, prevedú sa na embeddingy a uložia do vektorového indexu. Embedding si možno predstaviť ako číselnú reprezentáciu významu textu. Keď sa používateľ spýta na konkrétnu vec, systém prevedie aj jeho otázku na embedding a nájde textové úseky s najbližším významom. Jazykový model potom dostane otázku, nájdené pasáže a inštrukciu, aby odpovedal iba z dostupných zdrojov.
| Vrstva | Čo rieši | Prečo na nej záleží |
|---|---|---|
| Dáta | Dokumenty, wiki, návody, tabuľky, články, produktové podklady | Kvalita odpovedí nikdy nepresiahne kvalitu vstupných dát. |
| Chunking | Rozdelenie dokumentov na menšie tematické časti | Model dostáva presnejší kontext bez zbytočného balastu. |
| Embedding | Prevod textu na vektory podľa významu | Systém dokáže hľadať aj podľa významovej podobnosti, nielen podľa slov. |
| Vektorový index | Rýchle vyhľadanie najbližších častí dokumentov | Rozhoduje o rýchlosti a relevancii nájdených podkladov. |
| LLM | Zostavenie odpovede z vybraného kontextu | Výstup je čitateľný, zrozumiteľný a použiteľný pre človeka. |
| Ochranné pravidlá | Pravidlá pre odpovede, citácie a neistotu | Znižujú riziko halucinácií a nepodložených tvrdení. |
Dobre navrhnutá RAG vrstva vytvára z dokumentov znalostný systém. Vie vyhľadať podobné pasáže, upozorniť na duplicity a dodať modelu presný kontext pre odpoveď. Z bežnej zložky dokumentov sa tak stáva prostredie, s ktorým je možné pracovať prirodzeným jazykom.
Pri internom asistentovi býva lákavé riešiť hlavne výber jazykového modelu, v praxi však často rozhoduje príprava dát. Pokiaľ má firma v dokumentoch duplicity, staré verzie, nekonzistentné názvy a nejasné oprávnenia, AI tieto problémy nevyrieši. Naopak ich zviditeľní. Model môže byť výkonný, lenže zle rozdelené alebo zastarané podklady povedú k nepresným odpovediam.
Chunking by mal rešpektovať prirodzenú štruktúru dokumentov. Pri návodoch dávajú zmysel kapitoly, pri produktovej dokumentácii tematické bloky, pri znalostnej báze otázky a odpovede, pri tabuľkách vzťah medzi hlavičkou a konkrétnym riadkom. Príliš dlhé bloky prinášajú modelu veľa šumu, príliš krátke časti zase rozbíjajú kontext. Cieľom je, aby systém pri otázke našiel presne tú časť dokumentu, ktorá nesie odpoveď.
Rovnako dôležité sú metadáta. Ku každému úseku sa oplatí ukladať názov dokumentu, dátum aktualizácie, vlastníka, typ obsahu, jazyk, interné URL adresy, stav platnosti a oprávnenia. Metadáta pomáhajú filtrovať výsledky, vyradiť staré dokumenty, dohľadať zdroj odpovede a zabrániť tomu, aby sa používateľovi zobrazili informácie, ku ktorým nemá mať prístup.
i
Ku každému úseku sa oplatí ukladať názov dokumentu, dátum aktualizácie, vlastníka, typ obsahu, jazyk, interné URL, stav platnosti a oprávnenia.
Prvá verzia nemusí byť zložitá. Mala by byť čistá, overiteľná a bezpečne ohraničená. Jeden dobre pripravený súbor dokumentov s rozumnými metadátami má pre pilot väčšiu hodnotu ako veľké zhromaždenie dokumentov bez jasného pôvodu a pravidiel.
Generatívna časť asistenta môže bežať cez externé API alebo na lokálnom modeli vo vlastnej infraštruktúre. API model obvykle ponúkne veľmi dobrú kvalitu odpovedí, rýchlejší štart a menšie prevádzkové starosti. Firma nemusí riešiť GPU pre inferenciu, aktualizáciu modelov ani ich optimalizáciu. Tento prístup sa hodí pre pilotné projekty, menej citlivé dáta a scenáre, kde je dôležitá rýchlosť nasadenia.
Lokálny model prináša väčšiu kontrolu nad dátami a vyžaduje starostlivejší technický návrh. Je potrebné počítať s výkonnou grafickou kartou, dostatočnou VRAM, rýchlym úložiskom, správou modelov a monitoringom výkonu. Lokálna inferencia dáva zmysel hlavne pri citlivých dokumentoch, obchodnom tajomstve, neverejnom technickom know-how, zmluvách alebo regulovaných agendách.
Kľúčový bezpečnostný rozdiel spočíva v tom, čo presne chráni vlastná infraštruktúra. Server vo firme, firewall, autentizácia, šifrovanie a sieťové pravidlá riešia perimeter, teda ochranu systému pred útočníkom zvonku a kontrolu nad prostredím, kde aplikácia beží. Táto vrstva je potrebná pre každý seriózny firemný systém. Tok dát do generatívneho modelu je samostatné rozhodnutie.
Ak asistent používa externý LLM cez API, môžu k poskytovateľovi odísť otázky používateľov aj dohľadané pasáže z interných dokumentov. Vlastný server túto časť nezmení, pretože dáta v takomto scenári opúšťajú firmu až vo chvíli, keď sa posielajú do modelu. Pri citlivých dátach preto nestačí konštatovať, že systém beží „u nás“. Bezpečnostný návrh musí povedať, ktoré scenáre smú používať externé API a ktoré majú bežať na lokálnom LLM.
!
Pri citlivých dátach nestačí konštatovať, že systém beží „u nás“. Bezpečnostný návrh musí povedať, ktoré scenáre smú používať externé API a ktoré majú bežať na lokálnom LLM.
| Variant | Výhody | Limity |
|---|---|---|
| API model | Rýchly štart, vysoká kvalita odpovedí, menej prevádzkovej správy | Nutné posúdiť zmluvné podmienky, retenciu a tok citlivých dát mimo firmy. |
| Lokálny model | Vyššia kontrola nad dátami, vhodné pre citlivejšie scenáre | Vyššie nároky na hardvér, správu, ladenie a internú odbornosť. |
| Hybridný model | Lokálne embedding, citlivé veci lokálne, menej rizikové scenáre cez API | Vyžaduje jasnú klasifikáciu dát a pravidlá, kedy sa smie použiť externý model. |
V praxi často vychádza najlepšie hybridný prístup. Embedding a vektorový index bežia lokálne, takže firemný korpus kvôli vyhľadávaniu neopúšťa organizáciu. Generovanie odpovedí sa následne rozdelí podľa citlivosti. Menej rizikové scenáre môžu využiť API, dôverné alebo regulované dáta zostávajú pri lokálnom modeli.
Hardvérové požiadavky závisia od veľkosti korpusu, frekvencii aktualizácií a tom, či firma chce prevádzkovať lokálny model. Menší pilot nad stovkami alebo niekoľkými tisíckami dokumentov zvládne aj výkonnejšia bežná pracovná stanica. S desaťtisícami dokumentov, častými aktualizáciami alebo lokálnou inferenciou začína hrať rolu GPU, kapacita RAM, rýchlosť úložiska a prevádzková rezerva.
Praktické rozdelenie je možné chápať v troch veľkostných triedach. Malé nasadenie znamená stovky až jednotky tisíc dokumentov, kde často stačí CPU, rýchle NVMe úložisko a jednoduchý lokálny index. Stredná trieda už pracuje s desaťtisícami dokumentov, takže sa oplatí GPU pre rýchlejší embedding a premyslenejšie práce s indexom. Veľké nasadenia so státisícami dokumentov obvykle potrebujú dedikovanú vektorovú databázu, inkrementálnu reindexáciu, viac pamäte, monitoring a prevádzkovú disciplínu podobnú iným firemným systémom.
| Trieda nasadenia | Typický rozsah dát | Vhodný technický základ | Čo riešiť prioritne |
|---|---|---|---|
| Malá | Stovky až tisíce dokumentov | Výkonnejšie pracovné stanice, CPU, rýchle NVMe, FAISS alebo jednoduchý lokálny index | Rýchly pilot, kvalita dát, základné metadáta a testovacie otázky. |
| Stredná | Desaťtisíce dokumentov | Pracovná stanica alebo menší server, 64 až 128 GB RAM, GPU, FAISS alebo pgvector | Rýchlosť embeddingu, aktualizácia indexu, oprávnenie a stabilita prevádzky. |
| Veľká | Státisíce dokumentov a viac tímov | Serverová infraštruktúra, dedikovaná vektorová databáza, GPU, monitoring, zálohy | Škálovanie, audit, dostupnosť, správa verzií a inkrementálna reindexácia. |
Z internej praxe so stredne veľkým korpusom vieme, že rozdiel medzi CPU a GPU už nie je akademický detail. Reálny korpus s 25 106 dokumentmi, viacjazyčným embedding modelom multilingual-e5-base a FAISS HNSW indexom vytvorí index s veľkosťou v stovkách MB. Príprava takého indexu môže na bežnom CPU trvať hodiny, zatiaľ čo s výkonnou grafickou kartou typu RTX 4080 sa môže skrátiť na desiatky minút. To je rozdiel medzi jednorazovým experimentom a systémom, ktorý je možné pohodlne ladiť, obnovovať a rozširovať.
GPU sa najviac prejaví pri tvorbe embeddingov a pri lokálnych modeloch. Prevod dokumentov na embeddingy je možné urobiť aj na CPU, pri väčšom korpuse sa tým však spomalí každé prepočítanie indexu. Výkonná grafická karta umožní rýchlejšie testovať rôzne stratégie chunkingu, embedding modely aj obnovu indexu. Pri lokálnom LLM je kľúčová VRAM, teda pamäť grafickej karty, pretože veľkosť modelu a dĺžka kontextu priamo ovplyvňujú, ako pohodlne je možné systém prevádzkovať.
Rýchle NVMe úložisko je pre RAG praktická nutnosť, najmä ak má systém rásť. Vektorový index, metadáta, cache, dokumenty, logy a zálohy potrebujú priestor aj rýchly prístup. Pri väčších nasadeniach je vhodné počítať s rezervou pre nové dokumenty, ďalšie verzie a spätnú väzbu od používateľov.
Pri prvom pilote nie je potrebné kupovať maximálny možný výkon. Zmysluplnejšie je začať konfiguráciou, ktorá zvládne lokálny embedding, prácu s indexom a testovanie modelov. Pokiaľ sa pilot osvedčí, firma už bude mať reálne dáta o veľkosti korpusu, čase indexácie, počte otázok a požiadavkách používateľov. Až podľa nich sa dá dobre rozhodnúť, či zostať pri pracovnej stanici, prejsť na server alebo budovať širšiu platformu.
Vektorový index alebo vektorová databáza zabezpečuje, že systém rýchlo nájde textové časti podobné otázke používateľa. Pre pilotný projekt a menšie nasadenie často stačí FAISS, ktorý beží priamo v aplikácii a nevyžaduje samostatnú databázovú vrstvu. Je rýchly, praktický a vhodný na overenie, či RAG nad daným korpusom funguje.
Ak firma už používa PostgreSQL a chce jednoduchšiu produkčnú správu, dáva zmysel pgvector. Umožňuje ukladať embeddingy priamo do známeho databázového prostredia a kombinovať významové vyhľadávanie s bežnými filtrami nad metadátami. To je užitočné najmä pri oprávneniach, typoch dokumentov, dátume aktualizácie alebo tímových filtroch.
Špecializované vektorové databázy, napríklad Qdrant, Milvus alebo Weaviate, sa hodia v momente, keď systém rastie. Prinášajú lepšie škálovanie, správu kolekcií, prevádzkové funkcie a pohodlnejšiu prácu s väčšími objemami dát. Pre prvý pilot bývajú často zbytočne robustné, pre širšiu firemnú prevádzku už môžu byť správnou voľbou.
| Riešenie | Kedy dáva zmysel |
|---|---|
| FAISS | Rýchly pilot, lokálny prototyp, jeden korpus, nižšia prevádzková zložitosť. |
| pgvector | Firma používa PostgreSQL a chce kombinovať vektory s metadátami a oprávneniami. |
| Qdrant / Milvus / Weaviate | Väčšie nasadenie, viac zdrojov dát, vyššie nároky na škálovanie a správu. |
Výber technológie by mal nasledovať po use case. Na overenie hodnoty interného asistenta stačí jednoduchšie riešenie. Pre systém obsluhujúci viaceré tímy, rôzne zdroje dát a detailné oprávnenia sa oplatí robustnejšia databázová vrstva.
Prvá verzia interného AI asistenta by mala byť malá, merateľná a bezpečne ohraničená. Ambiciózna celofiremná platforma sa lepšie obhajuje vo chvíli, keď už existuje pilot s doloženou úsporou času alebo lepšou dostupnosťou znalostí. Pilot má ukázať, čo systém skutočne zlepšuje, kde naráža na kvalitu dát a aké nároky bude mať produkčná prevádzka.
Dobrá testovacia súprava obsahuje otázky, na ktoré firma pozná správnu odpoveď. Hodnotí sa nielen finálny text, ale hlavne to, či systém našiel správne zdroje. Plynulá odpoveď bez relevantného podkladu má v internom prostredí nízku hodnotu. Overiteľná odpoveď s jasným zdrojom je pre firemné použitie podstatne cennejšia.
Merať možno niekoľko praktických ukazovateľov. Koľko času používatelia ušetrili pri hľadaní odpovede? Koľkokrát systém našiel správny dokument? Koľko odpovedí bolo nepodložených alebo neúplných? Ako často musel používateľ rovnako kontaktovať špecialistu? Tu sa rozhoduje o tom, či má projekt pokračovať.
Pri zavádzaní interného asistenta sa najčastejšie chybuje tam, kde sa technický projekt tvári jednoduchšie, než v skutočnosti je. Chatovacie rozhranie je možné postaviť rýchlo, spoľahlivý systém nad firemnými dátami však vyžaduje dátovú disciplínu, bezpečnostné pravidlá a priebežné vyhodnocovanie.
Najväčšie riziká vyzerajú takto:
Interný asistent nad firemnými dátami funguje najlepšie tam, kde firma vie, s akými dátami pracuje, kto za ne zodpovedá a kto ich smie používať. Ak tieto odpovede chýbajú, projekt potrebuje najskôr lepšiu prípravu dát a pravidiel.
Interný AI asistent nad firemnými dátami má najväčšiu hodnotu vo chvíli, keď ľuďom pomáha rýchlejšie nájsť správnu informáciu a zároveň ukáže, z akého zdroja vychádza. Základom je dobre vybraný pilot, čistý korpus, rozumný chunking, kvalitný embedding, vektorový index a jasné rozhodnutia, ktoré dáta môžu do externého modelu a ktoré musia zostať lokálne. Hardvér sa oplatí dimenzovať podľa reálneho scenára: menšiemu tímu môže stačiť výkonná pracovná stanica, citlivejšia a náročnejšia prevádzka už bude potrebovať GPU, rýchle úložisko a postupne aj serverovú infraštruktúru. Takýto prístup umožní začať prakticky, zmerať prínos a rozširovať riešenie až vo chvíli, keď má interný AI asistent pre firmu preukázateľnú hodnotu.
RAG (Retrieval-Augmented Generation) prepája inteligentné vyhľadávanie s jazykovým modelom. Systém najprv nájde relevantné časti firemných dokumentov a až potom ich odovzdá modelu ako kontext pre odpoveď. Vďaka tomu sa asistent opiera o konkrétne interné dáta, uvádza overiteľné zdroje a dokáže pracovať aj s informáciami, ktoré bežný jazykový model nemá vo svojej všeobecnej znalosti.
API model obvykle ponúkne veľmi dobrú kvalitu odpovedí, rýchlejší štart a menšie prevádzkové starosti – hodí sa pre pilotné projekty, menej citlivé dáta a scenáre, kde je dôležitá rýchlosť nasadenia. Lokálny model prináša väčšiu kontrolu nad dátami, ale vyžaduje výkonnú grafickú kartu, dostatočnú VRAM, rýchle úložisko, správu modelov a monitoring výkonu. Dáva zmysel hlavne pri citlivých dokumentoch, obchodnom tajomstve alebo regulovaných agend.
Menší pilot nad stovkami alebo niekoľkými tisíckami dokumentov zvládne aj výkonnejšia bežná pracovná stanica. S desaťtisícami dokumentov, častými aktualizáciami alebo lokálnou inferenciou začína hrať rolu GPU, kapacita RAM, rýchlosť úložiska a prevádzková rezerva. Pri prvom pilote nie je potrebné kupovať maximálny možný výkon - zmysluplnejšie je začať konfiguráciou, ktorá zvládne lokálny embedding, prácu s indexom a testovanie modelov.
Metadáta pomáhajú filtrovať výsledky, vyradiť staré dokumenty, dohľadať zdroj odpovede a zabrániť tomu, aby sa používateľovi zobrazili informácie, ku ktorým nemá mať prístup. Ku každému úseku sa oplatí ukladať názov dokumentu, dátum aktualizácie, vlastníka, typ obsahu, jazyk, interné URL adresy, stav platnosti a oprávnenia.
Merať možno niekoľko praktických ukazovateľov: koľko času používatelia ušetrili pri hľadaní odpovede, koľkokrát systém našiel správny dokument, koľko odpovedí bolo nepodložených alebo neúplných a ako často musel používateľ kontaktovať špecialistu. Hodnotí sa nielen finálny text odpovede, ale hlavne to, či systém našiel správne zdroje.

Peter Vnuk
Technológie sú pre mňa prácou aj zábavou – najviac sa venujem smartfónom, notebookom, audiotechnike, umelej inteligencii a všetkému hi-tech. Rád recenzujem novinky, sledujem futuristické trendy a odhadujem ďalší vývoj technológií. Fascinuje ma sci-fi a vízie budúceho sveta, ktoré často inšpirujú reálny technologický pokrok. Profesionálne sa venujem aj videohrám a hernému priemyslu. Keď práve nepracujem, rád si odpočiniem pri dobrej hre, kvalitnom pive alebo tvorbe technologických memes na Facebooku.