Každý den posíláte jazykové modely otázky, žádosti a texty. Ale co se vlastně stane v okamžiku, kdy odešlete zprávu? Odpověď není ani mystická ani triviální — je to série precizně navržených matematických operací, které mění slova v čísla, čísla v pravděpodobnosti a pravděpodobnosti zpátky ve slova. Tohle je cesta od prvního znaku vstupu až k poslednímu znaku odpovědi.
Informace: co to vlastně je
Než se dostaneme k neuronové síti, je důležité porozumět pojmu, který stojí za vším: informace. V roce 1948 Claude Shannon v práci A Mathematical Theory of Communication ukázal, že informaci lze měřit jako míru překvapení — čím méně pravděpodobná zpráva, tím více informace nese [1]. Slovo „a" vám o textu neřekne skoro nic, protože se vyskytuje téměř všude. Slovo „plazmid" vám okamžitě napoví kontext.
Shannonova teorie se opírá o bit — nejmenší možnou informační jednotku: otázku, na kterou je odpověď ano nebo ne. Z bitů se skládá vše: každý pixel obrázku, každý vzorek zvuku, každý znak textu. Moderní jazykový model pracuje s textem, ale uvnitř je to celou dobu práce s čísly — a přesně tenhle převod je první a nejméně viditelný krok celého procesu.
Token: nejmenší jednotka jazyka
Jazykový model nečte text znak po znaku ani slovo po slovu. Pracuje s takzvanými tokeny — kousky textu, které vycházejí z frekvenční analýzy jazyka. Algoritmus tokenizace, nejčastěji Byte Pair Encoding (BPE), projde obrovský korpus textů a opakovaně slučuje nejčastěji sousedící páry znaků do větších celků [2]. Výsledkem je slovník čítající typicky 50 000 až 200 000 tokenů.
Prakticky to vypadá takto: slovo „nepochopitelný" se může rozdělit na tokeny „ne", „pochop", „itelný". Slovo „cat" zůstane jako jeden token. Číslo „2024" mohou být čtyři samostatné tokeny, nebo jeden — záleží na tréninkových datech. Emojis jsou typicky jeden token, vzácná slova bývají rozsekána na jednotlivé znaky. Tokenizace není intuitivní, protože nereflektuje lingvistiku — reflektuje statistiku jazyka.
Proč je to důležité? Protože délka vstupu v tokenech přímo určuje výpočetní náklady i limity modelu. Každý token, který model dostane nebo generuje, prochází celou sítí. Délka kontextového okna — kolik tokenů model najednou „vidí" — je proto jedním z nejdůležitějších technických parametrů celé architektury.
Embedding: slovo jako souřadnice v prostoru
Jakmile je text rozbit na tokeny, každý token dostane číselnou reprezentaci — vektor. Embedding je tabulka, kde každému tokenu odpovídá řada čísel: typicky 768, 1024, nebo i více hodnot najednou. Každé číslo v tomto vektoru reprezentuje jednu dimenzi abstraktního prostoru, ve kterém model ukládá „smysl" slov [3].
Nejznámější demonstrace síly embeddingů pochází z modelu Word2Vec z roku 2013: vektor slova „král" minus vektor slova „muž" plus vektor slova „žena" dá výsledek velmi blízký vektoru slova „královna" [3]. Geometry abstraktního prostoru odráží sémantické vztahy reálného světa — bez toho, aby kdokoliv tyto vztahy explicitně naprogramoval. Model je odvodil pouze z toho, jak slova spolu sousedí v textu.
Moderní modely mají embedding prostory s tisíci dimenzemi, ve kterých je zakódováno nejen téma slov, ale i jejich gramatická role, emocionální konotace, doménová příslušnost a desítky dalších vlastností. Tento prostor není lidem přímo čitelný — je to matematická reprezentace, nikoli slovník.
Neuronová síť: jak probíhá výpočet
Vektory tokenů vstupují do neuronové sítě — struktury inspirované (volně) fungováním biologických neuronů, ale ve skutečnosti jde o sérii maticových operací. Síť se skládá z vrstev; každá vrstva bere vstupní vektory, násobí je maticí vah, přidá bias, projde aktivační funkcí a pošle výsledek do další vrstvy [4].
Aktivační funkce je klíčový prvek: bez ní by skládání lineárních vrstev nedalo nic, co by lineární vrstva sama nedokázala. Funkce jako ReLU (Rectified Linear Unit) nebo GELU do sítě vnáší nelinearitu — schopnost zachytit vztahy, které nejsou prostě přímkové. Díky tomu může hluboká síť modelovat libovolně složité vzory, pokud má dostatek vrstev a parametrů.
Velké jazykové modely mají typicky desítky až stovky vrstev a miliardy parametrů — čísel v maticích vah, která určují, jak každý neuron na vstup reaguje. GPT-3 měl 175 miliard parametrů, novější modely se pohybují v bilionech [5]. Tato čísla nejsou marketingové přeháňání: více parametrů znamená větší kapacitu pro zachycení složitých vzorů v jazyce.
Attention: co si model čte a co přehlíží
Přelomem v historii jazykových modelů byl rok 2017, kdy Google Brain ve slavné práci Attention Is All You Need představil transformerovou architekturu [6]. Její klíčový mechanismus — self-attention — řeší problém, který starší sítě nedokázaly dobře zvládat: jak spojit libovolně vzdálená slova ve větě, aniž by se síť „zapomněla" číst celý kontext.
Self-attention funguje takto: pro každý token se vypočítají tři vektory — dotaz (Query), klíč (Key) a hodnota (Value). Dotaz jednoho tokenu se porovná s klíči všech ostatních tokenů ve vstupu a výsledkem je váha pozornosti: číslo říkající, jak moc má tento token při generování odpovědi „brát v potaz" každý jiný token. Tyto váhy se použijí k váženému průměru hodnot, čímž vznikne nová reprezentace tokenu — obohacená o kontext celého okolí.
Konkrétní příklad: ve větě „Banka, kde jsem si uložil úspory, stojí na rohu ulice" musí model vědět, zda slovo „banka" označuje finanční instituci nebo říční břeh. Self-attention mu umožní propojit „banka" se slovy „úspory" a „ulice" a přiřadit jim správnou váhu — a tím si správný smysl odvodit.
Reálné modely používají multi-head attention: místo jednoho výpočtu attention se paralelně spouští osm, šestnáct nebo více „hlav", z nichž každá se naučí sledovat jiný typ vztahu — jedna gramatické závislosti, druhá odkazování zájmen, třetí tematické příslušnosti. Výstupy všech hlav se spojí a přenesou do další vrstvy sítě.
Trénink: jak model získává znalosti
Model sám o sobě je jen tabulka čísel — matic vah. Bez tréninku je to tabula rasa, která generuje náhodné nesmysly. Trénink je proces, při němž se tato čísla systematicky upravují tak, aby model dělal méně chyb [4].
Základní úloha trénování jazykových modelů je prostá: dej modelu text a nech ho předpovídat, jaký token přijde jako další. Pokud vstupní text zní „Hlavní město České republiky je", správná odpověď je „Praha". Model dostane miliardy takových příkladů z celého internetu, knih a dalších zdrojů a opakovaně se učí, kde se spletl a jak se to napravit.
Mechanismus opravy se jmenuje zpětné šíření chyby (backpropagation) kombinované s gradientním sestupem. Kdykoli model udělá chybu, chybový signál se šíří zpět celou sítí a každý parametr se o malý krůček posune ve směru, který by chybu zmenšil. Tento krůček se nazývá learning rate — příliš velký způsobí nestabilitu, příliš malý trénink zbytečně prodlouží [4].
Trénink velkých modelů trvá týdny až měsíce na tisících specializovaných čipů (GPU nebo TPU) a stojí desítky milionů dolarů. Nejde jen o výpočetní výkon — jde také o kvalitu dat. Šumné, zaujatě sebrané nebo chybné texty v tréninku se promítnou do chování modelu, a proto firmy investují enormní úsilí do čištění a filtrování trénovacích korpusů.
Po základním předtrénování (pre-training na předpovídání dalšího tokenu) přichází fáze dolaďování (fine-tuning). V případě chatovacích modelů je nejdůležitější technikou RLHF — Reinforcement Learning from Human Feedback. Lidé hodnotí odpovědi modelu, tyto hodnocení se použijí k trénování odděleného modelu odměny a ten pak zpětně vede jazykový model k odpovědím, které lidé preferují [5]. Bez této fáze by model uměl generovat text, ale nebyl by „přívětivý" — mohl by klidně dokončit větu způsobem, který je lingvisticky pravděpodobný, ale věcně nebezpečný nebo nevhodný.
Inference: myšlení v reálném čase
Trénink je to, co model učí. Inference je to, co model dělá, když s ním mluvíte. Jsou to dvě odlišné fáze s odlišnými nároky na hardware.
Při inferenci model dostane vstupní tokeny, projde jimi celou sítí a na výstupu dostane vektor pravděpodobností — pro každý token ve slovníku číslo říkající, jak pravděpodobné je, že právě tento token přijde jako další. Z tohoto rozdělení se jeden token vybere, připojí se k dosavadnímu textu a celý proces se opakuje — token po tokenu, dokud model nevygeneruje konec odpovědi.
Toto opakované spouštění sítě pro každý token vysvětluje, proč jazykové modely generují text zleva doprava a proč délka odpovědi přímo určuje dobu čekání. Není tam žádné „přemýšlení" v lidském smyslu — je tam tisícinásobné spuštění stejné matematické operace.
Parametr zvaný teplota (temperature) ovlivňuje, jak moc model z pravděpodobnostního rozdělení náhodně vybírá. Teplota blízká nule vždy vybere nejpravděpodobnější token — výsledek je předvídatelný a opakovaný, ale někdy nudně formularický. Vyšší teplota dá prostor méně pravděpodobným tokenům — výsledky jsou rozmanitější a kreativnější, ale při příliš vysoké teplotě se text stane nesoudržným. Teplota je jeden z mála parametrů, které lze při inferenci snadno ladit bez přetrénování celého modelu.
Kontextové okno: paměť a její limity
Jedním z nejčastěji nepochopených aspektů jazykových modelů je jejich „paměť". Model nemá paměť v lidském smyslu — nepamatuje si minulé konverzace a nemá přístup k informacím mimo to, co dostane jako vstup při aktuálním spuštění. Vše, co model „ví" v daný okamžik, je obsah kontextového okna.
Kontextové okno je maximální počet tokenů, které může model najednou zpracovat — vstup i svoji vlastní dosavadní odpověď dohromady. Dřívější modely měly okna kolem 4 000 tokenů (zhruba 3 000 slov). Současné modely sahají k 128 000 nebo 200 000 tokenům, což odpovídá několika románům. Tato expanze není zadarmo: výpočetní náročnost self-attention roste kvadraticky s délkou kontextu — dvojnásobný kontext znamená čtyřnásobný výpočet.
Délka kontextu má praktický dopad na chování modelu. Studie ukazují, že modely věnují větší pozornost tokenům na začátku a na konci kontextového okna, zatímco informace pohřbené uprostřed dlouhého dokumentu mohou být zpracovány méně přesně [6]. Tato anomálie, označovaná jako „lost in the middle", je aktivně zkoumaná oblast — a jedním z důvodů, proč jednoduché prodloužení okna nezaručí proporcionálně lepší výsledky.
Kde AI selhává: halucinace a limity reprezentace
Jazykový model dělá jednu věc: předpovídá pravděpodobný pokračující text na základě vstupních tokenů a natrénovaných vah. Tato definice je zároveň jeho největší silou i největší slabinou. Model nemá přístup k vnějšímu světu, neumí ověřovat fakta ani si sám sebe opravovat v reálném čase. Pokud mu pravděpodobnostní rozdělení sugeruje jako „přirozené" pokračování větu, která je věcně nepravdivá, model ji vygeneruje.
Tomuto jevu se říká halucinace. Model může s jistotou uvést jméno autora, který neexistuje, datum události, která se nestala, nebo citaci vědeckého článku, který nikdy nebyl publikován — a přitom to vše vypadá lingvisticky přesvědčivě. Halucinace nejsou chyby výpočtu — jsou přímým důsledkem toho, jak je model navržen. Pravděpodobnostní model jazyka není totéž co znalostní báze.
Dalším limitem je takzvaný knowledge cutoff — datum, po které model nebyl trénován. Vše, co se stalo po tomto datu, model jednoduše nezná, pokud mu informaci nepředá sám uživatel v kontextovém okně. Informace ze světa přibývají rychleji, než se modely trénují, a proto se prakticky všechny produkční systémy doplňují o nástroj pro vyhledávání na webu nebo přístup k externím databázím.
Třetím limitem je to, co bychom mohli nazvat „hranicí reprezentace". Model chápe svět tak, jak ho chápe text — ale ne každý aspekt reality lze plně zachytit slovy. Prostorové vztahy, fyzikální intuice, vizuální kontext — to všechno musí model rekonstruovat z textových popisů, nikoliv z přímé zkušenosti. Multimodální modely, které přijímají i obrázky, zvuk nebo video, tuto hranici posouvají — ale neruší ji.
Od tokenů k nástrojům: jak AI působí ve světě
Čistě jazykové modely jsou mocné, ale izolované. Moderní praxe je proto obklopuje nástroji — funkcemi, které může model volat a jejichž výsledky dostane zpět do kontextového okna. Jde o vyhledávání na webu, spuštění kódu, čtení souborů, volání externích API nebo ovládání softwaru. Tato architektura, označovaná jako „tool use" nebo „function calling", mění model z generátoru textu na agenta, který dokáže v reálném světě jednat a výsledky svých akcí zohledňovat.
Agentní systémy přidávají další vrstvu: model plánuje kroky, spouští nástroje, vyhodnocuje jejich výstup a na základě toho volí další krok. Výzkum v oblasti multi-agentních systémů jde ještě dál — více modelů spolupracuje, každý se specializací na jinou část úlohy, a vzájemně si předávají mezivýsledky. Tato architektura kopíruje to, jak fungují lidské týmy, a umožňuje řešit úlohy, které jsou pro jeden model příliš velké nebo příliš složité.
Proč na tom záleží
Porozumění tomu, jak AI zpracovává informace, není akademické cvičení. Každý, kdo s jazykovými modely pracuje — ať jako uživatel, produktový manažer nebo vývojář — dělá lepší rozhodnutí, pokud ví, co se „uvnitř" děje.
Konkrétně: vědět, že model pracuje s tokeny, pomáhá psát efektivnější prompty. Vědět, že kontext je omezený a informace uprostřed se ztrácí, pomáhá strukturovat vstupy. Vědět, že halucinace jsou strukturální vlastnost, nikoli opravitelná chyba, nastavuje realistická očekávání. A vědět, že trénink formuje hodnoty a chování modelu stejně jako schopnosti, pomáhá klást správné otázky při výběru a nasazení konkrétního systému.
Jazykové modely jsou dnes nejrychleji se vyvíjející technologická platforma od příchodu chytrých telefonů. Architektura transformerů, pozornostní mechanismus, tokenizace — to vše vzniklo během posledních deseti let a mění se každý měsíc. Kdo rozumí základům, dokáže sledovat vývoj bez toho, aby se ztrácel v marketingovém šumu.
Závěr
Cesta od vašeho dotazu k odpovědi modelu je přesná, opakovaná a překvapivě elegantní: text se rozpadne na tokeny, tokeny se stanou vektory, vektory projdou desítkami vrstev pozornostního mechanismu, každý token se dozví, co ho obklopuje, a z výsledného pravděpodobnostního rozdělení vyroste odpověď — slovo po slovu. Žádná magie, ale hodně matematiky a ještě víc dat. Porozumět tomuhle procesu je první krok k tomu, abychom s AI pracovali jako se skutečným nástrojem — se znalostí toho, co zvládne a kde se zastaví.
Zdroje
[1] : Shannon, C. E. — A Mathematical Theory of Communication, Bell System Technical Journal (1948) — people.math.harvard.edu/~ctm/home/text/others/shannon/entropy/entropy.pdf
[2] : Sennrich, R. et al. — Neural Machine Translation of Rare Words with Subword Units (BPE tokenizace), ACL 2016 — arxiv.org/abs/1508.07909
[3] : Mikolov, T. et al. — Distributed Representations of Words and Phrases (Word2Vec), NeurIPS 2013 — arxiv.org/abs/1310.4546
[4] : LeCun, Y., Bengio, Y. & Hinton, G. — Deep learning, Nature 521 (2015) — nature.com/articles/nature14539
[5] : Brown, T. et al. — Language Models are Few-Shot Learners (GPT-3), NeurIPS 2020 — arxiv.org/abs/2005.14165
[6] : Vaswani, A. et al. — Attention Is All You Need, NeurIPS 2017 — arxiv.org/abs/1706.03762

