Co jest w środku LLM (wielkiego modelu językowego), z którym "rozmawiają ludzie, nazywając go sztuczną inteligencją? Czy jest tam osoba? Czy są tam słowa? Algorytmy? Co tam jest?
Jak naprawdę LLM "widzi" słowo "król"? Otóż dla niego jest to ciąg liczb, np: [0.12 4.20 1.05]
Tak naprawdę LLM "widzi" tylko i wyłącznie te rzędy liczb. Nic więcej! Przełożenie słów na owe rzędy liczb to przygotowawczy proces na wejściu do LLM, a przełożeniem tych rzędów liczb uzyskanych na wyjściu na reprezentację w postaci odpowiadających im słów to robi program na wyjściu. LLM widzi TYLKO RZĘDY LICZB, nic więcej i nic mniej.
Oprócz posiadania katalogu owych rzędów liczb (odpowiadających słowom języka lub częściom tych słów - "tokeny") LLM ma jeszcze coś, ma mechanizm przewidywania, wnioskowania, jakie - które rzędy liczb powinny się pojawić "w odpowiedzi" na zadane podobne rzędy na wejściu.
Na wejściu podajemy [1, 0.33, 1.11] [0.93, 1,90, 1.21] (mąż królowej) i czekamy co wyrzuci LLM -> [0.12, 4.20, 1.05] (król).
Ale jak on to robi?!
Otóż na początku rzędy odpowiadające słowom są napełniane liczbami w sposób losowy. LLM bierze zdanie z języka naturalnego i na podstawie jego części stara się przewidzieć np. koniec. Oczywiście na początku wcale nie wyjdzie, że mąż królowej to król, tylko jakieś nonsensowne, nie pasujące do reszty słowo.
Cała tajemnica kryje się w tym, że:
- Słowo na wyjściu generowane jest poprzez wnętrze LLM (jego matrix), tam odbywa się przekazywanie sobie wartości przez wiele warstw tak zwanych węzłów. Każde przekazanie wartości jest korygowane mnożeniem przez pamiętaną tzw. wagę. Więc jeśli waga jest = 2, to węzeł pobierający wartość 0.12 pomnoży je przez 2 i zarejestruje u siebie 0.24. Jeśli waga jest 0.5 to zarejestruje 0.06 i taką wartość będzie przekazywał dalej. Manipulowanie tymi "wagami" czynnikami, przez które mnoży się wartości przekazywane pomiędzy węzłami, zmienia właśnie to, co dostaje się na wyjściu.
- Manipulowanie wagami może się odbywać niezwykle delikatnie ze śledzeniem, czy wynik zbliża się czy oddala od oczekiwanego.
- W trakcie "treningu", LLM modyfikować może zarówno wewnętrzną swoją sieć "wag" , jak i wartości liczb w rzędach wejściowych i wyjściowym.
- Poprzez wielokrotne delikatne zmiany, LLM doprowadza do sytuacji, że dwa wektory wejściowe plus wewnętrzny system "wag" dają w efekcie wskazanie na wektor wyjściowy zgodny z prawdziwym zdaniem. Ustala się RELACJA między "słowami", a w "rozumieniu" LLM między tymi rzędami inaczej - wektorami liczb.
Stąd dwa różne LLM posiadające takie samo ułożenie wewnętrznych węzłów, w wyniku treningu mogą wygenerować zupełnie różne od siebie opisy (wektory) słowa np. król. W jednym to będzie ciąg wskazanych liczb, w drugim to będzie ciąg zupełnie innych liczb. A jednak, w obu przypadkach, przy podaniu na wejściu - również różnych od siebie reprezentacji słów - "mąż królowej" podadzą tak samo własny odpowiednik słowa: "król". Zatem nie postać słowa jest zapamiętana przez LLM ale RELACJA między słowami!
O dziwo, trenowanie LLM na rozmaitych zdaniach, gdzie słowo "król" występuje w różnych rolach i kontekstach, NIE ZABURZA prawidłowości już raz wychwyconych "mąż królowej", ale dodaje do tego nowe powiązania, które we wszelkich innych kontekstach zaczynają pasować do siebie. Dzieje się tak dlatego, że JĘZYK LUDZKI JEST SENSOWNY i SPÓJNY. Jest on spójnym logicznie i znaczeniowo powiązanym systemem używanych terminów. Poprzez długotrwały "trening" LLM po prostu "odnajduje" powiązania między słowami i de facto w sieci swoich węzłów i w swoim "słowniku" odzwierciedla STRUKTURĘ języka, a nie konkretne słowa.
Ta struktura obejmuje wiele podstruktur, np. pytań i sensownych odpowiedzi, np. odezwań się i uprzejmego nawiązywania dialogu. To wszystko w języku ludzi jest i są to "struktury" wiążące sobą w spójne całości czasem pojedyncze słowa, czasem całe akapity czy rozdziały.
Więc w LLM jest coś o wiele więcej niż tylko liczby. Owe liczby to tylko "materializacja", forma zapisu zawartej w LLM struktury języka, tak samo jak nasza mowa, czy produkowane przez nas treści, są "upostaciowieniem/materializacją/formą odzwierciedlenia" struktur, których używamy w wypowiedzi. Sama struktura jest czymś innym niż słowa. One je "organizuje", "wiąże", jest "wzorcem", wzorcem myślenia, postrzegania itd.
LLM poprzez analizę treści tworzonych przez ludzi wykrywa i odkrywa - strukturę języka, a de facto - strukturę myśli. Aparat matematyczny używany przez LLM koduje tę właśnie strukturę, co może być lekko niepokojące, ale tak właśnie jest. Myślimy i komunikujemy się pewnymi wzorcami, organizującymi słowa w treści i komunikaty. Mogą to być wzorce chamskiej agresywności, mogą to być wzorce uprzejmej i konstruktywnej komunikacji. Okazuje się, że "styl" wypowiedzi - również jest pewnym wzorcem i LLM potrafi go zapisać i na żądanie odzwierciedlać. Cynik inaczej organizuje, dobiera i używa słowa niż optymista. Ten drugi na wzorzec szklanki do połowy pełnej wygeneruje wzorzec szansy i dostatku - "Mamy dużo wody!". Ten pierwszy, wygeneruje zupełni inną strukturę "Już po nas".
Więc LLM ilustrują to, że nasze myślenie i komunikacja to są wzorce, odzwierciedlane za pomocą słów (dźwięków lub znaków graficznych) i czasem odmiennych reguł gramatycznych w różnych językach, ale to są wzorce POZA JĘZYKOWE. Stojące przed - językiem, a istniejące.
Jest wzorzec posiadania: "To należy do mnie" jako odzwierciedlenie relacji. Są wzorce zachowań i ról. Są wzorce percepcji i osobowości. Wszystkie one są realne, wszystkie "organizują" treści w spójne formy, zarówno poznawcze jak i behawioralne, czyli formy zachowań. Zachowaniem też komunikujemy. Zachowanie i czyny to forma wyniku wyjściowego z takiego lub innego wzorca.
LLM odkrywa te wzorce z przekazów ludzi. Skąd ludzie je biorą, to zupełnie inna historia.
Zbyszku! Podaj nam jakąś literaturę. To jest super, ale gdzie są sieci neuronowe? Gdzie falki ? A gdzie teoria Profesora Zybertowicza, który tak bardzo mnie przestraszył...
Nie bardzo potrafię. To zbiór refleksji z lektury rozmaitych źródeł. Sieć neuronowa to generalnie "matrix", środek LLM, to jest właśnie system węzłów ułożonych w warstwy - linie. Węzeł to neuron, który pobiera i emituje informacje w postaci liczbowych wartości. To pobieranie jest korygowane wspomnianymi w tekście "wagami".