LLM zawierają DUŻO parametrów. Ale co to jest parametr?
Podczas uczenia modelu każdemu słowu w jego słownictwie przypisuje się wartość liczbową, która oddaje znaczenie tego słowa w odniesieniu do wszystkich innych słów, na podstawie tego, jak słowo to pojawia się w niezliczonych przykładach w danych szkoleniowych modelu. Każde słowo zostaje zastąpione rodzajem kodu? Tak. Ale jest w tym coś więcej. Wartość liczbowa — osadzenie — reprezentująca każde słowo, jest w rzeczywistości listą liczb, przy czym każda liczba na liście reprezentuje inny aspekt znaczenia wydobyty przez model z danych uczących. Długość tej listy liczb to kolejna rzecz, którą projektanci LLM mogą określić przed przeszkoleniem LLM. Typowym rozmiarem jest 4096. Każde słowo w LLM jest reprezentowane przez listę 4096 liczb? Tak, to jest osadzanie. Każda z tych liczb jest modyfikowana podczas treningu. Mówi się, że LLM z osadzeniem o długości 4096 liczb ma 4096 wymiarów. Dlaczego 4096? Może to wyglądać na dziwną liczbę. Jednak LLM (jak wszystko, co działa na chipie komputerowym) działają najlepiej z potęgami dwójki — 2, 4, 8, 16, 32, 64 i tak dalej. Inżynierowie LLM odkryli, że 4096 to potęga dwójki, która trafia w złoty środek między możliwościami a wydajnością. Modele o mniejszych wymiarach mają mniejsze możliwości; modele o większej liczbie wymiarów są zbyt drogie lub powolne w trenowaniu i uruchamianiu. Użycie większej liczby liczb pozwala LLM uchwycić bardzo szczegółowe informacje o tym, jak słowo jest używane w wielu różnych kontekstach, jakie subtelne konotacje może mieć, jak odnosi się do innych słów i tak dalej. W lutym OpenAI wypuściło GPT-4.5, największy jak dotąd LLM firmy (niektóre szacunki mówią o liczbie parametrów przekraczającej 10 bilionów). Nick Ryder, pracownik naukowy w OpenAI, który pracował nad tym modelem, powiedział mi wówczas, że większe modele mogą wykorzystywać dodatkowe informacje, na przykład sygnały emocjonalne, np. gdy słowa mówiącego sygnalizują wrogość: „Wszystkie te subtelne wzorce, które pojawiają się w ludzkiej rozmowie — to właśnie te fragmenty będą wychwytywane przez coraz większe modele”. W efekcie wszystkie słowa w LLM zostają zakodowane w przestrzeni wielowymiarowej. Wyobraź sobie tysiące słów unoszących się w powietrzu wokół ciebie. Słowa, które są bliżej siebie, mają podobne znaczenie. Na przykład „stół” i „krzesło” będą bliżej siebie niż „astronauta”, który jest blisko „księżyca” i „piżma”. Daleko w oddali widać „prestidigitację”. To trochę tak, ale zamiast być ze sobą powiązane w trzech wymiarach, słowa w LLM są powiązane w 4096 wymiarach. Tak. To przyprawiająca o zawrót głowy sprawa. W efekcie LLM kompresuje cały Internet w jedną monumentalną strukturę matematyczną, która koduje niezgłębioną ilość wzajemnie powiązanych informacji. Jest to zarówno powód, dla którego LLM mogą robić zdumiewające rzeczy, jak i powód, dla którego nie da się ich w pełni zrozumieć.
已Opublikowany: 2026-01-07 11:23:00
źródło: www.technologyreview.com








