Tato nová technologie by mohla vyrazit do povětří GPT-4 a všechny podobné

Přestože se chatbot AI program známý jako ChatGPT od OpenAI a jeho následovník GPT-4 těší velké popularitě, nakonec jsou to jen softwarové aplikace. A jako všechny aplikace mají technická omezení, která mohou vést k neoptimálnímu výkonu.

V březnu byla publikována studie, ve které vědci z umělé inteligence (AI) na Stanford University a ústavu MILA pro AI v Kanadě navrhli technologii, která by mohla být mnohem efektivnější než GPT-4 nebo cokoli podobného při zpracování obrovského množství dat a jejich transformaci na výslednou odpověď.

Také: Tito bývalí zaměstnanci Applu chtějí nahradit chytré telefony tímto zařízením

Hyena, která je známá jako Hyena, je technologie, která je schopná dosáhnout ekvivalentní přesnosti v benchmarkových testech, jako je například odpověď na otázku, a to při použití pouze zlomku výpočetního výkonu. V některých případech je kód Hyeny schopen zpracovat množství textu, které způsobuje, že technologie stylu GPT jednoduše vyčerpá paměť a selže.

"Naše slibné výsledky ve stupni pod miliardou parametrů naznačují, že pozornost nemusí být vše, co potřebujeme," píší autoři. Tento poznatek se vztahuje k názvu revoluční zprávy o umělé inteligenci z roku 2017 s názvem 'Attention is all you need'. V této práci představili vědci z Googlu, Ashish Vaswani a jeho kolegové, svůj umělou inteligenci program s názvem Transformer. Transformer se stal základem pro všechny nedávné velké jazykové modely.

Ale Transformer má velkou vadu. Používá něco nazývané "attention", kdy počítačový program vezme informace ze skupiny symbolů, jako jsou slova, a přesune tyto informace do nové skupiny symbolů, jako je odpověď, kterou vidíte od ChatGPT, což je výstup.

Také:Co je GPT-4? Tady je všechno, co potřebujete vědět

Tato operace pozornosti - základní nástroj všech velkých jazykových programů, včetně ChatGPT a GPT-4 - má "kvadratickou" výpočetní složitost (Wiki "časová složitost" výpočtu). Tato složitost znamená, že doba, kterou potřebuje ChatGPT k vytvoření odpovědi, se zvyšuje jako druhá mocnina množství dat, která jsou mu poskytnuta jako vstup.

V některém okamžiku, pokud je příliš mnoho dat - příliš mnoho slov v dotazu nebo příliš mnoho řetězců konverzací po hodinách a hodinách chatování se programem - pak se program zpomaluje při poskytování odpovědi, nebo mu musí být poskytnuto stále více a více GPU čipů, aby běžel rychleji a rychleji, což vede k nárůstu výpočetních požadavků.

In the new paper, 'Hierarchie hyen: směrem k větším konvolučním jazykovým modelům', zveřejněném na serveru arXiv pre-print, hlavní autor Michael Poli ze Stanfordu a jeho kolegové navrhují nahradit pozornostní funkci Transformeru něčím sub-kvadratickým, konkrétně Hyenou.

Také:Co je Auto-GPT? Vše, co potřebujete vědět o dalším mocném nástroji umělé inteligence

Autoři nevysvětlují název, ale člověk si může představit několik důvodů pro program "Hyena". Hyeny jsou zvířata žijící v Africe, která dokážou lovit na míle daleko. V určitém smyslu by mohlo být velmi výkonné jazykové rozhraní podobné hyenám, které loví na dlouhé vzdálenosti, aby našly potravu.

Ale autoři se skutečně zajímají o "hierarchii", jak naznačuje název, a rodiny hyen mají přísnou hierarchii, podle které mají členové místní smečky hyen různé úrovně hodnosti, které určují dominance. Jak uvidíte, program Hyena aplikuje určitý počet velmi jednoduchých operací znovu a znovu, takže se spojují do jakéhosi hierarchického zpracování dat. Je to kombinační prvek, který programu dává název Hyena.

Také:Budoucí verze ChatGPT by mohly nahradit většinu práce, kterou lidé dělají dnes, říká Ben Goertzel

Mezi přispívajícími autory této práce jsou prominentní osobnosti světa umělé inteligence, jako například Yoshua Bengio, vědecký ředitel MILA, který získal Turingovu cenu v roce 2019, což je ekvivalent Nobelovy ceny v oblasti výpočetní techniky. Bengio je široce uznáván jako tvůrce mechanismu pozornosti již dávno předtím, než ho Vaswani a jeho tým adaptovali pro Transformer.

Také mezi autory je Christopher Ré, asociální profesor počítačových věd na Stanfordově univerzitě, který v posledních letech pomáhal rozvíjet pojem AI jako "software 2.0".

Aby nalezli subkvadratickou alternativu k pozornosti, tým Poliho se pustil do studia toho, jakým způsobem mechanismus pozornosti funguje, aby zjistil, zda by tato práce nemohla být provedena efektivněji.

Poslední praxe v oblasti vědy o umělé inteligenci, známá jako mechanistická interpretace, poskytuje poznatky o tom, co se děje hluboko uvnitř neuronové sítě, uvnitř výpočetních "obvodů" pozornosti. Můžete si to představit jako rozebrání softwaru tak, jak byste rozebrali hodiny nebo počítač, abyste viděli jeho části a zjistili, jak funguje.

Dále:Použil jsem ChatGPT na napsání stejné rutiny v 12 nejlepších programovacích jazycích. Tady je jeho výkon

Jednou z prací, na kterou odkazuje Poli a tým, jsou experimenty vedené výzkumníkem Nelsonem Elhagem z umělé inteligence společnosti Anthropic. Tyto experimenty rozkládají programy Transformer, aby zjistily, co dělá pozornost.

Podstatou toho, co Elhage a jeho tým zjistili, je to, že pozornost funguje na své nejzákladnější úrovni pomocí velmi jednoduchých počítačových operací, jako je například kopírování slova z nedávného vstupu a vložení jej do výstupu.

Například, pokud někdo začne psát do programu velkého jazykového modelu, jako je ChatGPT, větu z Harryho Pottera a Kámen mudrců, jako například "Pan Dursley byl ředitelem firmy nazvané Grunnings...", stačí jen napsat "D-u-r-s", začátek jména, a programu to může stačit k tomu, aby dokončil jméno "Dursley", protože viděl toto jméno v předchozí větě Kámenu mudrců. Systém je schopen z paměti zkopírovat záznam o písmenech "l-e-y" a dokončit větu.

Také:ChatGPT je spíše jako 'cizí inteligence' než lidský mozek, tvrdí futurista

Avšak operace pozornosti se potýká se kvadratickým problémem složitosti, jak roste množství slov. Více slov vyžaduje více tzv. "vah" nebo parametrů, aby bylo možné provádět operaci pozornosti.

Jak píší autoři: "Blokový transformátor je mocný nástroj pro sekvenční modelování, ale není bez svých omezení. Jedním z nejvýraznějších je výpočetní náročnost, která rapidně roste s délkou vstupní sekvence."

Zatímco technické podrobnosti aplikace ChatGPT a GPT-4 nebyly zveřejněny společností OpenAI, věří se, že mohou obsahovat biliony a více takových parametrů. Pro provoz těchto parametrů je zapotřebí více GPU čipů od společnosti Nvidia, což zvyšuje náklady na výpočetní sílu.

Chcete-li snížit kvadratické výpočetní náklady, Poli a tým nahradí operaci pozornosti tím, co se nazývá „konvoluce“, která je jednou z nejstarších operací v programech AI, která byla vylepšena již v 80. letech. Konvoluce je prostě filtr, který může vybrat prvky v datech, ať už se jedná o pixely v digitálním fotoaparátu nebo o slova ve větě.

Také:Úspěch ChatGPT by mohl přimět k nebezpečnému obratu k utajování v oblasti umělé inteligence, tvrdí průkopník AI Bengio

Poli a tým dělají jakýsi mix: vezmou práci provedenou výzkumníkem ze Stanfordu, Danielem Y. Fu a týmem, která aplikuje konvoluční filtry na sekvence slov, a spojí to s prací vědce Davida Romera a jeho kolegů z Vrije Universiteit Amsterdam, která umožňuje programu měnit velikost filtru na letu. Tato schopnost flexibilně se přizpůsobovat snižuje počet nákladných parametrů nebo vah, které program potřebuje mít.

Výsledek mash-upu spočívá v tom, že konvoluce lze aplikovat na neomezené množství textu, aniž by bylo nutné používat stále více parametrů k opisování stále většího množství dat. Jde o přístup "bez pozornosti", jak tvrdí autoři.

"Hyena operátoři jsou schopni významně zmenšit rozdíl ve kvalitě s pomocí attention na velké škále," píše tým Poli, "dosahují podobné perplexity a výkonu ve výstupních úlohách s menším počtem výpočetních prostředků." Perplexita je technický pojem odkazující se na to, jak sofistikovaná je odpověď generovaná programem jako například ChatGPT."

Pro předvedení schopností Hyeny si autoři programu vyzkoušeli několik benchmarků, které určují, jak dobře je jazykový program schopen různých úloh v oblasti umělé inteligence.

Také: 'Ve světě software se dějí zvláštní věci,' říká profesor umělé inteligence na Stanfordu Chris Ré

Jedním z testů je The Pile, 825-gigabajtová sbírka textů vytvořená v roce 2020 organizací Eleuther.ai, neziskovým výzkumným týmem AI. Texty jsou shromážděny z "vysokokvalitních" zdrojů, jako je PubMed, arXiv, GitHub, Úřad patentů USA a další, takže zdroje mají přísnější formu než například diskuse na Redditu.

Klíčovým výzvou programu bylo předvídat další slovo při zadání sady nových vět jako vstup. Program Hyena dokázal dosáhnout ekvivalentního skóre jako původní GPT program od OpenAI z roku 2018, s o 20% nižším počtem výpočetních operací - "první pozornostně-nezávislá, konvoluční architektura, která dosahuje kvality GPT s nižším počtem operací", píší výzkumníci.

Dále autoři otestovali program na úlohách logického vyvozování známých jako SuperGLUE, které představili v roce 2019 badatelé z New York University, Facebook AI Research, Googleho divize DeepMind a University of Washington.

Napríklad, keď dostaneme vetu "Moje telo vrhá tieň nad trávou" a dve alternatívy pre príčinu "slnko vychádzalo" alebo "tráva bola skosená" a požiadame vás, aby ste vybrali jednu z možností, program by mal generovať "slnko vychádzalo" ako vhodný výstup.

V několika úkolech dosáhla program Hyena skóre, která se blížila nebo dosahovala skóre verze GPT, přestože byla trénována na méně než polovině množství trénovacích dat.

Také: Jak používat novou službu Bing (a jak je odlišná od ChatGPT)

Dalším zajímavým jevem bylo, co se stane, když autoři zvýší délku použitých frází jako vstup: více slov znamenalo lepší zlepšení výkonu. Při 2 048 "tokenech", které si můžete představit jako slova, Hyena potřebuje méně času k dokončení jazykového úkolu než přístup založený na pozornosti.

Ve 64 000 částech, autoři uvádí, "Hyena zrychlení dosahuje 100x" - stonásobné zlepšení výkonu.

Poli a tým tvrdí, že nejenom vyzkoušeli jiný přístup pomocí Hyeny, ale "prolomili kvadratickou bariéru", což způsobilo kvalitativní změnu v tom, jak obtížné je pro program vypočítat výsledky.

Navrhují, že existují také potenciálně významné změny v kvalitě dál po silnici: "Překonání kvadratické bariéry je klíčovým krokem směrem k novým možnostem pro hluboké učení, jako je použití celých učebnic jako kontextu, generování dlouhých hudebních skladeb nebo zpracování obrazů na gigapixelové úrovni", píší.

Schopnost Hýeny použít filtr, který se účinněji roztahuje přes tisíce a tisíce slov, jak píší autoři, znamená, že neexistuje téměř žádný limit pro "kontext" dotazu na jazykový program. V podstatě by mohla vybavovat prvky textů nebo předchozích konverzací, které jsou od aktuálního vlákna konverzace vzdálené - stejně jako hyeny lovící na míle daleko.

Také: Nejlepší AI chatboti: ChatGPT a další zábavné alternativy, které si vyzkoušet

"Operátoři hien mají neomezené kontexty," píšou. "Jsou tedy uměle omezeni např. lokálností a mohou se učit dlouhodobé závislosti mezi libovolnými prvky [vstupu]."

Kromě toho, stejně jako slova, lze program aplikovat i na data různých modalit, jako jsou například obrázky a možná i video a zvuky.

Je důležité si uvědomit, že program Hyena, který je ukázán v této práci, je malý ve srovnání s GPT-4 nebo dokonce GPT-3. Zatímco GPT-3 má 175 miliard parametrů, největší verze Hyeny má pouze 1,3 miliardy parametrů. Zatím tedy zůstává nejasné, jak se bude Hyena ve srovnání s GPT-3 nebo 4 umět trvale prosazovat.

Ale pokud dosažená účinnost platí i u větších verzí programu Hyena, mohla by to být nová paradigma, která je tak rozšířená, jako byla pozornost během poslední dekády.

Jak Poli a tým dospívají k závěru: „Jednodušší sub-kvadratické designy jako například Hyena, založené na jednoduchých vodících principech a hodnocení na platformě mechanistické interpretovatelnosti, by mohly tvořit základ pro efektivní velké modely.“

Tato nová technologie by mohla odrovnat GPT-4 a všechno podobné

Příbuzné články