Obří GPT-3 od společnosti OpenAI naznačuje limity jazykových modelů pro umělou inteligenci

Před necelým rokem společnost OpenAI, umělá inteligence sídlící ve městě San Francisco, ohromila svět ukázkou dramatického pokroku v tom, jak moc dokážou počítače utvářet věty v přirozeném jazyce a dokonce vyřešit otázky, jako je dokončení věty a formulace dlouhých pasáží textu, které se zdají poměrně lidské.

Nejnovější práce tohoto týmu ukazuje, jakým způsobem se myšlení OpenAI v některých ohledech zdokonalilo. GPT-3, jak se nazývá nejnovější vytvoření, se objevil minulý týden s více vylepšeními a zvonky a hvízdami. Byl vytvořen některými stejnými autory jako předchozí verze, včetně Aleca Radforda a Ilyi Sutskevera, a také se zapojili několik dalších spolupracovníků, včetně vědců z Univerzity Johnse Hopkinse.

Nyní je to skutečně monstrózní jazykový model, jak se mu říká, který pohlcuje o dvě řády víc textu než jeho předchůdce.

Ale i v rámci této velké je-více návnadě se tým OpenAI zdá, že se přibližuje k některým hlubším pravdám, stejně jako Dr. David Bowman přistupoval ke hranicím poznání na konci filmu 2001.

Zahrnuté v závěrečné části 72stránkového dokumentu Jazykové modely jsou učící se zařízení s malým množstvím dat, zveřejněného minulý týden na serveru arXiv pre-print, je docela překvapivé uznání.

"Dalším základním omezením obecného přístupu popsaného v této práci - škálování jakéhokoli modelu obdobného jazykového modelu, ať už je to autoregresivní nebo obousměrný, je, že by se v konečném důsledku mohl setkat (nebo už na to narazí) na limity předtrénovacího cíle", píší autoři.

Co autoři říkají je, že vytvoření neuronové sítě, která pouze předpovídá pravděpodobnosti dalšího slova ve větě nebo frázi, může mít svá omezení. Jenom její posilování a naplňování stále více textem nemusí vést k lepším výsledkům. To je významné uznání v dokumentu, který převážně oslavuje úspěch přidání většího výpočetního výkonu k řešení problému.

gpt-3-versus.jpg

Abychom pochopili, proč je závěr autorů tak významný, připomeňme si, jak jsme sem došli. Historie práce OpenAI na jazyce byla součástí historie postupného pokroku jednoho druhu přístupu s sebou nesoucím rostoucí úspěch, jak technologie byla stále větší a větší a větší.

Původní GPT a GPT-2 jsou oba adaptace toho, co je známo jako Transformer, objev vynalezený v roce 2017 v Googlu. Transformer používá funkci nazývanou attention k výpočtu pravděpodobnosti, že se slovo objeví vzhledem k okolním slovům. OpenAI vyvolala kontroverzi před rokem, když oznámila, že nezveřejní zdrojový kód největší verze GPT-2, protože by tento kód mohl padnout do nesprávných rukou a být zneužit k manipulaci lidí pomocí různých dezinformací, například falešných zpráv.

Nový článek posouvá GPT na další úroveň, protože jej ještě více rozšiřuje. Největší verze GPT-2, která nebyla zveřejněna ve zdrojovém kódu, měla 1,5 miliardy parametrů. GPT-3 má 175 miliard parametrů. Parametr je výpočet v neuronové síti, který aplikuje větší nebo menší váhování na některý aspekt dat, aby tento aspekt získal větší nebo menší váhu při celkovém výpočtu dat. Právě tyto váhy udávají tvar datů a dávají neuronové síti naučený pohled na data.

Zvýšení váhy v průběhu času vedlo k úžasným výsledkům benchmarkových testů rodiny programů GPT a dalších velkých derivátů transformátoru, jako je Google BERT, výsledky, které byly konzistentně velmi působivé.

Nemějte za to, že spousta lidí poukázalo na to, že žádný z těchto jazykových modelů se skutečně nezdá, že by rozuměl jazyku smysluplným způsobem. Jsou to šampioni v testech a to něco znamená.

Nejnovější verze opět ukazuje kvantitativní pokrok. Stejně jako GPT-2 a další programy založené na Transformeru, GPT-3 je trénován na datové sadě Common Crawl, což je korpus téměř bilionu slov textů získaných ze sítě. "Datová sada a velikost modelu jsou přibližně o dva řády větší než užité u GPT-2," píší autoři.

GPT-3 s 175 miliardami parametrů je schopný dosáhnout toho, co autoři popisují jako "meta-učení". Meta-učení znamená, že neuronová síť GPT není znovu trénována, aby vykonávala úkol, jako je dokončování věty. Když dostane příklad úkolu, jako je neúplná věta, a následně dokončenou větu, GPT-3 dokáže dokončit libovolnou neúplnou větu, kterou mu poskytnete.

GPT-3 je schopný naučit se provést úkol pomocí jediného podnětu, a to dokonce lépe než verze Transformer, které byly doladěny tak, že se specializují pouze na tento úkol. GPT-3 je tedy triumfem představitelné obecnosti. Stačí mu dodat obrovské množství textu, dokud jeho váhy nejsou ideální, a potom se může poměrně dobře vypořádat s řadou konkrétních úkolů bez dalšího vývoje.

To je místo, kde příběh dosahuje úchvatného rozuzlení v novém článku. Po výčtu úžasných výsledků GPT-3 v jazykových úkolech, které sahají od dokončování vět až k inferenci logického vyplývání tvrzení a překladu mezi jazyky, autoři uvádějí nedostatky.

"Navzdory silným kvantitativním a kvalitativním vylepšením GPT-3, zejména ve srovnání se svým přímým předchůdcem GPT-2, stále má významné slabiny."

Tyto nedostatky zahrnují neschopnost dosáhnout významné přesnosti u takzvaného adversárního NLI. NLI neboli inference přirozeného jazyka je test, ve kterém program musí určit vztah mezi dvěma větami. Výzkumníci z Facebooku a University of North Carolina představili adversární verzi, ve které lidé vytvářejí páry vět, které jsou pro počítač obtížné řešit.

GPT-3 na věci jako je Adversarial NLI "nedělá lepší než náhoda," píší autoři. Co hůře, i když zvýšili výkon svého systému na 175 miliard váhových parametrů, autoři si nejsou zcela jisti, proč při některých úkolech nedosahují očekávaných výsledků.

Tím se dostávají k závěru, který je uvedený výše, že weltra feeding ogromný textů obrovskému stroji není konečnou odpovědí.

Ještě více překvapivé je následující pozorování. Celá praxe pokusu předpovědět, co se stane s jazykem, může být špatný přístup, jak autoři píší. Mohou mířit na nesprávné místo.

"Samo-sobě-vyškolená cíle spočívají v tom, že se požadovaný úkol vynucuje do predikčního problému," píšou, "zatímco nakonec by se užitečné jazykové systémy (například virtuální asistenti) mohly lépe chápat jako přijímání cílených akcí spíše než jenom jako tvoření předpovědí."

Autoři to ponechávají na pozdější dobu, kdy upřesní, jak se budou vypořádat s tímto velmi fascinujícím potenciálním novým směrem.

Navzdory poznání, že větší nemusí být nakonec nejlepší, vylepšené výsledky GPT-3 v mnoha úkolech pravděpodobně posílí, nikoliv zmírní, touhu po stále větších a větších neuronových sítích. S 175 miliardami parametrů je GPT-3 králem velkých neuronových sítí, prozatím. Prezentace v dubnu od společnosti Tenstorrent, která se zabývá čipy pro umělou inteligenci, popisovala budoucí neuronové sítě s více než bilionem parametrů.

Pro většinu komunity zaměřené na strojové učení zůstane větší a větší modelování jazyka stále vrcholem technologií.

Příbuzné články

Zobrazit víc >>

Odemkněte sílu AI s HIX.AI!