OpenAI GPT-4 Přijde v polovině března 2023

CTO mictosoftu v Německu, Andreas Braun, potvrdil, že GPT-4 přijde do týdne od 9. března 2023 a bude vícerozměrný. Vícerozměrná AI znamená, že bude schopná pracovat s různými formami vstupu, jako jsou video, obrázky a zvuk.

Aktualizace: GPT-4 vydáno 14. března 2023

OpenAI vydal GPT-4 dne 14. března 2023. Je to multimodální model, který přijímá obrázky a textové podněty.

Modalita je výraz používaný v oblasti strojového učení k označení forem vstupu, jako je text, ale také smysly jako zvuk, vizuální vnímání, čich atd.

Oznámení společnosti OpenAI popisuje rozsah pokroků GPT-4:

"…zatímco je méně schopný než lidé v mnoha skutečných scénářích, prokazuje výkon na úrovni lidského chování při různých profesionálních a akademických testech.

Například zkoušku předstíraného právního exekutora složí s výsledkem kolem 10% nejlepších účastníků testu; na rozdíl od toho GPT-3.5 dosáhl výsledku kolem 10% nejhorších.

Strávili jsme 6 měsíců opakovaným přizpůsobováním GPT-4 za použití zkušeností z našeho testovacího programu zaměřeného na nepříznivé situace, stejně jako účastníka ChatGPT, což vedlo k našim nejlepším dosud dosaženým výsledkům (ačkoli daleko od perfektních) v oblastech faktičnosti, řiditelnosti a nedovolování překračování mezí."

Multimodální velké jazykové modely

Důležitým poznatkem z oznámení je, že GPT-4 je multimodální (SEJ předpověděl GPT-4 je multimodální v lednu 2023).

Modalita je odkaz na typ vstupu, který (v tomto případě) velký jazykový model zpracovává.

Multimodální může zahrnovat text, živou řeč, obrázky a video.

GPT-3 a GPT-3.5 fungovaly pouze v jedné modalitě, a to textové.

Podle německého zpravodajského reportu by GPT-4 mohl být schopen pracovat ve čtyřech modalitách: obrázcích, zvuku (sluchové), textu a videu.

Pan doktor Andreas Braun, CTO Microsoft Německo, uvedl:

„Příští týden představíme GPT-4, tam budou multimodální modely, které nabídnou zcela jiné možnosti - například videa ...“

Ohlašování bylo nekonkrétní ohledně GPT-4, takže není jasné, zda to, co bylo sdíleno ohledně multimodalitnosti, bylo specifické pro GPT-4, nebo jen obecně.

Microsoft ředitel obchodní strategie Holger Kenn vysvětlil multimodalit, ale zpráva nebyla jasná, jestli odkazuje na multimodalitu GPT-4 nebo na multimodalitu obecně.

Věřím, že jeho odkazy na multimodalitu byly specifické pro GPT-4.

Zpráva informuje:

"Kenn vysvětlil, o čem se multimodální umělá inteligence zrovna jedná, která dokáže překládat text nejen do obrázků, ale také do hudby a videa."

Dalším zajímavým faktem je, že společnost Microsoft pracuje na "důvěrných metrikách", aby svou AI zakotvila ve faktech a stala se spolehlivější.

Microsoft Kosmos-1

Něco, co se zjevně nedostalo dostatečné pozornosti ve Spojených státech, je, že Microsoft vydal na začátku března 2023 multimodální jazykový model nazvaný Kosmos-1.

Podle zprávy německého zpravodajského webu Heise.de:

„...tým podrobil předškolený model různým testům, s dobrými výsledky při klasifikaci obrazů, odpovídání na otázky o obsahu obrazu, automatickém štítkování obrazů, optickém rozpoznávání textu a úlohách generování řeči.

…Vizuální úsudek, tedy dospět k závěrům o obrázcích bez použití jazyka jako prostředníka, se zde zdá být klíčový…

Kosmos-1 je multimodální modál, který integruje modalit textu a obrázků.

GPT-4 jde dál než Kosmos-1, protože přidává třetí modalitu, video, a zdá se také zahrnuje modalitu zvuku.

Funguje v různých jazycích

GPT-4 se zdá pracovat ve všech jazycích. Je popsán jako schopný přijmout otázku v němčině a odpovědět v italštině.

Je to trochu podivný příklad, protože kdo by položil otázku v němčině a chtěl dostat odpověď v italštině?

Toto je potvrzeno:

„...technologie se posunula tak daleko, že základně „funguje ve všech jazycích“: Můžete položit otázku v němčině a dostat odpověď v italštině.“

S multimodalitou, Microsoft(-OpenAI) „udělá modely komplexní“.“

Věřím, že podstatou průlomu je, že tento model překračuje jazyk svou schopností získávat informace z různých jazyků. Takže pokud je odpověď v italštině, model to bude vědět a bude schopen poskytnout odpověď v tom jazyce, ve kterém byla otázka položena.

To by to udělalo podobným cílem jako multimodální umělá inteligence Google nazvaná MUM. MUM by měla být schopná poskytnout odpovědi v angličtině, pro které existují pouze údaje v jiném jazyce, například v japonštině.

Aplikace GPT-4

Neexistuje žádné aktuální oznámení o tom, kde se objeví GPT-4. Nicméně byla specificky zmíněna Azure-OpenAI.

Google se snaží dohnat Microsoft tím, že do svého vlastního vyhledávače integruje konkurující technologii. Tento vývoj ještě více zhoršuje vnímání, že Google zaostává a má nedostatek vůdcovství v oblasti umělé inteligence pro spotřebitele.

Google již integruje AI do více produktů, jako je Google Lens, Google Maps a další oblasti, se kterými spotřebitelé interagují s Google. Tento přístup je využívání AI jako asistenční technologie, která pomáhá lidem s malými úkoly.

Způsob, jakým Microsoft to provádí, je více viditelný a v důsledku toho získává veškerou pozornost a posiluje obraz Google jako neúspěšný a bojující se dostat na stejnou úroveň.

Přečtěte si oficiální oznámení o vydání OpenAI GPT-4 zde.

Přečtěte si původní německou zprávu zde:

Příští týden přichází GPT-4 – a bude multimodální, říká Microsoft Německo

OpenAI GPT-4 Přijíždí v polovině března 2023

Aktualizace: GPT-4 vydáno 14. března 2023

Multimodální velké jazykové modely

Microsoft Kosmos-1

Funguje v různých jazycích

Aplikace GPT-4

Příbuzné články