![gpt-4-640b66db8c60d-sej-1520x800.jpg](https://static-lib.s3.amazonaws.com/cms/gpt_4_640b66db8c60d_sej_1520x800_1899fa76fc.jpg)
CTO mictosoftu v Německu, Andreas Braun, potvrdil, že GPT-4 přijde do týdne od 9. března 2023 a bude vícerozměrný. Vícerozměrná AI znamená, že bude schopná pracovat s různými formami vstupu, jako jsou video, obrázky a zvuk.
Aktualizace: GPT-4 vydáno 14. března 2023
OpenAI vydal GPT-4 dne 14. března 2023. Je to multimodální model, který přijímá obrázky a textové podněty.
Modalita je výraz používaný v oblasti strojového učení k označení forem vstupu, jako je text, ale také smysly jako zvuk, vizuální vnímání, čich atd.
Oznámení společnosti OpenAI popisuje rozsah pokroků GPT-4:
"…zatímco je méně schopný než lidé v mnoha skutečných scénářích, prokazuje výkon na úrovni lidského chování při různých profesionálních a akademických testech.
Například zkoušku předstíraného právního exekutora složí s výsledkem kolem 10% nejlepších účastníků testu; na rozdíl od toho GPT-3.5 dosáhl výsledku kolem 10% nejhorších.
Strávili jsme 6 měsíců opakovaným přizpůsobováním GPT-4 za použití zkušeností z našeho testovacího programu zaměřeného na nepříznivé situace, stejně jako účastníka ChatGPT, což vedlo k našim nejlepším dosud dosaženým výsledkům (ačkoli daleko od perfektních) v oblastech faktičnosti, řiditelnosti a nedovolování překračování mezí."
Multimodální velké jazykové modely
Důležitým poznatkem z oznámení je, že GPT-4 je multimodální (SEJ předpověděl GPT-4 je multimodální v lednu 2023).
Modalita je odkaz na typ vstupu, který (v tomto případě) velký jazykový model zpracovává.
Multimodální může zahrnovat text, živou řeč, obrázky a video.
GPT-3 a GPT-3.5 fungovaly pouze v jedné modalitě, a to textové.
Podle německého zpravodajského reportu by GPT-4 mohl být schopen pracovat ve čtyřech modalitách: obrázcích, zvuku (sluchové), textu a videu.
Pan doktor Andreas Braun, CTO Microsoft Německo, uvedl:
„Příští týden představíme GPT-4, tam budou multimodální modely, které nabídnou zcela jiné možnosti - například videa ...“
Ohlašování bylo nekonkrétní ohledně GPT-4, takže není jasné, zda to, co bylo sdíleno ohledně multimodalitnosti, bylo specifické pro GPT-4, nebo jen obecně.
Microsoft ředitel obchodní strategie Holger Kenn vysvětlil multimodalit, ale zpráva nebyla jasná, jestli odkazuje na multimodalitu GPT-4 nebo na multimodalitu obecně.
Věřím, že jeho odkazy na multimodalitu byly specifické pro GPT-4.
Zpráva informuje:
"Kenn vysvětlil, o čem se multimodální umělá inteligence zrovna jedná, která dokáže překládat text nejen do obrázků, ale také do hudby a videa."
Dalším zajímavým faktem je, že společnost Microsoft pracuje na "důvěrných metrikách", aby svou AI zakotvila ve faktech a stala se spolehlivější.
Microsoft Kosmos-1
Něco, co se zjevně nedostalo dostatečné pozornosti ve Spojených státech, je, že Microsoft vydal na začátku března 2023 multimodální jazykový model nazvaný Kosmos-1.
Podle zprávy německého zpravodajského webu Heise.de:
„...tým podrobil předškolený model různým testům, s dobrými výsledky při klasifikaci obrazů, odpovídání na otázky o obsahu obrazu, automatickém štítkování obrazů, optickém rozpoznávání textu a úlohách generování řeči.
…Vizuální úsudek, tedy dospět k závěrům o obrázcích bez použití jazyka jako prostředníka, se zde zdá být klíčový…
Kosmos-1 je multimodální modál, který integruje modalit textu a obrázků.
GPT-4 jde dál než Kosmos-1, protože přidává třetí modalitu, video, a zdá se také zahrnuje modalitu zvuku.
Funguje v různých jazycích
GPT-4 se zdá pracovat ve všech jazycích. Je popsán jako schopný přijmout otázku v němčině a odpovědět v italštině.
Je to trochu podivný příklad, protože kdo by položil otázku v němčině a chtěl dostat odpověď v italštině?
Toto je potvrzeno:
„...technologie se posunula tak daleko, že základně „funguje ve všech jazycích“: Můžete položit otázku v němčině a dostat odpověď v italštině.“
S multimodalitou, Microsoft(-OpenAI) „udělá modely komplexní“.“
Věřím, že podstatou průlomu je, že tento model překračuje jazyk svou schopností získávat informace z různých jazyků. Takže pokud je odpověď v italštině, model to bude vědět a bude schopen poskytnout odpověď v tom jazyce, ve kterém byla otázka položena.
To by to udělalo podobným cílem jako multimodální umělá inteligence Google nazvaná MUM. MUM by měla být schopná poskytnout odpovědi v angličtině, pro které existují pouze údaje v jiném jazyce, například v japonštině.
Aplikace GPT-4
Neexistuje žádné aktuální oznámení o tom, kde se objeví GPT-4. Nicméně byla specificky zmíněna Azure-OpenAI.
Google se snaží dohnat Microsoft tím, že do svého vlastního vyhledávače integruje konkurující technologii. Tento vývoj ještě více zhoršuje vnímání, že Google zaostává a má nedostatek vůdcovství v oblasti umělé inteligence pro spotřebitele.
Google již integruje AI do více produktů, jako je Google Lens, Google Maps a další oblasti, se kterými spotřebitelé interagují s Google. Tento přístup je využívání AI jako asistenční technologie, která pomáhá lidem s malými úkoly.
Způsob, jakým Microsoft to provádí, je více viditelný a v důsledku toho získává veškerou pozornost a posiluje obraz Google jako neúspěšný a bojující se dostat na stejnou úroveň.
Přečtěte si oficiální oznámení o vydání OpenAI GPT-4 zde.
Přečtěte si původní německou zprávu zde:
Příští týden přichází GPT-4 – a bude multimodální, říká Microsoft Německo