Nový Open Source klon ChatGPT - Nazývá se Dolly

dolly-chatgpt-clone.jpg

Open Source GPT Chat podnikl další krok vpřed se zveřejněním modelu velkého jazyka Dolly (DLL) vytvořeného firmou Databricks.

Nový klon ChatGPT se jmenuje Dolly, pojmenovaný po slavné ovci tohoto jména, prvním savci, který byl klonován.

Otevřené zdrojové modely rozsáhlých jazyků

Dolly LLM je nejnovějším projevem rostoucího hnutí otevřeného zdrojového umělé inteligence, které se snaží poskytnout větší přístup k této technologii, aby nebyla monopolizována a ovládána velkými korporacemi.

Jeden z důvodů, které podporují open source pohyb v oblasti umělé inteligence, je obava firem, že budou neochotné předávat citlivá data třetí straně, která kontroluje technologii umělé inteligence.

Založeno na open source

Dolly vznikl z otevřeného zdroje modelu vytvořeného neziskovým výzkumným institutem EleutherAI a modelu Alpaka ze Stanford University, který sám byl vytvořen z otevřeného zdroje modelu LLaMA s 65 miliardami parametrů vytvořeného společností Meta.

LLaMA, co znamená Large Language Model Meta AI, je jazykový model, který je trénován na veřejně dostupných datech.

Podle článku od Weights & Biases může LLaMA předčít mnoho z nejlepších jazykových modelů (OpenAI GPT-3, Gopher od Deep Mind a Chinchilla od DeepMind) přestože je menší.

Vytváření lepšího datasetu

Dalším zdrojem inspirace byl odborný výzkumný článek (SELF-INSTRUCT: Vyrovnávací jazykový model s pomocí samo-generovaných instrukcí PDF), který představoval způsob vytváření vysoce kvalitních automaticky generovaných dat pro trénování otázek a odpovědí, jež jsou lepší než veřejné omezené údaje.

Výzkumná práce Self-Instruct vysvětluje:

"...kurujeme soubor instrukcí napsaných odborníky pro nové úkoly a ukazujeme skrze lidské hodnocení, že doladění GPT3 pomocí SELF-INSTRUCT výrazně překonává využití stávajících veřejných souborů instrukcí, pouze se rozdílem 5% za InstructGPT…

…Použitím naší metody na běžný GPT3, prokazujeme 33% absolutní zlepšení oproti původnímu modelu na SUPERNATURALINSTRUCTIONS, srovnatelným s výkonem InstructGPT… který je trénován s privátními uživatelskými daty a lidskými anotacemi."

Důležitost Dolly spočívá v tom, že ukazuje, že užitečný velký jazykový model může být vytvořen s menším, ale vysoce kvalitním datasetem.

Databricks pozoruje:

„Dolly pracuje tím, že vezme existující open source model EleutherAI s 6 miliardami parametrů a lehce ho upravuje, aby vyvolával schopnosti následování instrukcí, jako je brainstorming a generování textu, které nejsou přítomny v původním modelu, s využitím dat od Alpaca.

...Ukážeme, že kdokoli může vzít datovaný jednoduchý open source velký jazykový model (LLM) a dát mu magickou schopnost následovat instrukce podobné ChatGPT po 30 minutách tréninku na jednom počítači s vysokokvalitními tréninkovými daty.

Překvapivě se zdá, že následování instrukcí nevyžaduje nejnovější nebo největší modely: náš model má pouze 6 miliard parametrů, ve srovnání s 175 miliardami u GPT-3.

Databricks Open Source AI

Dolly se říká, že demokratizuje umělou inteligenci. Patří do rostoucího hnutí, do kterého nedávno vstoupila nezisková organizace Mozilla s vznikem Mozilla.ai. Mozilla je vydavatelem prohlížeče Firefox a dalšího open source software.

Příbuzné články

Zobrazit víc >>

Odemkněte sílu AI s HIX.AI!