Jak funguje vodoznak ChatGPT a proč by mohl být poražen

ChatGPT od OpenAI zavedl způsob, jak automaticky vytvářet obsah, ale plány na zavedení funkce vodoznaku, která usnadní detekci, některé lidi znervózňují. Takto funguje vodoznak ChatGPT a proč může existovat způsob, jak jej porazit.

ChatGPT je neuvěřitelný nástroj, který online vydavatelé, affiliate partneři a SEO zároveň milují a zároveň se ho bojí.

Někteří marketéři to milují, protože objevují nové způsoby, jak je používat k vytváření stručných obsahů, osnov a složitých článků.

Online vydavatelé se obávají vyhlídky, že obsah AI zaplaví výsledky vyhledávání a nahradí odborné články napsané lidmi.

V důsledku toho jsou zprávy o funkci vodoznaku, která odemyká detekci obsahu autorského ChatGPT, rovněž očekávány s úzkostí a nadějí.

Kryptografický vodoznak

Vodoznak je poloprůhledná značka (logo nebo text), která je vložena do obrázku. Vodoznak signalizuje, kdo je původním autorem díla.

Je to z velké části vidět na fotografiích a stále častěji na videích.

Text vodoznaku v ChatGPT zahrnuje kryptografii ve formě vložení vzoru slov, písmen a interpunkce ve formě tajného kódu.

Scott Aaronson a vodoznak ChatGPT

Vlivný počítačový vědec jménem Scott Aaronson byl najat OpenAI v červnu 2022, aby pracoval na AI Safety and Alignment.

Bezpečnost umělé inteligence je výzkumná oblast zabývající se studiem způsobů, jak může umělá inteligence ublížit lidem, a vytvářením způsobů, jak tomuto druhu negativního narušení zabránit.

Vědecký časopis Distill s autory přidruženými k OpenAI definuje bezpečnost AI takto:

„Cílem dlouhodobé bezpečnosti umělé inteligence (AI) je zajistit, aby pokročilé systémy umělé inteligence byly spolehlivě v souladu s lidskými hodnotami – aby spolehlivě dělaly věci, které po nich lidé chtějí.“

AI Alignment je oblast umělé inteligence, která se zabývá zajištěním toho, že AI je v souladu se zamýšlenými cíli.

Velký jazykový model (LLM), jako je ChatGPT, lze použít způsobem, který může být v rozporu s cíli AI Alignment, jak je definováno OpenAI, což je vytvořit AI prospěšnou lidstvu.

Důvodem vodoznaku je tedy zabránit zneužití AI způsobem, který poškozuje lidstvo.

Aaronson vysvětlil důvod vodoznaku výstupu ChatGPT:

"To by samozřejmě mohlo být užitečné pro prevenci akademického plagiátorství, ale také například masového vytváření propagandy..."

Jak funguje ChatGPT Watermarking?

Vodoznak ChatGPT je systém, který vkládá statistický vzor, kód, do výběru slov a dokonce i interpunkčních znamének.

Obsah vytvořený umělou inteligencí je generován s poměrně předvídatelným vzorem výběru slov.

Slova napsaná lidmi a AI se řídí statistickým vzorem.

Změna vzoru slov použitých ve generovaném obsahu je způsob, jak „vodoznak“ textu usnadnit systému zjistit, zda se jedná o produkt generátoru textu AI.

Trik, díky kterému je vodoznak obsahu AI nezjistitelný, spočívá v tom, že rozložení slov má stále náhodný vzhled podobný běžnému textu generovanému AI.

Toto je označováno jako pseudonáhodné rozdělení slov.

Pseudonáhodnost je statisticky náhodná řada slov nebo čísel, která ve skutečnosti náhodná nejsou.

Vodoznak ChatGPT se v současné době nepoužívá. Nicméně Scott Aaronson na OpenAI je v záznamech a uvádí, že je to v plánu.

Právě teď je ChatGPT v náhledech, což umožňuje OpenAI odhalit „nesoulad“ prostřednictvím použití v reálném světě.

Vodoznak může být pravděpodobně zaveden ve finální verzi ChatGPT nebo dříve.

Scott Aaronson napsal o tom, jak funguje vodoznak:

„Mým hlavním projektem byl doposud nástroj pro statistické vodoznakování výstupů textového modelu, jako je GPT.
V podstatě vždy, když GPT generuje nějaký dlouhý text, chceme, aby v jeho volbě slov existoval jinak nepostřehnutelný tajný signál, který můžete později použít k prokázání, že ano, pochází z GPT.“

Aaronson dále vysvětlil, jak funguje vodoznak ChatGPT. Nejprve je však důležité porozumět konceptu tokenizace.

Tokenizace je krok, ke kterému dochází při zpracování přirozeného jazyka, kdy stroj vezme slova v dokumentu a rozloží je na sémantické jednotky, jako jsou slova a věty.

Tokenizace mění text do strukturované podoby, kterou lze použít ve strojovém učení.

Proces generování textu spočívá v tom, že stroj hádá, který token přijde na řadu na základě předchozího tokenu.

To se provádí pomocí matematické funkce, která určuje pravděpodobnost toho, jaký bude další token, čemu se říká rozdělení pravděpodobnosti.

Jaké slovo bude následovat, je předpovězeno, ale je to náhodné.

Samotný vodoznak je to, co Aaron popisuje jako pseudonáhodné, v tom, že existuje matematický důvod pro určité slovo nebo interpunkční znaménko, ale stále je statisticky náhodné.

Zde je technické vysvětlení vodoznaku GPT:

„Pro GPT je každý vstup a výstup řetězec tokenů, což mohou být slova, ale také interpunkční znaménka, části slov nebo více – celkem je to asi 100 000 tokenů.
Ve svém jádru GPT neustále generuje rozdělení pravděpodobnosti pro další token, který se má vygenerovat, podmíněné řetězcem předchozích tokenů.
Poté, co neuronová síť vygeneruje distribuci, server OpenAI skutečně vzorkuje token podle této distribuce – nebo nějakou upravenou verzi distribuce, v závislosti na parametru zvaném „teplota“.
Dokud je teplota nenulová, obvykle bude při výběru dalšího tokenu docházet k určité náhodnosti: mohli byste běžet znovu a znovu se stejnou výzvou a pokaždé získat jiné dokončení (tj. řetězec výstupních tokenů). .
Takže k vodoznaku, namísto náhodného výběru dalšího tokenu, bude myšlenkou vybrat jej pseudonáhodně pomocí kryptografické pseudonáhodné funkce, jejíž klíč zná pouze OpenAI.

Vodoznak vypadá pro ty, kdo čtou text, zcela přirozeně, protože výběr slov napodobuje náhodnost všech ostatních slov.

Toto je technické vysvětlení:

„Pro ilustraci, ve speciálním případě, že GPT měla spoustu možných tokenů, které považovala za stejně pravděpodobné, můžete jednoduše vybrat kterýkoli token maximalizovaný g. Výběr by vypadal jednotně náhodně pro někoho, kdo neznal klíč, ale někdo, kdo klíč znal, mohl později sečíst g ze všech n-gramů a zjistit, že je anomálně velký.

Vodoznak je řešením na prvním místě

Viděl jsem diskuse na sociálních sítích, kde někteří lidé navrhovali, že by OpenAI mohla uchovávat záznamy o každém výstupu, který generuje, a používat jej k detekci.

Scott Aaronson potvrzuje, že OpenAI by to mohla udělat, ale že to představuje problém s ochranou soukromí. Možná výjimka je situace v oblasti vymáhání práva, kterou blíže neupřesnil.

Jak zjistit vodoznak ChatGPT nebo GPT

Něco zajímavého, co se zdá být zatím málo známé, je, že Scott Aaronson poznamenal, že existuje způsob, jak porazit vodoznak.

Neřekl, že je možné porazit vodoznak, řekl, že jej lze porazit.

"Nyní to všechno lze porazit s dostatečným úsilím."
Pokud jste například použili jinou AI k parafrázi výstupu GPT – dobře, nebudeme to schopni zjistit.“

Zdá se, že vodoznak lze porazit, alespoň od listopadu, kdy byla učiněna výše uvedená prohlášení.

Nic nenasvědčuje tomu, že se vodoznak právě používá. Ale když se začne používat, nemusí být známo, zda byla tato mezera uzavřena.

Citace

Přečtěte si blogový příspěvek Scotta Aaronsona zde.