aneb
Závody ve strojovém učení
Poslední dobou se toho děje hodně okolo velkých neuronových sítí. A co víc, děje se to rychle.
OpenAI předvádí DALL-E 2, dokonalejší verzi systému DALL-E. Podobně jako předchozí verze, je DALL-E 2 schopen vytvářet obrazy pouze na základě stručného popisu, upravovat předložené obrazy změnou jejich stylu, případně do nich doplňovat objekty na základě textových pokynů tak, že nově přidané perfektně zapadá do okolí. Rozdíl oproti DALL-E je především v kvalitě: Laik žasne, protože většinou není schopen rozpoznat generovaný obrázek od díla vytvořeného přirozeným způsobem, odborník se diví nebo aspoň uznale pokyvuje hlavou.
Protože je generátor DALL-E proprietární, Boris Dayma implementuje podle zveřejněných článků Dalle Mini (nyní Craiyon) a tak dnes může vytvářet obrázky a memy kdokoliv.
Ráznou odpovědí Google na populární DALL-E je Parti: Toto řešení je oproti DALL-E 2 architektonicky jednodušší, spoléhá spíše na hrubou sílu (více dat, lepší data), což se z pohledu impresivních výsledků vyplácí.
Nejde jen o obrazové generátory. Google oznamuje PaLM (Pathways Language Model), velký jazykový model (LLM) s 540 miliardami parametrů, jenž je schopen odpovídat na otázky, řešit slovní úlohy včetně popisu jejich řešení, převádět kód mezi různými programovacími jazyky a vysvětlovat vtipy. Model dosahuje rekordní výsledky (SoTA) v šesti různých oblastech.
A do třetice Google: Výzkumník v oblasti etiky a kněz Blake Lemoine přitahuje pozornost k LaMDA, dalšímu LLM (nebo spíše dialogovému systému) z dílny Google. Lemoine je po "rozhovorech" s tímto systémem přesvědčen o tom, že LaMDA má vědomí. Následně je Lemoine postaven mimo službu, prý pro únik intelektuálního vlastnictví.
Ve stínu velkých oznámení nebo kauz, u nichž není nouze o atraktivní titulky novinářských článků, nesmí zůstat další zásadní počiny:
Facebook vydává model OPT-175B, numericky efektivnější podobu dobře známého GPT-3. Autoři OPT tvrdí, že výkonnost modelu je s GPT-3 od OpenAPI srovnatelná. Na rozdíl od OpenAI, jenž svou produkci omezuje z důvodu možného rizika zneužití, Facebook volně zpřístupňuje i samotný model, data a postupy pro vývojáře.
AI21 představuje Jurassic-X, integraci jazykového modelu s externími systémy, tj. databázemi nebo API tak, že namísto dotazovacího jazyka nebo klientského kódu potřebuje uživatel jen přirozený jazyk. To možnosti velkých modelů dále znásobuje. Pokud si představíme, že LLM je robot, jenž si s námi umí povídat, je to, jako kdybychom ho posadili k internetovému prohlížeči a on si mohl během konverzace vyhledávat fakta.
Baloon fiesta at a bright day |
Automatický umělec, revisited
Nepřekvapí proto, že se opět rozpoutává debata o umělé inteligenci jako takové. O hrozbách pro lidstvo. Jsme opravdu blízko bodu, kdy stroj nahradí člověka? Stroj už umí malovat obrázky, často lépe než mnoho lidí, stroj umí psát texty a komunikovat, často lépe než někteří lidé. Umí překládat z cizího jazyka, často lépe než mnoho lidí. Umí řídit auto, často lépe než někteří lidé. Umí hrát šachy, Go, počítačové hry, často lépe než většina lidí. Umí diagnostikovat některé nemoci, obejít CAPTCHA, atd., atd.
Jistě, můžeme se dlouze přít o to, co to znamená lépe a co většina, někteří nebo mnoho, kolik existuje lidí-specialistů, kteří jsou ve svém oboru stále lepší než stroj. Ujasňovat si definice pojmů inteligence, vědomí, život. To jsou ale, vzhledem k současnému vývoji, jen spory o maličkosti.
Počítač nikdy nebude umět <X> lépe než člověk, kde za X dosaďte libovolnou lidskou činnost. Není pochyb o tom, že těch dosaditelných X stále ubývá.
Před dvanácti lety jsem se zamýšlel nad stejným problémem a nad tím, zda lidská kreativita představuje nedobytnou tvrz humanity. Překvapilo mě, že na svém tehdejším textu nemusím mnoho měnit. Jen na závěr jsem napsal, že se zastánci lidské nenahraditelnosti se shodnu v tom, že nahradit člověka v umění je obtížné. Nyní už o této větě nejsem přesvědčený: Možná je blízko doba, kdy budou scénáře k telenovelám psát velké jazykové modely. Kdy budou na skutečných aukcích, nejen na těch virtuálních, dražit své obrazy vedle živých umělců ti strojoví. Kdy nás bude zajímat, zda se do “velikosti umělce” promítá to, jestli je či byl živý. Kritici umění nebudou chtít riskovat reputaci a budou urputně hledat hranici mezi tím, co je “pravé umění” (logicky to od člověka) a co už jím není (produkty stroje, samozřejmě). Následně vznikne hnutí proti diskriminaci umělých umělců. Nepřátelé tohoto hnutí budou tvrdit, že je to právě lidský umělec, kdo se v potu tváře dopouští onoho sebetransformativního procesu, aby prostřednictvím svého uměleckého díla sdělil světu svou myšlenku, a že právě on, pravý lidský umělec, nebude mít kvůli takovým nerdům, jako jsou ti z OpenAI, co žrát.
Do toho se zapojí i právníci: Je obrázek získaný pomocí DALL-E2 mechanicky vytvořeným dílem? Pokud ano, nevztahuje se na něj copyright, nedá se jednoduše komerčně chránit. Pokud ne, kdo je pak autorem? Ten, kdo předložil jazykové části systému textový popis, na základě něhož obraz vznikl (prompt engineering)? Nebo jsou autory díla ti, kdo vytvořili obrazy, na nichž byla natrénovaná obrazová část systému? (To asi sotva, trénovací množina může obsahovat i miliardy položek, produkt generátoru lze tak přinejlepším považovat za odvozené dílo.) Nebo jsou jimi snad architekti systému, autoři kódu, ti, kdo připravují data pro trénování? Těžko.
Oil painting of the alchemist working in his laboratory equipped with books, instruments, vials and glasses, lit by candles and the Moon |
Obecná umělá inteligence
Investice korporací do strojového učení -- tedy do umělé inteligence -- jsou velké v očekávání obrovských zisků a tento trend se sotva nějak změní. V sázce je hodně a vypadá to, že vstupujeme do zajímavých časů. Na první pohled je důležitou otázkou otázka vědomí: Je podmínkou vzniku umělé inteligence to, aby uměle inteligentní aktér získal vědomí? Stuart Russel o tom píše: Nikdo v AI nepracuje na tom, aby udělal stroje s vědomím, a nikdo ani netuší, odkud začít, navíc žádné chování nepotřebuje vědomí jako východisko. … Všechny ty hollywoodské zápletky o strojích, které nějak záhadně získaly vědomí a začaly nenávidět lidi, ve skutečnosti míří vedle: o co jde, jsou schopnosti, nikoli vědomí.
O jaké schopnosti tedy jde v případě obecné umělé intelligence (AGI), když ne o vědomí, a proč je zatím obtížné AGI vytvořit? A proč obecná?
Ať už DALL-E namaluje mistrovské dílo, ať už LaMDA v debatě přesvědčí dalšího kněze o tom, že má vědomí, jedno je jisté – LaMDA nenamaluje obraz, DALL-E nepřesvědčí kněze. Aby Google nebo OpenAI vytvořil opravdu univerzální inteligenci, nestačí jen natrénovat velké modely na obrovských datech a pak je pospojovat do celku, podobně, jako je to v případě Jurassic-X. Lidská inteligence má jedinečnou schopnost se přizpůsobovat novým úkolům, učit se rychle nové skutečnosti, odpovídat na nové otázky. Není třeba ji nějak přepínat do režimu učení, v němž bychom ji konfrontovali s otázkami a podle chybných odpovědí nějak měnili zapojení neuronů v hlavě. Přesně tohle se ale při vytváření současných modelů dělá. Ačkoliv hluboké učení postoupilo na zcela novou úroveň (a v tomto textu pro jednoduchost nerozvádím techniky jako jsou GAN, reinforcement deep learning, one-shot, zero-shot learning), jedno omezení tu stále je: Zatím není možné vytvořit jediný systém, jenž by si uměl poradit s libovolnou předloženou úlohou a – zejména – dovedl vykonat novou úlohu bez předchozího trénování na datech, která se nové úlohy týkají.
Jak dlouho toto omezení bude platit, není jasné. Francois Chollet, jenž se dlouhodobě věnuje tomuto problému, před několika lety napsal: Nikdy se nenechte chytit do pasti a nevěřte, že (umělá) neuronová síť rozumí úkolu, který vykonává. Nerozumí, alespoň ne způsobem, který nám dává smysl. V tomto ohledu tedy není to, co předvádí LaMDA nebo PaLM, myšlením, tak jako to, co používají DALL-E nebo Parti při generování obrázku, není kreativitou. Pokud tedy navzdory viditelnému pokroku v konkrétních úkolech není takto možné obecnou umělou inteligenci vytvořit, jak tedy dál? Chollet vybízí k tomu, abychom oddělili řešení konkrétní úlohy od obecného AGI systému: Místo toho, aby AGI produkoval přímo výsledky řešení úlohy, měl by dodat (případně vysvětlit) postup jejího řešení. To umožní adaptaci na nové úlohy a odstraní nutnost speciálního režimu učení.
Myšlení – tanec symbolů
Nicméně je zde třeba zmínit jeden zajímavý detail. Zásadních pokroků posledních několika let bylo dosaženo pomocí změny architektury neuronových sítí. K existujícím technikám konvolučního nebo rekurentního zapojení vrstev neuronů přibyly tzv. transformery, systémy převádějící vstupní posloupnost tokenů (symbolů, slov) na jinou, výstupní sekvenci tokenů. (Mimochodem, k tomu, aby neuronová síť mohla se symboly vůbec pracovat, kdysi významně přispěl český vědec Tomáš Mikolov.) Transformery pracují s tzv. pozorností, což dovoluje překonat technické problémy rekurentních sítí a trénovat opravdu velké modely. První takovou úspěšnou sítí byl BERT a pak už následovala řada dalších, jako např. dobře známý GPT-3.
Transformery jsou tedy vynikajícími nástroji pro zpracování jazyka. Ať už jde o strojový překlad mezi přirozenými jazyky nebo o velké jazykové modely použitelné v dialogových systémech nebo pro nejrůznější další úlohy související s jazykem, transformer je logickou volbou. Nepřekvapí nás tedy, že současná vlna obrázkových generátorů využívá schopnosti sítí typu VQGAN popsat obrazovou informaci právě pomocí tokenů. Velmi zjednodušeně řečeno, obrázkový generátor, jako je DALL-E nebo Parti, je vlastně strojovým překladačem přirozené řeči do jakéhosi jazyka obrazů. Samozřejmě, že ve hře jsou i další prvky, jako např. CLIP nebo následný image upsampling, aby to celé fungovalo tak dobře, jak pozorujeme.
Podobně jako přirozený jazyk používá slova, imaginární jazyk obrazů používá kódovou knihu obrazových záplat. Jistě mohou existovat i jazyky pro další modality – jazyk hudby, jazyk pohybu, atd. Jakmile symboly těchto zobecněných jazyků převedeme do vektorové reprezentace tak, aby s nimi mohl pracovat transformer, máme zárodek jakéhosi “umělého myšlení”, neboť mezi umělým jazykem a umělým myšlením bude existovat podobný vztah jako existuje vztah mezi řečí a myšlením člověka.
V tuto chvíli mi samozřejmě můžete vytknout, že celý problém nemístně zjednodušuji, dopouštím se nepřípustných analogií a že cesta od operací nad symboly jazyka ke skutečnému myšlení, tak jak ho provozuje člověk, je ještě dlouhá. Tuto námitku pochopitelně přijímám. Stále musíme vnímat zásadní rozdíl mezi mechanickým a přirozeným, rozdíl mezi živým a umělým. Více a více ale půjde o souboj definic různých pojmů, zatímco umělá inteligence se bude k té přirozené dále přibližovat. Nikoliv vnitřním způsobem fungování, ale svými vnějšími projevy. Nakonec, právě vnější projevy, tedy výsledky, jsou to, čím inteligenci hodnotíme. Lidské myšlení je jen obtížně uchopitelné a není jednoduše a objektivně možné hodnotit vnitřní aspekty lidského života, jako jsou např. kvalita prožívání nebo míra vědomí.
A tak nebude důležité, jaký bude význam jednotlivých tokenů, s nimiž bude nějaký příští supertransformer pracovat, až bude přesvědčovat posledního lidského skeptika o tom, že má vědomí. Nebo spíše: Že sice nemá vědomí podobné lidskému, ale že to je – na sklonku věku lidí – opravdu nepodstatné.
Dark wasteland with abandoned industrial buildings, the shiny robot walking |
Pozn. Obrázky byly, s ohledem na atmosféru, vytvořeny pomocí postaršího VQGAN-CLIP generátoru.