Mikolov & Boháček: O umělé inteligenci a stáži v Berkeley

Jeden je světově uznávaným odborníkem na umělou inteligenci a strojové učení, druhý se tématům intenzivně věnuje v kontextu digitální forenziky. První pracoval pro největší technologické firmy a teď vede svoji skupinu na ČVUT, druhý se připravuje k maturitě na Gymnáziu Jana Keplera. Přestože Tomáše Mikolova a Matyáše Boháčka dělí jedna generace, zájem o budoucí využití technologií mají společný. Proto když se Matyáš Boháček obrátil na NF Neuron s žádostí o pomoc s letní stáží na Artificial Intelligence Research na Kalifornské univerzitě v Berkeley, propojili jsme ho s Tomášem Mikolovem. Teď jsme je společně posadili k jednomu stolu, aby porovnali svoje zkušenosti.

Tomáš Mikolov: Než se pustíme do technologických věcí, co kdybychom začali zvolna? V Berkeley jsi byl o prázdninách na měsíc…

Matyáš Boháček: Odjížděl jsem v červenci původně na měsíc, ale nakonec se to protáhlo na měsíc a půl. 

Tomáš Mikolov: Kalifornie mi přijde velmi zajímavá, sám jsem tam žil. Jak působila na tebe? Co bys řekl českým studentům, kteří přemýšlí, že by se taky vydali do zahraničí? Řekni něco o prostředí, způsobu života, jídlu.

Matyáš Boháček: Kalifornie mě fascinovala, jsem nadšený z její energie a lidí, kteří mají skvělý drive. Jejich způsob života, volný čas i jídlo je hodně jiné než u nás. Nastavení dne je kvůli tomu rozdílné. Kamarádil jsem se s kolegy z laboratoře, PhD studenty, kteří chodili lézt na stěnu. Ale to bylo čtyřicet minut autem, takže každé trávení volného času byla událost, která se musela připravit. A taky jsem z České republiky zvyklý na městskou dopravu a možnost dostat se všude sám, ještě nemám řidičák. Jenže v Americe mi cesta, která by trvala pět minut autem, zabrala buď čtyřicet minut pěšky nebo když to jinak nešlo, musel jsem vzít uber. A jídlo? Tam se vlastně pořád všechno točí kolem jídla, je to pravidelná společenská událost. 

Tomáš Mikolov: Jaké jídlo ti přišlo nejzajímavější nebo nejdivnější? 

Matyáš Boháček: Chutnala mi barmská kuchyně, která je proti indické intenzivnější, dobrá byla restaurace v Čínském městě. První týdny jsem si užíval burgery, ale to pak už nešlo a vůbec se mi u jídla změnil režim. Porce mají tak velké, že jsem přešel na dva chody denně, většinou sendviče, hranolky a salát, které vychází nejlépe v porovnání cena výkon. Na kolej jsem si kupoval jídlo ze supermarketu, hodně banánů a slazený chleba. Proto první věc, kam jsem v Praze z letiště jel, bylo pekařství, koupil jsem si český chleba a doma si ho namazal máslem. 

Tomáš Mikolov: Řekni mi, s čím jsi na Berkeley odjížděl a co bylo tvým hlavním úkolem? 

Matyáš Boháček: Věnoval jsem se detekci deep fakes, videí, která vytvořila umělá inteligence. Naším úkolem byla konkrétně automatická detekce videí světových politiků, která mají velký potenciál klamat uživatele sociálních sítí coby dezinformace. V kontextu nedávných událostí jsme si vzali jako demonstrační a testovací osobu prezidenta Zelenského. Pomocí metod strojového učení jsme určovali, kdy jde o zmanipulovaná nebo umělá videa. Dalším projektem byla analýza generativních modelů jako Dall-E nebo Stable Diffusion a to, jaké odlišující faktory mají při tvorbě lidských tváří. 

Tomáš Mikolov: To jsou populární nástroje, které může využít každý z nás. Zjistil jsi na Berkeley, jak fungují technicky, kde jsou jejich slabiny? 

Matyáš Boháček: Mají velký problém s generací smysluplného textu. Pokud jim zadáme vytvoření obrázku s jakýmkoli obsaženým textem, písmena pravděpodobně budou jen směsicí čárek. Když budu chtít například obrázek zimního lesa s nápisem Veselé Vánoce, dostanu změť, která zdálky může vypadat jako text, ale zblízka to nebudou písmena.

Tomáš Mikolov: Záleží na konkrétním případu. Když chci vygenerovat obrázek z kavárny, může tam být nápis Café správně, protože program ho v trénovací sadě viděl už milionkrát. Ale když budu chtít obrázek z kavárny, na kterém si host čte noviny, uvidím papír s nějakou hatmatilkou. Program viděl příliš různých novin a neumí si s tím poradit, možná tam budou písmenka, ale nebudou mít smysl. A navíc ten člověk na obrázku bude mít šest prstů, s tím má strojové učení pořád problém. 

Matyáš Boháček: Přesně tak, problém je i s prostorem a jeho osvětlením. Když zadáte příkaz, aby program vygeneroval sto kuliček na trávníku za ostrého slunce, stíny budou nerealistické. Když chci vygenerovat kuličku, která stojí na krychli a ta stojí na autě, pojetí prostoru je tak komplexní, že ho modely ještě nezvládají. 

Tomáš Mikolov: To je otázka času. Tyto technologie zpřístupňují grafickou kreativitu běžným lidem a budou vznikat nástroje, které mi vygenerovaný obrázek umožní dál upravovat, měnit jeho náladu nebo rozložení prvků. To se stane nejen s obrázky, ale také s textem nebo videem. Je skvělé, že tyto nástroje nejsou jen pro uzavřenou skupinu, ale může si je osahat každý. Vlastně mě v této souvislosti napadá další otázka: jak je to s aplikací výzkumu v Berkeley? Mají tam profesoři a studenti svoje start-upy? 

Matyáš Boháček: Pro Američany je byznys přirozený. Výzkum, který jsem dělal, se řídil potencionální poptávkou, každý sleduje, jak výsledek může pomoc trhu. Spousta profesorů má svoje spin-offy, jejich laboratoře jsou dotované firmami, které pomáhají přenášet výzkum do svých produktů. Výsledky pořád zůstávají publikované dalším vědcům a pomáhají jim, ale důraz na aplikaci je vyšší než u nás. 

Tomáš Mikolov: V Berkeley a celém Silicon Valley je řádově víc peněz než v Evropě. Jsi obklopený experty, máš příležitost škálovat a projekt rozjet do světové velikosti. Jejich ekosystém vychází z dlouhé tradice spolupráce byznysu a vysokých škol, kde důležité technologické firmy vznikly. Na oplátku třeba Google zase Stanfordu posílá každý rok obrovské peníze. Je to celé propojené. U nás je mentalita víc akademická. Hodně mluvíme o základním výzkumu, ale osekali jsme ho na minimum a jeho aplikaci děláme jen tak na oko. Takže nic pořádně. Z toho něco velkého nemůže vyrůst. 

Matyáš Boháček: Hned druhý den v Berkeley jsme se sešli v konferenční místnosti, bylo nás tam dohromady pět profesorů a dvanáct studentů a taky šéf výzkumu Adobe Research. Přišel nám prezentovat svůj výzkum a hledal s námi slabá místa, chtěl náš feedback, všichni jsme otevřeně brainstormovali. 

Tomáš Mikolov: Ano, to je na Americe proti Česku taky rozdílné, mají jiný mindset. U nás jsou profesoři odtažití, lpí na hierarchii, učitel často u studentů hledá, co neumí, rýpe do jejich práce. Pak se nesmíme divit, že student chce jen získat titul a z toho prostředí utéct. V Americe se ke studentům chovají jako k mladším parťákům, se kterými vymýšlejí věci dohromady a společně zakládají start-upy. 

Matyáš Boháček: Američtí profesoři mají chuť pomáhat, seděli s námi v jednom open space, o všem s námi mluvili, zvali nás na kafe. Stejně tak studenti, navzájem se propojují, dohromady řeší svoje témata, píšou společné práce, dohromady pracují na projektech. Toho jsem taky využil, za měsíc a půl v Berkeley jsem napsal článek do PNAS, časopisu americké akademie s názvem Protecting world leaders against deep fakes using facial, gestural, and vocal mannerisms, který vyšel v listopadu. Amerika změnila také moje přemýšlení o psaní. Z Česka jsem byl zvyklý psát šablonovitě, opsat výsledky a doplnit je tabulkou, v Berkeley jsme si nejdřív řekli, co je příběh článku, jak a komu chceme naše zjištění předat, hodně jsme ho přepisovali. 

Tomáš Mikolov: Mám stejnou zkušenost. Když jsem v Česku dělal doktorát, 98 % času jsem strávil nad technickými věcmi a experimenty, pár dnů před napsáním článku jsem to shrnul a narychlo sepsal. Obsahově jsem měl výzkum řádově lepší než někteří studenti z amerických univerzit, kteří technické stránce věnovali třeba jen 20 %, ale napsali hezký příběh v bezvadné prezentaci. Dlouho mi trvalo než jsem pochopil, že když se mezi nimi chci prosadit, musím se řídit tím, že šaty dělají člověka. 

Matyáš Boháček: Kdysi jsem napsal článek ke znakovému jazyku a jeho překladu, zmenšil jsem potřebu vstupních dat z dvaceti na čtyři, ale odmítli mi ho. V Berkeley jsem se k tématu vrátil a s pomocí kolegů ho přepsal, přidal obrázky, vizualizace, demo a hned mi ho přijali na velmi kvalitní konferenci. Přitom jsem na výsledcích ani architektuře článku nic neměnil. 

Tomáš Mikolov: Důležité je udělat vědu přístupnou co nejvíce lidem. Myslet při psaní na to, kde jde výzkum použít a komu může pomoci. Samozřejmě se to nesmí přehánět a slibovat, co nejde. Ale reprodukovatelnost výsledků, jejich prezentace a přístupnost je podstatná věc, na které v české vědě musíme zapracovat. 

Pokračování rozhovoru Tomáše Mikolova a Matyáše Boháčka o budoucnosti umělé inteligence přineseme během prosince 2022. 

Sledujte naše neuronové sociální sítě