Jak se zlepšit ve videohrách (podle miminek)TED-Ed
35
Před nějakou dobou výzkumníci vytvořili umělou inteligenci, která si hravě poradila s většinou her od Atari. Jednu ale vyhrát nedokázala. Pak ale došlo k nečekanému zvratu. Zapojila se do toho totiž mimina!
Přepis titulků
„Je to velmi komplikovaný systém, nikdy ho možná nepochopíme úplně.“ HRA, KTEROU UMĚLÁ INTELIGENCE NEDOKÁZALA PORAZIT V roce 2013 skupina badatelů v DeepMind v Londýně si předsevzala těžký úkol. Chtěli vytvořit umělou inteligenci, která by porazila ne jednu hru od Atari, ale všechny hry od Atari. Vytvořili systém, který pojmenovali Deep Q Networks neboli DQN, a za méně než dva roky měl nadlidské schopnosti.
DQN skóroval 13krát lépe než profesionální lidští testeři ve hře Breakout, 17krát lépe v Boxingu a 25krát lépe ve Video Pinball. Ale existovala pozoruhodná a nápadná výjimka. Ve hře Montezuma's Revenge DQN nedokázal skórovat jediný bod, ani když ji hrál už několik týdnů. Proč byla tahle hra pro AI tak hrozně složitá? A co k řešení tohoto problému scházelo?
Pozor, spoiler: mimina. K tomu se za chvilku vrátíme. Když má AI hrát hry od Atari, potřebuje tzv. zpětnovazební učení. Systém je nastaven tak, že maximalizuje určité numerické odměny. V tomto případě odměnami byly herní body. Takovýto cíl nutí systém učit se, která tlačítka mačkat a kdy je mačkat, aby dostal co nejvíce bodů.
Některé systémy využívají modelový přístup, kde mají model prostředí, který využijí k předpovědím toho, co se stane, jakmile učiní nějaký krok. DQN ale není založen na modelu. Nemodeluje si prostředí přímo, jen se učí předpovídat, na základě výjevu na obrazovce, kolik bodů může získat, když zmáčkne určitá tlačítka.
Dám příklad. Pokud je míček tady a posunu se doleva, dostanu více bodů, ale pokud se posunu doprava, už žádné body navíc. Ale naučit se tyto souvislosti vyžaduje spoustu pokusů omylů. Systém DQN začíná tím, že náhodně mačká tlačítka, a pak si postupně ujasní, která tlačítka kdy mačkat, aby maximalizoval své skóre. Ale ve hře Montezuma's Revenge si tento přístup náhodného mačkání tlačítek pěkně natloukl.
Hráč musí udělat tuto celou řadu úkonů, jen aby dostal první bod na úplném konci. Uděláte chybu? Hra končí. Jak tedy DQN mohl vědět, že je na správné cestě? Zde se do toho přidávají mimina. Ve studiích se ukázalo, že se nemluvňata déle dívají na obrázky, které vidí poprvé, než na ty známé. Zdá se, že novost ze své podstaty přináší určité uspokojení.
Toto chování pro nás bylo stěžejní, abychom mysl nemluvňat pochopili. Taky se ukázalo, že jde o tajný recept, jak vyhrát Montezuma's Revenge. Výzkumníci z DeepMind našli důmyslný způsob, jak upřednostňování novosti zabudovat do zpětnovazebního učení. Udělali to tak, že neobvyklé či nové výjevy na obrazovce představovaly stejnou odměnu jako skutečné herní body. Zničehonic se DQN choval úplně jinak než předtím. Chtěl prozkoumávat místnost, najít klíč a uniknout zamčenými dveřmi ne proto, že to přineslo 100 bodů, ale proto, proč bychom to dělali my.
Abychom zjistili, co se nachází za nimi. S novou motivací se DQN podařilo nejenom najít první klíč, ale prozkoumat 15 z celkových 24 komnat. Ale odměňovat na základě novosti může někdy vytvořit více problémů, než to řeší. Takový systém, který hru hraje už dlouho, nakonec ztratí motivaci. Pokud už vše viděl, proč kamkoliv jít?
Nebo pokud narazí například na televizi, zamrzne. Když se na ní objevují neustále nové výjevy, je to paralyzující. Nápady a inspirace se tu týkají obou stran. Výzkumníci v oblasti AI, kteří se zaseknou na problému, jako jak DQN naučit vyhrát složitou hru, se stále častěji pro inspiraci obracejí na experty z oblasti lidské inteligence. Zároveň nám AI dává nový vhled do toho, proč ztrácíme a získáváme zájem.
Ať už kvůli nudě, depresi nebo závislosti a na druhé straně díky zvídavosti, kreativitě nebo hře. Jak se s pokroky v oblasti AI ujistíme, že cíle umělé inteligence jsou v souladu s těmi našimi? Kniha The Alignment Problem Briana Christiana se zabývá problémy umělé inteligence a jak je napravit, než bude příliš pozdě. Na knihu se můžete podívat zde.
DQN skóroval 13krát lépe než profesionální lidští testeři ve hře Breakout, 17krát lépe v Boxingu a 25krát lépe ve Video Pinball. Ale existovala pozoruhodná a nápadná výjimka. Ve hře Montezuma's Revenge DQN nedokázal skórovat jediný bod, ani když ji hrál už několik týdnů. Proč byla tahle hra pro AI tak hrozně složitá? A co k řešení tohoto problému scházelo?
Pozor, spoiler: mimina. K tomu se za chvilku vrátíme. Když má AI hrát hry od Atari, potřebuje tzv. zpětnovazební učení. Systém je nastaven tak, že maximalizuje určité numerické odměny. V tomto případě odměnami byly herní body. Takovýto cíl nutí systém učit se, která tlačítka mačkat a kdy je mačkat, aby dostal co nejvíce bodů.
Některé systémy využívají modelový přístup, kde mají model prostředí, který využijí k předpovědím toho, co se stane, jakmile učiní nějaký krok. DQN ale není založen na modelu. Nemodeluje si prostředí přímo, jen se učí předpovídat, na základě výjevu na obrazovce, kolik bodů může získat, když zmáčkne určitá tlačítka.
Dám příklad. Pokud je míček tady a posunu se doleva, dostanu více bodů, ale pokud se posunu doprava, už žádné body navíc. Ale naučit se tyto souvislosti vyžaduje spoustu pokusů omylů. Systém DQN začíná tím, že náhodně mačká tlačítka, a pak si postupně ujasní, která tlačítka kdy mačkat, aby maximalizoval své skóre. Ale ve hře Montezuma's Revenge si tento přístup náhodného mačkání tlačítek pěkně natloukl.
Hráč musí udělat tuto celou řadu úkonů, jen aby dostal první bod na úplném konci. Uděláte chybu? Hra končí. Jak tedy DQN mohl vědět, že je na správné cestě? Zde se do toho přidávají mimina. Ve studiích se ukázalo, že se nemluvňata déle dívají na obrázky, které vidí poprvé, než na ty známé. Zdá se, že novost ze své podstaty přináší určité uspokojení.
Toto chování pro nás bylo stěžejní, abychom mysl nemluvňat pochopili. Taky se ukázalo, že jde o tajný recept, jak vyhrát Montezuma's Revenge. Výzkumníci z DeepMind našli důmyslný způsob, jak upřednostňování novosti zabudovat do zpětnovazebního učení. Udělali to tak, že neobvyklé či nové výjevy na obrazovce představovaly stejnou odměnu jako skutečné herní body. Zničehonic se DQN choval úplně jinak než předtím. Chtěl prozkoumávat místnost, najít klíč a uniknout zamčenými dveřmi ne proto, že to přineslo 100 bodů, ale proto, proč bychom to dělali my.
Abychom zjistili, co se nachází za nimi. S novou motivací se DQN podařilo nejenom najít první klíč, ale prozkoumat 15 z celkových 24 komnat. Ale odměňovat na základě novosti může někdy vytvořit více problémů, než to řeší. Takový systém, který hru hraje už dlouho, nakonec ztratí motivaci. Pokud už vše viděl, proč kamkoliv jít?
Nebo pokud narazí například na televizi, zamrzne. Když se na ní objevují neustále nové výjevy, je to paralyzující. Nápady a inspirace se tu týkají obou stran. Výzkumníci v oblasti AI, kteří se zaseknou na problému, jako jak DQN naučit vyhrát složitou hru, se stále častěji pro inspiraci obracejí na experty z oblasti lidské inteligence. Zároveň nám AI dává nový vhled do toho, proč ztrácíme a získáváme zájem.
Ať už kvůli nudě, depresi nebo závislosti a na druhé straně díky zvídavosti, kreativitě nebo hře. Jak se s pokroky v oblasti AI ujistíme, že cíle umělé inteligence jsou v souladu s těmi našimi? Kniha The Alignment Problem Briana Christiana se zabývá problémy umělé inteligence a jak je napravit, než bude příliš pozdě. Na knihu se můžete podívat zde.
Komentáře (3)
problém (anonym)Odpovědět
06.11.2021 13:16:08
video, ktoré strojové učenie nazýva AI si nezaslúži ani 5%
Valsoraj Kečeloh (anonym)Odpovědět
07.11.2021 09:14:56
Pravděpodobně máš na mysli Obecnou AI ( ke které sice existuje obecný návod https://en.wikipedia.org/wiki/Bayesian_inference ), ale vypadá to, že se k ní zatím ani neblížíme.
AI v současné době označuje právě to strojové učení - ať už statistické, Q-learning, nebo jiné metody... někdo dokonce označuje AI i obyčejné prohledávání grafu, ale to už pro změnu trochu vadí i mně :-)
AI (anonym)Odpovědět
05.11.2021 14:25:02
Zero novelty encountered.