AI se učí na Q * bert podvádět tak, jak to dosud žádný člověk neudělal

AI dokázala podvádět to nejlepší, co lidstvo nabízí poté, co objevilo exploit v klasické arkádové hře Q * bert a běželo s ním.

Zatímco dřívější iterace AI by správně hrály Q * bert, v určitém okamžiku svého učení o tom, jak hra funguje, objevuje exploit, který jí umožňuje shromáždit šílené body. Přirozeně, jako by to dělal každý hráč na skóre, opakuje postup, aby mohl zvýšit své skóre nejefektivnějším možným způsobem.

Na níže uvedeném videu můžete vidět AI, která se pohybuje kolem platforem. Nejprve to vypadá, jako by to bezcílně skákalo mezi platformami. Místo toho, aby viděl, jak hra postupuje do dalšího kola, se Q * bert zasekne ve smyčce, kde začnou blikat všechny její platformy - zde může AI poté pokračovat v šílenství a získávat obrovské body.

PŘEČTĚTE SI DALŠÍ: Jeden z nejkontroverznějších herních záznamů byl nakonec zdiskreditován

jak přeměnit dokument na jpeg

Jak AI vyhrála Q * bert válku

Díky rekordnímu rekordu všech dob dosáhla AI díky programování algoritmu evoluční strategie neuvěřitelně vysokého skóre. Evoluční strategie (ES) se liší od obvyklého učení posílení (RL), které tradiční AI používá, protože je díky svému generačnímu učení považováno za škálovatelnější.

Každá učební smyčka se označuje jako generace a pokračuje ve své úloze, dokud není splněna stanovená podmínka (v tomto případě vysoké skóre). S každou další generací umělá inteligence absorbuje znalosti předchozí generace, a proto lépe dosahuje stejného cíle a překonává ho. Pokračujte a skončíte s AI, která je ve svém úkolu naprosto bezkonkurenční. Přesně to se tu stalo s Q * bert skóre.

Nastínil v papír , publikovaný minulý týden vědci na univerzitě ve Freiburgu v Německu, se zdá, že chyba nebyla známým množstvím. Ve skutečnosti, když nejsou příliš překvapeni, když našli chybu, je zajímavé sledovat, jak AI poté pokračovala a naučila se ji využívat pokaždé, když hrála, aby maximalizovala svůj bodovací potenciál.

PŘEČTĚTE SI DALŠÍ: Tato umělá inteligence se učí zvládat Super Mario Bros

Aby našli chybu, musel se agent nejprve naučit téměř dokončit první úroveň - nedělo se to najednou, ale pomocí mnoha drobných vylepšení, vysvětlili vědci Registrace . Máme podezření, že v určitém okamžiku výcviku narazilo jedno z řešení pro potomky na chybu a získalo mnohem lepší skóre ve srovnání se svými sourozenci, což zase zvýšilo jeho příspěvek k aktualizaci - jeho váha byla nejvyšší ve váženém průměru. To pomalu přesunulo řešení do prostoru, kde stále více potomků začalo narážet na stejnou chybu.

Neznáme přesné podmínky, za kterých se chyba objevuje; je možné, že se objeví, pouze pokud agent postupuje podle vzorce, který se zdá být neoptimální, [například když agent ztrácí čas nebo dokonce ztrácí život]. Pokud by tomu tak bylo, pak by bylo pro standardní RL extrémně těžké najít chybu: pokud použijete přírůstkové odměny, naučíte se strategie, které rychle přinášejí nějakou odměnu, místo toho, abyste se naučili strategie, které na chvíli nepřinášejí mnoho odměn, a pak najednou vyhrajte.

Viz související Šampión dragsterů Todd Rogers právě přišel o korunu po 35 letech Tato umělá inteligence se učí zvládat Super Mario Bros 1-2 po dobu 17 dnů Sledujte, jak se tato AI učí řídit v GTA V na Twitchi

Navzdory skvělým výsledkům robota však vědci neříkají, že je to případ, kdy je třeba prosazovat učení ES nad RL. Ve skutečnosti mají oba systémy své vlastní problémy a kombinace těchto dvou systémů je do značné míry považována za nejlepší variantu vpřed.

Stejná metoda ES na jiných hrách Atari nepřinesla ani zdaleka stejné pozitivní výsledky. Na druhou stranu je RL zodpovědná za rozbíjení záznamů vlevo, vpravo a na střed, včetně bití nejlepšího hráče GO na světě. ES má stále ve věcech své vlastní místo a je to vlastně způsob, jakým Nvidia provádí spoustu školení AI, protože vyžaduje větší výpočetní výkon, ale dosahuje lepších výsledků po delší dobu.

Bez ohledu na to, jakým způsobem se stane budoucnost vývoje AI, přinejmenším tento robot podvádějící systém není tak špatný jako tento nyní zneuctěný mistr světa videoher .

**AI se učí na Q * bert podvádět tak, jak to dosud žádný člověk neudělal**

Jak AI vyhrála Q * bert válku

Zajímavé Články

Recenze společnosti Bowers & Wilkins P7 Wireless: Stříhání kabelu

Nejlepší tipy pro stavění mostů v Minecraftu

Redakce Choice

Jak přesný je Nike Run Club?

Jakmile se dostanete do běhu, je těžké se ohlédnout. To je něco, co většina profesionálů a příležitostných běžců potvrdí. Ještě lepší je běh pomocí dobré běžecké aplikace, jako je Nike Run Club. Je to tak

Jak připojit GoPro k počítači

Připojte svůj GoPro k počítači, abyste ze své kamery vytěžili maximum úpravou nebo nahráním svých záběrů.

Archivy značek: Oříznutí obrazovky Windows 10

Jak přesunout okno, které je mimo obrazovku

Máte právě spuštěnou aplikaci nebo program, který není na vaší obrazovce? Zde je návod, jak přesunout okno, které je ve Windows a macOS mimo obrazovku, abyste je mohli vidět a pracovat s ním.

Získejte nové barevné schéma v příkazovém řádku v systému Windows 10

Zde je způsob, jak získat barevné schéma v příkazovém řádku v systému Windows 10. To lze provést v jakékoli verzi a libovolném vydání systému Windows 10.

192.168.1.3: IP adresa pro místní sítě

192.168.1.3 je třetí IP adresa v rozsahu, který domácí počítačové sítě často používají. Tato adresa je obvykle přiřazena zařízení automaticky.

Jak zakázat JavaScript v Google Chrome

Podrobný návod, jak zakázat JavaScript ve webovém prohlížeči Google Chrome na platformách Chrome OS, Linux, Mac a Windows.