Hlavní Streamovací Služby AI se učí na Q * bert podvádět tak, jak to dosud žádný člověk neudělal

AI se učí na Q * bert podvádět tak, jak to dosud žádný člověk neudělal



AI dokázala podvádět to nejlepší, co lidstvo nabízí poté, co objevilo exploit v klasické arkádové hře Q * bert a běželo s ním.

Zatímco dřívější iterace AI by správně hrály Q * bert, v určitém okamžiku svého učení o tom, jak hra funguje, objevuje exploit, který jí umožňuje shromáždit šílené body. Přirozeně, jako by to dělal každý hráč na skóre, opakuje postup, aby mohl zvýšit své skóre nejefektivnějším možným způsobem.

Na níže uvedeném videu můžete vidět AI, která se pohybuje kolem platforem. Nejprve to vypadá, jako by to bezcílně skákalo mezi platformami. Místo toho, aby viděl, jak hra postupuje do dalšího kola, se Q * bert zasekne ve smyčce, kde začnou blikat všechny její platformy - zde může AI poté pokračovat v šílenství a získávat obrovské body.

PŘEČTĚTE SI DALŠÍ: Jeden z nejkontroverznějších herních záznamů byl nakonec zdiskreditován

jak přeměnit dokument na jpeg

Jak AI vyhrála Q * bert válku

Díky rekordnímu rekordu všech dob dosáhla AI díky programování algoritmu evoluční strategie neuvěřitelně vysokého skóre. Evoluční strategie (ES) se liší od obvyklého učení posílení (RL), které tradiční AI používá, protože je díky svému generačnímu učení považováno za škálovatelnější.

Každá učební smyčka se označuje jako generace a pokračuje ve své úloze, dokud není splněna stanovená podmínka (v tomto případě vysoké skóre). S každou další generací umělá inteligence absorbuje znalosti předchozí generace, a proto lépe dosahuje stejného cíle a překonává ho. Pokračujte a skončíte s AI, která je ve svém úkolu naprosto bezkonkurenční. Přesně to se tu stalo s Q * bert skóre.

Nastínil v papír , publikovaný minulý týden vědci na univerzitě ve Freiburgu v Německu, se zdá, že chyba nebyla známým množstvím. Ve skutečnosti, když nejsou příliš překvapeni, když našli chybu, je zajímavé sledovat, jak AI poté pokračovala a naučila se ji využívat pokaždé, když hrála, aby maximalizovala svůj bodovací potenciál.

PŘEČTĚTE SI DALŠÍ: Tato umělá inteligence se učí zvládat Super Mario Bros

Aby našli chybu, musel se agent nejprve naučit téměř dokončit první úroveň - nedělo se to najednou, ale pomocí mnoha drobných vylepšení, vysvětlili vědci Registrace . Máme podezření, že v určitém okamžiku výcviku narazilo jedno z řešení pro potomky na chybu a získalo mnohem lepší skóre ve srovnání se svými sourozenci, což zase zvýšilo jeho příspěvek k aktualizaci - jeho váha byla nejvyšší ve váženém průměru. To pomalu přesunulo řešení do prostoru, kde stále více potomků začalo narážet na stejnou chybu.

Neznáme přesné podmínky, za kterých se chyba objevuje; je možné, že se objeví, pouze pokud agent postupuje podle vzorce, který se zdá být neoptimální, [například když agent ztrácí čas nebo dokonce ztrácí život]. Pokud by tomu tak bylo, pak by bylo pro standardní RL extrémně těžké najít chybu: pokud použijete přírůstkové odměny, naučíte se strategie, které rychle přinášejí nějakou odměnu, místo toho, abyste se naučili strategie, které na chvíli nepřinášejí mnoho odměn, a pak najednou vyhrajte.

Viz související Šampión dragsterů Todd Rogers právě přišel o korunu po 35 letech Tato umělá inteligence se učí zvládat Super Mario Bros 1-2 po dobu 17 dnů Sledujte, jak se tato AI učí řídit v GTA V na Twitchi

Navzdory skvělým výsledkům robota však vědci neříkají, že je to případ, kdy je třeba prosazovat učení ES nad RL. Ve skutečnosti mají oba systémy své vlastní problémy a kombinace těchto dvou systémů je do značné míry považována za nejlepší variantu vpřed.

Stejná metoda ES na jiných hrách Atari nepřinesla ani zdaleka stejné pozitivní výsledky. Na druhou stranu je RL zodpovědná za rozbíjení záznamů vlevo, vpravo a na střed, včetně bití nejlepšího hráče GO na světě. ES má stále ve věcech své vlastní místo a je to vlastně způsob, jakým Nvidia provádí spoustu školení AI, protože vyžaduje větší výpočetní výkon, ale dosahuje lepších výsledků po delší dobu.

Bez ohledu na to, jakým způsobem se stane budoucnost vývoje AI, přinejmenším tento robot podvádějící systém není tak špatný jako tento nyní zneuctěný mistr světa videoher .

Zajímavé Články

Redakce Choice

Téma Waterscapes pro Windows 10, 8 a 7
Téma Waterscapes pro Windows 10, 8 a 7
Krásný balíček Waterscapes nabízí působivé výhledy na jezera, pláže, kanály z různých míst ve Velké Británii. Tato skvělá sada obrázků byla původně vytvořena pro Windows 7, ale můžete ji použít ve Windows 10, Windows 7 a Windows 8. Téma obsahuje 20 úžasných snímků různých krásných vodních ploch zachycených fotografem
Nejlepší klíčoví nálezci roku 2024
Nejlepší klíčoví nálezci roku 2024
Nejlepší klíčové trackery jsou hlasité, odolné, s dlouhým dosahem a mají rozsáhlé sítě lokátorů. Naše nejlepší tipy jsou od Tile a Chipolo.
Jak vyrobit ohnivzdorný lektvar v Minecraftu
Jak vyrobit ohnivzdorný lektvar v Minecraftu
V Minecraftu můžete vyrábět ohnivzdorné lektvary, abyste získali imunitu vůči ohni a lávě, ale pro ingredience se budete muset vydat do Netheru.
Najděte dostupné body obnovení systému ve Windows 10
Najděte dostupné body obnovení systému ve Windows 10
Obnovení systému je funkce několika verzí systému Windows, která se vrací k Windows Me. Podívejte se, jak najít všechny dostupné body obnovení systému v systému Windows 10.
Jak tvrdě obnovit tovární nastavení tabletu Amazon Fire, když se nezapne
Jak tvrdě obnovit tovární nastavení tabletu Amazon Fire, když se nezapne
Pokud chcete tvrdý reset tabletu Amazon Fire Tablet, můžete si vybrat dvě různé možnosti - buď provést tvrdý reset z aplikace Nastavení, nebo pomocí tlačítek zařízení. Obě metody jsou poměrně jednoduché a mohou se otřít
Jak odstranit více transakcí v QuickBooks
Jak odstranit více transakcí v QuickBooks
Pokud se transakce ve vašem účtu QuickBooks nahromadily, můžete se je pokusit smazat. Jen aby zjistil, že to není tak snadné, jak jste si původně mysleli. Aby to nebylo moc jednoduché, hromadné mazání transakcí není “
Jak používat Fire Stick bez WiFi
Jak používat Fire Stick bez WiFi
Amazon Fire TV Stick je jedním z nejpopulárnějších zařízení pro streamování exkluzivních filmů a televizních pořadů. Také promění jakoukoli standardní televizi na chytré zařízení a umožní vám moderní funkce, jako je sdílení obrazovky, přehrávání hudby, hraní