Бот за игра на Minecraft направи пробив в обучението на изкуствен интелект
Спомняте ли си поговорката „Ако с гледане се научаваше, кучето щеше да бъде месар“?
Е тя вече не е актуална, особено когато става дума за невронни мрежи.
Компанията за разработка на изкуствен интелект OpenAI е създала най-добрия досега бот за игра на Minecraft. За да се случи това, ботът е гледал 70 000 часа видеоклипове на хора, играещи популярната компютърна игра, което проправя пътя на нова мощна техника за обучение на машини за изпълнение на широк спектър от задачи чрез гледане на сайтове като YouTube, категорични са от MIT Technology Review. Според изданието това е „огромен и неизползван източник на данни за обучение“.
Изкуственият интелект за Minecraft се е научил да изпълнява сложни последователности от кликвания с клавиатурата и мишката, за да изпълнява задачи в играта, като отсичане на дървета и изработване на инструменти. Това е първият бот, който може да изработва т.нар. диамантени инструменти - задача, която обикновено отнема на добрите човешки играчи 20 минути високоскоростно кликане - или около 24 000 действия.
Пробив в обучението на AI
В резултат на успешните тестове на новия бот на OpenAI учените смятат, че са направили пробив в техниката за обучение, известна като обучение по подражание, при която невронните мрежи се обучават да изпълняват задачи, като наблюдават как ги изпълнява човек. Ученето по подражание може да се използва за обучение на изкуствен интелект за управление на роботизирани ръце, управление на автомобили или навигация в уеб страници.
В същото време, в интернет има огромно количество видеоклипове, показващи хора, които изпълняват различни задачи. Като използват този ресурс, изследователите се надяват да развията значително имитационното обучение.
Проблемът при съществуващите подходи за обучение по подражание е, че видеодемонстрациите трябва да бъдат маркирани на всяка стъпка - извършването на това действие води до това, извършването на друго действие води до друго и т.н. Ръчното анотиране по този начин е свързано с много работа, поради което подобни набори от данни обикновено са малки. От екипа на OpenAI искат да намерят начин да превърнат милионите видеоклипове, които са достъпни онлайн, в нов набор от данни.
Подходът на екипа, наречен Video Pre-Training (VPT), успява да заобиколи момента с ръчното етикетиране чрез обучение на друга невронна мрежа за автоматично маркиране на видеоклипове. Първо, изследователите наемат хора да играят Minecraft и записват техните кликвания с клавиатурата и мишката заедно с видеото от екраните им. По този начин получават 2000 часа анотирана игра на Minecraft, които използват за обучение на модел за съпоставяне на действията с резултатите на екрана - натискането на бутон на мишката в определена ситуация кара героя да замахне с брадвата си, например.
Следващата стъпка е да се използва този модел за генериране на етикети за действия за 70 000 часа немаркирано видео, взето от интернет, и след това да се обучи Minecraft ботът върху този по-голям набор от данни.
Използвайки VPT, ботът на OpenAI в крайна сметка успява да изпълни задачи, които биха били невъзможни само с помощта на обучение с подсилване, като например изработването на дъски и превръщането им в маса, което включва около 970 последователни действия.
Въпреки това екипът установява, че най-добрите резултати са постигнати при съвместното използване на обучение чрез имитация и обучение чрез подсилване. Бот, обучен с VPT, и прецизиран с учене чрез подсилване може да изпълнява задачи, включващи повече от 20 000 последователни действия.
Учене чрез подражание
Ученето чрез подражание е алтернатива на т.нар. подсилено обучение, при което невронната мрежа се научава да изпълнява дадена задача от нулата чрез проба и грешка. Това е техниката, която стои зад много от най-големите пробиви в областта на изкуствения интелект през последните няколко години. Тя е използвана за обучение на модели, които могат да победят хората в игри, да контролират реактор за термоядрен синтез и да открият по-бърз начин за извършване на фундаментални математически изчисления.
Проблемът се състои в това, че този тип обучение работи най-добре при задачи, които имат ясна цел, където случайните действия могат да доведат до случаен успех. Алгоритмите за подсилено обучение „възнаграждават“ тези случайни успехи, за да увеличат вероятността те да се повторят.
Но Minecraft, например, е игра без ясна цел. Играчите са свободни да правят това, което им харесва - да се скитат из компютърно генериран свят, да добиват различни материали и да ги комбинират, за да правят различни предмети.
Отвореността на Minecraft я прави добра среда за обучение на изкуствен интелект. Затова и играта се превръща във важна тестова площадка за нови техники за обучение на изкуствен интелект. MineDojo, среда на Minecraft с десетки предварително разработени предизвикателства, дори спечели награда на тазгодишното издание на NeurIPS, една от най-големите конференции за изкуствен интелект.