Искусственный интеллект самостоятельно освоил паркур (ВИДЕО)

Обучение с подкреплением — это один из способов машинного обучения, который подразумевает, что испытуемая система (агент) находится в некоторой среде, о которой у нее нет сведений, но в которой она может совершать определенные действия. Действия переводят среду в новое состояние, и агент получает от нее некоторое вознаграждение или штраф. Благодаря постоянной обратной связи, система совершенствует свою работу — подобный метод используется для тренировки роботов или игровых систем искусственного интеллекта (ИИ).

Чаще всего программисты разрабатывают функцию вознаграждения так, чтобы агент решал задачу только определенным способом. Это приводит к тому, что система ИИ порой не может приспособиться даже к незначительным изменениям условий. Разработчики из Google DeepMind, в свою очередь, создали такую среду и систему наград, которые способствуют выработке сложного поведения.

Исследователи построили виртуальный мир с разными по сложности препятствиями, куда они поочередно помещали трех агентов: тело с двумя ногами, четвероногий корпус и человекообразную фигуру. Каждая система была наделена проприцепцией (ощущением положения частей собственного тела относительно друг друга и в пространстве) и примитивным зрением. Всем агентам надо было добраться из точки А в точку В, и чем быстрее они это делали, тем больше была награда. Разработчики также ввели систему штрафов: двуногое тело наказывалось, если оно наталкивалось на препятствия из-за неправильного положения торса, а четвероногий «паук» и «человек» — если смещались с центра плоскости.

В итоге, компьютер самостоятельно научился сложным движениям — он стал перепрыгивать ямы, уклоняться от препятствий сверху, а также взбегать на склоны и перепрыгивать барьеры. Кроме того, как показано на видео, агенты использовали «колени», чтобы залезть на высокие платформы.

Программисты из Google DeepMind заключили, что простая система наград и богатая виртуальная среда способствуют развитию нестандартных двигательных навыков. По их мнению, такой подход позволит в целом улучшить качество и надежность поведения агентов.

Tags:


Notice: Undefined offset: 0 in /home/test2.reklamaster.com/html/wp-content/themes/onfleek/inc/df-core/views/df-content/df-post-layout-9.php on line 167

ТЕБЕ МОЖЕТ ПОНРАВИТЬСЯ

В Ельдорадо починається Велика Смажка

Велика смажка в Ельдорадо – це зухвалий гумор, який BBDO Ukraine та Ельдорадо дозволили собі у Чорну п’ятницю, щоб розповісти про великі знижки і трохи побешкетувати.

Иллюзия изменения геометрии, глубины и объема пространства: 3D маппинг как инструмент эффектного интерактива

Founder/Creative Director NAOS.BAND Александр Бутенко и Partner/General producer Юрий Дума рассказали о 3D маппинге: как выглядит процесс создания проекта, в ...

ISD Group вручили «золото» на берлінському фестивалі Ciclope

8 листопада агенція ISD Group отримала «золото» на фестивалі реклами та відео Ciclope Festival в Берліні. Журі відзначило їхній проект AI VERSUS, який ...