Обучение с подкреплением — это один из способов машинного обучения, который подразумевает, что испытуемая система (агент) находится в некоторой среде, о которой у нее нет сведений, но в которой она может совершать определенные действия. Действия переводят среду в новое состояние, и агент получает от нее некоторое вознаграждение или штраф. Благодаря постоянной обратной связи, система совершенствует свою работу — подобный метод используется для тренировки роботов или игровых систем искусственного интеллекта (ИИ).

Чаще всего программисты разрабатывают функцию вознаграждения так, чтобы агент решал задачу только определенным способом. Это приводит к тому, что система ИИ порой не может приспособиться даже к незначительным изменениям условий. Разработчики из Google DeepMind, в свою очередь, создали такую среду и систему наград, которые способствуют выработке сложного поведения.

Исследователи построили виртуальный мир с разными по сложности препятствиями, куда они поочередно помещали трех агентов: тело с двумя ногами, четвероногий корпус и человекообразную фигуру. Каждая система была наделена проприцепцией (ощущением положения частей собственного тела относительно друг друга и в пространстве) и примитивным зрением. Всем агентам надо было добраться из точки А в точку В, и чем быстрее они это делали, тем больше была награда. Разработчики также ввели систему штрафов: двуногое тело наказывалось, если оно наталкивалось на препятствия из-за неправильного положения торса, а четвероногий «паук» и «человек» — если смещались с центра плоскости.

В итоге, компьютер самостоятельно научился сложным движениям — он стал перепрыгивать ямы, уклоняться от препятствий сверху, а также взбегать на склоны и перепрыгивать барьеры. Кроме того, как показано на видео, агенты использовали «колени», чтобы залезть на высокие платформы.

Программисты из Google DeepMind заключили, что простая система наград и богатая виртуальная среда способствуют развитию нестандартных двигательных навыков. По их мнению, такой подход позволит в целом улучшить качество и надежность поведения агентов.

Tags:

ТЕБЕ МОЖЕТ ПОНРАВИТЬСЯ

Что в Италии натурально, то в Британии — нездорово (ВИДЕО)

В британском Advertising Standards Authority (ASA) считают, что используемая в рекламе Gucci модель выглядит ...

Шведским любителям спорта предлагают съесть свою одежду (ВИДЕО)

Тем самым компания демонстрирует свою приверженность защите окружающей среды. После того, как клиенты Houdini ...

Колумбийский дайвер опустилась на 83-метровую глубину, освещая путь ритмами своего сердца (ВИДЕО)

София Гомес Урибе — дайвер из Колумбии, которая ныне живет в Нидерландах. Двухминутный ролик ...

Почему кошкам нужна отдельная квартира

Кошки, использующиеся в лабораторных исследованиях, часто страдают от недостатка развлечений и личного пространства в лабораториях, что негативно сказывается ...

Вместо Ван Дамма — не хуже Ван Дамма

 Хоть ролик и отличается от вирусного гиганта “Epic Split”, тем не менее это очень ...

Новый проект на рынке коммерческой недвижимости

Интенция клиента — сделать новый ТРК идеальным для посетителей. Задача «Бюро» — помочь ему ...