DeepMind и OpenAI учат ИИ работать сообща с человеком

DeepMind и OpenAI учат ИИ работать сообща с человеком

Общение человека с ИИ — главная тема исследования, опубликованного компанией DeepMind (принадлежит Google) и OpenAI Institute (финансируется Илоном Маском). Ученые предложили способ обеспечения обратной связи компьютера с человеком без помощи заранее прописанного программистами алгоритма.

Люди боятся искусственного интеллекта, потому что он может оказаться недружелюбным или даже попробовать стереть человечество с лица Земли. На самом деле опасным ИИ станет, если не давать ему четких указаний, говорят исследователи. Как в той шутке, когда супер-умного робота с кучей возможностей попросили просто сделать скрепки, он все вещи переделал в скрепки и уничтожил в итоге цивилизацию вместе с человеком.

Новый метод обучение ИИ от DeepMind и OpenAI — это вариация «усиленного машинного обучения» (reinforcement learning или RL). Компьютер раз за разом решает одну и ту же задачу, в то время как программисты направляют его с помощью «вознаграждения». В играх — это обычно определенное количество очков. В результате, путем проб и ошибок ИИ обучается самому адекватному способу решения задачи.

Ученые из DeepMind и OpenAI решили упростить этот процесс и вовсе удалить из процесса программиста: компьютеру показывают два варианта выполнения одной и той же задачи и подсказывают, какой из них лучше. Это повторяется раз за разом, пока ИИ не «уяснит», что именно от него хотят. Метод чем-то похож на поход к окулисту, который меняет линзы и спрашивает: «Так лучше видно? А так?».

С помощью нового метода разработчикам удалось научить бот по имени Hopper делать сальто и приземляться на «ноги». Правда, такой способ обучения отнимает много времени. Прежде чем Hopper идеально кувыркнулся, человека попросили оценить его действия 900 раз в течение часа. Бот обучался 70 часов виртуального времени.

По словам исследователя Oxford Robotics Маркуса Вульфмайера, пока гораздо проще, когда программист заранее прописывает в алгоритме, какое именно поведение ожидается от бота при тех или иных вводных. «Но важно сделать обратную связь более эффективной», — говорит Вульфмайер.