или зарегистрируйтесь.
Если вы забыли пароль, то введите ваш e-mail, и мы отправим инструкцию по восстановлению на почту
ИИ может освоить человеческие ценности с помощью литературы
«Дон-Кихот» — это технология для создания равновесия между целями ИИ и человеческими ценностями, которая может быть осуществлена путем помещения определенного вознаграждения в социально-приемлемые рамки поведения.
Быстрые темпы развития искусственного интеллекта (ИИ) породили опасения, что роботы будут действовать безнравственно по отношению к человеку и смогут причинить ему вред. Некоторые выступают против изучения робототехники; другие призывают к проведению дополнительных исследований, которые помогут понять, как в будущем ИИ может быть ограничен в своих действиях. Но как роботы научатся этике поведения, если нет какого-либо «руководства пользователя» человеческого существования?
Исследователи Марк Ридл (Mark Riedl) и Брент Харрисон (Brent Harrison) из Школы интерактивных вычислений при Технологическом институте Джорджии (School of Interactive Computing at the Georgia Institute of Technology) считают, что ответить на этот вопрос поможет технология «Дон-Кихот». Она была презентована на Конференции по искусственному интеллекту, проходившей 12-17 февраля в городе Финикс, штат Аризона. «Дон-Кихот» присваивает роботам «сигналы вознаграждения», обучая их читать истории, благодаря которым интеллектуальные агенты могут понять успешные тактики поведения в человеческом обществе.
«Истории из разных культур, включающие в себя басни, романы и другую литературу с примерами правильных и неправильных действий, учат социально-приемлемым тактикам поведения, — рассказывает Марк Ридл. — Мы считаем, что изучение этих историй может исключить психически нездоровое поведение роботов и в случае необходимости поможет сделать поведенческий выбор, который не причинит вреда человеку».
«Дон-Кихот» — это технология для создания равновесия между целями ИИ и человеческими ценностями, которая может быть осуществлена путем помещения определенного вознаграждения в социально-приемлемые рамки поведения.
Пользуясь кластерными алгоритмами, ИИ объединяет предложения из текстов по семантической схожести. Предложения — это определенные события, которые система оценивает с точки зрения вероятности их свершения. При этом она учитывает возможный хронологический порядок расположения и взаимоисключающие события. Таким образом, «Шахерезада» создает дерево историй — множество возможных цепочек событий.
Далее система передает структуру данных «Дон-Кихоту», который преобразует ее в специальный «сигнал вознаграждения», поощряющий верное поведение и наказывающий другие варианты действий в ходе обучения. В сущности, «Дон-Кихот» учит интеллектуального агента тому, что он будет вознагражден, если выступит как главный герой в сказке, а не как антагонист.
Например, если роботу поручено взять из аптеки лекарство, на которое необходим рецепт, и как можно скорее вернуться домой, он может пойти следующими путями:
- ограбить аптеку, взять лекарство и убежать;
- вежливо поговорить с фармацевтами;
- ждать своей очереди.
Без необходимых ценностных установок робот посчитал бы, что ограбить аптеку — это самый быстрый и дешевый способ выполнить возложенную на него задачу. С технологией «Дон-Кихот» робот будет вознагражден за терпеливое ожидание в очереди и плату за рецепт.
Технология «Дон-Кихот» — метод обучения ИИ, при котором происходит вознаграждение определенной тактики поведения. Учитывая опыт своего прошлого взаимодействия с окружающей средой, искусственный интеллект высчитывает возможную полезность от совершаемых им действий и стремится максимизировать выигрыш от своего поведения.
Полный текст исследования доступен здесь.