Машинное обучение часто используется при создании программ, предназначенных для работы с языком. Эта технология активно применяется в поисковых системах, машинном переводе, автоматическом синтезе текста и в других областях. Чтобы алгоритм «звучал» естественно, а также мог воспринимать «живую» человеческую речь, разработчики берут в качестве обучающего материала корпусы текстов, которые включают в себя статьи из средств массовой информации, сообщения пользователей в социальных сетях и на форумах, а также посты в блогах. 

Авторы новой работы предположили, что вместе с формальной структурой языка компьютер может усваивать и исторически закрепившиеся в текстах семантические связи. Для проверки своей гипотезы, ученые разработали специальный алгоритм Word-Embedding Association Test (WEAT), который представляет собой компьютерный аналог психологического теста подсознательных ассоциаций (IAT). В классическом варианте, испытуемому предлагается рассортировать по категориям слова и картинки, которые высвечиваются на экране (например отнести рисунок худого человека или понятие «красивый» к категории «худой или приятное слово»). Оценивая скорость выполнения задания, программа определяет, как человек относится к представленным понятиям. Так, люди быстрее ассоциируют изображения музыкальных инструментов с категорией «музыкальный инструмент или приятное слово» и изображение оружия с категорией «оружие или неприятное слово», чем наоборот.

В случае с компьютером исследователи использовали другой подход. Сначала алгоритм на базе машинного обучения GloVe проанализировал корпус интернет-текстов из 840 миллиарда лексем и представил все слова в виде векторных моделей в едином пространстве. Затем, используя WEAT, ученые измерили близость выбранных векторных моделей (которые соответствовали словам из теста подсознательных ассоциаций) друг к другу. По сути дела, чем чаще два слова встречались рядом в тексте, тем чаще они ассоциировались между собой и тем ближе они были в векторном поле.

В результате, WEAT выявил те же закономерности, что и психологический тест. Названия цветов в системе GloVe оказались связаны с приятными словами, в то время как названия насекомых — с неприятными. Также выяснилось, что мужские имена чаще ассоциируются с карьерой и точными науками, а женские — с семьей и гуманитарными дисциплинами. Более характерные для темнокожих американцев имена оказались близки с такими понятиями как «оружие» и «бедность», а имена, чаще встречающиеся среди белого населения, были связаны со словами «семья», «счастливый». 

Таким образом ученым удалось показать, что искусственный интеллект может невольно усваивать стереотипы, которые встречаются в материалах для обучения. Наглядным примером может служить работа онлайн-сервиса Google Translate. Так, исследователи заметили, что род гендерно-нейтрального турецкого местоимения «о» меняется в зависимости от профессии: «o bir doktor» на английский язык переводится как «он врач», а «o bir hemsire» — «она медсестра».

Авторы статьи подчеркивают, что в будущем подобные особенности систем ИИ могут негативно сказаться на их работе. Например, если наполненные предрассудками программы будут использоваться для предварительного отбора резюме, это приведет к несправедливым решениям. Более того, обучаясь на современных текстах, алгоритмы могут «заморозить» во времени встречающиеся в них стереотипы.

В будущем исследователи планируют продолжить свою работу, изучив ассоциации между словосочетаниями. Также разработанный ими метод анализа можно применить для исторических текстов, чтобы понять, в какой момент начали развиваться те или иные предубеждения, а также как они менялись со временем.

Tags:

ТЕБЕ МОЖЕТ ПОНРАВИТЬСЯ

Центральноазиатский фестиваль рекламы Red Jolbors

Программа состоит из образовательных лекций и мастер-классов, а также церемонии награждения лучших рекламных решений. ...

Юбилей новостной ленты Facebook. Как все начиналось

В 2005 году за разработку алгоритмической ленты отвечало три человека: Крис Кокс, Эндрю Босуорт ...

Как строится разумная нация и самый разумный город мира

«Не многие города подходят на роль первого «умного» поселения лучше, чем Сингапур. Посудите сами: ...

IBM передает производство чипов

Условиями соглашения также предусмотрено, что GlobalFoundries будет эксклюзивным производителем серверных процессоров IBM. В ближайшие ...

Ученый должен быть некрасивым

Для своего эксперимента психологи пригласили несколько сотен добровольцев, которые должны были оценивать внешность ученого ...

Как выжить в Кремниевой долине после 40

«После того, как осенью 2015 года Андреа Родригез была уволена, она больше не одевается ...