Amazon нанимает тысячи людей по всему миру, которые ежедневно слушают фрагменты разговоров владельцев «умных» колонок Amazon Echo, оснащенных встроенным голосовым помощником Alexa. Об этом пишет Bloomberg со ссылкой на семь человек, которые работали в программе.
Команда состоит из контрактников и постоянных сотрудников Amazon, работающих в Бостоне, Коста-Рике, Индии и Румынии. Они расшифровывают записи, дополняют их комментариями-аннотациями и загружают обратно в программу.
В своих маркетинговых материалах Amazon пишет, что Alexa «живет в облаке и постоянно становится умнее». Но, как и в случае со многими программными инструментами, частично этим обучением занимаются люди, отмечает Bloomberg.
«Вы не думаете, что другой человек слушает все, что вы в интимной обстановке дома говорите «умной» колонке. Мы привыкли считать, что машина занимается магическим машинным обучением. Но на самом деле в этом процессе до сих пор есть ручная составляющая», – сказал изданию профессор университета Мичигана Флориан Шауб, который занимался исследованием вопросов конфиденциальности при использовании «умных» колонок.
Alexa постоянно записывает короткие отрезки аудио, чтобы услышать активирующее слово – по умолчанию это «Alexa», но пользователь может установить вместо него «Echo» или любое другое. На сайте Amazon обещает, что аудиозапись не сохраняется, если колонка не была активирована. Но иногда Alexa принимает за активирующее слово другие сочетания слов, например «avec sa» во французском языке («с ним» или «с ней») или испанское слово Hecho (переводится как «факт»). Иногда Alexa начинает запись без какой-либо команды – такие записи начинаются со звука работающего телевизора или просто неразборчивого шума, пишет Bloomberg. Даже если запись началась по ошибке, ее нужно расшифровать, каждому сотруднику ежедневно попадается около 100 подобных записей, говорит один из собеседников издания.
Каждый день сотрудник за девятичасовую смену прослушивает около 1000 аудиосообщений, рассказали Bloomberg два сотрудника офиса Amazon в Бухаресте. Некоторые расшифровывают команды пользователей и комментируют их взаимодействие с помощником, кто-то должен находить в записях отдельные фразы, например «Тэйлор Свифт», и помечать, искал ли пользователь музыкального исполнителя.
Другие должны расшифровывать в том числе фоновые записи, даже если это разговоры детей на заднем фоне. Иногда сотрудникам попадаются приватные записи: например, нестройное пение в душе или крик ребенка о помощи. Отдельные записи могут свидетельствовать о преступлениях: двое сотрудников рассказывали, что слышали что-то похожее на сексуальное насилие. Если сотрудники слышат персональные данные, например детали банковского счета, они помечают файл как содержащий «критические данные».
«Мы внимательно следим за безопасностью и конфиденциальностью персональной информации наших клиентов», – заявил изданию представитель Amazon. Компания разбирает «экстремально малое» количество аудиозаписей Alexa, чтобы улучшать пользовательский опыт. Эта информация помогает тренировать распознавание речи и понимание натурального языка, чтобы Alexa лучше понимала запросы пользователей.