Цифровой след человека: что компании, военные и хакеры уже знают о нас

Выходит книга предпринимателя и первого российского ИТ-спикера TED New York Евгения Черешнева «Форма жизни №4: Как остаться человеком в эпоху расцвета искусственного интеллекта», в которой автор описывает ИИ как ступень в эволюции жизни на планете. Forbes Life опубликовал отрывок о том, как наши персональные данные оказываются в распоряжении третьих лиц и корпораций:

Данные о человеке бывают нескольких типов, и не все они создаются им самим. К сожалению, нам никто не объясняет этого — контрагенты, желающие монопольно пользоваться нашими данными ради максимизации своей прибыли и, как следствие, власти, предпринимают все усилия, чтобы не привлекать внимание публики к вопросу о ценности и составе собираемых ими данных, недоговаривать и не отвечать на прямо поставленные и понятные даже простому работяге без научной степени в области ИТ вопросы, например «Что конкретно вы обо мне знаете и для каких целей конкретно вы это используете?».

Причем если вы думаете, что главная проблема — это «“голые” фотки, утекающие в сеть», вы ошибаетесь. Это лишь верхушка айсберга. Всего я выделил 15 типов данных, и каждый день своей жизни мы их производим на свет:

1. Автоматически генерируемые данные о местонахождении. Это информация о местонахождении сотового телефона или устройства, с котороговы выходите в сеть или просто держите в кармане. При попадании в зону действия базовой станции сотовой связи неизбежным побочным эффектомбудет являться то, что оператор будет точно знать,к какой именно станции вы подключились, то есть неизбежно получит информацию о вашем примерном, в пределах соты, местоположении — без этого связь невозможна.

Существует несколько методов определения, где находится абонент, от геолокации по базовым станциям (в случае соответствующего оснащения базовых станций возможна достаточно точная засечка методом мультилатерации, основанным на измерении задержки распространения сигнала между мобильным устройством и станциями) до определения GPS-координат с помощью приложения на смартфоне; так или иначе, каждую секунду использования сотового телефона или планшета с 3G/4G-LTE надо понимать, что ваше местонахождение известно как минимум сотовому оператору.

А раз известно местоположение некоей сим-карты, следовательно, можно с большой долей уверенности определить, где находится конкретный человек с паспортными данными, привязанными к этой симке. Системная архитектура сотовых сетей построена таким образом, что обойти это ограничение ради обеспечения полной приватности практически невозможно (ну разве что вы воспользуетесь «левыми» сим-картами, что законом не приветствуется).

Другое дело, что пока сотовым операторам неинтересно, да и накладно хранить полную информацию о перемещениях всех абонентов, так что в их базах данных накапливаются лишь сведения, связанные с биллингом, то есть туда заносятся записи о нахождении в зоне действия конкретной базовой станции лишь с привязкой к звонку, отправке/получению SMS.

Не только абонент сотовой связи, но и любое устройство IoT (умный холодильник, компьютеризированная машина, телевизор с Wi-Fi, светофор, паркомат) в какой-то форме сообщает интернет-провайдеру свое местонахождение, что может эксплойтироваться (от слова exploit, «эксплойт» — использование уязвимости аппаратнопрограммных средств не с самыми добрыми намерениями) как самим провайдером, так и хакерами. Способы маскировки существуют, но о них я расскажу в других главах.

2. Сервисные данные. Это информация, которая необходима сайту или сервису для того, чтобы предоставить вам услугу, — как правило, это имя, фамилия, телефон, адрес доставки и данные кредитной карты. Во многих странах действует регламент «знай своего клиента» (know your customer, или KYC) — предписание, обязывающее ряд бизнесструктур верифицировать личность клиентов. Это правило пришло из банковского сектора, где его введение оправдывалось борьбой с отмыванием денег и с финансированием терроризма.

Впрочем, большинство бизнес-структур, от Amazon до узкоспециализированных магазинов, и само горит желанием «узнать своего клиента» как можно ближе. У нас же в стране, благодаря введению онлайн-касс, все сведения о покупках хранятся у операторов фискальных данных, так что, объединив данные о пробитых чеках с банковскими данными (если платили по карте) и идентифицировав покупателя, государство получает уникальные возможности для удовлетворения своего любопытства.

Впрочем, слово «полный», может, и не совсем верно отражает ситуацию, так как в большинстве пользовательских соглашений, например в Facebook, прямым текстом написано, что вы даете компании лицензию, не требующую лицензионных отчислений, на использование создаваемого вами контента по ее усмотрению, даже если вы потом удалите свои посты.

4. Добровольно публичные, но неконтролируемые данные. Существуют определенные платформы, на которых ваши комментарии к чужим постам вами не контролируются, вы не можете их удалять или редактировать. К неконтролируемым данным можно отнести и метаданные мессенджеров — многие из них зашифрованы, но сам факт общения абонентов А и В навсегда остается в архивах компании.

5. Биометрические данные. Рынок носимых устройств растет (фитнес-браслеты, измеряющие пульс, сканеры отпечатков пальцев и рисунка радужной оболочки глаза, сенсоры голоса и голосового управления и т. д.), а у нашего тела существует довольно много показателей активности и уникальных идентификаторов. Когда вы подтверждаете покупку отпечатком пальца, уникальный «почерк» вашего организма математически превращается в цифровой ключ или команду.

В ряде случаев биометрические данные не покидают устройства — например, Apple iPhone отпечатки никуда не передает. (Гарантией этому служит то, что, если будет доказано обратное, акции компании просядут, а это десятки, если не сотни миллиардов долларов. А это самое лучшее из доказательств.)

Но в большинстве случаев мы их отдаем компаниям типа Fitbit «бесплатно» и в полном объеме. То есть даем фирме право использовать историю работы нашего сердца как ей захочется, в том числе перепродавать третьим лицам. К биометрическим данным также относятся голос, геометрия лица, радужная оболочка глаза.

6. Атрибутированные данные. В сети существует информация о вас, которую создают другие люди, и вы об этом можете даже не знать.

Например, если ваш друг написал о вас пост и не сказал вам, — значит, существует кусочек информации о вас, к созданию которого вы не имеете никакого отношения. Таких данных особенно много в корпоративных сетях, где анализ внутренних форумов, приложений и статистики использования сервисов может рассказать очень многое.

7. Поведенческие данные. Когда вы делаете что-то на сайте (двигаете мышкой и задерживаете ее на определенных элементах экрана, в определенной последовательности кликаете по пунктам меню, фотографиям продуктов, печатаете текст, ищете что-то, а после поиска идете в магазин пешком), вся эта информация собирается, анализируется и преобразуется в математический портрет ваших предпочтений и увлечений. Например, интернет-магазин таким образом понимает, какие товары имеет смысл вам предложить, если вы кликали по продуктам A, B и С. Или долго водили мышкой по D, но так и не добавили в корзину покупок.

8. Психологические данные. Психология — довольно точная наука, тесты и классификаторы людей по психотипам и, следовательно, возможным паттернам поведения применялись еще до появления интернета — при приеме на работу на ответственные посты, особенно в государственных органах, в маркетинге (например, цветовые опции автомобилей формируются исходя из психологических предпочтений потенциальных покупателей), да и много где еще.

Обычно для психологического профилирования человека необходимо проходить нудные тесты из десятков, а иногда и сотен вопросов, кликать по разноцветным картинкам и отвечать на глупые вопросы в лучших традициях теста Войта-Кампфа.

Но интернет все это упростил — в нем теперь легко найти тексты ваших постов и сообщений, фотографии, которые вы публикуете в своем блоге и в социальных сетях, комментарии к новостям и внешнему контенту, вскрывающие ваши истинные реакции.

В итоге дата-брокеры и другие компании, имеющие доступ к разным источникам и каналам получения ваших данных, могут вполне точно определить ваше психологическое состояние, предрасположенность к риску или пассивному поведению, идентифицировать ваши ценности и потенциальные каналы воздействия на психику — имеется в виду поиск правильных аргументов и стратегии убеждения сделать что-то или купить что-то.

В современных индустриях это уже используется, например, в компьютерных играх жанра MMORPG — кому-то в игре дается много заданий формата «собери 1000 камней на поле», а другому игроку, с иным психотипом, поручат убить 1000 кабанов. Оба при этом испытают удовольствие от потраченных на игру денег.

9. Медицинские данные. Показатели медицинского уровня кардиодатчиков, глюкометров для измерения уровня глюкозы в крови, нательных термометров, умных ингаляторов для астматиков, анализирующих состав остаточного воздуха в легких, данные о визитах к врачам, анамнезе, результатах анализов, выписанных лекарствах, наличии у вас аллергий, фобий и психических отклонений — вся эта информация в большинстве развитых стран давно компьютеризирована и хранится исключительно в цифровом виде. Когда вы попадаете к врачу или в страховую компанию, эти данные пополняются и используются.

Большая часть приложений телемедицины использует данные Apple HealthKit и Google Fit для того, чтобы ваша биометрия и статистика активности могли комбинироваться непосредственно с медицинскими данными — анализами крови, мочи, ДНК и т.д. По сути, это данные, в какой-то мере описывающие поведенческие паттерны и состояние вашего тела и психики.

10. Расшифрованная ДНК. За какие-то $99 можно сделать анализ ДНК и получить его в цифровом виде. Главный игрок рынка — компания 23andMe. Она проводит полный анализ и выдает на основе вашей ДНК историю и географию предков и еще много интересного, а за дополнительные деньги можно получить полный медицинский анализ ДНК, в котором детально расписаны предрасположенности к определенным болезням. Эти данные можно использовать в повседневной жизни — для эффективной диагностики и профилактики потенциальных болезней, поиска родственников, смертельных аллергий и т.д.

К сожалению, стоимость сервиса не мешает компании вдобавок получать все права на результаты анализа вашего ДНК — использовать его и монетизировать дальше. В реальности происходит следующее: я купил тест 23andMe за $99, чтобы узнать свою генетику — историю своего происхождения на основе генотипа и возможные медицинские генетические отклонения. Как клиент, я не хочу давать доступ к данным о своей ДНК для использования в других целях, например для производства персонализированных лекарств. Но такой опции у меня, клиента, нет. Данные о моей ДНК компания собирает без моего ведома (осознанного) и использует в своих целях. В том числе для заработка за пределами $99, что я честно заплатил, и это манипуляция чистой воды. Генетический код сегодня становится цифровым и весьма вожделенным объектом купли-продажи. Спрос на него есть у множества компаний.

Не стоит также забывать, что компании, занимающиеся расшифровкой ДНК, всегда где-то базируются, следовательно, обязаны подчиняться законам той страны, в которой находится головной офис. В случае 23andMe (а они лидеры рынка) это США. Это автоматически означает, что, если у суда США возникнет необходимость получить доступ к вашей ДНК и ее дешифровке в рамках судопроизводства, 23andMe не сможет им отказать.

11. Данные, основанные на выводах (collateral data). Это данные, суть которых прекрасно отражает древняя народная мудрость «Скажи мне, кто твой друг, и я скажу, кто ты». Например, если у вас на Facebook или во «ВКонтакте» 70% подписчиков — геи, значит, с высокой степенью вероятности, вы тоже. Если 80% ваших запросов в поисковике связаны с музыкальными инструментами, студиями и музыкой, — вы, вероятно, музыкант.

Выводы, которые можно делать на сложных данных, поразительны. Например, Facebook может с высокой степенью вероятности предсказать, за какого кандидата будет голосовать тот или иной пользователь в своей стране. А ваш сотовый оператор при желании может узнать, изменяете ли вы жене/мужу, так как знает, кому, когда и откуда вы звоните и с какими контактными лицами пересекаетесь в пространстве (если они пользуются услугами того же оператора).

12. Секретно собираемые данные. В этой книге я не буду слишком подробно останавливаться на данных, собираемых спецслужбами, и их методах. Об этом довольно детально рассказал всем Эдвард Сноуден, и мы чуть позже остановимся лишь на некоторых аспектах работы спецслужб, о которых надо знать каждому человеку.

Просто имейте в виду, что у спецслужб и очень квалифицированных хакеров всегда есть теоретическая возможность удаленно подключиться к вашему компьютеру и включить камеру или микрофон без вашего ведома, записать все, что вы печатаете, или тайно сделать скриншот рабочего окна. Это не всегда просто сделать — требуются как определенные знания и условия со стороны атакующей стороны, так и некоторая безалаберность с вашей. Но в ряде случаев это удается.

13. Данные семьи/рода. Мы рождаемся и умираем подключенными к Сети. Чего многие из нас пока не осознали — так это того, что данные родителей могут привязываться к данным их детей, и наоборот. Началась эпоха трекинга даже не одного конкретного человека, а целого рода, семейного древа. Иосиф Сталин лицемерно заявлял: «Сын за отца не отвечает». Это было неправдой и тогда, в 1935 году, и может оказаться неправдой в будущем. Вскоре о благонадежности человека в числе прочих показателей могут начать судить по скорингу поведенческой активности всей его семьи. И это не шутка.

14. Служебные данные. Почти каждый из нас ежедневно выступает в разных ролях (как говорят англичане, wearing multiple hats — «носит разные шляпы»). Человек в семье и он же, но на работе, — разные люди. Сотрудник крупной транснациональной корпорации в рабочее время пользуется служебными устройствами и программами, служебными учетными записями, файлами, документами и т.д. Анализ этих данных гораздо больше говорит о конкретной должности, иерархии, инфраструктуре и положении дел в компании, чем о человеке. Но навредить ему эти данные могут. Они представляют огромную ценность для промышленных шпионов и хакеров, занимающихся таргетированными атаками.

15. Полученные/доступные знания. Поведение человека во многом определяется тем, какие знания он усвоил, а какие нет. Обученный трейдер будет успешнее играть на рынке акций, чем художник, не знающий азов алгебры и статистики. Человек, читавший Айзека Азимова, будет лучше осведомлен об опасностях ИИ и его реакции. Информация об объеме ваших знаний и вашей способности их усваивать имеет огромную ценность. По аналогии, не меньшую ценность имеет информация о том, какие знания вам на 100% недоступны.

Все эти 15 типов данных так или иначе собираются о вас в режиме реального времени. Какие-то компании получают больше, какие-то меньше, но собирают практически все, и достаточно большая часть собранного в итоге оказывается в руках топ-5 дата-компаний мира (Google, Facebook, Apple, Microsoft и Amazon — так называемая большая пятерка) — дата-брокеров, выставляющих на продажу целые психологические портреты, хорошо структурированные под все нужды заказчиков. Нас продают как породистых собак или дойных коров, оптом — базы данных содержат информацию по полу, возрасту, интересу к спорту, шахматам или нетрадиционному сексу; в них вы можете отыскать голосующих за демократов или республиканцев, представителей всех религий и конфессий, фанатов «Звездных войн», отшельников, любителей водки и пельменей, техасских рейнджеров, молодых матерей, растящих детей без отцов, членов ЛГБТ-комьюнити, проблемных заемщиков, радикально настроенных правых… и еще сотни, тысячи групп.

Ваш сотовый оператор постоянно знает, где вы находитесь; вся почта Gmail и ее многочисленные аналоги постоянно индексируются на предмет того, о чем вы говорите и думаете; все, что вы печатаете в Microsoft Word Online или Google Docs, сохраняется на серверах компаний; ввели номер кредитной карты при покупке на сайте — отлично, теперь продавец знает о ваших предпочтениях в еде, а банк о том, где вы закупаетесь; социальная сеть знает, где вы находитесь, что читаете, пишете или смотрите, о чем говорите в мессенджере в этот самый момент… (Вы думаете, зачем Facebook заплатил $19 млрд за WhatsApp? Просто по доброте душевной? Конечно же, нет — чтобы иметь возможность использовать метаданные чатов, то есть знать, кто с кем разговаривает и когда, в синергии с Facebook и Instagram для высокоточного профилирования.)

Браузер знает все о ваших поисковых запросах, истории серфинга, движениях мыши (например, видит, что вы задерживаете ее на баннерах с определенной рекламой или фото мужчин/женщин), периодах активности и сна. Вы идете по улице и заходите в магазин — камеры с функцией распознавания лица уже сопоставляют ваше изображение с профилем в социальных сетях и купленными на рынке данных предпочтениями — и вот к вам уже идет менеджер магазина. Вы купили то, что не собирались, сели в машину, которую выбрали за вас, выехали на шоссе, которое вам посоветовал навигатор — автоматические камеры фиксируют номера машины и определяют ваши маршруты движения, словно вы в компьютерной игре. Вы паркуетесь у офиса и заходите внутрь при помощи электронного ключа, оставляя в Сети метку о времени прибытия, работаете с кучей облачных сервисов, записывающих каждое ваше движение, возвращаетесь домой под теми же камерами и ложитесь спать, а пока спите, фитнес-браслет фиксирует и передает на серверы компании-владельца информацию о том, спите ли вы на самом деле или всего лишь дремлете, сидите в телефоне, занимаетесь сексом либо смотрите телевизор… (Это не шутка: Fitbit знает, когда вы занимаетесь сексом, и, теоретически, может понять, с женой или с любовницей, ибо ваши координаты хорошо известны.) Перечень собираемых о нас данных постоянно растет.

Поделиться