Тьма за пределами данных: как неизвестное влияет на нашу жизнь

О силе статистических ошибок и неточных технологий сбора данных в публикации «Идеономика».

Британский статистик Дэвид Хэнд сравнивает темные данные с темной материей: мы их не видим, не можем учитывать, но они способны оказывать существенное влияние на наши выводы, решения и оценку рисков. В книге «Темные данные» он показывает на конкретных примерах, как возникают слепые зоны и какую опасность они в себе таят:

Начнем с очевидного: полезность данных зависит от того, то ли мы собираем и не допускаем ли при этом искажений. Каждое из этих условий чувствительно к темным данным. Фактически число потенциальных рисков, связанных с темными данными, настолько велико, что составить их полный перечень просто невозможно. Тем не менее представление о типовых ситуациях, на которые нужно обращать внимание, может быть жизненно важным при работе с темными данными.

Одна из фундаментальных причин возникновения темных данных — использование неподходящих определений или (что часто одно и то же) непонимание, о чем идет речь. Давайте разберем это на примерах.

Иммиграция

Опросы всегда проводят с конкретной целью, административные же данные собирают по множеству причин. Это означает, что административные данные могут не содержать ответа на интересующий вас вопрос. Например, в Великобритании недавно возник спор о точности статистики по долгосрочной международной миграции (LTIM). Национальная статистическая служба в соответствии с данными Отчета по международным пассажирским перевозкам сообщила, что за год, завершившийся в сентябре 2015 г., в Великобританию иммигрировало из Евросоюза 257 000 человек. В то же время число граждан Евросоюза, зарегистрировавшихся для получения номеров социального страхования, за этот период составило 655 000 человек. Номера социального страхования — это личные счета всех, кто работает в Великобритании, обеспечивающие надлежащий учет налоговых платежей и взносов в систему национального страхования (куда относятся в том числе медицинские страховки и пенсии), поэтому несоответствие кажется по меньшей мере странным. Похоже, что цифры Национальной статистической службы далеки от реальности. По этому поводу британский политик Найджел Фарадж выразился так: «Они пускают нам пыль в глаза. Номера социального страхования — это простое и четкое отражение реального числа людей в этой стране, так как без такого номера вы не сможете ни легально работать, ни претендовать на получение пособия».

Отчет по международным пассажирским перевозкам, который учитывает основные пассажиропотоки через британские воздушные и морские порты, а теперь еще и Евротоннель, выпускается с 1961 г. Ежегодно проводится 700 000 – 800 000 интервью. Хотя это число представляет лишь небольшую часть людей, приезжающих в Великобританию, ответы могут быть использованы для оценки общего числа мигрантов. Но это всего лишь оценка, и с ней неизбежно связана погрешность. Национальная статистическая служба определила величину этой погрешности как ±23 000, получив интервал от 234 000 до 280 000, и заявила, что на 95% уверена в попадании истинных цифр в этот диапазон. Погрешность, хотя и существенная, явно не объясняет такое большое отличие от числа номеров социального страхования.

Когда Национальная статистическая служба подробно изучила расхождение между своей оценкой и числом номеров социального страхования, оказалось, что основной причиной этой разницы была краткосрочная миграция (мигранты, прибывающие на срок от 1 до 12 месяцев). Долгосрочные мигранты остаются на 12 месяцев и более. Краткосрочные мигранты могут работать и подавать заявки на получение номеров социального страхования, но определяющим показателем в данном случае должна быть статистика LTIM (по долгосрочной международной миграции). Национальная статистическая служба заявила, что «различие определений этих данных является фундаментальным и невозможно обеспечить согласование двух типов учета, просто “складывая” и “вычитая” номера страховок. Эти регистрационные данные не могут служить показателем LTIM». Короче говоря, административные данные были полезны в тех вычислениях, для которых они были собраны, и не подходили для других целей. Ключевой момент в том, что данные становятся или не становятся темными в зависимости от того, что вы хотите узнать.

Медицина

Число областей, в которых определения могут порождать темные данные по причине того, что они не включают те виды данных, которые мы хотели бы получить, огромно. Иногда последствия таких ситуаций бывают просто поразительными. Например, именно проблема несоответствия определений лежит в основе того факта, что сегодня от болезни Альцгеймера умирает больше людей, чем в прошлом.

Болезнь Альцгеймера представляет собой наиболее распространенную форму деменции. Она носит прогрессирующий характер, когда на ранней стадии появляется незначительная забывчивость, которая на более поздних стадиях перерастает в дезориентацию, неспособность понимать происходящее вокруг и изменение личности. Считается, что болезнь в ближайшее время затронет около 50 млн человек во всем мире и со временем этот показатель будет только расти, достигнув, по прогнозам, к 2030 г. 75 млн. И темные данные могут объяснить такой рост как минимум двумя способами.

Во-первых, никто не умирал от этой болезни до 1901 г., поскольку именно тогда немецкий психиатр Алоис Альцгеймер впервые описал случай заболевания, которое впоследствии было названо его именем. Кроме того, первое время диагноз ставили только людям в возрасте от 45 до 65 лет с симптомами деменции и лишь позже, уже в последней четверти XX в., было снято ограничение по возрастному диапазону. Очевидно, что такое расширенное определение изменило число диагностированных людей. Данные, которые ранее рассматривались как несущественные, попали в поле зрения.

Во-вторых (и это объяснение роста смертности от болезни Альцгеймера может показаться парадоксальным), во всем виноват прогресс медицинской науки. Благодаря ему люди, которые раньше бы умерли молодыми, теперь могут прожить достаточно долго, чтобы стать потенциально уязвимыми для таких медленно развивающихся недугов, как болезнь Альцгеймера. Это заставляет задуматься, действительно ли продление жизни является абсолютным благом.

Тот факт, что число диагностируемых случаев аутизма в Соединенных Штатах удвоилось с 2000 г., также может быть в значительной степени объяснен темными данными. Одна из причин этого — эвристика доступности, когда сам факт аутизма все более осознается обществом. Но есть и другая серьезная причина такого роста, которая состоит в том, что изменения претерпел сам подход к определению и диагностике аутизма. В частности, хотя в 1980 г. аутизм был включен в «Диагностическое и статистическое руководство по психическим расстройствам», в 1987 и в 1994 гг. метод его диагностики был существенно изменен, при этом критерии были ослаблены. Такое ослабление диагностических критериев соответствия означает, что им удовлетворяет большее число людей.

Вдобавок к этому в 1991 г. министерство образования постановило, что диагноз «аутизм» дает право ребенку на специальные образовательные услуги, а в 2006 г. Американская академия педиатрии рекомендовала педиатрам проверять всех детей на аутизм во время стандартных визитов на дом.

Если меняется сам подход к определенным данным, то вполне логично ожидать, что и поведение людей при сборе этих данных тоже будет меняться. Такой же эффект можно проследить на примере запуска в Англии в феврале 2009 г. сразу нескольких кампаний национального масштаба по профилактике деменции среди населения в соответствии с Национальной стратегией по деменции, направленной на улучшение качества диагностики и медицинской помощи. Неудивительно, что по сравнению с 2009 г. частота выявления деменции увеличилась примерно на 4% в 2010 г. и на 12% в 2011 г.

Экономика

В целом можно заключить, что изменение определений с течением времени часто меняет и характер собираемых данных. Это не только затрудняет ретроспективные сравнения, но также может вызвать обвинения в нечестности. Ярким примером служит определение безработицы: достаточно слегка изменить его и, о чудо, результаты работы правительства начинают выглядеть намного лучше.

Другим примером в экономике является измерение инфляции. Оно основано на изучении цен на определенный набор товаров и услуг, называемых потребительской корзиной (которой в природе, конечно, не существует), и отслеживании изменений средней цены на эту корзину с течением времени. Однако из-за существования темных данных все обстоит не так уж просто. Например, возникает вопрос о том, как рассчитать среднее значение, поскольку в статистике есть несколько способов сделать это: среднее арифметическое, среднее геометрическое, среднее гармоническое и т. д. Недавно Великобритания перешла от индекса инфляции, основанного на среднем арифметическом, к индексу на основе среднего геометрического, что привело его в соответствие с индексами большинства других стран. Когда меняется определение, вы начинаете смотреть на вещи с другой точки зрения, поэтому меняются и аспекты данных, которые вы видите.

Помимо изменения формулы расчета, бывают и более фундаментальные причины, по которым темные данные возникают в индексах инфляции: прежде чем производить расчет, необходимо решить, какие товары и услуги включать в потребительскую корзину и как именно получать информацию о ценах. В целом, как показали предыдущие примеры, мы должны осознавать риск появления темных данных всякий раз, когда в процессе сбора данных встаем перед выбором. При расчете инфляции важнейший вопрос — что положить в потребительскую корзину — потенциально проблематичен, поскольку общество меняется, а индексы инфляции должны так или иначе отражать стоимость жизни. Я намеренно использовал выражение «так или иначе», чтобы подчеркнуть неоднозначный факт: разные индексы измеряют разные аспекты влияния инфляции. Одни измеряют то, как ценовые изменения влияют на людей, другие — как они влияют на экономику в целом и т. д. В любом случае важно, чтобы потребительская корзина была релевантной, то есть состояла из товаров и услуг, которые люди действительно покупают.

Для сравнения представим, что могло быть включено в корзину индекса цен 200 лет назад, и сопоставим с тем, что входит в нее сегодня. Два столетия назад свечи были бы важнейшим элементом корзины, но сегодня расходы на них далеки от того, чтобы счесть их значимыми. Свечи и уступили место мобильным телефонам и автомобилям. Это означает, что у нас есть номинальный список товаров, которые в принципе могут быть включены в корзину, но не все из них в нее попадают. Несмотря на глубокое продумывание того, какие именно товары следует учитывать, ясно, что при расчете инфляционных индексов всегда остается элемент неопределенности и произвола.

Что касается того, как получать информацию о ценах на товары в корзине, то традиционно для этого принято проводить опросы и направлять сборщиков данных непосредственно в магазины и на рынки. Бюро трудовой статистики обследует таким образом около 23 000 предприятий и регистрирует цены около 80 000 предметов потребления каждый месяц, суммируя их, чтобы получить индекс потребительских цен. Другие страны используют аналогичный подход.

Возможно, вы заметили, что этот традиционный метод сбора ценовых данных полностью игнорирует покупки онлайн. Учитывая, что на такие покупки в настоящее время приходится уже около 17% розничных продаж в Великобритании и почти 10% розничных продаж в США, становится ясно, что многие релевантные цены никак не учитываются в индексе. (Стоит отметить, что последние цифры действительны на момент написания книги, в то время как тенденция стремительно нарастает.)

Общество меняется непрерывно, а сегодня это происходит куда быстрее, чем когда-либо в прошлом, поскольку компьютер и сопутствующие ему технологии — мониторинг, глубинный анализ данных, искусственный интеллект, автоматизированные транзакции и глобальная сеть — оказывают все большее влияние. Такая скорость изменений имеет важные последствия для анализа информации с точки зрения темных данных, поскольку прогнозы всегда строятся на том, что случалось в прошлом. Последовательности данных во времени в науке называют временными рядами. Скорость изменения методов и технологий сбора данных означает, что временные ряды часто ограничены весьма недавним прошлым. Новые типы данных потому и называются «новые», что они имеют недолгую историю и доступны лишь за относительно короткий период времени. За пределами же его лежит тьма.


Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter.

Поделиться