«Большие данные» повсеместно проникли в современный футбол, пишет Nature. Фиксация движений, прогнозы и искусственный интеллект: цифры все глубже «вторгаются» в эту прекрасную игру, констатирует автор статьи.
Турнир под эгидой FIFA начался, и ученые вовсю демонстрируют свои умения, помогая футбольным тренерам совершенствовать игроков и тактические приемы.
16 октября главным спортивным сюжетом в мировых СМИ стало угрюмое лицо Криштиану Роналду: в матче его «Манчестер Юнайтед» против «Ньюкасла» португальскую суперзвезду заменили почти за 20 минут до финального свистка. В своем недовольстве Роналду не одинок: далеко не каждый футболист готов согласиться с решением тренера об уходе на замену в пользу более свежего товарища по команде.
Во время Чемпионата мира в Катаре футболисты получат больше доводов, чтобы бороться за время, проведенное на поле. От стартового до финального свистка организаторы турнира будут отправлять каждому игроку подробный анализ качества их игры. Бомбардиры смогут показать, сколько раз они делали рывок и оставались без внимания. У защитников будут данные о том, сколько они создавали трудности игрокам соперника и как часто перехватывали мяч.
Цифры продолжают вторгаться в прекрасную игру. Анализ данных уже задействован во всем: от трансферов и интенсивности тренировок до способов борьбы с соперниками и рекомендаций наилучшего направления для паса из любой отдельно взятой точки поля.
Изучение данных, связанных с футболистами, по своей дотошности больше напоминает подготовку в космонавты. Разнообразные «топики» и ленты фиксируют движение, отслеживают позицию с помощью GPS и подсчитывают количество ударов с каждой ноги. Камеры со множества разных углов «видят» все — от выигранных верховых дуэлей до количества времени, которое игрок удерживает мяч. Чтобы извлекать выгоду из этой информации, большинство высококлассных клубов нанимают аналитиков данных, в том числе математиков, специалистов по статистике и физиков, переманивая их из таких компаний и лабораторий, как «Майкрософт» и ЦЕРН (Европейская организация по ядерным исследованиям).
Выводы аналитиков меняют игру: форварды реже бьют издалека, фланговые полузащитники чаще пасуют, чем навешивают, а тренеры изо всех сил пытаются выиграть владение как можно «выше». Все это — тактические сдвиги, за которыми стоит объективная информация, пришедшая на помощь интуиции тренеров.
«Большие данные положили начало новой эпохе в футболе, — сказал специалист в области спорта из Высшей школы физкультуры и спорта в Кельне Дэниел Меммерт. — Они изменили философию и поведение команд, процесс изучения противника и способы раскрытия талантов и поиска игроков».
Тщательная подготовка
Один из самых ярких примеров того, как большие данные меняют спорт можно найти в другой игре. В 2023 году в своей книге «Moneyball. Как математика изменила самую популярную спортивную лигу в мире» Майкл Льюис подробно описал, как тренер «Окленд Атлетикс» Билли Бин в 2002 году, опираясь на личную статистику игроков, построил бейсбольную команду победителей, имея в распоряжении очень скудный бюджет. Бин подбирал игроков, исходя из подробных данных об их результативности, в том числе из показателей, которые прежде не считались важными, например, как часто бэттер добегает до базы.
У Бина было преимущество перед теми, кто пытается повторить этот фокус в футболе. «Футбол гораздо сложнее бейсбола», — говорит Меммерт. В бейсболе за один раз заработать очко может только одна команда. Кроме того, в этом виде спорта статистику масштабно собирают и изучают уже десятки лет. Футбол же, наоборот, постоянно меняющаяся игра с низким количеством очков (голов), в которой команды должны постоянно бороться за «территорию». Из-за этого понять, кто и какими действиями влияет на результат, куда сложнее. Специалисты по футбольной статистике десятилетиями фокусировались лишь на забитых и пропущенных голах и пытались их смоделировать, чтобы строить прогнозы.
Вариации этого метода сегодня по-прежнему используются для прогнозирования исходов матчей. Математическая модель, предполагающая, что забитые и пропущенные голы распределены вокруг усредненной величины, которую разработали специалисты в Оксфорде, верно предсказала победу Италии над Англией на Чемпионате Европы 2020 года. Кроме того, с ее помощью ученые смогли заранее назвать шесть из восьми четвертьфиналистов турнира.
Такой успех — не что-то необычное. По словам аспиранта Оксфорда Мэтью Пенна, который разработал модель для Евро-2020, предсказания на основе статистики куда точнее, чем многие думают.
«У каждой команды есть сильные стороны в атаке и в обороне. Они определяются на основе общего числа голов, забитых каждой командой и относительной сложности их соперников, — говорит он. — Получается большой набор уравнений для двух наборов этих сильных сторон, и предсказать результат матча становится очень просто». По модели Пенна, наибольшие шансы поднять кубок чемпионов мира в Катаре — у бельгийцев, а за ними идет Бразилия.
Без сучка и задоринки
Еще более интересная для тренеров информация — происходящие на поле события и как тот или иной игрок на них влияет.
Футбольные аналитики уже долго собирают такие данные. Наибольшего успеха на этом поприще добился бывший экономист в ВВС Великобритании по имени Чарльз Рип. Бо́льшую часть 50-х годов он провел за просмотром матчей в Англии — он собирал базовые данные о таких факторах, как позиции на поле и последовательность передач.
Рип даже использовал полученную информацию для анализа результативности команд и предлагал стратегию и тактику. В клубе «Вулверхэмптон Уондерерс» он помог внедрить более прямолинейную и острую манеру игры, которая не подразумевала поперечных передач. Всего за пять лет команда трижды стала чемпионом страны.
Передовые технологии настолько упрощают получение и анализ таких данных, что большинство ведущих клубов и многие национальные сборные начали нанимать соответствующих специалистов еще более десяти лет назад. И речь идет в том числе о далеко не самых элитных коллективах.
Помимо подготовки к защите докторской диссертации, Пенн работает на полставки аналитиком данных в полупрофессиональном клубе «Оксфорд Сити», выступающем в Южной Национальной лиге, на шестом уровне системы футбольных лиг Англии.
Многие аналитики отчасти связывают недавний успех лондонского «Брентфорда» с собственным алгоритмом клуба, который оценивает игроков в разных лигах и помогает привлекать недооцененных звезд. Команда по обработке данных футбольного клуба «Ливерпуль», в которую входят физики, ранее работавшие в ЦЕРНе и Кембриджском университете, разработала модель, которая может оценить, повышают ли действия игрока на поле вероятность гола. А спортивные ученые из Университета Лиссабона в партнерстве с испанской «Барселоной» в прошлом году опубликовали анализ того, как долго сохраняются возможности для различных типов паса в одном матче.
Думаю, что самое полезное, что мы делаем в «Оксфорд Сити», это предматчевые отчеты, — говорит Пенн. — Мы изучаем характеристики игроков другой команды, а затем составляем несколько графиков, показывающих, как они играют и как двигаются при владении мячом. А затем я предлагаю несколько тактических советов или изменений». Перед недавним матчем против ранее непобедимой команды анализ Пенна показал, что у левого защитника плохие показатели по ударам головой. «Поэтому я предложил, чтобы наш высокий нападающий играл на правой стороне», — говорит он. «Оксфорд» выиграл тот поединок.
Опытному скауту информация такого рода доступна невооруженным взглядом. Но, по словам Пенна, «данные менее предвзяты, чем мнение».
У клубов нет необходимости самим добывать исходные данные для такого рода тактического анализа. Они могут приобрести информацию у коммерческих компаний, которые кодируют видеозаписи матчей, чтобы зафиксировать исход примерно трех тысяч событий в процессе игры, в том числе обводок, пасов и отборов мяча. Сначала такие данные фиксировались вручную, но сейчас это делают с помощью технологии на основе искусственного интеллекта, которая называется машинным зрением. Часто это сопровождается сводной статистикой по таким показателям как число выполненных каждым игроком пасов.
В начале этого года Джоанна Маркс, студентка математического факультета Уорикского университета, в паре с Пенном из «Оксфорд Сити», разработала модель, позволяющую использовать эти необработанные данные для оценки качества пасов всех игроков в лиге — подробный анализ, который обычно недоступен в отчетах, предоставляемых коммерческими компаниями.
«Необходимо учитывать, какие пасы они пытаются отдать. Нельзя просто брать коэффициент завершения, потому что некоторые передачи намного сложнее других, — говорит Маркс. — Модель помогает подготовить команду, потому что если вам известно, что соперник очень хорошо пасует с какого-то участка поля, то вы знаете, чего бояться».
Рави Раминени работал аналитиком данных в «Майкрософт», а в 2012 году перешел на аналогичную должность в местный клуб Высшей футбольной лиги США (MLS) «Сиэтл Саундерс» из Вашингтона. Одной из его первых задач стало применение данных GPS для получения информации о дистанции, которую пробегают футболисты. Это было нужно для оптимизации тренировок и подготовительных занятий. «Собирая эти данные, можно делать выводы о том, не была ли сегодняшняя тренировка слишком длинной или, наоборот, короткой. Это делается для того, чтобы попытаться предотвратить травмы».
Сработало ли это? «У нас было несколько отличных сезонов, когда мы применяли эти методы. Но я не знаю. Труднее всего дать количественную оценку, если травмы удалось избежать», — сказал он.
Недостаток его уверенности поднимает вопрос, связанный с ролью данных в спортивном успехе в целом: нет какого-то контрольного эксперимента, чтобы проверить эффективность методов. Тем не менее, по словам Раминени, тренеры «Сиэтла» были открыты для его аналитики, как на тренировках, так и позже, когда оценивали сильные стороны игроков.
«Мне разрешили общаться с тренерами, и я даже мог говорить напрямую с игроками, — говорит он. — В других клубах иначе. Иногда тренер даже не пересекается со спецом по аналитике».
За кадром
Сегодня аналитики уделяют все больше внимания тому, что происходит с игроками, не владеющими мячом.
«В футбольной аналитике постоянно говорят «нам важно знать, что делает игрок без мяча»», — говорит Раминени.
Это сложнее и дороже, поскольку требует специальных камер, которые отслеживают не только главное, но и следят за игроками, не принимающими прямого участия, а также фиксируют их местоположение примерно 25 раз в секунду. По словам Раминени, компании, предоставляющие такие технологии, как правило заключают эксклюзивные контракты с национальными лигами, что затрудняет доступ для посторонних.
«Если бы я был скаутом и искал иностранного игрока из Южной Америки или Европы для MLS, я бы не знал его статистики без мяча», — говорит он.
В последние годы появилась более мощная техника с использованием искусственного интеллекта, которая прогнозирует движения игроков на основе записанных матчей, даже если они не фиксируются камерами. Компании, предоставляющие данные, могут использовать записи трансляций (они доступны без ограничений), чтобы получить исчерпывающие аналитические данные об игроках с мячом и без него, в любой точке мира.
Одну из таких моделей разработали специалисты из компании DeepMind, занимающейся ИИ, совместно с отделом по обработке данных футбольного клуба «Ливерпуль».
«Таким образом можно начать задавать вопросы о тактике или гипотезах», — говорит руководитель отдела исследований «Ливерпуля» Иэн Грэм, который оставил позицию «постдока» полимерной физики в Кембриджском университете и ушел работать в сферу футбольной статистики.
«На каждый конкретный эпизод в матче можно создать тысячи различных симуляций того, что могло произойти вместо него. Таким образом, можно делать выводы о том, насколько хорошо прошла атака в данный период игры», — говорит он.
Отделы по работе с данными, как правило, не делятся подробностями того, чем они занимаются и насколько хорошо это работает, поэтому публикация этой работы была не самым приятным шагом для «Ливерпуля». Но это было одним из условий сотрудничества с DeepMind.
«У «Ливерпуля» один из самых крупных и развитых аналитических отделов в футболе, но у нас и близко нет таких ресурсов, чтобы разрабатывать подобные модели своими силами», — говорит Грэм. Он уверен, что ни один другой клуб тоже не может себе такого позволить самостоятельно.
Как и другие аналитики данных, Грэм не хочет приписывать себе все заслуги после успеха команды на футбольном поле.
Информатик из DeepMind Карл Туилс говорит, что моделирование по движению вне кадра — это первый шаг к созданию виртуального ассистента тренера на основе искусственного интеллекта, который будет применять данные в реальном времени для принятия решений, как в футболе, так и в других видах. «Представьте, что ИИ изучает результаты первого тайма и предлагает поменять расстановку, чтобы добиться большего», — объясняет он.
Эта методика может оказаться полезной не только на футбольном поле, но и для моделирования траектории движения беспилотных автомобилей и пешеходов на оживленной городской улице, считает Туилс.
Что дальше? Как и все хорошие ученые, эксперты, занимающиеся футбольными данными, настаивают, что исследования нужно продолжать. Бывший специалист «Майкрософт» Сара Радд, которая в прошлом году покинула лондонский «Арсенал» после почти десяти лет работы над аналитикой для клуба, жаждет получить массу телеметрических данных, производимых гоночным автомобилем, которые помогут бригадам поддержки налаживать и улучшать его характеристики.
«Мы смотрим на Формулу-1 и думаем, что получать данные такого уровня было бы здорово, — говорит она. — В футболе по-прежнему много аспектов, которые не измеряются, либо измеряются, но мы не знаем, как извлечь из них полезную информацию».
Следующим шагом вперед могут стать данные об ориентации игрока в пространстве или даже о том, как игрок смещает свой вес в процессе игры.
«Технологии все еще не достигли необходимого уровня детализации, — считает Радд. — Мы все еще не улавливаем еле заметный финт со сменой направления движения или смещение центра тяжести, которое проводит игрок, чтобы вывести соперника из равновесия или запутать вратаря, сделав небольшую паузу».
Даже основанную на ИИ аналитику «Ливерпуля» можно «сбить с толку» неполным знанием позиции игрока. «Модель может указать, что игрок поступил неправильно, потому что в определенной точке он должен был начать бежать, а он не начал, — объясняет Грэм. — Но он при этом мог просто споткнуться и лежать на газоне».
Современный футбол буквально тонет в данных. Как же цифры изменили игру?
«Полагаю, что наибольшую выгоду технологии приносят в части отбора игроков», — сказал Раминени. Другая область — стратегия исполнения стандартных положений.
Анализ данных дал один совершенно четкий вывод: не нужно бить с дальней дистанции. «Если взглянуть на любую лигу мира, то десять лет назад игроки наносили удары с гораздо большего расстояния, — говорит Раминени. — Потом аналитики стали возмущаться: «Зачем вы бьете издалека? Шанс забить — всего 2%»»
Во многих командах игрокам теперь также не рекомендуется делать длинные передачи в сторону штрафной площади, добавляет он. Статистика показала, что большинство из них бессмысленны.
Объем генерируемых данных продолжает расти, а значит будут увеличиваться и возможности для работы, считает Раминени. «Я думаю, что аналитика данных повсеместно проникла в спорт, и обратной дороги уже нет», — говорит он.