Нобелевская премия 2024 года по физике досталась ученым, ушедшим из физики в разработку искусственного интеллекта и применившим там свои знания. Научный обозреватель Forbes Анатолий Глянцев объясняет, как физические законы вдохновили исследователей на создание прорывных нейронных сетей
Нобелевской премии по физике 2024 года удостоены Джон Хопфилд из США и Джеффри Хинтон, уроженец Великобритании, работающий в Канаде. Они получат премию «за основополагающие открытия и изобретения, которые позволяют осуществлять машинное обучение с использованием искусственных нейронных сетей».
Казалось бы, какое отношение нейронные сети имеют к физике? Разработка искусственного интеллекта — это информатика, а не физика.
Однако работы Хопфилда и Хинтона — впечатляющий пример обмена идеями между разными областями науки. Нынешние лауреаты использовали физические идеи для создания прорывных для своего времени нейросетей. Хопфилд начинал как физик-теоретик, но постепенно его интересы сместились. В 1970-х он опубликовал несколько революционных работ по биофизике, а в начале 1980-х увлекся нейронными сетями.
Дружная команда атомов
Работа нейросети — командная. Решение принимает не каждый нейрон в отдельности, а вся сеть в целом. Физика давно изучает явления, возникающие благодаря «командной работе» атомов или элементарных частиц. Эти явления так и называются коллективными. Хопфилд с успехом применил физические наработки к молодой в то время науке об искусственном интеллекте.
Коллективный эффект, вдохновивший исследователя — упорядочивание атомов в куске железа. Каждый атом железа представляет собой миниатюрный магнит. Поля любых двух атомов одинаковы по величине, но могут отличаться по направлению. Можно представлять себе атом как крошечную магнитную стрелку, а кусок железа — как огромный лес таких стрелок.
Из магнитных полей всех атомов складывается суммарное поле металла. Почему же тогда банальный железный гвоздь не является магнитом? Потому что стрелки стремятся выстроиться так, чтобы суммарное поле было равно нулю. Атомы взаимодействуют друг с другом и меняют ориентацию своих магнитных полей. В итоге металл разбивается на участки (домены). В пределах одного домена практически все стрелки направлены одинаково. Но домены очень малы, в гвозде их много, и доменов, направленных «туда», оказывается примерно столько же, сколько направленных «сюда». Магнитные поля противоположно направленных доменов компенсируют друг друга, и суммарное поле становится неотличимым от нуля.
Откуда у куска железа стремление обнулить собственное магнитное поле? Дело в том, что магнитное поле обладает энергией. А гвоздь, как и большинство других систем в природе, стремится свою энергию минимизировать. Наглядный пример: вода стекает в самую глубокую часть сосуда именно потому, что там минимальна ее гравитационная энергия.
Стремление к минимизации энергии — тот двигатель, что заставляет атомы железа вместе работать над тем, чтобы система пришла к определенному состоянию, а именно — к нулевому суммарному полю. Хопфилд применил тот же принцип к нейронным сетям.
Притяжение интеллекта
В 1982 году ученый опубликовал работу, в которой нейроны уподоблялись атомам железа. Для простоты Хопфилд принял, что каждая магнитная стрелка может быть направлена только вверх или вниз. Направление вверх соответствовало единице, а вниз — нулю. Каждый нейрон был связан со всеми остальными нейронами, словно атом, взаимодействующий с соседями. Время от времени нейроны обновляли свои значения с учетом значений соседних нейронов (0 или 1) и силы связи между ними. Формулу, вычисляющую новое значение нейрона, Хопфилд взял прямиком из физики. Такая же формула описывает, как магнитные стрелки отдельных атомов меняют ориентацию под действием соседей. Кроме того, физик приписал нейронной сети воображаемую энергию. Формулу для ее расчета он тоже позаимствовал из науки о магнетизме.
Нейросеть, как и кусок железа, стремилась минимизировать энергию. Что это означало на практике? Представим себе нейроны как пиксели черно-белого изображения: нейрон, хранящий 0 — черный, а хранящий 1 — белый. Мы хотим, чтобы сеть запомнила определенное изображение, скажем, фотографию Эйнштейна. Алгоритм обучения искусственного интеллекта устроен так, что изображение, которое запоминает нейросеть, имеет минимальную энергию.
Теперь подадим на вход нейросети произвольное изображение — например, фотографию Мэрилин Монро. У этого изображения тоже есть энергия, но она велика по сравнению с энергией фото Эйнштейна. Нейросеть проверяет: уменьшится ли энергия, если превратить вот этот черный пиксель в белый? А вон тот белый пиксель в черный? Если ответ «да», происходит превращение. Стремясь минимизировать энергию, искусственный интеллект переработает фото актрисы в портрет великого физика или в нечто весьма похожее на него.
Ландшафт памяти
Пока это не слишком впечатляет. Что толку заменять любое фото на портрет Эйнштейна? Да и нейросеть для этого не нужна, достаточно сохранить в памяти фото ученого и воспроизводить его раз за разом. Хитрость в том, что у нейросети Хопфилда не один минимум энергии, а несколько. Представьте себе «энергетический ландшафт» с впадинами-минимумами и горными хребтами-максимумами. Один минимум хранит фото Эйнштейна, другой — портрет Монро, а третий, скажем, страницу из букваря.
Теперь представим себе шарик, бросаемый сверху на этот ландшафт. Повседневный опыт подсказывает, что шарик скатится в ближайшую яму и останется там лежать. Физика объясняет: он стремился минимизировать свою гравитационную энергию и справился с задачей как мог. Возможно, где-то и есть яма поглубже, но до нее нужно добираться через горы, а шарик катится только вниз.
Сигнал, подаваемый в нейросеть Хопфилда, похож на этот шарик. Он тоже «скатится в ближайшую яму». Другими словами, будет преобразован в самое похожее на него изображение, хранящееся в памяти нейросети. Если входное изображение больше походит на портрет Эйнштейна, сеть и распознает его как портрет Эйнштейна, а если на фотографию Монро, система решит, что это Монро. Теперь уже нейросеть решает осмысленную и интересную задачу: она классифицирует изображения на основании опыта, запечатленного во «впадинах ландшафта».
Так физик Хопфилд изобрел новый принцип хранения информации в нейросетях благодаря своим познаниям в магнетизме. В дальнейшем оказалось, что метод по-прежнему работает, если разрешить нейронам хранить любые числа, а не только 0 или 1. То есть пиксели изображения могут быть любого цвета. И вообще нет нужды ограничиваться изображениями: в нейронах можно закодировать практически любые данные.
Машина случайности
Джеффри Хинтон развил идеи Хопфилда. В 1983–1985 годах он вместе с коллегами презентовал новый вариант нейросети. В отличие от детища Хопфилда, задачей новой машины было генерировать данные, а не распознавать их.
Состояния нейросети были случайными, причем вероятность каждого состояния зависела от связанной с ним энергии. Закон, определяющий эту зависимость, Хинтон взял из физики. Это знаменитое распределение Больцмана, часто встречающееся в науке о тепловых явлениях. В связи с этим исследователи назвали свое детище машиной Больцмана, хотя австрийский физик XIX века Людвиг Больцман, разумеется, ничего не знал о нейросетях.
Создание машины Больцмана было интересным теоретическим прорывом. Но обучать ее было трудно, поскольку, как и в сети Хопфилда, каждый нейрон имел связи со всеми остальными. Такие сети обучаются долго и трудно, особенно на маломощных компьютерах XX века. В 2002 году Хинтон сократил число связей между нейронами до необходимого минимума. Получилась ограниченная машина Больцмана, которая обучалась намного быстрее и в свое время довольно широко применялась.
Впрочем, специалисты по искусственному интеллекту знают Хинтона прежде всего благодаря его прорывной статье 1986 года. В ней ученый вместе с коллегами переоткрыл метод обратного распространения ошибки — пожалуй, самый популярный сегодня способ обучения нейросетей. Он не имеет прямого прототипа в физике, но оказал колоссальное влияние на отрасль. В обтекаемую формулировку об «открытиях и изобретениях» вписывается и это достижение.
И все же создание нейросетей, даже заимствованными из физики методами — это еще не физика. Справедливо ли присуждать за такие работы «физическую» премию? На этот счет можно спорить, но нельзя не задать встречный вопрос: а справедливо ли, что нет Нобелевской премии по информатике? Дерево науки сильно разрослось со времен завещания Альфреда Нобеля, и «нобелевское жюри», по-видимому, пытается это учитывать.