Современные модели искусственного интеллекта, и в частности получившие широкое распространение LLM (большие языковые модели), полагаются на огромные объемы информации, стремясь использовать все существующие качественные источники для обучения. Исторически вычислительные мощности были ключевой проблемой для развития ИИ, но в последние годы темпы технологического прогресса начали опережать скорость создания новых данных для выборок. С появлением мощных чипов многие исследователи стали беспокоиться, что дефицит качественной информации, используемой для тренировки моделей, не за горами. О том, на какое время еще хватит баз данных для обучения нейросетей, в колонке для Forbes рассказывает эксперт по ИИ и анализу данных Павел Балтабаев
Предел не за горами
Насколько актуальна проблема качественных данных для обучения ИИ? Вопрос отнюдь не праздный, если взглянуть на недавние заявления топ-менеджеров и основателей крупнейших AI-проектов. Так, сооснователь ИИ-стартапа Anthropic Джек Кларк отмечает, что их модели были обучены на значительном проценте всех данных, которые когда-либо существовали в интернете. В то же время в интервью WSJ технический директор OpenAI Мира Мурати не дала четкого ответа на вопрос, использовали ли разработчики данные социальных сетей для обучения модели Sora (нейросети для генерации видео). Упомянутые свидетельства — косвенное подтверждение того, что ведущие компании в области ИИ уже так или иначе столкнулись с дефицитом доступной информации для обучения моделей и могут использовать неразрешенные источники.
На этом фоне появляется все больше информации о том, что разработчики ощущают нехватку качественных общедоступных, а главное — легальных данных. Против создателя ChatGPT OpenAI то и дело подают иски о нарушении авторских прав, из-за чего компания даже была вынуждена расширить штат юристов.
В конце декабря 2023 года иск по обвинению OpenAI и Microsoft в незаконном использовании миллионов статей для развития ИИ подало издание The New York Times. Также в суд на владельца ChatGPT подали ряд американских писателей, а одним из первых стал совместный иск комика Сары Сильверман и еще двух артистов против Meta (признана экстремистской организацией и запрещена в России) и OpenAI. Все истцы утверждали, что в обучении ИИ использовались материалы, защищенные авторским правом.
Является ли публикация в СМИ или сцена из мультфильма, использованная искусственным интеллектом, нарушением авторских прав? Ответ на этот вопрос должны дать юристы и законотворцы. Судя по всему, они этим вопросом действительно озабочены. В случае массовой практики по удовлетворению исков обладателей информации разработчики современных нейросетей окажутся в сложном положении и получат серьезные препятствия для масштабирования своих моделей.
Нужно больше контента
В этом году центр HAI (Human-Centered Artificial Intelligence) Стэнфордского университета выпустил отчет о развитии искусственного интеллекта. В его первой главе, в частности, говорится о том, что эксперты ожидают исчерпания публичных текстовых данных в промежутке между 2026 и 2032 годом. Предыдущие оценки этой группы ученых предсказывали нехватку качественных выборок для языковых моделей уже в 2024 году, но впоследствии улучшили свои прогнозы. Более благоприятные перспективы исследователи строят относительно визуальных данных — изображений и видео: их нехватку модели машинного обучения начнут испытывать к 2038-2046 годам.
Основная причина дефицита информации состоит в превышении роста потребности в ней над доступными машинам запасами текстового контента. Причем созданного человеком, а не сгенерированного искусственным интеллектом. Поскольку нет ясности, насколько эффективным и ответственным перед человечеством будет развитие ИИ на основе данных, созданных им же.
Не стоит забывать, что большая часть информации для обучения нейросетей принадлежит большим компаниям и социальным сетям. Это одна из причин, заставляющих бизнесы делать свои разработки в области ИИ. Например, через популярную технику RAG (retrieval augmented generation) — надстройку над базовой (фундаментальной) языковой моделью. Она оптимизирует ответы больших языковых моделей, расширяя их контекст дополнительными внешними данными, необходимыми для ответа на специфичные для той или иной сферы запросы. Таким образом, с помощью этой техники удается с минимальными усилиями адаптировать ИИ под профильные задачи и минимизировать так называемые «галлюцинации» или ложные высказывания.
Монополизация рынка и продажа информации
Все больше крупных корпораций включаются в полномасштабную гонку в сфере искусственного интеллекта. Они создают собственные фундаментальные модели, имея доступ к огромному массиву данных, ограниченных для общего пользования и в условиях жесткого дефицита становящихся большим конкурентным преимуществом. Например, Илон Маск с моделью Grok, обучающейся на основе данных Х (бывшего Twitter). Или Марк Цукерберг с Llama 3, которая еще в прошлом поколении задала стандарт качества для open source ИИ. Или Google с целым семейством моделей Gemini. Вероятнее всего, такое положение дел приведет к монополизации рынка искусственного интеллекта.
Нехватка информации уже подталкивает разработчиков к ее покупке у частных владельцев и компаний, не имеющих серьезных амбиций по развитию ИИ. В середине мая 2024 года появилась информация о том, что Reddit сотрудничает с OpenAI для интеграции ChatGPT. Площадка рассматривает продажу контента для обучения моделей ИИ как источник дохода. Также были сообщения о соглашении платформы Reddit с Alphabet (материнская компания Google), разрешающем моделям искусственного интеллекта Google использовать данные Reddit.
Перспективы на будущее
Судя по всему, есть вероятность, что нехватка данных станет препятствием для создания в ближайшие десятилетия так называемого «общего искусственного интеллекта» (AGI, artificial general intelligence), способного выполнять умственную работу на человеческом уровне. Сейчас исследователи переключат внимание на улучшение качества выборок и освоение внутренней информации корпораций, чтобы в условиях жесткой конкуренции не прекращать развитие ИИ. Большие данные станут дорогим товаром. Это поставит информационные корпорации типа Meta, в распоряжении которой публикации и переписки миллиардов людей, в привилегированное положение.
Однако, когда дело касается машинного обучения, важно не только количество, но и качество информации. В частности, недавнее исследование FineWeb Edu показало, что большие языковые модели обучаются значительно эффективнее, если тщательно отобрать данные и отфильтровать низкосортные материалы, даже если объем финальной выборки будет на порядок меньше изначальной. Выяснилось, что особенно ценным для тюнинга оказался именно образовательный контент, а доверить обработку данных можно непосредственно ИИ-алгоритму.
Таким образом, проблема с дефицитом данных для обучения моделей искусственного интеллекта, с одной стороны, создаст рынок приватных выборок, а с другой — вынудит разработчиков прибегать к более тщательному сбору информации и изобретать новые архитектурные решения. Несмотря на неутешительные прогнозы по исчерпанию запасов доступных текстов у рынка еще есть достаточно инструментов, чтобы продолжать совершенствовать и масштабировать текущие алгоритмы в ближайшее десятилетие.