Reddit заключил лицензионное соглашение на 60 миллионов долларов для обучения моделей ИИ Google

С тех пор, как началась гонка ИИ, доступ к большим и качественным наборам данных стал приоритетом.

Модели ИИ обучаются на данных – чем больше данных, на которых они обучены, тем лучше результаты. В дополнение к количеству, важен и аспект качества. Модели ИИ нуждаются в доступе к высококачественным данным, к которым, желательно, не имеют доступа их конкуренты.

И тут на сцену выходят такие издатели, как Reddit.

История использования данных

Долгое время OpenAI и другие компании, работающие с ИИ, свободно использовали данные издателей. Это продолжалось до тех пор, пока такие издания, как The New York Times и Reddit, не обратили на это внимание.

В прошлом апреле Reddit заявили: «Если вы хотите получить доступ к 18-летнему глубокому колодцу данных, вам придется заплатить.»

The NYT, в свою очередь, просто сказали «нет». (И теперь они подали в суд на OpenAI за предполагаемое продолжение использования данных без разрешения.)

Лицензионные соглашения с крупными издателями

Прошел почти год, и Google, Apple и OpenAI уже подписали лицензионные соглашения с крупными издателями на сумму свыше 100 миллионов долларов.

Теперь к ним присоединился Reddit, который якобы подписал соглашение с Google на сумму 60 миллионов долларов в год. Вероятно, это соглашение содержит условие об эксклюзивности, обеспечивающее доступ к данным только для Google, хотя это не подтверждено.

Финансовые успехи Reddit

С приближающимся IPO генеральный директор Reddit Стив Хаффман сообщил, что компания заработала более 200 миллионов долларов на лицензионных соглашениях.

«Обширный и непревзойденный архив реальных, своевременных и актуальных человеческих разговоров на буквально любую тему является бесценным набором данных для различных целей, включая поиск, обучение ИИ и исследовательскую работу,» написал Хаффман в своей регистрации S-1.

Это также будет большим успехом для Google, которая пытается сместить OpenAI с лидерских позиций уже много лет.

Защитные механизмы лицензионных сделок

Некоторые рассматривают лицензионные сделки как беспроигрышную ситуацию: издатели получают оплату за свои данные, в то время как компании, работающие с ИИ, получают доступ к большим и качественным наборам данных.

Однако у этого подхода есть и недостатки. Социальные платформы, такие как Reddit и X, являются форумами сообщества, где пользователи могут писать практически что угодно, включая теории заговора, дезинформацию и риторику ненависти.

Проблемы с качеством данных

И хотя у Reddit есть модераторы контента и правила, запрет на ненавистнические высказывания был введен только спустя 15 лет после основания сайта.

И стоит ли на этом обучать модели ИИ? Компании, работающие с ИИ, могут очищать свои данные, чтобы фильтровать подобный контент, но нет четкого стандарта, на котором строится каждая модель.

Поэтому, как потребитель, я не могу знать, на каких данных были обучены модели и насколько хорошо они были «очищены».