С тех пор, как началась гонка ИИ, доступ к большим и качественным наборам данных стал приоритетом.
Модели ИИ обучаются на данных – чем больше данных, на которых они обучены, тем лучше результаты. В дополнение к количеству, важен и аспект качества. Модели ИИ нуждаются в доступе к высококачественным данным, к которым, желательно, не имеют доступа их конкуренты.
И тут на сцену выходят такие издатели, как Reddit.
История использования данных
Долгое время OpenAI и другие компании, работающие с ИИ, свободно использовали данные издателей. Это продолжалось до тех пор, пока такие издания, как The New York Times и Reddit, не обратили на это внимание.
В прошлом апреле Reddit заявили: «Если вы хотите получить доступ к 18-летнему глубокому колодцу данных, вам придется заплатить.»
The NYT, в свою очередь, просто сказали «нет». (И теперь они подали в суд на OpenAI за предполагаемое продолжение использования данных без разрешения.)
Лицензионные соглашения с крупными издателями
Прошел почти год, и Google, Apple и OpenAI уже подписали лицензионные соглашения с крупными издателями на сумму свыше 100 миллионов долларов.
Теперь к ним присоединился Reddit, который якобы подписал соглашение с Google на сумму 60 миллионов долларов в год. Вероятно, это соглашение содержит условие об эксклюзивности, обеспечивающее доступ к данным только для Google, хотя это не подтверждено.
Финансовые успехи Reddit
С приближающимся IPO генеральный директор Reddit Стив Хаффман сообщил, что компания заработала более 200 миллионов долларов на лицензионных соглашениях.
«Обширный и непревзойденный архив реальных, своевременных и актуальных человеческих разговоров на буквально любую тему является бесценным набором данных для различных целей, включая поиск, обучение ИИ и исследовательскую работу,» написал Хаффман в своей регистрации S-1.
Это также будет большим успехом для Google, которая пытается сместить OpenAI с лидерских позиций уже много лет.
Защитные механизмы лицензионных сделок
Некоторые рассматривают лицензионные сделки как беспроигрышную ситуацию: издатели получают оплату за свои данные, в то время как компании, работающие с ИИ, получают доступ к большим и качественным наборам данных.
Однако у этого подхода есть и недостатки. Социальные платформы, такие как Reddit и X, являются форумами сообщества, где пользователи могут писать практически что угодно, включая теории заговора, дезинформацию и риторику ненависти.
Проблемы с качеством данных
И хотя у Reddit есть модераторы контента и правила, запрет на ненавистнические высказывания был введен только спустя 15 лет после основания сайта.
И стоит ли на этом обучать модели ИИ? Компании, работающие с ИИ, могут очищать свои данные, чтобы фильтровать подобный контент, но нет четкого стандарта, на котором строится каждая модель.
Поэтому, как потребитель, я не могу знать, на каких данных были обучены модели и насколько хорошо они были «очищены».