Что означает ‘публично доступные’ данные для обучения для компаний ИИ?

Несколько дней назад Google выпустил предупреждение для OpenAI, запрещая использовать данные YouTube для обучения моделей.

Однако вскоре The NYT сообщила, что OpenAI, Meta и Google проигнорировали эти правила.

Это обычно расплывчатый ответ о “публично доступных данных”. В интервью The Wall Street Journal технический директор OpenAI Мира Мурати сказала, что она “не уверена”, использовались ли данные с YouTube для обучения. Это как если бы повар сказал, что он не знает, что в блюде.

На дальнейшие вопросы она ответила, что “это были публично доступные данные или лицензированные данные.” Но если ответ так прост, почему компании ИИ всегда уклоняются?

Сложности с добросовестным использованием

Эд Ньютон-Рекс, который возглавлял аудиокоманду Stability AI, ушел в отставку, не согласившись с мнением компании о том, что обучение на защищенных авторским правом произведениях является “добросовестным использованием.”

Издательства, такие как The New York Times, имеют условия, которые запрещают использование их контента для обучения. Однако без федерального закона это условие трудно обеспечить.

Правовые и этические вопросы

NYT подала иск против OpenAI, присоединившись к авторам и комикам, которые также требуют защиты авторских прав. OpenAI утверждает, что всегда использует публично доступный и лицензированный контент.

Рекс говорит, что термин “публично доступный” запутывает, так как он не означает разрешение на использование.

Сбор данных в условиях конкуренции

Крупные игроки ИИ избегают прямого сбора данных для обучения. Недавние документы показывают, что Meta обсуждала незаконные способы получения данных.

Google и OpenAI также участвовали в сомнительных процессах сбора данных, чтобы оставаться конкурентоспособными в гонке ИИ.

Ответные меры создателей

Создатели выбирают путь судебных исков, но это нелегкий процесс. Недавние отказы судов создают сложные прецеденты для защиты авторских прав.

В ближайшие месяцы и годы мы увидим важные судебные дела и законодательные акты, определяющие, как создатели будут защищать свои работы и как компании ИИ будут собирать данные.