Это компания, занимающаяся синтезом речи на основе искусственного интеллекта, основанная в 2022 году бывшим сотрудником Google. С момента запуска, ElevenLabs стала одним из лучших и самых популярных генераторов текста в речь. Предлагая как бесплатные, так и платные функции, программное обеспечение позволяет пользователям генерировать естественно звучащую речь, создавать кастомные AI голоса и клонировать свои собственные. После выхода из бета-версии в августе, инструмент может определять текст и воспроизводить речь на более чем 25 языках, обновив свою модель глубокого обучения.
Что это за последнее обновление продукта?
Теперь у ElevenLabs есть новая функция дубляжа, которая позволяет пользователям воспроизводить аудио с одного языка на 28 других, сохраняющую голос и речевые паттерны говорящего. «Выпуск AI Dubbing — это наш самый большой шаг к устранению языковых барьеров контента,» сказал генеральный директор Мати Станишевски. «Это поможет аудиториям наслаждаться любым контентом, вне зависимости от того, на каком языке они говорят.»
Пользователи могут либо загрузить аудиофайл голоса, который они хотят дублировать, либо поделиться ссылкой на него в социальных сетях. Одним из опасений здесь является риск злоупотребления, так как любой может воспроизвести чужой голос. Этот инструмент может усугубить проблемы, которые мы наблюдаем с дипфейками, и ElevenLabs тестирует решения с момента своего запуска, включая ограничение доступа к продукту платными пользователями и инвестирование в системы обнаружения дипфейков.
Безумный уик-энд — спасибо всем, кто пробовал нашу бета-платформу. Хотя мы видим, что наша технология в подавляющем большинстве применяется для позитивного использования, мы также наблюдаем растущее число случаев злоупотребления голосовым клонированием. Мы хотим обратиться к сообществу Twitter за отзывами и мыслями!
Сравнение с Spotify
Spotify недавно объявила о похожем пилоте, но для подкастов. Они сотрудничали с OpenAI для перевода подкастов на другие языки. Пока это недоступно всем подкастерам, но возможно, что это будет внедрено в ближайшие месяцы. Для брендов дублирование голоса имеет огромную привлекательность: Локализация становится быстрее, легче и дешевле.
Насколько хорош дубляж голоса?
Как носитель французского языка, я хотел протестировать новую функцию ElevenLabs и посмотреть, насколько хорошо она справляется с:
- Точным переводом контента.
- Сохранением моего голоса.
- Созданием естественного звучания перевода, а не роботоподобного.
Они почти достигли двух из трех пунктов, и результаты впечатляют – но далеки от идеала. Сначала я был поражен, как быстро была создана новая версия. За несколько минут я мог послушать себя, говорящего на совершенно новом языке. Программное обеспечение хорошо перевело то, что я сказал, как с английского на французский, так и с французского на английский. И оно довольно хорошо справилось с клонированием голоса.
Проблемы с естественным звучанием
Где инструмент действительно подводит, так это в создании естественного звучания. В клипе ниже, мой речевой паттерн, особенно интонация, мягко говоря, нехорош. Также, откуда взялся этот акцент? В моих тестах это не было консистентным. Хотя вы можете выбрать язык, вы не можете сузить регион, откуда вы, что может привести к смешению акцентов.
В одном тесте, не представленном здесь, мой AI-сгенерированный голос сначала звучал так, будто я из Квебека, а на полпути я зазвучал парижанином. Когда программное обеспечение затрудняется понять слова или звуки, оно либо повторяет слово на исходном языке, либо производит полную ерунду с надеждой, что никто не заметит.
Вот пример, где я использовал аудио из этого видео на YouTube от HubSpot и дублировал голос Джамала на французский. Даже если вы не говорите по-французски, вы заметите около 11 секунд, что голос меняется, есть наложение с другим голосом, и в конце это просто бессмыслица с французским акцентом. Это может быть потому, что это было не чистое аудио, в заднем плане видео была музыка и звуковые эффекты. Это, вероятно, усложнило инструменту распознавание некоторых слов.
Перспективы
Хотя есть много места для улучшений, новый инструмент дубляжа от ElevenLabs довольно крут. Они в основном справляются с точностью перевода, теперь вопрос в улучшении голоса. Почему это важно? Ну, дни просмотра плохо дублированных телешоу и фильмов могут быть позади. Большой плюс, который нельзя игнорировать.
С точки зрения бизнеса, эта новая эра клонирования и дубляжа голосов может изменить то, как компании продвигают себя и как они подходят к локализации. Когда язык больше не является барьером, возможности открываются значительно. Для бизнеса с ограниченными ресурсами, такой инструмент может помочь достичь рынков, которые ранее были недоступны.