Искусственный интеллект теперь может копировать ваш голос: преимущества и опасность технологии

2019.05.11 | 12:05

Автор

Для копирования голоса требуется всего 3,7 секунды звука. Этот впечатляющий и немного тревожный подвиг был объявлен китайским технологическим гигантом Baidu. Год назад инструменту копирования голоса Deep Voice потребовалось 30 минут звука, чтобы сделать то же самое. Это показывает, насколько быстро развивается технология создания искусственных голосов. За короткое время возможности генерации голоса AI расширились и стали более реалистичными, что облегчает неправильное использование технологии.

 

Возможности генерации голоса AI

 

Как и все алгоритмы искусственного интеллекта, чем больше инструментов голосового клонирования данных, таких как Deep Voice, получают для тренировки с более реалистичными результатами. Когда вы слушаете несколько примеров клонирования, становится легче оценить широту возможностей этой технологии, включая возможность менять пол голоса, а также изменять акценты и стили речи.

 

Google представил Tacotron 2, систему преобразования текста в речь, которая использует глубокие нейронные сети и метод генерации речи WaveNet. WaveNet анализирует визуальное представление звука, называемое спектрограммой, для генерации звука. Он используется для генерации голоса для Google Assistant. Эта итерация технологии настолько хороша. Почти невозможно сказать, что человеческий голос сгенерирован. Алгоритм научился произносить сложные слова и имена, которые были бы контрольным знаком машины, а также как лучше произносить слова.

 

Эти достижения в технологии генерации голоса Google позволили Google Assistant предлагать знаменитостей. Голос Джона Легенда теперь доступен на любом устройстве в США с Google Assistant, например, на Google Home, Google Home Hub и смартфонах. Голос певца будет отвечать только на некоторые вопросы, такие как «Какая погода» и «Как далеко находится луна», и он может петь с днем ​​рождения по команде. Google ожидает, что у нас скоро будет больше знаменитостей на выбор.

 

Еще один пример того, насколько точной стала технология, модель искусственного интеллекта Джордана Петерсона (автора 12 Правил жизни) звучит так же, как он стучит в песню Эминема "Lose Yourself". Создатель алгоритма ИИ использовал всего шесть часов разговоров Петерсона (взятых из его легко доступных записей в Интернете), чтобы обучить алгоритму машинного обучения создавать аудио. Он снимает короткие аудиоклипы и учится синтезировать речь в стиле динамика. Послушайте, и вы увидите, насколько успешно это было.

 

ЧИТАЙТЕ ТАК ЖЕ:  Проблемы технологического перехода: влияние автоматизации на рынок труда

 

Эта передовая технология открывает двери для таких компаний, как Lyrebird, для предоставления новых услуг и продуктов. Lyrebird использует искусственный интеллект для создания голосов для чат-ботов, аудиокниг, видеоигр, программ для чтения текста и многого другого. На своем веб-сайте они признают, что «с большими инновациями сопряжена большая ответственность», подчеркивая важность того, чтобы пионеры этой технологии проявили большую осторожность, чтобы избежать ее неправильного использования.

 

Как эта технология может быть использована неправильно

 

Подобно другим новым технологиям, искусственный голос может иметь много преимуществ, но также может быть использован и для введения людей в заблуждение. По мере того, как алгоритмы ИИ становятся лучше, и становится трудно различить, что реально, а что искусственно, появится больше возможностей использовать его для фальсификации правды.

 

Согласно исследованиям , наш мозг не регистрирует существенных различий между реальными и искусственными голосами. На самом деле, нашему мозгу труднее различить ложные голоса, чем обнаруживать поддельные изображения.

 

Теперь, когда этим системам ИИ требуется лишь небольшое количество звука для обучения, чтобы создать жизнеспособный искусственный голос, который имитирует стиль речи и тон человека, увеличивается вероятность злоупотреблений. До сих пор исследователи не смогли выявить нейронное различие между тем, как мозг может различить реальное и фальшивое. Подумайте, как искусственные голоса могут использоваться в интервью, новостном сегменте или пресс-конференции, чтобы заставить слушателей поверить, что они слушают авторитетную фигуру в правительстве или генерального директора компании.

 

Повышение осведомленности о том, что эта технология существует и насколько она сложна, станет первым шагом к тому, чтобы уберечь слушателей от искусственного голоса, когда их вводят в заблуждение. Настоящий страх состоит в том, что люди могут быть обмануты, чтобы действовать на что-то, что является фальшивкой, потому что это звучит так, будто это исходит от кого-то реального. Некоторые люди пытаются найти техническое решение, чтобы защитить нас. Однако техническое решение не будет на 100% надежным. Наша способность критически оценивать ситуацию, оценивать источник информации и проверять ее достоверность будет становиться все более важной.

Теги

Оставить комментарий