Дом аудио Я слышу мертвых людей? технология естественного языка оживляет голоса прошлого и настоящего

Я слышу мертвых людей? технология естественного языка оживляет голоса прошлого и настоящего

Оглавление:

Anonim

В наши дни большинство компьютерных голосов устарели. Вы, вероятно, не слишком разбираетесь в киборгах и роботах, когда слышите на телефоне «дроида», который помогает вам оплатить счет или спрашивает, какой отдел вы хотите. Но что, если вы вдруг услышали, как Курт Кобейн подталкивает вас к карточной информации? Или Джон Ф. Кеннеди рассказывает о чудесах досрочного голосования? Или Элвис записывает свое имя и адрес, прежде чем превращается в «кусок горящей любви»?


Все это было бы … немного странно, но еще более увлекательно то, что технология в основном уже здесь. Всего десять лет назад мы были поражены способностью компьютера вообще говорить. Теперь нас ждёт свободный выбор, сгенерированные компьютером голоса, которые звучат так же, как люди, которых мы знаем.

Большие перемены в НЛП

Если вы обращаете внимание на область обработки естественного языка (NLP), вы, возможно, слышали о некоторых недавних достижениях, которые выходят за рамки видов голосовых подсказок виртуального помощника, которые мы сейчас слышим в наших глобальных системах позиционирования (GPS) и автоматизированном бизнесе. телефонные линии


Начало НЛП потребовало много исследований в области общей механики человеческой речи. Исследователи и инженеры должны были идентифицировать отдельные фонетики, объединить их в более совершенные алгоритмы для создания фраз и предложений, а затем попытаться управлять всем этим на мета-уровне, чтобы создать нечто, звучащее реальное. Со временем лидеры НЛП освоили это и начали создавать передовые алгоритмы, чтобы понять, что говорят люди. Собрав воедино эти две компании, компании придумали драйверы для сегодняшних виртуальных помощников и полностью цифровых клерков по оплате счетов, чьи манеры поведения, хотя и раздражают, по-прежнему удивительны, когда вы перестаете думать о работе, которая в них работала.


Теперь некоторые компании выходят за рамки общего виртуального голоса, чтобы собрать более конкретный персонализированный результат. Это требует прохождения лексики конкретного человека и сбора большого количества уникального голосового видео, а затем применения этого архива к сложным ритмам для фонетики, акцента, каденции и всех других крошечных сигналов, которые лингвисты часто группируют под широким знаменем «просодии».


Получается голос, который слушатели считают «принадлежащим» конкретному человеку - либо тому, с кем он знаком и с которым разговаривал, либо тому, чей голос они узнают в результате известности этого человека.


От Элвиса до Мартина Лютера Кинга любой голос может быть теперь «клонирован» таким образом - при условии существенной записи его речи. Применяя даже более подробный анализ и манипулирование отдельными мелкими звуками, компании могут сделать виртуальную точную копию чьего-то голоса, которая звучит очень похоже на настоящую.

Захватывающие творения "Text to Voice" в VivoText

VivoText, например, является одной компанией, которая работает над революцией в использовании искусственных человеческих голосов для всех видов кампаний, от аудиокниг до интерактивного голосового ответа (IVR). В VivoText исследовательские и производственные группы работают над процессами, которые теоретически могли бы точно копировать голоса умерших знаменитостей, таких как сам Ол Голубые Глаза.


«Чтобы клонировать голос Фрэнка Синатры, мы бы на самом деле изучили его записанное наследие», - говорит генеральный директор VivoText Гершон Сильберт, говоря о том, как эта технология может работать.


Прямо сейчас VivoText работает над архивированием голосов тех, кто все еще с нами, таких как корреспондент NPR Нил Конан, который подписался в качестве образца для такого рода проекта IT-пионера. Рекламный ролик показывает, как работники VivoText кропотливо создают модули фонетического кода, используя предоставленный голосовой ввод от Конана. Затем они создают модели для инструментов преобразования текста в речь (TTS), которые вызывают исключительно человеческий и персонифицированный результат.


По словам Бена Фейблмана, вице-президента по стратегии и развитию бизнеса в VivoText, компьютер работает на уровне фонем (используя мельчайшие уникальные части речи), чтобы соответствовать просодической модели для индивидуального человеческого голоса.


«Он знает, как говорит голос», - говорит Фейблман, добавляя, что, используя «выбор единиц измерения», компьютер выбирает несколько частей, чтобы объединить одно короткое слово, например, когда слово «пятница» содержит пять компонентов, которые помогают развиваться. Особый акцент и тональный результат.

Искусственный голос в маркетинге

Итак, как это работает в маркетинге? Продукты VivoText могут быть чрезвычайно полезны при создании продуктов, таких как аудиокниги, которые могут достичь целевой аудитории. Например, насколько эффективнее был бы голос Элвиса по сравнению с одним из современных универсальных автоматических голосов, если бы он использовался для продажи продуктов, связанных с развлечениями?


Или как в политике? Feibleman работал над различными идеями для использования подобных проектов для улучшения маркетинга для компаний или других сторон, которым требуется более эффективный обмен сообщениями.


«Если вы знаете каких-либо политиков, баллотирующихся в президенты, то это может привести к тому, что 10 миллионов избирателей в свинг-государствах получат персональный звонок от кандидата, который поблагодарит их за поддержку, сообщит, куда им нужно идти, чтобы проголосовать, погоду и все ночь перед выборами ", сказал Фейблман.

Ваш голос живет на

Существует еще одно очевидное применение ко всей этой технологии. Компании на естественном языке, такие как VivoText, могут создать персональный сервис, который будет загружать все голосовые данные клиента в продукт, который позволит этому человеку «говорить вечно».


Практическая реализация, вероятно, вызовет ряд вопросов о том, как мы слышим и усваиваем устные голоса. Например, что нужно для того, чтобы звуковой поток звучал точно так же, как у кого-то? Насколько хорошо мы должны знать человека, чтобы узнать определенный голос? И, что интересно, что произойдет, если служба на естественном языке производит грубую карикатуру, а не убедительную мимику?


Оценка результатов, говорит Фейблман, часто зависит от контекста. Например, он говорит, что дети обычно не задают вопросов о том, кто говорит, когда они слушают рассказ. Они просто хотят большего. Но также многие взрослые могут не задумываться о том, кто с ними разговаривает, учитывая конкретный сценарий, такой как пассивная трансляция или телефонное сообщение. Кроме того, легче обмануть компьютер по телефону, потому что приглушенный звук может маскировать сбои или другие несоответствия между результатами компьютера и человеческим голосом.


«Вам не приходит в голову оспаривать подлинность голоса», - говорит Фейблман.

В 2525 году

По мере того, как компании продвигаются вперед в разработке продуктов и услуг и отвечают на эти вопросы, технологии «живой речи» могут продвинуть нас к тому сближению технологий и человеческого разума, которое классически называют искусственным интеллектом (ИИ).


Если компьютеры могут говорить как мы, они могут обмануть других пользователей, заставляя их думать, что они думают так же, как и мы, опираясь на более широкий принцип единственности, который ввел в наш лексикон Джон фон Нейман, пионер технологии 1950-х годов, проповедуемый авторами и мыслители, как Рэй Курцвейл. Книга Курцвейла 2005 года «Сингулярность близка» волнует одних и пугает других. Курцвейл предсказал, что к 2045 году «интеллект» как явление станет сильно оторванным от человеческого мозга и перейдет в технологии, размывая границы между машинами и их хозяевами.


Увековечен в лирике Zager & Evans "In the 2525" (никто не делает таких жутких научно-фантастических баллад, как эти парни)…


В 4545 году

Тебе не понадобятся твои зубы, не понадобятся

твои глаза

Вы не найдете вещь, чтобы жевать

Никто не будет смотреть на тебя


В 5555 году

Твои руки болтаются по бокам

Твои ноги ничего не делают

Какая-то машина делает это для тебя


Являются ли компьютерные голоса шагом в этом направлении? Как новый способ передать некоторые функции человеческого тела (или, более часто, чтобы имитировать их), этот вид технического прогресса является одним из самых больших - и, вероятно, недооцененных - достижений на горизонте, когда мы смотрим в единственное будущее, (о «необычности» в «Компьютеры будут способны подражать человеческому разуму?»)

Я слышу мертвых людей? технология естественного языка оживляет голоса прошлого и настоящего