Дом аудио В чем разница между речью в текст и чат-ботами?

В чем разница между речью в текст и чат-ботами?

Anonim

Q:

В чем разница между речью в текст и чат-ботами?

A:

Многочисленные существенные различия между технологиями преобразования речи в текст и чат-ботами являются частью того, что изучается в процессе быстрой эволюции проектов чат-ботов и голосовых ботов.

Технология преобразования речи в текст - это просто технология преобразования устной речи в текст на цифровой странице. Это его полная функция, но она не так проста для разработки. Чтобы преобразовать словесную речь в текст, технология должна разбивать слова и предложения на отдельные фонемы и работать с ними в соответствии со сложными алгоритмами, чтобы создать точный текст, отражающий слова говорящего.

Чатботы, с другой стороны, являются технологиями, которые достигают цели общения с человеком. Существует два типа чат-ботов: текстовые и голосовые. Текстовые чат-боты существуют намного дольше, потому что им не нужен элемент преобразования речи в текст, который используют голосовые роботы.

Основное различие между технологиями преобразования речи в текст и чат-ботами заключается в объеме. Как уже упоминалось, все технологии преобразования речи в текст должны транскрибировать речевую речь. Чатбот, с другой стороны, должен произносить речь в любой форме, для которой он предназначен, понимать ее и предоставлять ответы, которые стремятся пройти тест Тьюринга - тест того, может ли технология обмануть человека, заставляя его думать, что он или она является говорить с другим человеком.

Имея это в виду, чат-ботов гораздо проще создавать, чем голосовых. Чатбот принимает текст человека и предоставляет текстовый ответ. Даже относительно простые чат-боты были в состоянии обеспечить интересные и приятные результаты для людей с конца 1980-х и начала 1990-х годов.

Голосовой бот, с другой стороны, должен воспринимать устную речь, преобразовывать ее в текст, проверять ее точность, создавать ответ и преобразовывать этот ответ из машинного языка в слышимую речь. Это большое количество довольно значительных задач означает, что голосовой бот требует много вычислительной мощности и много дизайна для сборки.

Такие проекты, как Siri, Cortana и Alexa, демонстрируют часть авангарда технологий VoiceBot. Они также иллюстрируют, что эта технология все еще находится в зачаточном состоянии. Хотя Alexa и другие технологии могут устно реагировать на человеческую речь, они не обладают исключительной способностью в том смысле, в каком мы общаемся с устной человеческой речью в целом. Другими словами, есть некоторые ограничения в ответах, которые могут обеспечить эти технологии. У сегодняшнего поколения личных помощников есть даже ограниченная способность действительно создавать речь в текст, например, для переписывания электронной почты или помощи кому-либо в написании эссе, не используя их руки. Некоторые из имеющихся на рынке программ преобразования речи в текст делают это лучше, чем Siri или Cortana, возможно, из-за распределения ресурсов. Тем не менее, есть признаки того, что прогресс голосовых ботов скоро будет запущен - например, платформа Amazon Amazon, которая позволяет студийной среде создавать такие технологии.

В умном и поучительном эссе по этому вопросу Тобиас Гебель рассказывает о разнице между этими технологиями, противопоставляя процесс «расшифровки», который выполняет речь, и работу по пониманию, которую должны делать чат-боты.

«Хотя устранение необходимости в распознавании речи действительно облегчает работу чат-бота, основная задача создания функционирующих ботов заключается в понимании естественного языка», - пишет Гебель.

Гебель также идентифицирует многих действующих игроков в отрасли:

Лидером рынка по распознаванию речи является Nuance, который стоит за такими известными системами, как Dragon NaturallySpeaking для диктовки на ПК, которая существует примерно с девяностых, но также и Siri: задача распознавания / транскрипции речи, выполняемая в облаке Apple, использует Нюанс технологии за кадром. Другими являются LumenVox, Verbio или Interactions, но распознавание речи теперь также предлагается в виде облачной службы через API такими компаниями, как Amazon, Google, Microsoft и IBM.

По мере развития чат-ботов предполагается, что их понимание будет продолжать расти по некоторой траектории - и также в значительной степени предполагается, что больше технологий ботов перейдут от текстовых интерфейсов к вербальным интерфейсам, что потребует дополнительных вычислительных мощностей.

В чем разница между речью в текст и чат-ботами?