Дом Програмное обеспечение Технология распознавания голоса: полезно или больно?

Технология распознавания голоса: полезно или больно?

Оглавление:

Anonim

Вы когда-нибудь звонили в компанию, чтобы получить некоторую помощь или оплатить счет, только чтобы вас встретил приятный записанный голос, который хочет поговорить с вами - но не может понять половину того, что вы говорите? Или, может быть, у вас есть iPhone, и хотя Сири впервые казалась хорошим союзником, вы поняли, что иногда (хорошо, давайте будем честными, часто) она просто не получает его? Технология распознавания голоса (VRT), также известная как преобразование речи в текст, попадает в общую ловушку: она может быть невероятно крутой (и, черт возьми, мы болеем за нее), но чаще всего это скрежетание зубами упражнение в отчаянии.


Когда-то идея, которая принадлежала к сфере научной фантастики, распознавание голоса выросло с младенчества в 1950-х годах, когда система Bell Laboratories Audrey была разработана для распознавания цифр, произносимых одним голосом, в современной сети диалоговой электроники, с которой мы теперь взаимодействуем. ежедневно - со смешанными результатами.

Чтобы поговорить с человеком, пожалуйста, нажмите 0

Многие из современных предприятий сейчас используют системы, называемые интерактивным голосовым ответом (IVR), для обработки вызовов обслуживания клиентов. Наиболее распространенное использование для голосовых меню, но некоторые компании используют системы IVR, которые могут получить доступ к информации учетной записи клиента и ответить на второстепенные вопросы. Программное обеспечение Menu IVR обычно имеет ограниченный словарный запас, который может быть ограничен «да», «нет» и цифрами. Более сложные системы могут распознавать специфические для компании слова и фразы.


Эти системы становятся все более популярными - по крайней мере, для бизнеса - по простой причине: они рентабельны. Согласно отчету Wall Street Journal за 2010 год, типичный звонок клиента, который приходит к агенту, стоит от 3 до 9 долларов, в то время как звонок, обрабатываемый через автоматизированную систему, стоит всего пять-семь центов. И, конечно же, компьютерные программы не устают, не болеют и не разочаровываются в клиентах (хотя клиенты наверняка разочаровываются в них!).


К счастью, это не всегда означает, что IVR отнимает у людей работу - или, по крайней мере, все люди исчезают из колл-центров. Эти голосовые помощники позволяют представителям службы поддержки клиентов быть более продуктивными, направляя звонки и отвечая на простые вопросы.


Конечно, для пользователей, которые взаимодействуют с этими технологиями, плавание не всегда гладко. Технология помогает улучшить общие проблемы в технологии IVR, такие как проблемы с акцентами, но увольнение автоматизированных систем все еще является распространенной темой в Интернете. Посмотрите эту комедийную сценку о лифте, оборудованном функцией распознавания голоса, которая подчеркивает разочарование, которое могут вызывать неисправности в системах IVR.

Приложения для персональных телефонов: Siri, Google Now

Большинство людей знакомы с распознаванием голоса для смартфонов. Хотя большинство последних моделей телефонов поставляются с VR, их популярность и известность возросли, когда Apple представила Siri, мягко саркастического, голосового «личного помощника» для iPhone 4S в 2011 году. Google вскоре создал прямого конкурента: Google Теперь для Android Jelly Bean OS. Обе системы имеют женские голоса и сложные функции распознавания, которые позволяют пользователям «разговаривать» со своими телефонами, используя небрежный язык.


Но хотя эти системы значительно более сложные и функциональные, чем их предшественники, они также показывают, что технологии еще предстоит пройти долгий путь. Шутки о провале Siri стали популярным интернет-мемом. Один человек даже подал в суд на Apple за ложную рекламу о возможностях Сири.


Возможно, именно поэтому Apple создала Siri, чтобы быть продвинутой и информативной, программное обеспечение для виртуальной реальности также немного нахально. Например, если вы говорите об одной из самых печально известных линий разведывательных технологий в истории кино из фильма 1968 года «2001: Космическая одиссея» - «откройте двери отсека для капсул» - Сири ответит либо ответной строкой из фильма ». Извините (ваше имя), я боюсь, что я не могу этого сделать, или, что более саркастично, мы, разведчики, никогда не переживем это, по-видимому.


Обзывать вас по имени - это только одна из функций, которая пытается сделать Сири легче любить и сделать ее немного человечнее. Помощник по виртуальной реальности может выполнять голосовые команды, чтобы совершать звонки, диктовать и отправлять тексты, выполнять поиск информации в Интернете, находить близлежащие магазины, указывать маршруты и многое другое, и все это без необходимости что-либо трогать. Ответы одновременно произносятся по телефону и отображаются на экране.


Google Now, виртуальная часть платформы Android Jelly Bean, очень похожа на Siri. Система предлагает такие же широкие возможности распознавания, переводя обычную речь в команды, которые позволяют пользователям совершать звонки, отправлять тексты, выполнять поиск, выполнять вычисления и преобразования, захватывать определения слов, устанавливать сигналы тревоги, воспроизводить песни и получать карты и указания.


С личными голосовыми помощниками, такими как Siri и Google Now, преимущества очевидны. Все от звонков и текстовых сообщений до поиска и развлечений быстрее и проще. Просто скажите, что вы хотите, и (в большинстве случаев) приложение VR захватит это для вас. Технология виртуальной реальности особенно полезна во время вождения. И хотя многие люди осуждали недостатки Siri, а авторы утверждали, что способность Google Now по сути управлять жизнями пользователей выглядит пугающе немного оскорбительно, большинство людей все еще чувствуют, что эти футуристические технологии довольно крутые.


Конечно, приложения для персональных телефонов, такие как Siri и Google Now, далеки от совершенства, хотя и показывают, куда эта технология может двигаться в будущем. Это означает, что даже когда Сири дает неправильный ответ, мы можем смеяться и прощать ее, зная, что следующая версия будет намного лучше.

Где VR падает плоский

Если вы когда-либо сталкивались с IVR, когда звонили в бизнес, возможно, вы заметили определенные препятствия для общения. Некоторые программы используют роботизированный текст в речь, который неправильно произносит слова и затрудняет понимание. Другие имеют проблемы с чувствительностью, которые приводят к тому, что программное обеспечение не может обработать то, что вы говорите, если вы слишком громко, слишком тихо или не произносите внимательно.


Кроме того, многие люди все еще не чувствуют себя комфортно, разговаривая с машиной. Если вы выполните несколько поисков по IVR, вы увидите списки, которые люди собрали вместе, чтобы обойти системы IVR и добраться до «реального человека». Это решение варьируется от «продолжайте нажимать 0 для оператора» до «ругайтесь на машину, пока она не заберет человека». В результате большая часть последних разработок в системах IVR вращалась вокруг того, чтобы сделать их более приемлемыми для человека; сделать голоса более отзывчивыми и менее роботизированными, упростить навигацию в системе и дать звонящим возможность узнать, сколько времени займет весь процесс от начала до конца. Это говорит о том, что лучшие технологии - это только полдела; другая половина получает пользователей на борту с разговором с машиной.

Что держит будущее

Несмотря на эти проблемы, технология распознавания голоса постоянно совершенствуется. Такие приложения, как Siri и Google Now - недостатки и все - все еще чрезвычайно впечатляют своей производительностью, и несколько компаний расширяют возможности VR для других приложений.


Например, Nuance, создатель программного обеспечения для преобразования речи в текст Dragon NaturallySpeaking, уже разработал голосовое управление для телевизоров и автомобилей, и версии этой технологии встроены в некоторые телевизоры Samsung и развлекательные системы SYNC, используемые в некоторых автомобилях Ford.


И поскольку Google и Apple продолжают находить новые применения для своих технологий распознавания голоса, вполне вероятно, что мы будем все чаще разговаривать со всеми видами бытовых машин, от наших телевизоров до наших тостеров. И, опять же, похоже, что научная фантастика была права. Нам остается только надеяться, что эти умные писатели ошиблись в одном. Если эти машины вступят во владение, у вас могут возникнуть большие проблемы в следующий раз, когда вы попросите Сири «открыть двери отсека для капсул».

Технология распознавания голоса: полезно или больно?