Не добившись заметных успехов в создании программного обеспечения, распознающего речь человека, ученые из университета Карнеги Мэллон пошли другим путем: они создали для этого специальный процессор.
На конференции Hot Chips Роб Рутенбар заявил буквально следующее: "Пришло время освободить распознавание речи от неоправданных ограничений программного обеспечения". Собственно, идея Рутенбара не нова: он напомнил собравшимся, насколько нынче стали популярны специализированные графические процессоры.
Исследователь не ограничился чистой теорией и привел несколько примеров практического применения речевых процессоров. Например, при быстром распознавании речи легко можно будет найти кадр фильма, где герой, роль которого исполняет нынешний губернатор Калифорнии Арнольд Шварценеггер, говорит ставшую знаменитой во всем мире фразу Hasta la vista, baby. Кроме того, малое потребление электроэнергии позволит запихнуть эти процессоры, скажем, в мобильный телефон, что избавит пользователя от постоянного риска вывихнуть большой палец, набирая на клавиатуре SMS.
На конференции прозвучала информация о том, как движется проект In silico vox (Голос в кремнии). Сейчас ученые идут двумя путями к намеченной цели. Первое направление - создание процессора на специализированных интегральных схемах (ASIC), второй - применение вентильных матриц с эксплуатационным программированием (FPGA). Участникам был продемонстрирован фильм, в котором показана разработанная учеными технология, основанная как раз на FPGA, позволяющая распознавать слова из ограниченного словаря в 1000 слов.
Университетская система смогла распознать короткие предложения в два раза быстрее, чем ученые их произносили. И это при том, что точность распознавания не уступала программному обеспечению для распознавания речи Sphinx, которое, кстати, тоже разработали в университете Карнеги Мэллон.
Перспективы, обрисованные Рутенбаром, поистине впечатляют. Специализированный процессор первого поколения будет распознавать речь в два раза быстрее скорости обычной речи (для словаря объемом 5 тыс. слов). Ученые уже сейчас работают над созданием процессора, который будет опережать речь в 10 раз. А где 10 раз, там и 100, и 1000:
Принцип работы процессора для распознавания речи таков. Сначала процессор преобразует звуковой сигнал в комбинацию шумов, которые формируют звуки английской речи. Тут, по словам ученых, окопалась первая проблема. Например, буква "i" в разных английских словах произносится по-разному. Даже в словах "five" и "nine" под влиянием звуков, произносимых до и после, "i" звучит для процессора неодинаково. Только для этой буквы существует более 1000 вариантов звучания.
Далее процессор начинает сравнивать полученные звуки с теми звуками, из которых состоят реальные слова. И потом происходит поиск похожих сочетаний слов, чтобы повысить точность распознавания.