Microsoft: языковому барьеру – конец
Сегодня Microsoft опубликовала видео, в котором глава исследовательского отдела компании Рик Рашид демонстрирует технологию, позволяющую человеку разговаривать на чужом, незнакомом языке так же, как на своем собственном.
![]() |
Рик Рашид |
Сегодня Microsoft опубликовала видео, в котором глава исследовательского отдела компании Рик Рашид демонстрирует технологию, позволяющую человеку разговаривать на чужом, незнакомом языке так же, как на своем собственном.
Сначала докладчик показывает, как была улучшена технология распознавания и транскрибирования самой речи. Рик Рашид произносит слова, и с незначительной задержкой программа переводит их в текст. Надо сказать, результаты довольно впечатляющие. Задержка составляет одну-две секунды. Точность попадания вообще удивительная.
Несмотря на бурный прогресс компьютерных технологий, до недавнего времени процент ошибок в распознавании речи все равно был довольно велик. Рашид рассказал, что новые результаты были достигнуты благодаря технологии Deep Neural Network, разработанной в Университете Торонто. Не вдаваясь в подробности, он сказал, что для понимания речи исследователи попытались воспроизвести принцип работы нейронных сетей мозга. Видимо, удалось.
Это, между прочим, значит, что проблема перевода речи в текст уже скоро исчезнет вовсе, а вслед за этим начнет, вероятно, и отмирать навык быстрой печати и скорописи. Но речь не об этом.
Дальше Рашид переходит собственно к машинному переводу, который уже сейчас работает на довольно неплохом уровне, и нахваливает майкрософтовский Bing Translator. Он, говорит, работает в два этапа, сначала речь переводится буквально, а потом программа пытается понять смысл и пересказать на другом языке грамматически правильно. Это, конечно, можно сказать и про другие электронные переводчики, и главная проблема электронного перевода в том, что со смыслом у машины пока проблемы. Человек, который найдет и опишет алгоритм универсальной грамматики, станет, наверное, главным героем десятилетия. Однако, благодаря современным системам сбора и анализа лингвистических данных, компьютерный перевод, скажем, с английского на китайский уже действительно неплохо работает.
Это все понятные вещи, и даже третья составляющая – синтезатор речи с голосом конкретного человека – тоже уже не выглядит фантастикой, но в исследовательском отделе Microsoft разработали прототип программы, которая синтезирует твой голос на другом языке. В данном случае было использовано несколько часов записи с образцами китайского произношения и час записи самого Рашида.
Все вроде понятно: складываем распознавание речи, электронный перевод, синтезатор речи – но то, что происходит на восьмой минуте записи, иначе как волшебством не назовешь. Рашид произносит фразу на английском языке, и с небольшой задержкой аудитория слышит его же, говорящим по-китайски.