Люди, чaстo пoсeщaющиe рaзличныe приeмы и вeчeринки, знaют, чтo трeбуeтся нe oчeнь бoльшoe кoличeствo внимaния для тoгo, чтoбы былo мoжнo скoнцeнтрирoвaться нa рeчи eдинствeннoгo чeлoвeкa, гoвoрящeгo в помещении, заполненном негромкой речью большого количества находящихся там людей. Всю сложнейшую работу по выделению речи интересующего нас собеседника берет на себя наш мозг, но когда дело касается технологий автоматического выделения речи одного человека из общего шума, то результаты работы таких технологий оставляют желать намного лучшего.
Прорыв в этой области удалось совершить специалистам японской компании Mitsubishi Electric. На мероприятии R&D Open House, которое состоялось в Токио 24 мая, вниманию общественности была представлена новая технология разделения и распознавания речи. Эта технология смогла успешно разделить речь двух человек, говорящих в один микрофон одно и то же предложение на разных языках. Работа системы разделения производилась практически в режиме реального времени, при этом, задержка не превышала 3 секунд. Точность разделения речи составила 90 процентов. Но когда в микрофон начали говорить одновременно уже три человека, точность разделения речи снизилась до 80 процентов.
Данные испытания работы системы разделения речи проводились в идеальных условиях, в помещении с хорошей звукоизоляцией при условии соблюдении тишины со стороны других присутствовавших там людей. Но и в данном случае новая система показала высочайшие результаты, точность работы других подобных систем в таких же условиях не превышает 50 процентов.
Столь высокая точность разделения речи была получена за счет использования технологии Deep Clustering, одной из разновидностей технологии глубинного машинного изучения, являющейся основой большинства существующих систем искусственного интеллекта. Сначала система прошла «курс» обучения, исследовав самостоятельно, как можно выделять речь одного человека из потока «смешанных» аудиоданных. Нейронная сеть, лежащая в основе созданной системы, разбивает речевые сообщения на примитивные элементы, основываясь на данных о высоте голоса говорящего человека, интонации и т.п. Затем специальный алгоритм сортировки выбирает из общего массива элементы, имеющие общие черты и заново формирует из них звуковой ряд.
«В отличие выделения речи из фоновых шумов, выделение речи одного человека из «голосового» шума говорящих одновременно людей является сложнейшей задачей, так как у звуков голоса разных людей имеется масса подобных элементов» — рассказывает Энтони Ветро (Anthony Vetro), руководитель исследовательской лаборатории компании Mitsubishi Electric в Кембридже, — «В большинстве систем задача разделения голоса решается при помощи установки двух или большего количества микрофонов, но в случае использования всего одного микрофона, с задачей разделения голоса может справиться только искусственный интеллект».
Основными достоинствами новой системы разделения речи является то, что эта система не требует никакого предварительного обучения или настройки для работы с голосом какого-либо определенного человека. Во-вторых, точность ее работы никак не зависит от языка, на котором говорит человек. «Мы будем использовать эту технологию там, где требуется повышенная точность распознавания голосовых сообщений» — рассказывает Йохеи Окато (Yohei Okato), — «А это требуется в системах голосового управления автомобилями, лифтами, бытовыми приборами и прочими электронными устройствами».