TechXplore сообщает о результатах исследования, проведенного учеными из Имперского колледжа Лондона, которые разработали модель искусственного интеллекта, визуально распознающую речь на нескольких языках, анализируя движения губ говорящего.
Автор исследования, Пинчуань Ма, изучая, как объединить визуальную информацию со звуковой для аудиовизуального распознавания речи и распознавать визуальную речь независимо от положения головы участников, обратил внимание на то, что очень большое количество исследований проводилось с использованием английского языка. Поэтому ученые решили попробовать обучить модель глубокого обучения распознавать речь на других языках, анализируя движения губ говорящих, а затем сравнить ее производительность с производительностью других моделей, обученных на английской речи.
«Наша модель принимает на вход необработанные изображения без извлечения каких-либо особенностей, а затем автоматически учится тому, какие полезные свойства нужно извлечь из этих изображений для выполнения задач визуального распознавания речи. Главная новизна этой работы заключается в том, что мы добавляем некоторые дополнительные методы увеличения данных и функции потери», — сообщают исследователи.
В экспериментах новая модель показала отличные результаты и даже превзошла другие модели, обученные на гораздо больших наборах данных. Ученые говорят, что им удалось научить машину распознавать визуальную речь, произносимую на нескольких языках. При этом они подчеркивают, что получили этот результат не за счет увеличения размера или использования большего количества обучающих данных, а за счет того, как разработана модель. В конечном итоге это может привести к изменениям в том, как исследователи пытаются улучшить модели визуального распознавания речи.
Фото: pixabay
Ведущий автор рубрик «здоровье», «общество», «наука». Считаю, что журналист должен тщательно проверять информацию. А если ошибка все же произошла, нужно ее признать и извиниться.