Фото: vodaruc.ru

В МГУ найден способ распознавания автоматически генерируемых текстов

Научные специалисты факультета вычислительной математики и кибернетики Московского государственного университета (МГУ) разработали новый способ распознавания автоматически генерируемых текстов. Информацией об этом делится «Газета.ру».

Исследователи использовали модель ruRoBERTa, созданную специально для обработки письменных данных на русском языке командой SberDevices, а также рассмотрели возможности модели, основанной на архитектуре LSTM, или долгой кратковременной памяти, которая представляет собой особый тип организации нейронных сетей.

Эксперты протестировали метод на 20 тыс. реальных и сгенерированных искусственным интеллектом отзывов, часть из которых была собрана на страницах различных товаров популярных онлайн-маркетов.

Модель RoBERTa отличила тексты живых людей от творений нейронных сетей с точностью 86%, LSTM оказалась чуть менее эффективной — 82%. Большинство ошибок, допущенных обоими инструментами, касалось коротких заметок, состоящих менее чем из 40 символов.

«Мы предполагаем, что это связано с распространенностью некоторых общих фраз в отзывах, на которых обучалась модель. Такие клишированные фразы, которые генеративная модель повторяет с точностью до слова, создают трудности для распознавания», — рассказывает Наталья Ефремова, доцент кафедры алгоритмических языков МГУ.

Кроме того, отмечается, что и RoBERTa, и LSTM достаточно хорошо зарекомендовали себя при распознавании сгенерированных текстов и могут быть использованы для решения практических задач.

Поделиться:

Подписывайтесь на краткие, но содержательные новости со всего мира
глазами молодого поколения в Телеграм и ВКонтакте.

Почитайте также

Новый вид золотистых щиповок обнаружен в Азовском море

661 По сообщению пресс-службы Московского государственного университета, российские ученые обнаружили в Азовском море новый вид …