Презентация цикла работ на соискание премии имени М.В. Ломоносова
«Методы создания систем искусственного интеллекта для анализа текстов на русском языке»
6 декабря 2023
12:45 – 13:10
Лукашевич
Наталья Валентиновна
доктор технических наук, ведущий научный сотрудник НИВЦ МГУ
Лукашевич
Наталья Валентиновна
доктор технических наук, ведущий научный сотрудник НИВЦ МГУ
Модератор:
Сулимов Владимир Борисович
доктор физико-математических наук, заведующий лабораторией НИВЦ МГУ
Аннотация цикла:
Цикл работ включает исследования двух подходов в рамках искусственного интеллекта к автоматической обработке текстов, которые обычно рассматриваются отдельно, а также исследования методов их комбинирования. Первый подход основан на классическом направлении искусственного интеллекта, называемом «представление знаний». Второй подход основан на использовании методов машинного обучения, включая нейронные сети, для решения задач автоматической обработки текстов.
В рамках первого подхода разработаны большие компьютерные ресурсы в виде семантических сетей для автоматической обработки текстов: тезаурус РуТез, лексическая онтология RuWordNet, онтология по естественным наукам и технологиям ОЕНТ, насчитывающие описания сотен тысяч понятий и отношений между ними; предложены автоматизированные методы для порождения словарей оценочной лексики; создан ресурс описания оценочных предикатов виде семантических фреймов. На основе созданных больших лингвистических ресурсов разработана оригинальная теория и методы тематического анализа связных текстов. Технологии, развитые на основе предложенных методов, успешно применяются в различных НИОКР в интересах российских организаций.
В рамках второго подхода на основе машинного обучения впервые созданы разнообразные компьютерно-лингвистические ресурсы, необходимые для обучения нейросетевых систем искусственного интеллекта, включая размеченные наборы текстов для автоматического извлечения информации из текстов (из новостей общего назначения, биомедицинских статей, новостей по компьютерной безопасности); датасеты для анализа тональности, для извлечения аргументации.
Предложены методы автоматизированного создания компьютерных ресурсов, методы автоматизированного нахождения неточностей в больших лингвистических онтологиях на основе векторных представлений слов, построенных на основе больших текстовых корпусов; методы автоматической разметки данных на основе созданных ресурсов для дальнейшего обучения нейронных сетей (так называемое опосредованное обучение — distant supervision). Предложены методы для автоматического построения таксономий по текстам на основе метаэмбеддингов, больших языковых моделей типа GPT, предложены подходы к улучшению интерпретируемости нейросетевых моделей.
Созданные ресурсы, в частности, были использованы для организации научных соревнований в области понимания естественного языка, что способствовало решению фундаментальных задач машинного понимания текстов на естественном языке. Были организованы такие научные соревнования как: тестирования по таргетированному анализу тональности (SentiRuEval-2015, SentiRuEval-2016, международное тестирование ABSA-2016), тестирование подходов по автоматическому построению таксономий RUSSE-2020 и др.