Главная » Блоги Экспертов И ИТ-Компаний » Машинная лингвистика «Айкумен ИБС» набирает обороты

Машинная лингвистика «Айкумен ИБС» набирает обороты

В начале июня в Москве состоялась XXIII Международная конференция «Диалог 2017», посвященная актуальной оценке уровня развития российских машинно-лингвистических технологий. В конкурсной части мероприятия наилучшие характеристики показал самообучаемый алгоритм морфологического анализа и нормализации русскоязычных текстов, разработанный специалистами АО «Айкумен ИБС».

Научно-практический форум «Диалог» ежегодно собирает ведущих ученых, мировых экспертов и отраслевых вендоров для обсуждения передовых методов компьютерной лингвистики и обмена опытом создания прикладных решений по интеллектуальному анализу текстов на естественных языках. Но наибольшим интересом в программе конференции-2017 пользовался конкурс MorphoRuEval, организованный лабораторией «Dialogue Evaluation» для тестирования инструментов морфологического анализа русскоязычных текстов из сети Интернет. В этом году в нем приняли участие 15 команд, представляющих компании ABBYY, OnPositive, Pullenti, Samsung R&D и «Айкумен ИБС», а также университеты МФТИ, НИУ ВШЭ, ИСП РАН, МГУ, МИЭМ и НГУ.

Морфологический анализ выполняется на начальных этапах автоматической обработки текста и является одной из наиболее важных операций, влияющих на финальное качество анализа документов. К его задачам относится определение части речи и морфологических признаков (падеж, род, число, время, лицо и пр.) каждого слова предложения, а также нормализация – корректное восстановление начальной формы этих слов.

Существующие методологии в этой области сконцентрированы на английском языке. Но они абсолютно несовместимы с русской языковой моделью по причине ее морфологической обогащенности более чем 300 различными комбинациями признаков. Например, в предложении «Мама мыла раму» у слова «мыла» может быть 4 разных разбора:

  • глагол «мыть» в прошедшем времени единственного числа третьего лица;
  • существительное «мыло» единственного числа в родительном падеже;
  • существительное «мыло» множественного числа в именительном падеже;
  • существительное «мыло» множественного числа в винительном падеже.

Исходя из этих особенностей, лингвистическая группа компании «Айкумен ИБС» разработала свой алгоритм, объединяющий достоинства классических способов с методами машинного обучения в виде двухступенчатой фильтрации словарного разбора:

  • Формирование предположений о возможных разборах слова с применением грамматического словаря. При отсутствии в библиотеке необходимого термина производится поиск наиболее похожего слова для разбора по аналогии;
  • Выбор оптимального варианта признака из контекста предложения с помощью самообучаемого классификатора на основе линейной машины опорных векторов SVM (Support Vector Machine). Для дополнительной проверки каждого разбора применяется общая оценка из суммы оценок входящих в него признаков, а в качестве оптимального выбирается разбор с максимальной оценкой.

Роль указанных признаков играют различные комбинации префиксов, суффиксов и отдельных морфологических характеристик слов в пределах контекстного окна размером ±3 слова от анализируемого. Более детальное описание нового метода содержится в статье руководителя группы лингвистических технологий АО «Айкумен ИБС» Антона Казенникова Part-of-Speech Tagging: The Power of the Linear SVM-based FiltrationMethod for Russian Language. Computational Linguistics and Intellectual Technologies, опубликованной в сборнике «Компьютерная лингвистика и интеллектуальные технологии 2017».

При подготовке к конкурсу «умный» классификатор набрал обучающую статистику признаков из текстового корпуса объемом более миллиона слов, а для оценки точности ему было предложен массив документов из 15000 слов. В результате сравнительного тестирования на закрытой дорожке MorphoRuEval метод «Айкумен ИБС» признан победителем по точности нормализации русских слов, достигающей 92,22%. Кроме того, он занял второе место по восстановлению морфологических признаков с достоверностью свыше 93%.

По мнению директора Департамента разработки АО «Айкумен ИБС» Андрея Ярового, «независимая экспертиза «Dialogue Evaluation» подтвердила отличное качество морфологического анализа текстов, используемого в нашей компании. Данный анализ является фундаментом всей текстовой аналитики, что позволяет нам с беспрецедентной точностью извлекать смысл из документов на русском языке».

«Мы продолжаем двигаться вперед, постоянно совершенствуем алгоритмы и  разрабатываем инновационные методы в своей работе, предоставляя возможность нашим заказчикам максимально использовать преимущества IQPLATFORM® – современного отечественного продукта в области Big Data, по ряду функционала не имеющего аналогов на российском и мировом рынках» – подводит итог участия в мероприятии генеральный директор АО «Айкумен ИБС» Ирина Касаткина.


Пресс-служба АО «Айкумен – информационные бизнес-системы»: pr@iqmen.ru


Данный материал является частной записью члена сообщества Club.CNews.
Редакция CNews не несет ответственности за его содержание.
Комментарии
Другие публикации
RU, Москва
www.iqmen.ru, Комплексные информационно-аналитические системы Business Intelligence на основе технологий интеллектуального анализа больших данных.
8 (495) 727-39-35
Информационные технологии

ЗАО «Айкумен ИБС» – ведущий российский научно-технологический центр разработки и внедрения систем интеллектуального анализа данных, производитель и поставщик комплексных отраслевых информационно-аналитических решений в интересах государственных и корпоративных заказчиков с 2004 года.


Забыл пароль?
Авторизоваться через
Зарегистрируйся сейчас!
Присоединяйся к нашему обществу для того чтобы познакомиться с новыми людьми, создать собственный блог, публиковать анонсы событий и объявления, а также участвовать в обсуждении публикаций CNews. Мы создали единое пространство для общения специалистов рынка информационных технологий и всех, кто интересуется современными технологиями. Регистрация =>