Главная » Блоги Экспертов И ИТ-Компаний » Другое NLP: как извлечь пользу для бизнеса из технологий общения машины и человека

Другое NLP: как извлечь пользу для бизнеса из технологий общения машины и человека

Известный тест Тьюринга, в котором человек переписывается с компьютером, считается пройденным, если машине удается ввести собеседника в заблуждение, что он человек. Взаимодействие людей с компьютерами на естественном языке повседневного и делового общения — одна из ключевых задач современного NLP. Аббревиатура расшифровывается как Natural Language Processing, или обработка естественного языка.

К этому направлению относятся задачи по пониманию и созданию контента на человеческом языке машинами с помощью вычислительных методов. С достижениями NLP, которые используются в комбинации с речевыми технологиями, мы сталкиваемся, общаясь с популярными голосовыми ассистентами — Google Assistant, Siri, Алиса и Alexa.

Мы расскажем об основных задачах, решаемых сегодня с помощью NLP. Эти инструменты могут быть полезны организациям, сотрудники которых ежедневно разбирают десятки электронных писем, ищут и не находят документы и данные, многократно повторяют однотипные операции с текстами, регулярно отвечают на повторяющиеся запросы пользователей. Отечественные компании уже используют технологии обработки естественного языка для автоматизации затратных рутинных операций, управления знаниями и информацией, совершенствования общения с пользователями и клиентами.

Переводчик со всех языков

Специалисты NLP работают как над оптимальным интерфейсом общения человека и машины, так и совершенствуют способы общения людей друг с другом. Речь идет о машинном переводе. Именно с данной областью NLP мы чаще всего взаимодействуем, используя Google Translate, Яндекс. Переводчик и другие сервисы. Исторически это была первая лингвистическая задача, которую специалисты попытались поручить машинам. В 1954 году компания IBM провела Джорджтаунский эксперимент, в котором компьютер получал на перфокарте фразу на русском языке, например «Обработка повышает качество нефти», и переводил на английский. «Машинный мозг сделал английский перевод и выдал его на автоматический принтер с бешеной скоростью — две с половиной строки в секунду», — сообщалось в пресс-релизе IBM. Как показало будущее, такие результаты можно было получить только для специально подготовленных сообщений и для повседневного использования метод не подходил.

В 1990-х годах компания IBM получила документацию двуязычного канадского парламента — корпус параллельного текста на английском и французском языках. Ранее машинный перевод основывался на правилах, которые предписывали машине, как преобразовывать конструкции одного языка в другой. Таких правил могло быть несколько десятков тысяч. IBM предложила другую архитектуру систем машинного перевода на основе статистических данных: машины уже ничего не знали о правилах, а сами выделяли их из примеров перевода, так называемых параллельных текстов.

Драйвером развития послужила и появившаяся идея построения систем машинного перевода на базе фразовой статистики. Так, популярный переводчик Google Translate изначально использовал именно фразовый подход, то есть не переводил слово за словом, а сразу группы слов, учитывая зависимость значения каждого от соседних: «розовая мечта», «зеленая тоска» и др.

Следующий скачок качества машинного перевода связан с технологией глубокого обучения и использованием нейронных сетей. Сегодня метод Google Neural Machine Translation (GNMT) может осуществлять перевод с языка на язык без языка-посредника. В статистических системах перевода, фраза с одного языка переводилась сначала на английский, а затем уже на требуемый язык. Для каждой пары языков требовалась создать свою нейронную сеть, которую трудно было применить или адаптировать к другой паре. GNMT может использовать для разных языков одну нейросеть и осуществляет перевод с помощью так называемого «универсального языка» — zero-shot translation.

Трудности перевода

Для рядового пользователя Google Translate, который уже в пять лет понимал семантическую разницу употребления слова теплый в словосочетаниях «теплый день» и «теплый прием», кажется странным, что сервис не всегда на это способен. За освоением родного языка и его использованием стоят сложные лингвистические и когнитивные процессы, с трудом поддающиеся моделированию и формализации. Эти трудности относятся не только к машинному переводу, но и ко всему спектру задач NLP.

Среди очевидных — различение омонимов (одинаково пишутся, имеют разные значения) и конкретных значений многозначных слов. Мы понимаем, что в сочетании «прийти в среду» речь идет про день недели, а во фразе «комфортная среда» имеется в виду вовсе не он. Мы различим по значению «горячую штучку» и «горячую сковородку» и не спутаем «жесткий график» с «талантливым графиком». В предложениях типа «Александр поднялся на холм, он был высокий» машине не очевидно, что высоким был именно холм, а не Александр.

Над комплексом проблем обработки естественного языка работают тысячи специалистов, особенно если речь идет о так называемых высокоресурсных языках (High Resource Language), для которых доступно много данных. К ним относят английский, французский, немецкий и китайский. Носителям русского языка возможно повезло меньше, чем носителям английского, но больше, чем другим. На амхарском языке говорят около 25 миллионов человек, проживающих преимущественно в Африке. Компании не инвестируют в цифровые инструменты и сервисы для этого языка из-за неблагополучного экономического положения в регионе. Такое неравномерное развитие NLP для разных языков признано проблемой и сообщество ищет пути ее решения, например с помощью грантов и субсидий специальных фондов.

А вот востребованность сервисов и инструментов для обработки русского языка растет: бизнес знакомится с возможностями, в процессе практики понимает их экономическую целесообразность, а пользователи быстро привыкают к комфортному и эффективному взаимодействию с различными системами. Какие уже задачи решаются в российских организациях и корпоративной среде с помощью NLP?

Классифицируем тексты

Методы NLP позволяют, не читая текст, присвоить ему категорию, отнести к одному из форматов, жанру или теме, определить, кому в организации предназначено сообщение. Примером использования классификации текстов для оптимизации бизнес-процессов может служить разработанная ЦКТ интеллектуальная система SmartSel.

Один из распространенных сценариев ее использования следующий. Во многих организациях есть общий ящик электронной почты для внешних коммуникаций. На этот адрес приходят заявки клиентов, обращения в сервисную службу, соискатели присылают резюме, партнеры — рекламные предложения и т.п. Отвечающий за разбор почты сотрудник вручную просматривает письма, принимает решение, кому его можно отправить в организации и пересылает.

Ситуацию можно усложнить — входящие сообщения адресованы в службу поддержки сложных высокотехнологичных продуктов. Чтобы верно определить исполнителя для переадресации заявки оператору необходимы серьезные технические компетенции. Очевидно, что тратить время квалифицированного специалиста на рутинные операции для бизнеса нецелесообразно. И сегодня подобные задачи перепоручают машинам и получают выигрыш в качестве исполнения. Так, SmartSel показал превосходящие операторов показатели точности и скорости информации во всех тестовых испытаниях.

Извлекаем данные

Также одной из задач подобных интеллектуальных систем обработки информации является извлечение фактов, установление связей и отношений между объектами. Возьмем текст: «Лев Степанович Удальцов с супругой Валентиной владеют в городе Москворецк компанией ООО „Квант“, управление которой осуществляет брат Удальцова — Иван». Какие данные из этого текста может извлечь машина? Прежде всего именованные сущности: система способна определить, что Москворецк — локация, Лев Степанович Удальцов — персона, ООО «Квант» — юридическое лицо.

Алгоритмы NLP позволяют глубже работать над структурированием информации. Из текста можно извлечь связи и отношения упоминаемых объектов. Например, установить, что Лев Удальцов связан с ООО «Квант» отношениями владения, а Иван — профессиональными. Существует возможность определить, кто кому кем приходится в деловом семействе Удальцовых. Если проанализировать десятки текстов, где упоминаются ее члены, то можно сопоставить извлеченные реквизиты, юридические адреса и другие сущности и узнать, какие еще активы принадлежат семье.

Извлечение связей и отношений из текстовых массивов превращает данные в инструмент оценки рисков, информационной и инновационной разведки, выявления угроз и аффилированности, анализа структуры различных объектов и систем. Примером инструмента, в котором реализован подобный функционал, является «Аналитический курьер». Система на основе технологии извлечения знаний позволяет вести разведку информационного пространства (интернет, базы данных, открытые источники) в отношении персон, событий, организаций и проблем.

Разработанная Центром когнитивных технологий система интеллектуального поиска по всем корпоративным источникам SmartCS также может устанавливать отношения между объектами: находить схожие лексически с искомым документы, предлагать к акту выполненных работ соответствующий договор, вести поиск по извлеченным из текстов атрибутам — например, по заказчику или дате создания.

Любит-не любит

Технологии NLP широко используются в бизнесе и корпоративной среде для определения в тексте субъективной информации. Так называемый анализ настроений (Sentiment Analysis) позволяет классифицировать как положительные, отрицательные и нейтральные мнения о товарах или услугах, политиках и социальных изменениях, компаниях и личностях и других объектах

В эпоху больших данных социальные медиа становятся важным источником данных для производителей товаров и поставщиков сервисов, политиков, исследователей, журналистов и в шире — всех нас. Большинство этих данных представляют собой тексты, аудио- и видеоролики. Технологии NLP позволяют превращать неструктурированную информацию в знания о сильных и слабых сторонах продукта, реальных потребностях клиентов и социальных настроениях. Интеллектуальный анализ соцмедиа помогает отслеживать популярные темы и набирающие силу тренды, прогнозировать развитие ситуаций и динамику настроений. Метод Sentiment Analysis используется в системе «Аналитический курьер».

На слуху

Один из самых обсуждаемых трендов последних лет — распространение голосовых ассистентов и интерфейсов. NLP в их разработке применяется в комбинации с речевыми технологиями. Эта тенденция, по мнению экспертов, окажет серьезное влияние на будущее бизнеса и изменит нашу привычную парадигму взаимодействия с компьютерами. Речевым технологиям мы посвятим следующий материал рубрики «Искусственный интеллект для организаций», где расскажем, как меняются голосовые ассистенты, об устройствах и системах, использующих подобный функционал, а также широких возможностях автоматизации и оптимизации, которые данные технологии предоставляют бизнесу.

В 2019 году искусственный интеллект превратился из фантастики и дискуссионного повода в повседневную бизнес-практику. Согласно исследованию Microsoft, более 30% отечественных компаний уже внедряют эту технологию. Технологии обработки естественного языка уже помогают российским организациям экономить сотни тысяч человеко-часов на автоматизации рутинных операций, повышать качество сервисов и услуг.

 


Данный материал является частной записью члена сообщества Club.CNews.
Редакция CNews не несет ответственности за его содержание.
1 месяц назад
Комментарии
Другие публикации
RU, Москва
https://www.iteco.ai/, Ведущий PR-менеджер
Информационные технологии

Ведущий разработчик искусственного интеллекта, реализует проекты в сферах обработки естественного языка, речевых технологий, машинного зрения и предиктивной аналитики. Среди собственных решений – интеллектуальные системы обработки информации SmartSel и SmartCS, многофункциональные решения «Аналитический курьер» и X-Files.




Забыл пароль?
Авторизоваться через
Зарегистрируйся сейчас!
Присоединяйся к нашему обществу для того чтобы познакомиться с новыми людьми, создать собственный блог, публиковать анонсы событий и объявления, а также участвовать в обсуждении публикаций CNews. Мы создали единое пространство для общения специалистов рынка информационных технологий и всех, кто интересуется современными технологиями. Регистрация =>