Главная » Блоги Экспертов И ИТ-Компаний » Деместификация Watson
С деньгами мы и без ума проживем! 4 года назад

Деместификация Watson

После прочтения 4 -х статей на хабре и при постоянном молчании московских голубых. Решил самолично рассказать о Watsonе как средстве анализа больших данных – неструктурированных . ЭТО не реклама , а мысли вслух.

Если по каким то причинам вы вдруг озаботились обработкой большого объёма данных ( что такое большой объём , пускай  каждый решает сам ), то встает вопроса об анализе больших данных.

Хорошо когда люди умеют писать SQL запросы   и  хранят  содержимое  в   реляционных  табличках,  каждую  словоформу.  Хуже  когда информацию  хранят  в документах,  а  необходимая  содержится  на 4 , 6 и 47 страницах и тем более эта информация предоставлена на двух или трех  языках. Конечно же, особенно упертые будут разбирать весь текст и  размещать данные по тексту в тех  реляционных  базах данных, с каким умею работать

 Но те кто к предпочитает не работать  а получать удовольствие от жизни могут легко и непринуждённо завести себе домашнего Watsona .  Холмс  завел, а мы чем хуже? Для начала.

WatsonЫ они бывают разные и предназначены для различных сценариев  использования . Вкратце , есть облачный watson  , умеет работ только с  данным загруженными и именно через  небесную канцелярию ,  в крайнем  случай  internet.

Есть Watson одомашненный  и он живет в самой компании и на улицу не ходит , под себя  не гадит. Этот watson требует отдельного сервачка и отдельного администратора , способного устанавливать софт на различные сервера приложений.

В отличие от облочного брата , локальный watson умеет шерстить различные источники данных  начиная с почты и закачивая системами электронного документооборота - типа filenet или портального sharepoint.  В любом случае источник не обязательно должен быть реляционным  или структурированным. Источником могут быть и обычные pdf файлы и огромные word ‘овые документы. Самая большая головная боль при дрессировке watsona - это создание правильных запросов  к не структурированным данным.  Да это не SQL,и даже не VB. Это отчасти регулярные выражения с дополнительными синтаксическими конструкциями. Watsonы ищут по текстам .Как по полному документу так и по ограниченному , т.е части документа предназначенной для анализа, например  текст договора не имеет смысл разбирать  целиком , а имеет смысл взять только два три параграфа заполняемых  в ручную , избавив Watson  от чтения всей не нужной мишуры. И наоборот , можно попросить watsona читать весь документ на наличие ключевых слов (именно слов ) с отрицательным эмоциональным оттенком , например: «у меня случилась проблемКА», « ваша ХРЕНОВИНА ни ХЕРА не работает » и т.д.  тем самым   проверит ь лояльность  клиента  проверяя  исходящие  сообщения в почте  servicedeskа.

Использую хитрый ум watson можно построить тот самый справочник злоупотреблений в компании . Когда один и тот же стул в различных департаментах именуются по разному , а watson создаст словарик наполненный все возможными вариантами одного и того же стула, включая такие описания как седло, стульчик, гинекологическое кресло.

Тот же самый электронный ум  позволяет выявить  дубликаты   источников  данных. Один  и о т же  документ   размещенный в  различных  директориях  будет одним  и тем  же  или  разным  в зависимости от настроек  поискового  механизма.

Итак  Watson  выполняет две вещи .  Ищет  где  укажут ,  и  анализирует  как  напишут.   Главное  правильно  указать (настроить  где  искать ) и  как  собирать  слова (создать  шаблоны  поиска).У Watsona   даже  есть  инструмент  публикации   визуализации  данных,  не знаю  зачем он  нужен  но  если  требуется отчет  с картиночками ,  то watson  умеет  еще  и рисовать.


Данный материал является частной записью члена сообщества Club.CNews.
Редакция CNews не несет ответственности за его содержание.
8 месяцев назад
Комментарии
Другие публикации
RU,
Тому остаюсь свидетелем, боец за счастье трудового народа всей земли, Закаспийского интернационального революционного пролетарского полка имени товарища Августа Бебеля, красноармеец Мидллов
+7 91698313632
Информационные технологии

Забыл пароль?
Авторизоваться через
Зарегистрируйся сейчас!
Присоединяйся к нашему обществу для того чтобы познакомиться с новыми людьми, создать собственный блог, публиковать анонсы событий и объявления, а также участвовать в обсуждении публикаций CNews. Мы создали единое пространство для общения специалистов рынка информационных технологий и всех, кто интересуется современными технологиями. Регистрация =>