Главная » Блоги Экспертов И ИТ-Компаний » Деместификация Watson
С деньгами мы и без ума проживем! 4 года назад

Деместификация Watson

После прочтения 4 -х статей на хабре и при постоянном молчании московских голубых. Решил самолично рассказать о Watsonе как средстве анализа больших данных – неструктурированных . ЭТО не реклама , а мысли вслух.

Если по каким то причинам вы вдруг озаботились обработкой большого объёма данных ( что такое большой объём , пускай  каждый решает сам ), то встает вопроса об анализе больших данных.

Хорошо когда люди умеют писать SQL запросы   и  хранят  содержимое  в   реляционных  табличках,  каждую  словоформу.  Хуже  когда информацию  хранят  в документах,  а  необходимая  содержится  на 4 , 6 и 47 страницах и тем более эта информация предоставлена на двух или трех  языках. Конечно же, особенно упертые будут разбирать весь текст и  размещать данные по тексту в тех  реляционных  базах данных, с каким умею работать

 Но те кто к предпочитает не работать  а получать удовольствие от жизни могут легко и непринуждённо завести себе домашнего Watsona .  Холмс  завел, а мы чем хуже? Для начала.

WatsonЫ они бывают разные и предназначены для различных сценариев  использования . Вкратце , есть облачный watson  , умеет работ только с  данным загруженными и именно через  небесную канцелярию ,  в крайнем  случай  internet.

Есть Watson одомашненный  и он живет в самой компании и на улицу не ходит , под себя  не гадит. Этот watson требует отдельного сервачка и отдельного администратора , способного устанавливать софт на различные сервера приложений.

В отличие от облочного брата , локальный watson умеет шерстить различные источники данных  начиная с почты и закачивая системами электронного документооборота - типа filenet или портального sharepoint.  В любом случае источник не обязательно должен быть реляционным  или структурированным. Источником могут быть и обычные pdf файлы и огромные word ‘овые документы. Самая большая головная боль при дрессировке watsona - это создание правильных запросов  к не структурированным данным.  Да это не SQL,и даже не VB. Это отчасти регулярные выражения с дополнительными синтаксическими конструкциями. Watsonы ищут по текстам .Как по полному документу так и по ограниченному , т.е части документа предназначенной для анализа, например  текст договора не имеет смысл разбирать  целиком , а имеет смысл взять только два три параграфа заполняемых  в ручную , избавив Watson  от чтения всей не нужной мишуры. И наоборот , можно попросить watsona читать весь документ на наличие ключевых слов (именно слов ) с отрицательным эмоциональным оттенком , например: «у меня случилась проблемКА», « ваша ХРЕНОВИНА ни ХЕРА не работает » и т.д.  тем самым   проверит ь лояльность  клиента  проверяя  исходящие  сообщения в почте  servicedeskа.

Использую хитрый ум watson можно построить тот самый справочник злоупотреблений в компании . Когда один и тот же стул в различных департаментах именуются по разному , а watson создаст словарик наполненный все возможными вариантами одного и того же стула, включая такие описания как седло, стульчик, гинекологическое кресло.

Тот же самый электронный ум  позволяет выявить  дубликаты   источников  данных. Один  и о т же  документ   размещенный в  различных  директориях  будет одним  и тем  же  или  разным  в зависимости от настроек  поискового  механизма.

Итак  Watson  выполняет две вещи .  Ищет  где  укажут ,  и  анализирует  как  напишут.   Главное  правильно  указать (настроить  где  искать ) и  как  собирать  слова (создать  шаблоны  поиска).У Watsona   даже  есть  инструмент  публикации   визуализации  данных,  не знаю  зачем он  нужен  но  если  требуется отчет  с картиночками ,  то watson  умеет  еще  и рисовать.


Данный материал является частной записью члена сообщества Club.CNews.
Редакция CNews не несет ответственности за его содержание.
20 дней назад
Комментарии
Другие публикации
RU,
Тому остаюсь свидетелем, боец за счастье трудового народа всей земли, Закаспийского интернационального революционного пролетарского полка имени товарища Августа Бебеля, красноармеец Мидллов
+7 91698313632
Информационные технологии

Забыл пароль?
Авторизоваться через
Зарегистрируйся сейчас!
Присоединяйся к нашему обществу для того чтобы познакомиться с новыми людьми, создать собственный блог, публиковать анонсы событий и объявления, а также участвовать в обсуждении публикаций CNews. Мы создали единое пространство для общения специалистов рынка информационных технологий и всех, кто интересуется современными технологиями. Регистрация =>