previous up next index search
Previous: 4.7.15 Устройства памяти и процессоры    UP: 4.7 Прикладные сети Интернет
    Next: 4.7.17 Цифровая медицина

4.7.16 Компьютерная аналитика

Семенов Ю.А. (ИТЭФ-МФТИ)
Yu. Semenov (ITEP-MIPT)

Когда я учился в МИФИ нам говорили, что есть только два источника научных знаний об окружающем мире - теория (модель-математика) и эксперимент. В последние десятилетия общепризнанным источником знания стало признано компьютерное моделироване.

Не исключено, что скоро еще одним источником знаний будет признана компьютерная аналитика. Совсем недавно аналитика считалась уделом исключительно людей-экспертов. Что же такое компьютерная аналитика?

Аналитика существует давно и имеет целью выявление тенденций и прогнозирование. Часто служит для подтверждения уже выбранного курса или принятого решения.

Компьютерная аналитика (когнитивный компьютинг) имеет целью выявление неизвестных тенденций, закономерностей и корреляций. Современная компьютерная аналитика способна воспринимать задания на естественном языке (например, русском). Эта технология позволяет получить объективный прогноз и выявить трудно предсказуемые последствия тех или иных решений. Развитие компьютерных технологий, в частности deep learning, способствует прогрессу в области компьютерной аналитики. Востребованности компьютерной аналитики способствует также свободный доступ к большим объемам данных и рост вычислительных мощностей компьютеров.

Исполнительный директор компании IBM Ginni Rometty 2-го марта 2012 года сказала:

"В ближайшие пять лет все компании на рынке разделятся на победителей и побежденных в зависимости от качества их аналитики. Опыт и интуиция не помогут. Людей надо переучивать".

Пять лет уже прошли...

На данном этапе востребована аналитика для бизнеса, которая позволяет прогнозировать динамику спроса и изменения цен. Но в перспективе, в частности по мере развития Интернета вещей, можно ожидать использования технологии для выявления неизвестных связей и зависимостей. Компания IBM считает возможным использование аналитики для выявления неизвестных зависимостей и в сфере науки (путем анализа побочных результатов измерений).

22-го сентября 2011 г. появилась заметка компании IBM о компьютере Watson (см. Talking computer will change the world; promises not to kill you). Разработчики (во главе с David'ом Ferrucci) позиционируют Watson, как компьютерную систему искусственного интеллекта. Watson может обрабатывать до миллиона книг в сек. (500 гигабайт). Этот компьютер содержит в себе 90 серверов Power7 750, каждый из которых имеет по 4 восьмиядерных процессоров Power7. Оперативная память этой машины содержит 15 Тбайт. Watson построена по технологии DeepQA (Deep Question Answering), включающей генерацию гипотез, массовый сбор фактов и ранжирование гипотез на основе фактов. Watson может обрабатывать 500 гигабайт в секунду (что эквивалентно миллиону книг в сек.). Человек же может прочитать за всю жизнь не более 12-14 тысяч книг. Очевидно, что уже сейчас Watson знает больше, чем любой человек, и этот разрыв будет только увеличиваться. Этот компьютер способен понимать человеческую речь. Для решения этой задачи использовано более 100 различных методов.

В 2012 году компания IBM объявила о коммерческой доступности экспертно-решающей системы Watson.

В 2015 году объем накопленных человечеством данных достиг 7 зеттабайт (1 зеттабайт =1021 байт эквивалентен объему 50 библиотек конгресса США). Заметная доля этих данных доступна через Интернет (по большей части в виде текстов). Но до недавнего времени люди не могли извлекать пользу из этой информации. Но появляющиеся объемы данных человек обработать и осознать не способен, именно это сделало когнитивный компьютинг столь привлекательным. На рис. 1 показана зависимость времени выборки из базы данных MySQL от объема банка. Экспоненциальный рост времени выборки привел к использованию технологии NoSQL в проблемах, сопряженных с BigData. Вся современная компьютерная аналитика базируется на применении больших объемов данных.

Рис. 1. Вариация времени доступа по мере роста объема данных

Идущие уже сегодня процессы в конце концов приведут к замещению человека машиной при принятии решений, обеспечивая переход от аналитических к экспертно-решающим системам. Реализация современных архитектур обработки запросов, как это сделано в Watson, позволяют поднять быстродействие системы в 200 раз.

Данный проект можно считать шагом на пути создания искусственного интеллекта к 2023 году (см. resources) Трудно утверждать это точно, но возможно, что этот проект является этапом создания искусственного интеллекта для безлюдного оружия поля боя. Компания IBM в прошлом году открыла WATSON для широкого международного сотрудничества. В любом случае ясно, что распознавание контекста и возможность самообучения являются важным шагом на пути создания искусственного интеллекта (ИИ). Watson еще не компьютер с искусственным интеллектом, тем более, что не существует общепризнанного определения ИИ.

Хотя компьютер Watson лишь с некоторой натяжкой может быть отнесен к суперкомпьютерам (143-е место в списке Top500 по производительности на начало июня 2013), он занимает особую позицию. Это первый компьютер, который может работать с текстами на естественном языке и в нем реализован важный шаг в обучении машины пониманию контекста и самого задания. Что важно, машина способна пользоваться данными из Интернет для решения стоящих перед ней задач. В Интернет большая масса информационного мусора, и значит Watson способен фильтровать этот мусор.

Компания IBM пытается коммерциализовать использование вычислительной машины Watson (победитель телевизионного шоу Jeopardy). Среди возможных применений рассматривается сложная диагностика различных заболеваний, в частности раковых (что подтверждено на практике). С точки зрения программирования эта машина не является детерминистской, она управляется запросами, анализирует накопленную информацию и возвращает данные, которые с ее точки зрения являются наиболее релевантными полученному запросу. Машина может также использоваться как советчик для врача. ("Interview: Using IBM Watson for smart decisions", Dan Cerruti, 26 марта 2013). В настоящее время компьютер может диагностировать сложные случаи раковых заболевания лучше хороших врачей.

Компания IBM предлагает свой суперкомпьютер Watson в качестве платформы для разработки облачных приложений, ориентированных на когнитивный компьютинг (см. "IBM to offer Watson supercomputer as cloud development platform", Chris Kanaracus, IDG News Service, November 14, 2013). Объемы информации во всех областях быстро растут.

Компания IBM усовершенствовала программу анализа данных Watson Discovery Advisor так, что она стала способна ответить на ваши вопросы, до того, когда вы их задали (см. "IBM Watson now answers your questions before you ask", PCWorld). Считается, что эта программа будет полезной помимо медицины в финансах и юридической деятельности. Можно также считать, что эта система не запрограммирована, а обучена. Компания IBM на компьютерной бизнес аналитике заработала в 2014 году более 50 млн. долларов.

Информация о здоровье, которую собирает Apple Watch, может передаваться в облако на базе IBM’s Watson (см. "IBM's Watson Health division will incorporate patient data from Apple", Fred O'Connor, IDG News Service, April 13, 2015). Медицинские данные очень неоднородны, большая часть информации имеет текстовый вид. Для обеспечения взаимодействия различных систем налажено сотрудничество между Apple, Johnson & Johnson, Medtronic и Watson Health Cloud. Разрабатываются программы аналитики для реализации индивидуальных планов лечения.

Вслед за Watson появились машины Siri, Cortana и пр. того же класса и назначения.

Если в 2013 году на пике популярности были научные аналитики, в 2014 центр сместился в область информационной бизнес-аналитики (см. "Big Data Analytics predictions for 2014", Michele Chambers, Greg Todd, David Smith, December 31, 2013). За счет программных средств прогнозирование будет осуществляться в реальном масштабе времени. Научным аналитикам останутся стратегические инициативы. Большое внимание будет уделено подготовке молодого поколения научных аналитиков. В 2014 году предсказательная аналитика [4] начала работать в рамках Hadoop. В 2014 маркетинговая аналитика на основе big data стала реальностью. Смотри также Предсказательная аналитика. В этой области шире будет применяться технология NoSQL.

Директор подразделения по цифровой преступности компании Microsoft Брайан Херт (Bryan Hurd) утверждает, что аналитика big data начинает играть все большую роль в борьбе с киберпреступностью (см."Big data analytics key to crime fighting, says Microsoft", Warwick Ashford). Аналитика позволяет выявлять активность, сопряженную с использованием активационных ключей украденных программ. Анализ сетевого трафика способен предсказать будущие кибер преступления.

Торговая компания Macy объявила, что она предлагает покупателям новый сервис - возможность попросить помощи у системы Watson. Система может работать в облаке с английским и испанским языками. Клиент может задавать вопросы на естественном языке (голосовой канал пока отсутствует). Система используют технологию машинного обучения.

В LANL (Lawrence Livermore National Laboratory) создан суперкомпьютер (Catalyst), предназначенный для переработки больших объемов данных (см. "Need to crunch 150 teraflops per second? Meet first-of-a-kind supercomputer Catalyst", Darlene Storm, May 07, 2014). Данный комплекс планируется использовать для бизнес аналитики и для исследования свойств сверхтяжелых элементов, в частности с атомным номером 117.

Многие задачи, например, бизнес не требуют обработки гигантских объемов данных и для таких целей IBM разработала машины размером с коробку для пиццы.

Исследовательская компания Gartner выделяет 10 технологических тенденций в 2015 году (см. "Сloud, web-scale IT and IoT in Gartner’s 2015 top technologies", Archana Venkatraman, Thursday 09 October 2014). Среди них облачные технологии, архитектуры SDN, 3D-печать, Интернет вещей (IoT), информационная аналитика и WEB-технологии. Смотри также "Gartner lays out its top 10 tech trends for 2015", Patrick Thibodeau, Computerworld, Oct 7, 2014.

Компании IBM и Juniper Networks решили объединить возможности своего оборудования и программного обеспечения для извлечения аналитических данные из информации проходящей через сетевые каналы (см. "IBM, Juniper to offer joint network analytics", Antone Gonsalves, 26 Feb 2015). Речь идет о данных, поступающих от персональных компьютеров и мобильных устройств. Технология IBM будет встроена в шлюзы Juniper, в то время как более глубокая аналитика будет реализована на отдельных серверах.

В новую версию Microsoft Office встроено средство (BeyondCore Apps) для реализации аналитики (см. "New Office tool brings analytics for everyone", Rob Enderle, April 6, 2015). Это аналитическое средство могут использовать не только эксперты, но практически все пользователи Office. Для использования этого продукта достаточно навыков применения Office. Ожидается, что это средство будет и дальше совершенствоваться в течение ближайших 5-10 лет.

Аналитика больших объемов данных находит все более широкое приложение. Ниже приведены доли этой технологии в программных разработках разных отраслей ИТ: (см. "How, where and why big data analytics are delivering value", David Loshin, June 2015).

Современные системы аналитики могут предсказать кражу данных путем сканирования сообщений e-mail [6] (см. "Artificial intelligence system can predict data theft by scanning email", Tim Hornyak, IDG News Service, Oct 2, 2014). Токийская фирма UBIC создала программу, которая анализирует тексты почтовых сообщений и выявляет потенциальные угрозы кражи данных.

Исследовательская лаборатория армии США (ARL, министерство обороны США) планирует использовать в своих разработках в 2015-30гг суперкомпьютер с вычислительной мощностью 100 петафлопс (см. "U.S. Army plans for a 100 petaflop supercomputer", Andy Patrizio, February 25, 2015). Компьютер будет применен и для информационной аналитики. В будущем это направление разработок будет являться стратегическим.

Компании Cisco и IBM сотрудничают в сфере аналитики для Интернета вещей. Планируется использовать инфраструктуру Cisco для аналитики, доступной на платформе IBM Watson. Эта технология будет, например, применена для мониторинга здоровья шахтеров и рабочих характеристик критического оборудования, позволяя поднять производительность и эффективность работ. Планируется внедрение технологии в Объединенных Арабских Эмиратах, а также 136 других странах. Российская авиакомпания Aeroflot приобрела пакет аналитических программ Hadoop-based BigInsights у компании IBM. Эти программы будут использоваться для выявления тенденций и склонностей клиентов, а также для определения наиболее перспективных направлений развития сети маршрутов. Для обработки используются данные из более чем 300 источников.

Ученые компании IBM создали искусственные нейроны и синапсы, используя фазопеременную память. Впервые исследователи смогли создать случайно возбуждаемые нейроны (randomly spiking neurons). Эта технология будет применена для приложений когнитивного компьютинга. Эксперты IBM считают, что реальный чип процессора, использующий эту технологию, появится только через несколько лет. Искусственный нейрон имеет размер 90нм, но в перспективе может быть уменьшен до 14 нм. Система уже сегодня демонстрирует высокую эффективность выявления корреляционных зависимостей. Понятно, что компьютерная аналитика, чем дальше, тем больше будет базироваться на технологиях искусственного интеллекта.

Считается, что компьютерная аналитика будет эффективной для выявления уязвимостей прикладных программ и детектирования сетевых атак. Компьютерная аналитика может стать еще одним источником знаний об окружающем мире наряду с экспериментом, теорией и моделированием.

Работа с большими объемами данных для целей аналитики требует определенной архитектура информационного центра с мощными внешними каналами ("Architecting A Platform For Big Data Analytics", Mike Ferguson, Intelligent Business Strategies, March 2016, 23 стр.). Сходная архитектура применяется в задачах цифровой экономики. На рис.2 представлен вариант архитектуры информационного центра, решающего задачи аналитики.

Рис. 2. Пример архитектуры центра для решения задач компьютерной аналитики.

Различные аналитические задачи могут требовать разной архитектуры информационного центра (рис. 3).

Рис. 3. Схема оптимизации архитектуры для разных задач

На рис.4 показана схема реализации модели "публикации" и "подписи" для ускорения доставки нужных данных.

Рис. 4. Методы ускорения доставки нужной информации


Появление систем с искусственным интеллектом поднимет компьютерную аналитику на новый уровень.

Литература

  1. A Marketer’s Guide to AnalyticsUsing Analytics to Make Smarter Marketing Decisions and Maximize Results.
  2. A Computer Weekly buyer’s guide to security analytics
  3. Making Big Data Analytics Fast and Easy
  4. Predictive analytics: The smart person's guide
  5. Architecting A Platform For Big Data Analytics Mike Ferguson, Intelligent Business Strategies, March 2016
  6. Detect Cybercrime with Cognitive Analytics
  7. "Новые методы работы с большими данными: победные методы управления в бизнес-аналитике", сборник под редакцией профессора А.В.Шмида, ВШЭ, ЕС-лизинг, Москва, Пальмир 2016г

Previous: 4.7.15 Устройства памяти и процессоры    UP: 4.7 Прикладные сети Интернет
    Next: 4.7.17 Цифровая медицина