Сегодня мы являемся свидетелями активного развития технологии интеллектуального анализа данных (ИАД или data mining), появление которой связано, в первую очередь, с необходимостью аналитической обработки сверхбольших объемов информации, накапливаемой в современных хранилищах данных. Возможность использования хорошо известных методов математической статистики и машинного обучения для решения задач подобного рода открыло новые возможности перед аналитиками, исследователями, а также теми, кто принимает решения — менеджерами и руководителями компаний.
Сложность и разнообразие методов ИАД требуют создания специализированных средств конечного пользователя для решения типовых задач анализа информации в конкретных областях. Поскольку эти средства используются в составе сложных многофункциональных систем поддержки принятия решений, они должны легко интегрироваться в подобные системы. Одним из наиболее важных и перспективных направлений применения ИАД являются бизнес-приложения, поэтому опыт канадско-американской фирмы Cognos по реализации методов ИАД в составе интегрированных интеллектуальных систем поддержки принятия решений представляет интерес как для разработчиков, так и для пользователей.
Системы ИАД применяются в научных исследованиях и образовании, в работе правоохранительных органов, производстве, здравоохранении и многих других областях. Особенно широко технология ИАД используется в деловых приложениях.
В данной работе мы исследуем интеллектуальный анализ данных.
1. Интеллектуальный анализ данных
Интеллектуальный анализ данных (ИАД) обычно определяют как метод поддержки принятия решений, основанный на анализе зависимостей между данными. В рамках такой общей формулировки обычный анализ отчетов, построенных по базе данных, также может рассматриваться как разновидность ИАД. Чтобы перейти к рассмотрению более продвинутых технологий ИАД, посмотрим, как можно автоматизировать поиск зависимостей между данными.
Целью интеллектуального анализа данных (англ. Datamining, другие варианты перевода — «добыча данных», «раскопка данных») является обнаружение неявных закономерностей в наборах данных. Как научное направление он стал активно развиваться в 90-х годах XXвека, что было вызвано широким распространением технологий автоматизированной обработки информации и накоплением в компьютерных системах больших объемов данных [1, с. 12]. И хотя существующие технологии позволяли, например, быстро найти в базе данных нужную информацию, этого во многих случаях было уже недостаточно. Возникла потребность поиска взаимосвязей между отдельными событиями среди больших объемов данных, для чего понадобились методы математической статистики, теории баз данных, теории искусственного интеллекта и ряда других областей.
Форматы данных, представление и кодирование информации
... в виде чисел. А если мы хотим произвести сравнительный анализ количества учащихся по классам, то удобно информацию представить в виде диаграммы. В то же время совершенно ... числительных, основанных на десятке (двадцать, тридцать, пятьдесят, шестьдесят, семьдесят, восемьдесят). По современным данным, развитые системы нумерации впервые появились в Древнем Египте и Месопотамии. Для записи ...
DataMining
Учитывая разнообразие форм представления данных, используемых алгоритмов и сфер применения, интеллектуальный анализ данных может проводиться с помощью программных продуктов следующих классов:
- специализированных «коробочных» программных продуктов для интеллектуального анализа;
- математических пакетов;
- электронных таблиц(и различного рода надстроек над ними);
- средств интегрированных в системы управления базами данных (СУБД);
- других программных продуктов.
В качестве примера можно привести СУБД MicrosoftSQLServer и входящие в ее состав службы AnalysisServices, обеспечивающие пользователей средствами аналитической обработки данных в режиме on-line (OLAP)и интеллектуального анализа данных, которые впервые появились в MSSQLServer 2000.
Не только Microsoft, но и другие ведущие разработчики СУБД имеют в своем арсенале средства интеллектуального анализа данных.
В ходе проведения интеллектуального анализа данных проводится исследование множества объектов (или вариантов).
В большинстве случаев его можно представить в виде таблицы, каждая строка которой соответствует одному из вариантов, а в столбцах содержатся значения параметров, его характеризующих. Зависимая переменная — параметр, значение которого рассматриваем как зависящее от других параметров (независимых переменных).
Собственно эту зависимость и необходимо определить, используя методы интеллектуального анализа данных.
Рассмотрим основные задачи интеллектуального анализа данных.
Задача классификации, Задача регрессии
задача прогнозирования
Тут требуется сделать небольшое отступление. По способу решения задачи интеллектуального анализа можно разделить на два класса: обучение с учителем (от англ. supervisedlearning) и обучение без учителя (от англ. unsupervisedlearning).
В первом случае требуется обучающий набор данных, на котором создается и обучается модель интеллектуального анализа данных. Готовая модель тестируется и впоследствии используется для предсказания значений в новых наборах данных. Иногда в этом же случае говорят об управляемых алгоритмах интеллектуального анализа. Задачи классификации и регрессии относятся как раз к этому типу.
Во втором случае целью является выявление закономерностей имеющихся в существующем наборе данных. При этом обучающая выборка не требуется. В качестве примера можно привести задачу анализа потребительской корзины, когда в ходе исследования выявляются товары, чаще всего покупаемые вместе. К этому же классу относится задача кластеризации.
Также можно говорить о классификации задач интеллектуального анализа данных по назначению[2,с. 21], в соответствии с которой, они делятся на описательные (descriptive) и предсказательные (predictive).
Цель решения описательных задач — лучше понять исследуемые данные, выявить имеющиеся в них закономерности, даже если в других наборах данных они встречаться не будут. Для предсказательных задач характерно то, что в ходе их решения на основании набора данных с известными результатами строится модель для предсказания новых значений.
Но вернемся к перечислению задач интеллектуального анализа данных.
Задача кластеризации
Другое название этой задачи — сегментация. Например, интернет-магазин может быть заинтересован в проведении подобного анализа базы своих клиентов, для того, чтобы потом сформировать специальные предложения для выделенных групп, учитывая их особенности.
Кластеризация относится к задачам обучения без учителя (или «неуправляемым» задачам).
Задача определения взаимосвязей
Данная задача также относится к классу «обучение без учителя».
Анализ последовательностей, Анализ отклонений
В таблице 1.1 приведены примеры задач интеллектуального анализа данных из различных областей.
Таблица 1.1. Примеры применения интеллектуального анализа данных |
||||
Информационные технологии |
Торговля |
Финансовая сфера |
||
Классификация |
Оценка кредитоспособности |
|||
Регрессия |
Оценка допустимого кредитного лимита |
|||
Прогнозирование |
Прогнозирование продаж |
Прогнозирование цен акции |
||
Кластеризации |
Сегментация клиентов |
Сегментация клиентов |
||
Определения взаимосвязей |
Анализ потребительской корзины |
|||
Анализ последовательностей |
Анализ переходов по страницам web-сайта |
|||
Анализ отклонений |
Обнаружение вторжений в информационные системы |
Выявление мошенничества с банковскими картами |
||
Сегодня количество фирм, предлагающих продукты ИАД, исчисляется десятками, однако, не рассматривая их подробно, приведем лишь классификацию процессов ИАД, применяющихся на практике.
В системах ИАД применяется чрезвычайно широкий спектр математических, логических и статистических методов: от анализа деревьев решений (Business Objects) до нейронных сетей (NeoVista).
Пока трудно говорить о перспективности или предпочтительности тех или иных методов. Технология ИАД сейчас находится в начале пути, и практического материала для каких-либо рекомендаций или обобщений явно недостаточно.
Необходимо также упомянуть об интеграции ИАД в информационные системы. Многие методы ИАД возникли из задач экспертного анализа, поэтому входными данными для них традиционно служат «плоские» файлы данных. При использовании ИАД в СППР часто приходится сначала извлекать данные из Хранилища, преобразовывать их в файлы нужных форматов и только потом переходить собственно к интеллектуальному анализу. Затем результаты анализа требуется сформулировать в терминах бизнес-понятий. Важный шаг вперед сделала компания Information Discovery, разработавшая системы OLAP Discovery System и OLAP Affinity System, предназначенные специально для интеллектуального анализа многомерных агрегированных данных [2, с. 26].
интеллектуальный анализ данные прогнозирование
Заключение
Интеллектуальный анализ данных (ИАД, data mining, KDD — knowledge discovery in databases) представляет собой новейшее направление в области информационных систем (ИС), ориентированное на решение задач поддержки принятия решений на основе количественных и качественных исследований сверхбольших массивов разнородных ретроспективных данных.
Интеллектуальный анализ данных является одним из наиболее актуальных и востребованных направлений прикладной математики. Современные процессы бизнеса и производства порождают огромные массивы данных, и людям становится все труднее интерпретировать и реагировать на большое количество данных, которые динамически изменяются во времени выполнения, не говоря уже о предупреждении критических ситуаций. «Интеллектуальный анализ данных» извлечь максимум полезных знаний из многомерных, разнородных, неполных, неточных, противоречивых, косвенных данных. Помогает сделать это эффективно, если объем данных измеряется гигабайтами или даже терабайтами. Помогает строить алгоритмы, способные обучаться принятию решений в различных профессиональных областях.
Средства «Интеллектуального анализа данных» предохраняют людей от информационной перегрузки, перерабатывая оперативные данные в полезную информацию так, чтобы нужные действия могли быть приняты в нужные времена.
Прикладные разработки ведутся по следующим направлениям: прогнозирование в экономических системах; автоматизация маркетинговых исследований и анализ клиентских сред для производственных, торговых, телекоммуникационных и Интернет-компаний; автоматизация принятия кредитных решений и оценка кредитных рисков; мониторинг финансовых рынков; автоматические торговые системы.
Список литературы
[Электронный ресурс]//URL: https://liarte.ru/kontrolnaya/intellektualnyiy-analiz-dannyih/
1. Тельнов Ю.Ф. Интеллектуальные информационные системы в экономике. М. СИНТЕГ 2002. 306 с.
2. Дюк В., Самойленко А. Data Mining. Издательский дом «Питер». СПб , 2001.
3. Васильев В.П. Информационно-аналитические системы. Практикум на ПК.МФ МЭСИ -2007.