Интеллектуальный анализ данных

Автор работы: Пользователь скрыл имя, 05 Декабря 2011 в 08:42, контрольная работа

Описание

Термин интеллектуальный анализ данных можно понимать двояко. В узком смысле это попытка адекватного русского перевода термина Data Mining, который ввёл в обиход Григорий Пятецкий-Шапиро в 1992 году

Работа состоит из  1 файл

инф.аналит.с-мы!!!!.doc

— 52.00 Кб (Скачать документ)

    ГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ

    ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ

    «МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

    ЭКОНОМИКИ, СТАТИСТИКИ И ИНФОРМАТИКИ (МЭСИ)»

    МИНСКИЙ ФИЛИАЛ

 
 
 
 
 
 
 
 
 
 
 

Предмет:   Информационные аналитические системы.

Тема: Интеллектуальный анализ данных. 
 
 

                                                                                                               

      Работа  выполнена  студентом группы 60-АУ

      Лобачем Владиславом Вячеславовичем 

                 Проверил старший преподаватель      Горбачёв  Николай Николаевич

                                                      

    Минск 2011

 

    Интеллектуальный  анализ данных 

    Термин  интеллектуальный анализ данных можно  понимать двояко. В узком смысле это попытка адекватного русского перевода термина Data Mining, который ввёл в обиход Григорий Пятецкий-Шапиро в 1992 году. Согласно его определению Data Mining -- это процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных, доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Дословный перевод «раскопки (или добыча) данных» следует, по всей видимости, считать неудачным.

    В широком смысле это современная  концепция анализа данных, предполагает следующее:

    · данные могут быть неточными, неполными (содержать пропуски), противоречивыми, разнородными, косвенными, и при  этом иметь гигантские объёмы; поэтому  понимание данных в конкретных приложениях  требует значительных интеллектуальных усилий;

    · сами алгоритмы анализа данных могут обладать «элементами интеллекта», в частности, способностью обучаться по прецедентам, то есть делать общие выводы на основе частных наблюдений; разработка таких алгоритмов также требует значительных интеллектуальных усилий;

    · процессы переработки сырых данных в информацию, а информации в знания уже не могут быть выполнены по старинке вручную, и требуют нетривиальной автоматизации.

    Необходимость интеллектуального анализа данных возникла в конце XX века в результате повсеместного распространения информационных технологий, позволяющих детально протоколировать процессы бизнеса и производства.

    По  составу решаемых задач Data Mining практически  не отличается от стандартного набора средств, применяемых с середины XX века в области прикладной статистики, машинного обучения (machine learning), информационного поиска (information retrieval). Основное различие заключается в эффективности алгоритмов и технологичности их применения. Подавляющее большинство классических процедур имеют время выполнения, квадратичное или даже кубическое по объёму исходных данных. При количестве объектов, превосходящем несколько десятков тысяч, они работают неприемлемо медленно даже на самых современных компьютерах. За последние десятилетия значительные усилия в области Data Mining были направлены на создание специализированных алгоритмов, способных выполнять те же задачи за линейное или даже логарифмическое время без существенной потери точности.

    Анализ  данных

    Основой для анализа данных служит моделирование. Построение моделей является универсальным способом изучения окружающего мира. Построение моделей позволяет обнаруживать зависимости, извлекать новые знания, прогнозировать, управлять и решать множество других задач. Большинство экономических систем относятся к категории сложных, т.е. с большим количеством элементов и сложными связями.

    Принципы  построения моделей

    · При анализе отталкиваться от опыта эксперта.

    · Рассматривать проблему под разными  углами и комбинировать подходы.

    · Не стремиться к высокой точности модели, а двигаться от более простых и грубых моделей к более сложным и точным.

    · По прошествии времени и накоплению новых сведений нужно повторять  цикл моделирования.

    Knowledge Discovery in Databases (KDD) - это процесс поиска  полезных знаний в "сырых"  данных. KDD включает в себя вопросы: подготовки данных, выбора информативных признаков, очистки данных, применения методов Data Mining (DM), постобработки данных и интерпретации полученных результатов. Безусловно, "сердцем" всего этого процесса являются методы DM, позволяющие обнаруживать знания. Этими знаниями могут быть правила, описывающие связи между свойствами данных (деревья решений), часто встречающиеся шаблоны (ассоциативные правила), а также результаты классификации (нейронные сети) и кластеризации данных (карты Кохонена) и т.д.

    Knowledge Discovery in Databases не задает набор методов  обработки или пригодные для  анализа алгоритмы, он определяет  последовательность действий, которую  необходимо выполнить для того, чтобы из исходных данных получить  знания. Данный подход универсальный и не зависит от предметной области, что является его несомненным достоинством. Deductor - полнофункциональная платформа для решения задач Knowledge Discovery in Databases, позволяющая провести все вышеописанные шаги.

    Несмотря  на большое количество разнообразных бизнес-задач, почти все они решаются по единой методике Knowledge Discovery in Databases. Она описывает не конкретный алгоритм или математический аппарат, а последовательность действий, которую необходимо выполнить для построения модели (извлечения знания). Данная методика не зависит от предметной области, это набор атомарных операций, комбинируя которые, можно получить нужное решение. Выглядит она примерно как изображено на схеме ниже.

    Расшифровка схемы:

    1) KDD - выборка данных

    Первым  шагом в анализе является получение  исходной выборки. На основе этих данных и строятся модели. На этом шаге необходимо активное участие эксперта для выдвижения гипотез и отбора факторов, влияющих на анализируемый процесс. Желательно, чтобы данные были уже собраны и консолидированы. Крайне необходимо наличие удобных механизмов подготовки выборки. Чаще всего в качестве источника рекомендуется использовать специализированное хранилище данных, агрегирующее всю необходимую для анализа информацию.

    2) KDD - очистка данных

    Реальные  данные для анализа редко бывают хорошего качества. Необходимость предварительной  обработки при анализе данных возникает независимо от того, какие  технологии и алгоритмы используются. Более того, эта задача может представлять самостоятельную ценность в областях, не имеющих непосредственного отношения к анализу данных. К задачам очистки данных относятся такие как: заполнение пропусков, редактирование аномалий, сглаживание, обнаружение дубликатов и противоречий и прочие.

    3) KDD - трансформация данных

    Трансформация данных - последний этап перед, собственно, анализом. Дело в том, что различные  алгоритмы анализа требуют специальным  образом подготовленные данные, например, для прогнозирования необходимо преобразовать временной ряд  при помощи скользящего окна или вычисление агрегируемых показателей. К задачам трансформации данных относятся: скользящее окно, приведение типов, выделение временных интервалов, преобразование непрерывных значений в дискретные и наоборот, сортировка, группировка и прочее.

    4) KDD - Data Mining (задачи)

    Data Mining - это процесс обнаружения  в «сырых» данных ранее неизвестных  нетривиальных, практически полезных  и доступных интерпретации знаний, необходимых для принятия решений  в различных сферах человеческой  деятельности. Информация, найденная в процессе применения методов Data Mining, должна быть нетривиальной и ранее неизвестной, например, средние продажи не являются таковыми. Знания должны описывать новые связи между свойствами, предсказывать значения одних признаков на основе других.

    Задачи  решаемые методами Data Mining:

    · Классификация - это отнесение объектов к одному из заранее известных  классов.

    · Регрессия - установление зависимости  непрерывных выходных переменных от входных значений.

    · Кластеризация - объекты внутри кластера должны быть 'похожими' друг на друга и отличаться от объектов, вошедших в другие кластеры.

    · Ассоциация - нахождение зависимости, что из события X следует событие Y.

    · Последовательные шаблоны - установление закономерностей между связанными во времени событиями.

    Можно говорить еще и о задаче анализа  отклонений - выявления наиболее нехарактерных  шаблонов.

    Применение Data Mining в экономике

    · Классификация - отнесение клиента  к определенной группе риска, оценка перспективности клиентов

    · Регрессия - прогнозирование продаж, эластичность спроса

    · Кластеризация - сегментация клиентской базы, анализ продуктовой линейки

    · Ассоциация - кросс-продажи, стимулирование спроса

    · Последовательные шаблоны - предсказание спроса, оптимизация закупок

    Data Mining - алгоритмы

    Для решения вышеописанных задач  используются различные методы и  алгоритмы Data Mining. Ввиду того, что Data Mining развивался и развивается на стыке таких дисциплин, как статистика, теория информации, машинное обучение, теория баз данных, вполне закономерно, что большинство алгоритмов и методов Data Mining были разработаны на основе различных методов из этих дисциплин. В общем случае, не принципиально, каким именно алгоритмом будет решаться одна из 5-ти задач Data Mining - главное иметь метод решения для каждого класса задач. На сегодня наибольшее распространение получали самообучающиеся методы и машинное обучение.

    5) KDD - интерпретация

    В случае, когда извлеченные знания непрозрачны для пользователя, должны существовать методы постобработки, позволяющие привести их к интерпретируемому виду. Для оценки качества полученной модели нужно использовать как формальные методы оценки, так и знания эксперта. Так как именно эксперт может сказать, насколько применима полученная модель к реальным данным. Полученные модели являются, по сути, формализованными знаниями эксперта, а следовательно их можно тиражировать. Найденные знания должны быть применимы и на новых данных с некоторой степенью достоверности.

    Достоинства и недостатки моделей

    Использование методов построения моделей позволяет получать новые знания, которые невозможно извлечь другим способом. Кроме того, полученные результаты являются формализованным описанием некоего процесса, а следовательно поддаются автоматической обработке. Недостатком же является то, что такие методы более требовательны к качеству данных, знаниям эксперта и формализации самого изучаемого процесса. К тому же почти всегда имеются случаи не укладывающиеся ни в какие модели.

    Комбинирование  подходов

    На  практике подходы комбинируются, например, визуализация данных наводит эксперта на некоторые идеи, которые он пробует проверить при помощи различных способов построения моделей, а результаты построения моделей подаются на вход механизмам визуализации. Полнофункциональная система анализа не должна замыкаться на применении только одного подхода или одной методики анализа. Механизмы визуализации и построения моделей должны дополнять друг друга. Максимальную отдачу можно получить комбинируя методы и подходы к анализу данных.

    С помощью KDD решаются небольшие бизнес-задачи, например:

    · План-факторный анализ - визуализация данных

    · Анализ денежных потоков - визуализация данных

    · Прогнозирование - задача регрессии

    · Управление рисками - регрессия, кластеризация  и классификация

    · Стимулирование спроса - кластеризация, ассоциация

    · Оценка эластичности спроса - регрессия

    · Выявление предпочтений клиентов - последовательность, кластеризация, классификация

Информация о работе Интеллектуальный анализ данных