Интеллектуальный анализ данных в прикладной программе STATISTIKA

Автор работы: Пользователь скрыл имя, 22 Октября 2012 в 17:16, реферат

Описание

Актуальность темы. В настоящее время существует большое количество данных.Они представляются как необработанный материал предоставляемый, поставщиками данных и используемый потребителями для формирования информации . Данные бесконечны, и бывают как существенные так и незначащие. Чтобы понять с какими именно данными пользователь должен работать ему приходиться проделывать огромную работу, но со временем человечество изобретает все более упрощенные способы сбора и обработки данных. Так была разработана Data Mining.
Data Mining представляет собой процесс обнаружения в сырых данных ранее неизвестных, практически полезных и доступных знаний, необходимых для принятия решений в различных сферах человеческой деятельности.
Задачи, решаемые методами Data Mining, принято разделять на описательные (англ. descriptive) и предсказательные (англ. predictive).

Содержание

ВВЕДЕНИЕ 4
РАЗДЕЛ 1 6
ТЕОРЕТИЧЕСКИЕ СВЕДЕНИЯ О ДАННЫХ И ИХ ОБРАБОТКЕ 6
1.1. Кластерный анализ 7
1.2. Теория классификации 9
1.3. Дискриминантный анализ 10
1.4. Факторный анализ 11
1.5. Регрессионный анализ 13
Выводы раздела 1 16
РАЗДЕЛ 2 17
ВЫПОЛНЕНИЕ МЕТОДОВ СТАТИСТИЧЕСКОГО АНАЛИЗА 17
2.1. Создание файлов данных 17
2.2. Обработка многомерных данных в Microsoft Excel 18
2.3. Кластерный анализ 22
2.4. Обработка классифицируемых данных. Теория классификации. 23
2.5. Дискриминантный анализ. 23
2.5. Факторный анализ 25
2.7. Регрессионный анализ 26
Выводы раздела 2 29
ВЫВОД 30
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ 32

Работа состоит из  1 файл

РГР по ИАД.docx

— 502.20 Кб (Скачать документ)

СЕВАСТОПОЛЬСКИЙ НАЦИОНАЛЬНЫЙ УНИВЕРСИТЕТ  ЯДЕРНОЙ ЭНЕРГИИ И ПРОМЫШЛЕННОСТИ

 

 

 

 

 

Кафедра КЭЭМ

 

 

 

 

Расчётно-графическая  работа №1

по дисциплине: «Интеллектуальный анализ данных»

Тема: Интеллектуальный анализ данных в прикладной программе

STATISTIKA.

 

 

 

 

 

 

 

 

 

СЕВАСТОПОЛЬ

2012

 

 

 

 

 

 

ЗАДАНИЯ

 

  1. Задание 1. Создание файлов данных.
  2. Задание 2.  Обработка многомерных данных в Microsoft Office Eхсеl.
  3. Задание 3. Кластерный анализ.
  4. Задание 4. Обработка  классифицируемых данных. Теория классификации.
  5. Задание 5. Дискриминантный анализ.
  6. Задание 6. Факторный анализ.
  7. Задание 7. Регрессионный анализ (Множественная регрессия).
  8.  

СОДЕРЖАНИЕ

 

 

ВВЕДЕНИЕ 4

РАЗДЕЛ 1 6

ТЕОРЕТИЧЕСКИЕ СВЕДЕНИЯ О ДАННЫХ И ИХ ОБРАБОТКЕ 6

1.1. Кластерный анализ 7

1.2. Теория классификации 9

1.3. Дискриминантный анализ 10

1.4. Факторный анализ 11

1.5. Регрессионный анализ 13

Выводы раздела 1 16

РАЗДЕЛ 2 17

ВЫПОЛНЕНИЕ МЕТОДОВ СТАТИСТИЧЕСКОГО АНАЛИЗА 17

2.1. Создание файлов данных 17

2.2. Обработка многомерных данных в Microsoft Excel 18

2.3. Кластерный анализ 22

2.4. Обработка классифицируемых данных. Теория классификации. 23

2.5. Дискриминантный анализ. 23

2.5. Факторный анализ 25

2.7. Регрессионный анализ 26

Выводы раздела 2 29

ВЫВОД 30

СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ 32

 

ВВЕДЕНИЕ

 

 

Актуальность темы. В настоящее время существует большое количество данных.Они представляются как необработанный материал предоставляемый, поставщиками данных и используемый потребителями для формирования информации . Данные бесконечны, и бывают как существенные так и незначащие. Чтобы понять с какими именно данными пользователь должен работать ему приходиться проделывать огромную работу, но со временем человечество изобретает все более упрощенные способы сбора и обработки данных. Так была разработана Data Mining.

Data Mining  представляет собой процесс обнаружения в сырых данных ранее неизвестных, практически полезных и доступных знаний, необходимых для принятия решений в различных сферах человеческой деятельности.

Задачи, решаемые методами Data Mining, принято разделять на описательные (англ. descriptive) и предсказательные (англ. predictive).

В описательных задачах самое главное — это  дать наглядное описание имеющихся  скрытых закономерностей, в то время  как в предсказательных задачах  на первом плане стоит вопрос о  предсказании для тех случаев, для  которых данных ещё нет.

К описательным задачам относятся:

- поиск ассоциативных правил или паттернов (образцов);

- группировка объектов, кластерный анализ;

- построение регрессионной модели.

К предсказательным задачам относятся:

- классификация объектов (для заранее заданных классов);

- регрессионный анализ, анализ временных рядов.

С помощью  интеллектуального анализа даных  можно отыскивать действительно очень ценную информацию.

 

Data mining и искусственный интеллект:

Знания, добываемые методами Data mining принято представлять в виде моделей. В качестве таких моделей выступают:

- ассоциативные правила;

- деревья решений;

- кластеры;

- математические функции.

Интеллектуальный  анализ данных представляет большую  ценность для руководителей и  аналитиков в их повседневной деятельности. Деловые люди осознали, что с помощью  методов Data Mining они могут получить ощутимые преимущества в конкурентной борьбе. В основе методов Data mining лежат математические методы обработки данных, включая и статистические методы. В промышленных решениях, нередко, такие методы непосредственно включаются в пакеты Data mining.

Цели и задачи работы. Получение практических навыков применения  современных информационных технологий, предназначенных для интеллектуального анализа данных, направленных на исследования целостного представления об анализе и интерпретации экспериментальных и статистических данных, как о процессе поиска, так и применения скрытых в них закономерностей.

 

Для достижения поставленной цели необходимо решить следующие задачи:

  1. Раскрыть  ряд теоретических вопросов;
  2. Выполнить методы статистического анализа.

 

РАЗДЕЛ 1

ТЕОРЕТИЧЕСКИЕ СВЕДЕНИЯ О ДАННЫХ И ИХ ОБРАБОТКЕ

 

 

Данные-это необработанный материал предоставляемый, поставщиками данных и используемый потребителями для формирования информации на основе данных.Для того чтобы их было удобно использовать надо провести обработку данных.

Обработка данных- это процесс получения  достоверной  и ранее неизвестной  информации из баз данных, а также  использование её для дальнейшего  анализа и принятия решения.

Компьютерная  обработка данных- предполагает некоторое  математическое преобразование данных с помощью математических средств.

Одни из таких  средств является программа STATISTIKA.

Statistica (торговая марка — STATISTICA) — пакет для всестороннего статистического анализа, разработанный компанией StatSoft. В пакете STATISTICA реализованы процедуры для анализа данных (data analysis), управления данными (data management), добычи данных (data mining), визуализации данных (data visualization).

Система STATISTICA обладает широкими графическими возможностями. STATISTICA включает в себя большое количество разнообразных категорий и типов графиков (включая научные, деловые, трехмерные и двухмерные графики в различных системах координат, специализированные статистические графики — гистограммы, матричные, категорированные графики и др.). Пакет STATISTICA имеет модульную структуру. Каждый модуль содержит уникальные процедуры и методы анализа данных:

Base — включает в себя обширный выбор основных статистик, широкий набор методов для разведочного анализа.

Advanced Linear/Non-Linear Models — предлагает широкий спектр линейных и нелинейных средств моделирования, регрессионный анализ, анализ компонент дисперсий, анализ временных рядов и т. д.

Multivariate Exploratory Techniques — многомерные разведочные технологии анализа STATISTICA предоставляет широкий выбор разведочных технологий, начиная с кластерного анализа до расширенных методов классификационных деревьев, в сочетании с бесчисленным набором средств интерактивной визуализации для построения связей и шаблонов

QC — Контроль качества — предоставляет широкий спектр аналитических методов управления качеством, а также контрольные карты презентационного качества, непревзойденной гибкости и разнообразия.

Neural Networks — (отдельный модуль) единственный в мире программный продукт для нейросетевых исследований, полностью переведенный на русский язык

Data Miner — интеллектуальный анализ данных.

    1. Кластерный анализ

 

Кластерный  анализ [англ. cluster - гроздь, группа, скопление] - широкий класс процедур многомерного статистического анализа, позволяющих произвести автоматизированную группировку наблюдений в однородные классы - кластеры. Входным материалом для кластерного анализа служат попарные показатели различия или сходства классифицируемых объектов. В частности, это могут быть коэффициенты корреляции между переменными. В результате кластерного анализа исследователь получает разбиение объектов на классы.

Кластерный  анализ (англ. Data clustering) - задача разбиения заданной выборки объектов (ситуаций) на подмножества, называемые кластерами, так, чтобы каждый кластер состоял из схожих объектов, а объекты разных кластеров существенно отличались. Задача кластеризации относится к статистической обработке, а также к широкому классу задач обучения без учителя. При кластеризации и группировке целью является выявление и выделение классов. Синонимы: построение классификации, распознавание образов без учителя, автоматическая классификация без учителя, таксономия и др. Задача кластер-анализа состоит в выяснении по эмпирическим данным, насколько элементы "группируются" или распадаются на изолированные "скопления", "кластеры"(от cluster (англ.) - гроздь, скопление). Иными словами, задача - выявление естественного разбиения на классы, свободного от субъективизма исследователя, а цель - выделение групп однородных объектов, сходных между собой, при резком отличии этих групп друг от друга.

Кластерный  анализ выполняет следующие основные задачи:

Разработка  типологии или классификации.

Исследование  полезных концептуальных схем группирования  объектов.

Порождение  гипотез на основе исследования данных.

Проверка  гипотез или исследования для  определения, действительно ли типы (группы), выделенные тем или иным способом, присутствуют в имеющихся  данных.

Кластерный  анализ предъявляет следующие требования к данным:

  1. показатели не должны коррелировать между собой;
  2. показатели не должны противоречить теории измерений;
  3. распределение показателей должно быть близко к нормальному
  4. показатели должны отвечать требованию «устойчивости», под которой
  5. понимается отсутствие влияния на их значения случайных факторов
  6. выборка должна быть однородна, не содержать «выбросов».

Цели кластеризации

Понимание данных путём выявления  кластерной структуры. Разбиение выборки  на группы схожих объектов позволяет  упростить дальнейшую обработку  данных и принятия решений, применяя к каждому кластеру свой метод  анализа (стратегия «разделяй и  властвуй»).

Сжатие данных. Если исходная выборка избыточно большая, то можно  сократить её, оставив по одному наиболее типичному представителю  от каждого кластера.

Обнаружение новизны (англ. novelty detection). Выделяются нетипичные объекты, которые не удаётся присоединить ни к одному из кластеров.

Таким образом, кластерный анализ выполняет сбор данных, содержащих информацию о выборке объектов, и затем разбивает объекты на однородные группы(кластеры).

    1.  Теория классификации

 

Классификация - самый древний и самый простой научный метод. Она служит предпосылкой всех типов теоретических конструкций, включающих сложную процедуру установления причинно-следственных отношений, которые связывают классифицируемые объекты.

Классификация делится на такие виды как: вспомогательная- производится по внешнему признаку и  служит для придания объекту нужного  порядка; естественная- является результатом  и важным следствием научного явления, т.к. предполагает результаты  классифицируемых объектов.

Функции классификации предназначены для  определения того, к какой группе наиболее вероятно может быть отнесен  каждый объект. Имеется столько же функций классификации, сколько  групп. Каждая функция позволяет  вам для каждого образца и  для каждой совокупности вычислить  веса классификации

Для получения сведений, насколько хорошо работает процедура  классификации на самом деле, следует  классифицировать (априорно) различные  наблюдения, то есть, наблюдения, которые  не использовались при оценке функции  классификации.

Таким образом, классификация  предназначена для определения того, к какой группе может быть отнесен каждый объект.

    1. Дискриминантный анализ

 

Дискриминантный анализ - раздел вычислительной математики, представляющий основное средство решения задач Распознавания образов, инструмент статистики, который используется для принятия решения о том, какие переменные разделяют (т.е. «дискриминируют») возникающие наборы данных (так называемые «группы»). Нейронные сети могут использоваться для дискриминантного анализа.

Основная цель

Дискриминантный анализ используется для принятия решения о том, какие  переменные различают (дискриминируют) две или более возникающие  совокупности (группы).

Дискриминантный анализ (discriminant analysis) используется для  анализа данных в том случае, когда зависимая переменная категориальная, независимые переменные  интервальные.

Дискриминантный анализ преследует такие цели.

  • Определение дискриминантных функций (discriminant functions) или линейных комбинаций независимых переменных, которые наилучшим образом различают (дискриминируют) категории (группы) зависимой переменной.
  • Проверка существования между группами значимых различий с точки зрения независимых переменных.
  • Определение предикторов, вносящих наибольший вклад в межгрупповые различия.
  • Отнесение случаев к одной из групп (классификация) исходя из значений предикторов.
  • Оценка точности классификации данных на группы.

Информация о работе Интеллектуальный анализ данных в прикладной программе STATISTIKA