Автор работы: Пользователь скрыл имя, 22 Октября 2012 в 17:16, реферат
Актуальность темы. В настоящее время существует большое количество данных.Они представляются как необработанный материал предоставляемый, поставщиками данных и используемый потребителями для формирования информации . Данные бесконечны, и бывают как существенные так и незначащие. Чтобы понять с какими именно данными пользователь должен работать ему приходиться проделывать огромную работу, но со временем человечество изобретает все более упрощенные способы сбора и обработки данных. Так была разработана Data Mining.
Data Mining представляет собой процесс обнаружения в сырых данных ранее неизвестных, практически полезных и доступных знаний, необходимых для принятия решений в различных сферах человеческой деятельности.
Задачи, решаемые методами Data Mining, принято разделять на описательные (англ. descriptive) и предсказательные (англ. predictive).
ВВЕДЕНИЕ 4
РАЗДЕЛ 1 6
ТЕОРЕТИЧЕСКИЕ СВЕДЕНИЯ О ДАННЫХ И ИХ ОБРАБОТКЕ 6
1.1. Кластерный анализ 7
1.2. Теория классификации 9
1.3. Дискриминантный анализ 10
1.4. Факторный анализ 11
1.5. Регрессионный анализ 13
Выводы раздела 1 16
РАЗДЕЛ 2 17
ВЫПОЛНЕНИЕ МЕТОДОВ СТАТИСТИЧЕСКОГО АНАЛИЗА 17
2.1. Создание файлов данных 17
2.2. Обработка многомерных данных в Microsoft Excel 18
2.3. Кластерный анализ 22
2.4. Обработка классифицируемых данных. Теория классификации. 23
2.5. Дискриминантный анализ. 23
2.5. Факторный анализ 25
2.7. Регрессионный анализ 26
Выводы раздела 2 29
ВЫВОД 30
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ 32
Дискриминантный анализ представляет собой статистический аппарат для изучения различий между двумя и более группами объектов по отношению к нескольким переменным одновременно. В первые был применен в сфере банковского дела, а именно в кредитном анализе.
Таким образом, дискриминантный анализ применяется для поиска переменных, позволяющих относить наблюдаемые объекты в одну или несколько наблюдаемых групп, а также для классификации наблюдений в различные группы.
Факторный анализ - многомерный статистический метод, применяемый для изучения взаимосвязей между значениями переменных.
Факторный анализ позволяет решить две важные проблемы исследователя: описать объект измерения всесторонне и в то же время компактно. С помощью факторного анализа возможно выявление скрытых переменных факторов, отвечающих за наличие линейных статистических связей корреляций между наблюдаемыми переменными.
Можно выделить 2 цели факторного анализа:
Сущностью факторного анализа является процедура вращения факторов, то есть перераспределения дисперсии по определённому методу.
Факторный анализ может быть:
Главной
проблемой факторного анализа является
выделение и интерпретация
Критерий Кайзера или критерий собственных чисел. Этот критерий предложен Кайзером, и является, вероятно, наиболее широко используемым. Отбираются только факторы с собственными значениями равными или большими 1. Это означает, что если фактор не выделяет дисперсию, эквивалентную, по крайней мере, дисперсии одной переменной, то он опускается.
Критерий
каменистой осыпи или критерий отсеивания.
Он является графическим методом, впервые
предложенным психологом Кэттелом. Собственные
значения возможно изобразить в виде
простого графика. Кэттел предложил
найти такое место на графике,
где убывание собственных значений
слева направо максимально
Критерий значимости. Он особенно эффективен, когда модель генеральной совокупности известна и отсутствуют второстепенные факторы. Но критерий непригоден для поиска изменений в модели и реализуем только в факторном анализе по методу наименьших квадратов или максимального правдоподобия.
Критерий доли воспроизводимой дисперсии. Факторы ранжируются по доле детерминируемой дисперсии, когда процент дисперсии оказывается несущественным, выделение следует остановить.
Критерий интерпретируемости и инвариантности. Данный критерий сочетает статистическую точность с субъективными интересами. Согласно ему, главные факторы можно выделять до тех пор, пока будет возможна их ясная интерпретация.
Методы факторного анализа:
Таким образом, с помощью факторного анализа возможно выявление скрытых переменных факторов, отвечающих за наличие линейных статистических связей корреляций между наблюдаемыми переменными.
Термин
"регрессия" был введён Фрэнсисом
Гальтоном в конце 19-го века. Гальтон
обнаружил, что дети родителей с
высоким или низким ростом обычно
не наследуют выдающийся рост и назвал
этот феномен "регрессия к посредственности"
Регрессия — зависимость математического ожидания (например, среднего значения) случайной величины от одной или нескольких других случайных величин (свободных переменных), то есть . Регрессионным анализом называется поиск такой функции , которая описывает эту зависимость. Регрессия может быть представлена в виде суммы неслучайной и случайной составляющих.
Регрессио́нный (линейный) анализ — статистический метод исследования влияния одной или нескольких независимых переменных на зависимую переменную . Независимые переменные иначе называют регрессорами или предикторами, а зависимые переменные — критериальными.
Цели регрессионного анализа
Регрессионный
анализ нельзя использовать для определения
наличия связи между
Смысл регрессионного анализа – построение функциональных зависимостей между двумя группами переменных величин Х1, Х2, … Хр и Y. При этом речь идет о влиянии переменных Х (это будут аргументы функций) на значения переменной Y (значение функции). Переменные Х мы будем называть факторами, а Y – откликом.
Регрессионный анализ — метод моделирования измеряемых данных и исследования их свойств. Данные состоят из пар значений зависимой переменной (переменной отклика) и независимой переменной (объясняющей переменной). Регрессионная модель есть функция независимой переменной и параметров с добавленной случайной переменной. Параметры модели настраиваются таким образом, что модель наилучшим образом приближает данные. Критерием качества приближения (целевой функцией) обычно является среднеквадратичная ошибка: сумма квадратов разности значений модели и зависимой переменной для всех значений независимой переменной в качестве аргумента.
Регрессионный
анализ — раздел математической статистики
и машинного обучения. Предполагается,
что зависимая переменная есть сумма
значений некоторой модели и случайной
величины. Относительно характера распределения
этой величины делаются предположения,
называемые гипотезой порождения данных.
Для подтверждения или
Таким образом,
регрессионный анализ используется
для прогноза, анализа временных
рядов, тестирования гипотез и выявления
скрытых взаимосвязей в данных.
В данном подразделе требуется создать файл, содержащий таблицу статистических данных о сбросе загрязненных сточных вод в поверхностные водные объекты по субъектам Российской Федерации за 1995-2005 год.
Для этого необходимо внести нужную таблицу в приложение Statistica и сохранить файл данных.(см. таблица.2.1).
Таблица 2.1
Продолжения таблицы.2.1. (см. ниже таблица. 2.1.1).
Таблица.2.1.1
Первоначально требуется найти минимальное (Хmin) и максимальное (Xmax) значения по каждому фактору с помощью встроенных функций Excel: МИН() и МАКС().
После этого необходимо разбить данные факторы на три интервала по формулам:
1 интервал (Хmin,Х1), где Х1=Хmin+;
2 интервал (Х,1Х2), где Х2=Х1+;
3 интервал
(Х2,Хmax).
Разбив данные на 3 интервала по вше перечисленным формулам получили следующий результат (см.таблица.2.2).
Таблица 2.2
Продолжение
таблицы.2.2 (см.ниже таблица.2.2.1)
Таблица.2.2.1
Перед началом классификации необходимо произвести стандартизацию данных по формуле: хsi=
Реализуем стандартизацию данных.(см.таблица 2.3).
Таким образом, программа Microsoft Excel является удобным табличным редактором, позволяющим производить вычисления с разными видами данных, в том числе и статистическими данными.
Таблица 2.3
Кластерный анализ позволяет разбить наши данные по классам, называемые кластерами, так, так чтобы каждый кластер состоял из схожих объектов, а объекты разных кластеров отличались. Также позволяет рассчитать среднее значение для каждого кластера.(см.рис.2.4).
Рис.2.4 Средние значения для каждого кластера.
Для того
что бы графически изобразить получены
результаты необходимо построить линейный
график средних значений характеристик
районов для каждого кластера.(
Рис.2.5 График средних
для каждого кластера.
Таким образом, кластерный анализ разбивает данные на группы схожих объектов, что позволяет упростить их дальнейшую обработку и принятие решений.
На данном этапе необходимо провести разбиение стандартизованных данных на различное число кластеров (от 1 до 10).(см.рис.2.6).
Рис.2.6 разбиение на 10 кластеров.
Таким образом, был проведен кластерный анализ, в ходе которого данные разбиты на 10 групп, в которых данные мало отличаются друг от друга.
Для проведения дискриминантного анализа в стандартизированную таблицу добавим еще один столбец (CLASTER), который будет содержать номера кластеров для каждого района соответственно. Далее необходимо выполнить дискриминантный анализ, рассчитать расстояние Махаланобиса между группами, выполнить канонический анализ.(см.рис.2.7).
Рис.2.7 Дискриминантный анализ, расстояние Махаланобиса, канонический анализ.
После того как выполнили канонический анализ требуется построить диаграмму рассеяния.
Рис.2.8. Диаграмма рассеяния канонических значений.
Необходимо
провести классификацию данных(см.рис.2.
Рис.2.9. Функции классификации, построенные стандартным методом.
Таким образом, проведя дискриминантный анализ, видно что значения статистики лямбда Уилкса лежат в интервале [0;1], что свидетельствует о хорошей дискриминации.
При выполнение факторного анализа возникла следующая ошибка не выставляются установками по умолчанию. Дело в том, что в процессе факторизации процедура выполняет поиск так называемой обратной матрицы по отношению к корреляционной. Здесь существует аналогия с привычными действительными числами: умножив число на обратное к нему число, необходимо получить единицу (например, 4 и 0.25). Однако для некоторых чисел обратных к ним не существует , ноль невозможно умножить на что-то, что даст в итоге единицу. Однако для некоторых матриц не существует обратных, а значит, провести для таких случаев факторный анализ становится невозможным.
Информация о работе Интеллектуальный анализ данных в прикладной программе STATISTIKA