Автор работы: Пользователь скрыл имя, 22 Октября 2012 в 17:16, реферат
Актуальность темы. В настоящее время существует большое количество данных.Они представляются как необработанный материал предоставляемый, поставщиками данных и используемый потребителями для формирования информации . Данные бесконечны, и бывают как существенные так и незначащие. Чтобы понять с какими именно данными пользователь должен работать ему приходиться проделывать огромную работу, но со временем человечество изобретает все более упрощенные способы сбора и обработки данных. Так была разработана Data Mining.
Data Mining представляет собой процесс обнаружения в сырых данных ранее неизвестных, практически полезных и доступных знаний, необходимых для принятия решений в различных сферах человеческой деятельности.
Задачи, решаемые методами Data Mining, принято разделять на описательные (англ. descriptive) и предсказательные (англ. predictive).
ВВЕДЕНИЕ 4
РАЗДЕЛ 1 6
ТЕОРЕТИЧЕСКИЕ СВЕДЕНИЯ О ДАННЫХ И ИХ ОБРАБОТКЕ 6
1.1. Кластерный анализ 7
1.2. Теория классификации 9
1.3. Дискриминантный анализ 10
1.4. Факторный анализ 11
1.5. Регрессионный анализ 13
Выводы раздела 1 16
РАЗДЕЛ 2 17
ВЫПОЛНЕНИЕ МЕТОДОВ СТАТИСТИЧЕСКОГО АНАЛИЗА 17
2.1. Создание файлов данных 17
2.2. Обработка многомерных данных в Microsoft Excel 18
2.3. Кластерный анализ 22
2.4. Обработка классифицируемых данных. Теория классификации. 23
2.5. Дискриминантный анализ. 23
2.5. Факторный анализ 25
2.7. Регрессионный анализ 26
Выводы раздела 2 29
ВЫВОД 30
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ 32
Чаще
всего она возникает вследствие
существования линейной зависимости
между переменными. Однако, в случае,
когда такие зависимости
Так же, если факторизовать корреляционную матрицу, приведенную в литературе, возможно столкновение с негативным влиянием округления чисел.
Таким образом, ошибка при выполнении факторного анализа могла возникнуть по причине не точных данных в статистике.
В данном задании необходимо провести регрессионный анализ.
Регрессио́нный (линейный) анализ — статистический метод исследования влияния одной или нескольких независимых переменных на зависимую переменную . Независимые переменные иначе называют регрессорами или предикторами, а зависимые переменные — критериальными. Результат регрессионного анализа (см.рис 2.10).
Рис.2.10 Итоговая таблица регрессии.
Затем необходимо построить график остатков(см.рис.2.11).
Рис.2.11. График остатков
Далее необходимо построить корреляционное поле (см.рис.2.12).
Рис.2.12. Корреляционное поле.
Таким образом,
регрессионный анализ позволяет исследовать
влияние одной или нескольких независимых
переменных на зависимую переменную.
Программа Microsoft Excel является удобным табличным редактором, позволяющим производить вычисления с разными видами данных, в том числе и статистическими данными.
Кластерный анализ разбивает данные на группы схожих объектов, что позволяет упростить их дальнейшую обработку и принятие решений.
Данные разбиты на 10 групп, в которых данные мало отличаются друг от друга.
Проведя дискриминантный анализ, видно что значения статистики лямбда Уилкса лежат в интервале [0;1], что свидетельствует о хорошей дискриминации.
Ошибка при выполнении факторного анализа могла возникнуть по причине не точных данных в статистике.
Регрессионный анализ позволяет исследовать влияние одной или нескольких независимых переменных на зависимую переменную
Кластерный анализ выполняет сбор данных, содержащих информацию о выборке объектов, и затем разбивает объекты на однородные группы(кластеры).
Классификация предназначена для определения того, к какой группе может быть отнесен каждый объект.
Дискриминантный анализ применяется для поиска переменных, позволяющих относить наблюдаемые объекты в одну или несколько наблюдаемых групп, а также для классификации наблюдений в различные группы.
С помощью факторного анализа возможно выявление скрытых переменных факторов, отвечающих за наличие линейных статистических связей корреляций между наблюдаемыми переменными.
Регрессионный анализ используется для прогноза, анализа временных рядов, тестирования гипотез и выявления скрытых взаимосвязей в данных.
Программа Microsoft Excel является удобным табличным редактором, позволяющим производить вычисления с разными видами данных, в том числе и статистическими данными.
Кластерный анализ разбивает данные на группы схожих объектов, что позволяет упростить их дальнейшую обработку и принятие решений.
Данные разбиты на 10 групп, в которых данные мало отличаются друг от друга.
Проведя дискриминантный анализ, видно что значения статистики лямбда Уилкса лежат в интервале [0;1], что свидетельствует о хорошей дискриминации.
Ошибка при выполнении факторного анализа могла возникнуть по причине не точных данных в статистике.
Регрессионный
анализ позволяет исследовать влияние
одной или нескольких независимых переменных
на зависимую переменную.
Информация о работе Интеллектуальный анализ данных в прикладной программе STATISTIKA