Автор работы: Пользователь скрыл имя, 23 Февраля 2012 в 10:21, курсовая работа
Для данной курсовой работы поставлены следующие цели:
1. составить таблицу с исходными данными;
2. провести предварительный анализ переменных;
3. сформулировать гипотезы о влиянии независимых переменных на результирующую переменную (цена жилья);
Введение.............................................................................................................................31 Описание анализируемых показателей........................................................................4
2 Описание статистического аппарата.........................................................................6
2.1 Средние величины....................................................................................................6
2.2 Показатели вариации...............................................................................................7
2.3 Однофакторный дисперсионный анализ................................................................8
2.4 Корреляционный анализ..........................................................................................9
2.5 Множественная корреляция..................................................................................11
2.6 Множественный регрессионный анализ ............................................................13
2.7 Метод наименьших квадратов...............................................................................16
2.8 Проверка на мультиколениарность.......................................................................21
2.9 Кластерный анализ..................................................................................................23
3 Экономический и статистический анализ результатов.............................................26 Заключение.......................................................................................................................45
Список использованных источников.............................................................................46
Т.к. Fр>Fкр (4,623>3,012), то делаем вывод о том, что тип дома двухкомнатных квартир влияет на цену. К аналогичному выводу можно прийти, сравнив Р-значение с 0,05, т.к. 0,01<0,05.
Проверим влияет ли расстояние до метро на цены двухкомнатных квартир. Результаты дисперсионного анализа представлены в таблице 7.
Таблица 7 – Результаты дисперсионного анализа
Однофакторный дисперсионный анализ |
|
| х5 |
|
|
|
ИТОГИ |
|
|
|
|
|
|
Группы | Счет | Сумма | Среднее | Дисперсия |
|
|
Столбец 1 | 183 | 15619857 | 85354,41 | 2423758502 |
|
|
Столбец 2 | 365 | 24370111 | 66767,43 | 433482252,6 |
|
|
Дисперсионный анализ |
|
|
|
|
|
|
Источник вариации | SS | df | MS | F | P-Значение | F критическое |
Между группами | 4,211E+10 | 1 | 4,21E+10 | 38,38938944 | 1,149E-9 | 3,858546 |
Внутри групп | 5,989E+11 | 546 | 1,1E+09 |
|
|
|
Итого | 6,41E+11 | 547 |
|
|
|
|
Т.к. Fр>Fкр (38,38>3,85), то делаем вывод о том, что тип дома двухкомнатных квартир влияет на цену. К аналогичному выводу можно прийти, сравнив Р-значение с 0,05, т.к. 1,149E-9<0,05.
Для заданного набора данных нужно построить множественную линейную регрессию. Модель имеет следующий вид:
(30)
где – индикаторы переменной (тип дома),
– индикаторы переменной (район),
Где переменные Floor, Type, Transp, DistrictN являются фиктивными (бинарными), принимающие значения 0 или 1. В этой модели мы будем использовать данные, представленные в таблице 8.
Таблица 8 – Переменные модели
PriceUE | – | цена в у.е. (результативный признак) |
Floor | – | этаж (фиктивная переменная): 0, если первый или последний этаж; 1, иначе |
Space | – | общая площадь (м2) |
Type: | – | тип дома (фиктивная переменная): |
Brick (Т1) |
| кирпичный |
Brick-M (Т2) |
| кирпично-монолитный |
Monolith (Т3) |
| монолитный |
Panel (Т4) |
| панельный |
Time | – | срок сдачи кавртиры(мес.) |
Transp | – | удаленность от метро (фиктивная переменная): 0, если не нужен транспорт; 1, иначе; |
DistrictN | – | район (фиктивная переменная) |
Admiralteisky(А01) |
| Адмиралтейский |
Vasileostrovsk(А02) |
| Василеостровский |
Viborgsky (А03) |
| Выборгский |
Kalininsky (А04) |
| Калининский |
Kirovsky (А05) |
| Кировский |
Krasnogvardeisky(А0) |
| Красногвардейский |
Krasnoselsky(А07) |
| Красносельский |
Moskovsky (А08) |
| Московский |
Nevsky (А09) |
| Невский |
Petrogradsky(А10) |
| Петроградский |
Primorsky (А11) |
| Приморский |
Frunzensky (А12) |
| Фрунзенский |
Сentralny (А13) |
| Центральный |
Для начала нам нужно прологарифмировать цену и площадь.
Для чего воспользуемся пакетом Статистика и в итоге получим прологарифмированные данные для 548 наблюдений
Дальше непосредственно строим заданную модель. Т.к. в нашей модели присутствуют фиктивные переменные, то в модель вводим спецификацию (к-1) фиктивную переменную (к- кол-во градаций), сделав одну из градаций базовой, относительно которой будем изучать влияние остальных градаций. Проблемы мультиколинеарности в этом случае не возникает.
В рассматриваемом примере в качестве базового уровня для переменной Type можно принять градацию «Panel», а для переменной DistrictN – «Frunzensky (А12)».
Результаты множественной регрессии приведены на рисунках 3 и 4.
Рисунок 3 – Результаты множественного регрессионного анализа
Рисунок 4 – Результаты множественного регрессионного анализа
По результатам мы видим, что в нашей модели присутствуют незначимые коэффициенты (Floor, T1, T3, A04, A07), следовательно нам нужно убрать их из уравнения.
Рисунок 5 – Результаты множественного регрессионного анализа, после исключения из модели незначимых коэффициентов
Рисунок 6 – Результаты множественного регрессионного анализа, после исключения из модели незначимых коэффициентов
Дадим интерпретацию полученным числовым характеристикам (рисунок 5,6).
R-квадрат – коэффициент детерминации, в нашем случае он показывает, что 85% вариации результативного признака обусловлено влиянием факторных признаков. Рассчитывается по формуле (28).
Стандартная ошибка составляет 0,05. Рассчитывается по формуле (27). Из анализа p-level видно, что все коэффициенты значимы на 5% уровне.
Скорректированный коэффициент детерминации равен 0,85. Коэффициент множественной корреляции (0,926) характеризует тесноту линейной связи между зависимой и всеми независимыми переменными и может принимать значения от 0 до 1. Чем ближе к 1, тем сильнее связь. Рассчитывается по формуле (16).
Уравнение зависимости между этими признаками будет иметь следующий вид:
LOGPriceUE = 2,9+1,04*LOGSpace – 0,0023*Time – 0,011*Transport + 0,013*T2+0,2*A1+0,07*A2+0,021*
где LOGPriceUE – логарифм цены (в долл.США) ;
LOGSpace –логарифм площади (в кв.м.).
Коэффициент при LOGSpace, равный 1,04 означает, что увеличение жилой площади на 1 % увеличивает её цену на 1,04 %. Иначе говоря, эластичность цены квартиры по жилой площади составляет 1,04. Отрицательное значение при Time (-0,0023) означает, что увеличение срока сдачи квартиры на 1 % уменьшает стоимость квартиры на 0,0023 %. Отрицательный коэффициент (-0,011) при Transport означает, что увеличение расстояния до метро влечет за собой дополнительные расходы на транспорт и тем самым уменьшает стоимость квартиры на 1,1 %.
Квартира в кирпично-монолитных домах (Brick-M=1) стоит приблизительно на 1,3 % дороже аналогичной квартиры в панельных домах. Размещение квартиры в Адмиралтейском районе увеличивает стоимость квартиры на 20 % по отношению к аналогичным квартирам в Фрунзенском районе. Дальше стоимость квартир, размещенных в определенном районе, будет сравниваться со стоимостью квартир в Фрунзенском районе.
Таким образом самые высокие цены на двухкомнатные квартиры в Санкт-Петербурге на декабрь 2004 года установились в районах Петроградский и Центральный. Что касается типов домов, то наиболее дорогими оказались квартиры в кирпично – монолитных домах. Коэффициенты рассчитаны по формуле (21).
Теперь ознакомимся с результатом дисперсионного анализа уравнения регрессии на рисунке 7.
Рисунок 7– Результаты дисперсионного анализа уравнения регрессии
F–критерий полученного уравнения регрессии значим на 5% уровне, вероятность нулевой гипотезы меньше 0,05, что говорит об общей значимости уравнения регрессии. F– критерий рассчитывается по формуле (18).
Просмотрим частные коэффициенты корреляции (рисунок 8), для обнаружения взаимосвязи между независимыми факторами. Частные коэффициенты корреляции, как парные могут принимать значения от -1 до +1.
Рисунок 8 – Результаты расчета частных коэффициентов
Исходя из результатов расчета, можно сделать вывод о том, что между независимыми переменными существует несильная взаимосвязь, т.к. коэффициенты частной корреляции не близки к единице. Все коэффициенты значимы.
Проверка на мультиколлинеарность
Проверим полученное уравнение множественной регрессии на мультиколлинеарность.
1-ый способ: с помощью частных коэффициентов корреляции.
Для этого построим матрицу из частных коэффициентов корреляции между результативным и количественными факторами (цена, площадь, срок сдачи квартиры).
Рисунок 9 – Результаты расчета частных коэффициентов
Т.к. Rx1x2<Ryx1 , Rx2x1<Ryx2, то можно сделать вывод о том, что мультиколлинеарность отсутствует.
2-ой способ: с помощью критерия χ². Найдем корреляционную матрицу, которая рассчитывается по формуле (40).
| Столбец 1 | Столбец 2 |
Столбец 1 | 1 | -0,13634186 |
Столбец 2 | -0,136342 | 1 |
Рисунок 10 – Корреляционная матрица факторных признаков
Найдем определитель матрицы. Он равен 0,97. Затем по формуле (41) найдем расчетное значение χ²=4,445 (по модулю). Сравниваем расчетное значение с критическим (χ²кр = 5,991).
Т.к. χ²р<χ²кр, мультиколинеарности нет.
Просмотрим корреляционную матрицу парных коэффициентов (приложение Б). В ней мы увидим, что самое большое влияние на цену двухкомнатной квартиры оказывает фактор площадь. Т.к. парный коэффициент составил 0,79. Также по результатам видно, что размещение квартиры в районе Петроградский, оказывает значительное влияние на цену (парный коэф-т корелляции равен 0,66 ).
Проведем всесторонний анализ остатков регрессионного уравнения для всех наблюдений (приложение В). Остатки – это разности между опытными и предсказанными значениями зависимой переменной в построенной регрессионной модели. Внимательный анализ остатков позволяет оценить адекватность модели. Модель должна быть адекватна на всех отрезках интервала изменения зависимой переменной. Остатки должны быть нормально распределены, со средним значением равным 0 и постоянной, независимо от величин зависимой и независимой переменных, дисперсией. Невыполнение этой предпосылки, т.е. нарушение условия гомоскедастичности возмущений, означает, что дисперсия возмущения зависит от значений факторов. Такие регрессионные модели называются моделями с гетероскедастичностью возмущений. Также о нормальности остатков можно судить по графику остатков (рисунок 11,12). Чем ближе распределение к нормальному виду, тем лучше ложатся остатки на прямую линию. Распределение остатков является нормальным.