Автор работы: Пользователь скрыл имя, 23 Февраля 2012 в 10:21, курсовая работа
Для данной курсовой работы поставлены следующие цели:
1. составить таблицу с исходными данными;
2. провести предварительный анализ переменных;
3. сформулировать гипотезы о влиянии независимых переменных на результирующую переменную (цена жилья);
Введение.............................................................................................................................31 Описание анализируемых показателей........................................................................4
2 Описание статистического аппарата.........................................................................6
2.1 Средние величины....................................................................................................6
2.2 Показатели вариации...............................................................................................7
2.3 Однофакторный дисперсионный анализ................................................................8
2.4 Корреляционный анализ..........................................................................................9
2.5 Множественная корреляция..................................................................................11
2.6 Множественный регрессионный анализ ............................................................13
2.7 Метод наименьших квадратов...............................................................................16
2.8 Проверка на мультиколениарность.......................................................................21
2.9 Кластерный анализ..................................................................................................23
3 Экономический и статистический анализ результатов.............................................26 Заключение.......................................................................................................................45
Список использованных источников.............................................................................46
Базовая идея состоит в том, что общая дисперсия признака раскладывается на составляющие, каждая из которых характеризует влияние того или иного фактора.
Q=QA+Qo, (6)
где Q – общая дисперсия,
QA – дисперсия (рассеяние характеризуется влиянием фактора А),
Qo – остаточная дисперсия (рассеяние характеризуется влиянием других случайных факторов).
где m – количество групп,
n – количество единиц в каждой группе,
- среднее значение признака.
Затем рассчитываются оценки дисперсий:
На основе оценок дисперсий рассчитывают расчетное значение критерия Фишера, которое затем сравнивают с критическим.
Выдвигается гипотеза об отсутствии влияния фактора на показатель.
Если Fр>Fкр, то гипотеза отвергается, следовательно, делается вывод, что фактор влияет на исследуемый показатель. [1,стр.8-13]
2.4 Корреляционный анализ
Любой экономический показатель связан с другими. Исследование таких взаимосвязей – важнейшая задача статистики.
Различают два вида связей, существующих между показателями, – функциональные и стохастические.
Функциональной называется зависимость, при которой одному значению факторного признака строго соответствует единственное значение результативного признака. Стохастическая зависимость характеризуется тем, что результативный признак не полностью определяется факторным признаком, его влияние проявляется в среднем при достаточно большом числе наблюдений.
Наиболее часто для исследования стохастических зависимостей используют метод корреляции.
К изучению связи методом корреляции обращаются в том случае, когда нельзя изолировать влияние посторонних факторов. При этом число наблюдений должно быть достаточно велико, так как малое число наблюдений не позволяет обнаружить закономерность связи.
Первая задача корреляции заключается в математическом выражении изменения результативного признака в связи с изменением одного или несколько факторных признаков. Данная задача решается определением уравнения регрессии и носит название регрессионного анализа. Вторая задача состоит в определении степени влияния искажающих факторов – различных показателей тесноты связи и называется корреляционным анализом.
Для оценки тесноты связи прямолинейной зависимости используется линейный коэффициент корреляции (r)
или
Линейный коэффициент корреляции может изменяться от -1 до +1. Чем ближе значение r по абсолютной величине к единице, тем теснее связь. Если r>0, то связь между факторным и результативным признаками прямо пропорциональная, если r<0, то обратно пропорциональная.
Проверка значимости коэффициента корреляции осуществляется с помощью следующей нулевой гипотезы: Н₀: ρ=0, где ρ – коэффициент линейной корреляции в генеральной совокупности.
В зависимости от объема выборки:
1) Если n>50, то распределение данного коэффициента считается нормальным. Расчетное значение определяется по формуле:
где r – коэффициент линейной корреляции;
n – объем выборки.
Критическое значение берем из таблицы нормального распределения с уровнем значимости α/2.
Если критическое значение оказывается меньше расчетного, то делается вывод о том, что коэффициент корреляции незначим.
2) Если n<50, то в предположении справедливости нулевой гипотезы рассчитывается статистика:
Критическое значение берем из таблицы распределения Стьюдента с (n-2) степенями свободы.
Выводы делаются аналогичным образом.
2.5 Множественная корреляция
Коэффициент множественной корреляции характеризует максимальную величину силы связи зависимой переменной Y и независимых переменных Xj, обозначают его или просто R.
В общем виде коэффициент множественной корреляции R может быть рассчитан из соотношения дисперсионных сумм :
где - выровненные (теоретические) значения зависимой переменной (Y), полученные по данным регрессионной модели ;
- средняя, рассчитанная по теоретическим значениям;
y - фактические значения зависимой переменной;
- средняя, исчисленная по фактическим значениям зависимой переменной.
Когда известна матрица парных корреляций R, коэффициент множественной корреляции получают, решив матричное уравнение вида
(17)
где - определитель матрицы парных корреляций;
- определитель матрицы парных корреляций, в которой вычеркнуты строка и столбец, характеризующие связи независимых переменных Xj с зависимой переменной Y.
Множественный коэффициент корреляции характеризует тесноту линейной связи между одной переменной (результативной) и остальными, входящими в модель; изменяется в пределах от 0 до 1.
Зная коэффициент множественной корреляции, коэффициент множественной детерминации определяют просто как .
Множественный коэффициент детерминации характеризует долю дисперсии одной переменной (результативной), обусловленной влиянием всех остальных (аргументов), входящих в модель.
Значимость множественного коэффициента корреляции проверяется по F - критерию. Например, для множественного коэффициента корреляции проверка значимости сводится к проверке гипотезы, что генеральный множественный коэффициент корреляции равен нулю, т. е. H0: , а наблюдаемое значение статистики находится по формуле:
Множественный коэффициент корреляции считается значимым, т. е. имеет место линейная статистическая зависимость, между X1 и остальными факторами X2,...,Xm, если: Fнабл. > Fкр.(α, m-1, n-m), где Fкр определяется по таблице F - распределения для заданных α, = m-1, = n-m.
2.6 Множественная регрессия
Множественная регрессия представляет собой регрессию результативного признака с двумя и большим числом факторов, т.е. модель вида:
(19)
Если нельзя контролировать поведение отдельных переменных, т. е. не удается обеспечить равенство всех прочих условий для оценки влияния одного исследуемого фактора, то в этом случае следует попытаться выявить влияние других факторов, введя их в модель, т. е. построить уравнение множественной регрессии.
Основная цель множественной регрессии – построить модель с большим числом факторов, определив при этом влияние каждого из них в отдельности, а также совокупное их воздействие на моделируемый показатель.
Пусть результативный признак Y зависит от k факторных признаков. Необходимо определить y=f(x1,x2… xk), в частности,
(20)
при линейной форме связи
С помощью МНК необходимо оценить значение коэффициента bi таких, чтобы
При нахождении неизвестных коэффициентов уравнения методом МНК получим формулу для их определения:
(21)
Для определения значимости коэффициента bj используется статистика:
где Sbj – дисперсия j-го коэффициента:
тогда
- диагональный элемент матрицы, ошибка уравнения.
Эти расчетные значения в предположении справедливости нулевой гипотезы Н0: b1=b0=0 (т.е. коэффициенты не значимы) распределены по закону Стьюдента с (n-k-1) степенями свободы, где n – объем выборки; k –количество факторов.
где n – размерность Х,
m – количество коэффициентов уравнения регрессии.
Если единицы измерения факторов различны: чтобы сделать сопоставимыми применяют нормированные коэффициенты регрессии:
(26)
i показывает величину изменения результативного фактора в значениях среднеквадратического отклонения при изменении факторного признака Xj на одну среднеквадратическую ошибку.
(27)
Проверка качества уравнения регрессии заключается в следующих действиях:
1) проверка значимости всех bj;
2) проверка общего качества уравнения регрессии с помощью коэффициента множественной детерминации R2.
3) Проверка свойств данных, выполнение которых предполагалось при оценивании уравнений. Ошибки ej распределены по нормальному закону, нормированному закону.
s2=const.
Для проверки общего качества уравнения регрессии используется коэффициент детерминации:
. (28)
[2, стр. 16-28]
8
2.7 Метод наименьших квадратов. Предпосылки метода наименьших квадратов
Для получения несмещенных, эффективных и состоятельных оценок параметров регрессионной модели необходимо выполнение следующих предпосылок:
1. Возмущение i (i=1, 2, …, n) есть величина случайная, а факторы X1, X2, …, Xp — величины неслучайные. Это означает, что вектор возмущений — случайный вектор, а матрица значений факторов X — неслучайная (детерминированная).
Проверка выполнения этой предпосылки может проводиться с помощью разных критериев. Наиболее простыми из них являются метод серий и метод поворотных точек, которыми исследуется ряд остатков регрессии. Иногда достаточным оказывается визуальный анализ графика (графиков) остатков.
2. Математическое ожидание возмущения равно нулю i:
(i=1, 2, …, n).
Другими словами, математическое ожидание вектора возмущений есть нулевой вектор размера n:
Данная предпосылка всегда выполняется для линейных моделей и моделей, нелинейных по переменным. Для моделей, нелинейных по параметрам и приводимых к линейному виду логарифмированием, предпосылка выполняется для логарифмов исходных данных.
3. Дисперсия возмущения одинакова для всех наблюдений результата Y:
(i=1, 2, …, n)
Это условие называется условием гомоскедастичности или равноизменчивости возмущений. Выполнение этой предпосылки может проверяться разными методами. Гомоскедастичность – дисперсия каждого отклонения одинакова для всех значений .