Автор работы: v*******@gmail.com, 28 Ноября 2011 в 13:06, лекция
Цель занятия - научиться при помощи пакета SPSS 15.0 (и ниже) строить по имеющимся данным простую линейную, нелинейную и множественную регрессию.
Лекция
5. Регрессионный анализ
Цель
занятия - научиться при помощи пакета
SPSS 15.0 (и ниже) строить по имеющимся данным
простую линейную, нелинейную и множественную
регрессию.
Содержание
Основная
цель построения регрессии - это стремление,
используя некий набор «
Простейшей эконометрической моделью является простая линейная регрессия, имеющая вид:
Yj = а + bXi + ei, где
Yj- является зависимой переменной;
Xi - регрессором (объясняющей переменной);
а и b – коэффициенты;
еi - случайная составляющая.
Для нахождения неизвестных коэффициентов SPSS использует метод наименьших квадратов (МНК). Введем основные предпосылки:
1. Yj = а + bXi + еi - спецификация модели.
2. Xi-детерминированная величина.
3. ∑(еi)=0
4. Var(ei)=cr2
5. ∑ (еi,
ej) = 0, при i≠j - некоррелированность
ошибок для разных наблюдений.
Суть метода заключается в следующем. У нас есть набор наблюдений Yi, Xi и требуется подобрать функцию Y = f(X), наилучшим образом описывающую зависимость у от х (рис.5-1).
Фактически задача сводится к наилучшему подбору коэффициентов с тем, чтобы сумма квадратов отклонений была минимальной.
Рис.5-1. Графическая интерпретация простой линейной регрессии
Решая стандартную задачу минимизации, получаем, что
Для вызова процедуры линейной регрессии необходимо выполнить следующую последовательность действий:
в командной строке окна ввода данных открыть меню Analyze , далее подменю Regression и затем Linear.
После вызова процедуры появится диалоговое окно Linear Regression (рис.5-2):
Рис.5-
2. Вид диалогового окна Linear Regression
1.В строку Dependent должна быть занесена зависимая переменная (yi) в строку Independent- независимая.
2. Независимые переменные могут задаваться двумя способами: блоками и путем выбора метода (меню Method) формирования группы.
В списке Method имеются следующие возможности:
Рассмотрим другие клавиши диалогового окна:
WLS - взвешенный метод наименьших квадратов - присваивает наблюдениям различные веса, чтобы компенсировать различную точность измерений.
Statistics - параметры вывода (диалоговое окно представлено на рис 5-3).
Рис.5-3.
Вид диалогового окна
Statistics
В диалоговом окне
Statistics имеются следующие возможности:
Plots - графическая иллюстрация. При ее активизации выводится диалоговое окно (рис.5-4).
В диалоговом окне Plots имеются возможности:
Типы переменных:
Produce all partial plots - строит точечную диаграмму остатков независимых переменных.
Рис.5-4.
Вид диалогового окна
Plots
Save - каждый пункт добавляет одну или более переменных в файл данных Predicted Values
Options - настройка для пошагового метода:
Результаты расчета линейной регрессии представлены большим количеством таблиц. Приведем самые основные из них. На рис. 5-5 представлена таблица суммарных характеристик. В ней нужно обратить внимание на R, R square, F Change, Sig. F Change, Durbin-Watson. Из рис.5-5 следует, что рассчитанная модель адекватна, коэффициент корреляции очень высок, в остатках сериальная составляющая (Durbin-Watson) отсутствует.
На
рис.5-6 проиллюстрирована таблица коэффициентов
регрессии. Из нее следует, что полученные
коэффициенты статистически значимы t-
критерий и Sig. Показатель IMQ влияет на
индекс РТС положительно.
Рис.5-5.
Суммарные характеристики
модели
Рис.5-6.
Таблица коэффициентов
регрессии
Таблица дисперсионного анализа (рис.5-7) показывает, что модель адекватна (F и Sig).
Рис.5-7. Дисперсионный анализ модели
Простая множественная регрессия - есть некоторое усложнение простой линейной регрессии - предполагается, что может быть более одной независимой переменной. Модель будет выглядеть следующим образом:
Также можно воспользоваться матричной записью (X и Y матрицы)
По МНК:
b^ = (X’X)-1 Х’ Y.
Таким образом, видно, что добавление регрессоров не повлияло ни на наши предпосылки, ни на алгоритм построения, ни на интерпретацию результата. Единственное отличие будет наблюдаться в окне ввода независимых переменных.
SPSS может строить модели множественной регрессии с очень большим количеством независимых переменных. Такая возможность полезна, когда на исследуемый зависимый параметр влияет множество различных факторов. При этом иногда известно, какие именно переменные включить в модель в качестве предикторов. В этом случае вам следует построить модель, используя метод принудительного включения (ENTER), и все указанные вами переменные будут включены в модель. Этот способ построения уравнения регрессии используется по умолчанию.
Однако
зачастую вы не можете точно знать,
какие именно переменные из имеющихся,
нужно включить в модель, а какие
переменные отбросить, как не оказывающие
влияния на исследуемый параметр.
Для этого случая в SPSS имеется
несколько методов подбора
Входные
данные, требуемые для использования
различных методов подбора
Нам
требуется исследовать, от чего и
как зависит индекс РТС. На первый
взгляд сложно определить, какие факторы
оказывают, а какие не оказывают
влияние на индекс РТС, и для выбора
множества независимых
Метод пошагового исключения (backward elimination) начинается с построения модели, куда включены все переменные (модель, аналогичная строящейся по умолчанию). Затем на каждом шаге из модели удаляется наименее полезный из предикторов, т.е. предиктор с минимальным значением F-статистики, причем это значение должно быть меньше заранее выбранного порога, чтобы не удалять из модели наименее значимые, но все же значимые переменные. Процедура пошагового исключения останавливается, когда из модели больше нечего удалять, т.е. когда значения F-статистики для всех оставшихся предикторов выше выбранного порога.
Метод пошагового включения (forward selection) вводит переменные в модель по одной (шаг за шагом). На первом шаге вводится переменная, обычная корреляция которой с зависимой переменной максимальна, при этом знак корреляции, естественно, не важен. На каждом следующем шаге вводится переменная с самой сильной частной корреляцией. Причем для каждого шага с помощью F-статистики проверяется гипотеза о равенстве нулю коэффициента при вновь введенной переменной. Процедура останавливается, когда установленный критерий для F-статистики больше не выполняется, т.е. независимая переменная, которая должна быть введена в модель следующей, не является значимой.
Пошаговый отбор (stepwise selection) начинается так же, как метод пошагового включения, но на каждом шаге переменные проверяются так же, как в методе исключения. Этот метод используется наиболее часто, особенно когда независимые переменные сильно коррелированы, т.е. наблюдается мультиколлинеарность. Поскольку включение в модель, скажем, пятой переменной может уменьшить важность всех уже включенных переменных, одна из включенных в уравнение переменных может быть удалена с использованием метода пошагового исключения. При использовании «чистого» метода пошагового включения эта переменная остается в модели.