Регрессионный анализ

Автор работы: v*******@gmail.com, 28 Ноября 2011 в 13:06, лекция

Описание

Цель занятия - научиться при помощи пакета SPSS 15.0 (и ниже) строить по имеющимся данным простую линейную, нелинейную и множественную регрессию.

Работа состоит из  1 файл

Лекция 5-Регрессия.doc

— 621.00 Кб (Скачать документ)

Лекция 5. Регрессионный анализ 

Цель  занятия - научиться при помощи пакета SPSS 15.0 (и ниже) строить по имеющимся данным простую линейную, нелинейную и множественную регрессию. 

Содержание

5.1. Простая линейная регрессия

5.1.1. Назначение простой линейной регрессии

 

      Основная  цель построения регрессии - это стремление, используя некий набор «наблюдений», получить количественные и качественные зависимости для различных соотношений. Очевидно, что мы не можем просчитать влияние абсолютно всех факторов - мы осознанно упрощаем действительность, строя модель. Таким образом, мы работаем уже с некоторой эконометрической моделью, которая выражается в достаточно простой математической форме. Отличительной особенностью эконометрической модели будет являться наличие случайной (стохастической) составляющей (ei), учитывающей возможные ошибки при сборе данных, построении выборки и ее обработки.

      Простейшей  эконометрической моделью является простая линейная регрессия, имеющая вид:

Yj = а + bXi + ei,  где

Yj- является зависимой переменной;

Xi - регрессором (объясняющей переменной);

а и b – коэффициенты;

еi - случайная составляющая.

      Для нахождения неизвестных коэффициентов SPSS использует метод наименьших квадратов (МНК). Введем основные предпосылки:

1. Yj = а + bXi + еi - спецификация модели.

2. Xi-детерминированная величина.

3. ∑(еi)=0

4. Var(ei)=cr2

5. ∑ (еi, ej) = 0, при i≠j - некоррелированность ошибок для разных наблюдений.  

       Суть  метода заключается в следующем. У нас есть набор наблюдений Yi, Xi и требуется подобрать функцию Y = f(X), наилучшим образом описывающую зависимость у от х (рис.5-1).

    Фактически  задача сводится к наилучшему подбору  коэффициентов с тем, чтобы сумма  квадратов отклонений была минимальной.

    Рис.5-1. Графическая интерпретация простой линейной регрессии

Решая стандартную  задачу минимизации, получаем, что

5.1.2. Вызов процедуры

 

      Для вызова процедуры линейной регрессии  необходимо выполнить следующую  последовательность действий:

в командной  строке окна ввода данных открыть  меню Analyze , далее подменю Regression и затем Linear.

5.1.3. Установка параметров

 

После вызова процедуры  появится диалоговое окно Linear Regression (рис.5-2):

Рис.5- 2. Вид диалогового окна Linear Regression 

    1.В строку Dependent должна быть занесена зависимая переменная (yi) в строку Independent- независимая.

    2. Независимые переменные могут задаваться двумя способами: блоками и путем выбора метода (меню Method) формирования группы.

    В списке Method имеются следующие возможности:

  • Enter - простейший способ - все данные формируются в единую группу.
  • Remove - это метод, который позволяет отбрасывать переменные в процессе определения конечной модели.
  • Stepwise - это метод, который позволяет добавлять и удалять отдельные переменные в соответствии с параметрами, установленными в окне Options.
  • Backward - данный метод позволяет последовательно удалять переменные из модели в соответствии с параметрами в окне Options, до того момента, пока это возможно (например по критерию значимости).
  • Forward - данный метод позволяет последовательно добавлять переменные в модель в соответствии с параметрами в окне Options, до того момента, пока это возможно.
 

      Рассмотрим  другие клавиши диалогового окна:

WLS - взвешенный метод наименьших квадратов - присваивает наблюдениям различные веса, чтобы компенсировать различную точность измерений.

Statistics - параметры вывода (диалоговое окно представлено на рис 5-3).

Рис.5-3. Вид диалогового окна Statistics 

В диалоговом окне Statistics имеются следующие возможности: 

  • Estimates- выводит непосредственно оценки коэффициентов.
  • Confidence intervals - доверительный интервал для коэффициентов (уровень значимости)
  • Covariance matrix - выводит ковариационную матрицу оценок коэффициентов.
  • Model fit - включает множественный R, R-квадрат, нормированный R-квадрат, стандартную ошибку оценки и таблицу анализа дисперсии (TSS, RSS).
  • R squared change - включает R, R-квадрат, F-статистику и их изменения при добавлении-удалении переменных.
  • Descriptives – выдается число наблюдений без пропущенных значений, среднее значение и стандартное отклонение для каждой анализируемой переменной. Также выводится корреляционная матрица с односторонним уровнем значимости и число наблюдений для каждой корреляции.
  • Part and partial correlations - выдаются корреляции нулевого порядка (те. Обычные парные), частные и частичные корреляции.
  • Collinearity diagnostics – выдаются собственные значения масштабированной и нецентрированной матрицы сумм перекрестных произведений, числа обусловленности, доли в разложении дисперсии, коэффициенты разбухания дисперсии (VIF – variance inflation factor), толерантности для отдельных переменных.
  • Durbin-Watson - тест для выявления автокорреляции. Если DW больше 2 -отрицательная автокорреляция, меньше 2 - положительная.
 

      Plots - графическая иллюстрация. При ее активизации выводится диалоговое окно (рис.5-4).

      В диалоговом окне Plots имеются возможности:

Типы  переменных:

  • DEPENDNT - зависимая переменная;
  • ZPRED - предсказываемые значения зависимой переменной (экстраполяция). Может быть стандартизирована с математическим ожиданием 0 и стандартным отклонением 1;
  • ZRESID - отклонение: еi=Уi- Y^ ;
  • DRESID - исключенные остатки (разности) ;
  • ADJPRED - нормированные предсказанные значения;
  • SRESID - остатки, стандартизованные на оценку их стандартного отклонения.

Produce all partial plots - строит точечную диаграмму остатков независимых переменных.

Рис.5-4. Вид диалогового окна Plots 

Save - каждый пункт добавляет одну или более переменных в файл данных Predicted Values

    • Standardized - экстраполирование зависимой переменной;
    • Adjusted - экстраполирование для случая, который выбрасывается при вычислении коэффициентов регрессии;
    • S.E. of mean pred. value - оценка стандартного отклонения среднего значения зависимой переменной для случая, когда независимые переменные имеют такие же значения Residuals;
    • Unstandardized - отклонение: еi = Yi - Y^;
    • Deleted - исключенные остатки (разности).
 

Options - настройка для пошагового метода:

  • Use probability of F - уровень значимости (для ввода должен быть меньше, чнм для удаления);
  • Use P value - использование Р-значений;
  • Exclude cases listwise - использование только тех ячеек, которые содержат верные (корректные) значения;
  • Exclude cases painwise - рассчитывает каждый коэффициент корреляции, используя все ячейки с корректными значениями;
  • Replace with mean - замещает недостающее значение средним значением переменной.

5.1.4. Вид результатов

 

      Результаты  расчета линейной регрессии представлены большим количеством таблиц. Приведем самые основные из них. На рис. 5-5 представлена таблица суммарных характеристик. В ней нужно обратить внимание на R, R square, F Change, Sig. F Change, Durbin-Watson. Из рис.5-5 следует, что рассчитанная модель адекватна, коэффициент корреляции очень высок, в остатках сериальная составляющая (Durbin-Watson) отсутствует.

      На  рис.5-6 проиллюстрирована таблица коэффициентов регрессии. Из нее следует, что полученные коэффициенты статистически значимы t- критерий и Sig. Показатель IMQ влияет на индекс РТС положительно. 

Рис.5-5. Суммарные характеристики модели 

Рис.5-6. Таблица коэффициентов регрессии 

Таблица дисперсионного анализа (рис.5-7) показывает, что модель адекватна (F и Sig).

Рис.5-7. Дисперсионный анализ модели

5.2. Простая множественная регрессия

5.2.1. Назначение простой множественной регрессии

 

      Простая множественная регрессия - есть некоторое усложнение простой линейной регрессии - предполагается, что может быть более одной независимой переменной. Модель будет выглядеть следующим образом:

      Также можно воспользоваться матричной записью (X и Y матрицы)

      Наиболее  распространенный метод решения - Метод наименьших квадратов (МНК) получения коэффициентов модели

      По  МНК:

b^ = (X’X)-1 Х’ Y.

      Таким образом, видно, что добавление регрессоров  не повлияло ни на наши предпосылки, ни на алгоритм построения, ни на интерпретацию результата.  Единственное отличие будет наблюдаться в окне ввода независимых переменных.

5.2.2. Отбор переменных во множественной регрессии

5.2.2.1. Назначение отбора переменных

 

      SPSS может строить модели множественной регрессии с очень большим количеством независимых переменных. Такая возможность полезна, когда на исследуемый зависимый параметр влияет множество различных факторов. При этом иногда известно, какие именно переменные включить в модель в качестве предикторов. В этом случае вам следует построить модель, используя метод принудительного включения (ENTER), и все указанные вами переменные будут включены в модель. Этот способ построения уравнения регрессии используется по умолчанию.

      Однако  зачастую вы не можете точно знать, какие именно переменные из имеющихся, нужно включить в модель, а какие  переменные отбросить, как не оказывающие  влияния на исследуемый параметр. Для этого случая в SPSS имеется  несколько методов подбора множества независимых переменных для регрессионной модели, которые мы и рассмотрим в данном разделе.

      Входные данные, требуемые для использования  различных методов подбора множества  независимых переменных, такие же, как и для обычной процедуры  построения линейной регрессии.

      Нам требуется исследовать, от чего и  как зависит индекс РТС. На первый взгляд сложно определить, какие факторы  оказывают, а какие не оказывают  влияние на индекс РТС, и для  выбора множества независимых переменных в регрессионной модели мы должны использовать один из трех методов подбора, встроенных в SPSS.

5.2.2.2. Метод пошагового исключения (backward elimination)

 

      Метод пошагового исключения (backward elimination) начинается с построения модели, куда включены все переменные (модель, аналогичная строящейся по умолчанию). Затем на каждом шаге из модели удаляется наименее полезный из предикторов, т.е. предиктор с минимальным значением F-статистики, причем это значение должно быть меньше заранее выбранного порога, чтобы не удалять из модели наименее значимые, но все же значимые переменные. Процедура пошагового исключения останавливается, когда из модели больше нечего удалять, т.е. когда значения F-статистики для всех оставшихся предикторов выше выбранного порога.

5.2.2.3. Метод пошагового включения (forward selection)

 

      Метод пошагового включения (forward selection) вводит переменные в модель по одной (шаг за шагом). На первом шаге вводится переменная, обычная корреляция которой с зависимой переменной максимальна, при этом знак корреляции, естественно, не важен. На каждом следующем шаге вводится переменная с самой сильной частной корреляцией. Причем для каждого шага с помощью F-статистики проверяется гипотеза о равенстве нулю коэффициента при вновь введенной переменной. Процедура останавливается, когда установленный критерий для F-статистики больше не выполняется, т.е. независимая переменная, которая должна быть введена в модель следующей, не является значимой.

5.2.2.4. Метод пошагового отбора (stepwise selection)

 

        Пошаговый отбор  (stepwise selection) начинается так же, как метод пошагового включения, но на каждом шаге переменные проверяются так же, как в методе исключения. Этот метод используется наиболее часто, особенно когда независимые переменные сильно коррелированы, т.е. наблюдается мультиколлинеарность. Поскольку включение в модель, скажем, пятой переменной может уменьшить важность всех уже включенных переменных, одна из включенных в уравнение переменных может быть удалена с использованием метода пошагового исключения. При использовании «чистого» метода пошагового включения эта переменная остается в модели.

Информация о работе Регрессионный анализ