Регрессионный анализ

Автор работы: v*******@gmail.com, 28 Ноября 2011 в 13:06, лекция

Описание

Цель занятия - научиться при помощи пакета SPSS 15.0 (и ниже) строить по имеющимся данным простую линейную, нелинейную и множественную регрессию.

Работа состоит из  1 файл

Лекция 5-Регрессия.doc

— 621.00 Кб (Скачать документ)

5.2.2.5. "Оптимальное" число независимых переменных

 

      Рассмотрим, как будут изменяться параметры  уравнения, когда мы будем добавлять  по очереди дополнительные независимые переменные. Коэффициенты корреляции не должны убывать по мере того, как включаются новые объясняющие переменные. Это утверждение всегда справедливо и в регрессионном анализе. Однако это не означает, что уравнение с огромным числом переменных всегда лучше описывает исследуемый процесс, поскольку по мере того, как растет число параметров,  исчерпываются степени свободы, предоставленные выборочными данными. Каждый раз переменная, добавленная в уравнение, вычитает одну степень свободы из суммы квадратов остатков и одна добавляется в сумму квадратов, объясненных регрессией.

      Как уже упоминалось ранее, коэффициент  корреляции - весьма оптимистическая мера для определения тесноты связи. Скорректированный коэффициент R2 учитывает это обстоятельство путем введения поправки на число степеней свободы. Скорректированный коэффициент не обязательно возрастает по мере введения дополнительных переменных в уравнение, поэтому он представляет собой более предпочтительную меру  качества уравнения регрессии. Эта статистика показана в колонке (рис.5-5) с обозначением Adjusted R Square.

      Наблюдаемое значение R2 не обязательно отражает улучшение выборочных оценок  генеральной совокупности данных. Включение неподходящих переменных  часто дает серьезные осложнения для интерпретации переменных. С другой стороны, важно не исключить по этим соображением потенциально важную переменную.  

      При использовании метода включения  (Forward), первая переменная  для ввода в уравнение определяется наибольшим положительным или отрицательным коэффициентом корреляции с зависимой переменной. Вычисляется F критерий для гипотезы о равенстве нулю коэффициента регрессии включаемой переменной. Для определения   того, следует или нет вводить переменную в уравнение (как и каждую последующую)  значение F критерия сравнивается с заданным уровнем.  В SPSS можно использовать один из двух критериев. Во-первых, это  минимальное значение F- статистики, для   включения переменной в уравнение.  Это значение называемое F- to enter –“Значение F, достаточное для включения” (FIN).

      Другой  критерий, который можно использовать для этой цели - вероятность, связанная  с  F- статистикой, называемая вероятность P, достаточная для включения в уравнение - Probability of F to enter (PIN). В этом случае переменная входит в уравнение только в случае, если вероятность, связанная с F критерием,  меньше или равна вероятности по умолчанию или той вероятности, которую мы зададим (по умолчанию это значение 0,05).

      PIN и FIN критерии не обязательно эквивалентны. При добавлении переменных к уравнению число степеней свободы для суммы квадратов остатков уменьшается, в то время как число степеней свободы для суммы квадратов регрессии возрастает. Таким образом, при фиксированном значении F-статистики могут существовать различные уровни значимости, зависящие от текущего числа переменных в уравнении. Для больших выборок этими различиями можно пренебречь.

      Реальный  уровень значимости для статистики F-включения не является уровнем  значимости, получаемым обычно из F-распределения, поскольку проверяются многие переменные и выбирается наибольшее значение F-статистики. К сожалению, истинный уровень значимости вычислить трудно, так как он зависит не только от числа наблюдений и количества переменных, но и от корреляций между независимыми переменными.

      Если  первая переменная, выбранная для включения в уравнение, удовлетворяет соответствующему критерию, процедура последовательного включения продолжается. В противном случае, она завершается, и уравнение остается без переменных. Как только в уравнение добавлена одна переменная, при выборе следующей используются статистики для переменных, не включенных в уравнение. Вычисляются частные коэффициенты корреляции между зависимой переменной и каждой из независимых переменных, не включенных в уравнение, скорректированные по независимым переменным из уравнения. Следующим кандидатом на включение в уравнение становится переменная с наибольшей частной корреляцией. Выбор переменной с наибольшим по абсолютной величине значением частного коэффициента корреляции эквивалентен выбору переменной с наибольшим значением F-статистики.

      Если  заданный критерий выполняется, то эта  переменная включается в модель, и  процедура повторяется заново, завершаясь тогда, когда ни одна из оставшихся переменных, не удовлетворяет критерию включения. 

      Процедуры исключения (Backward) основана на элиминировании воздействия переменных, когда  оценка вариантов начинается с оценки уравнения для всех потенциальных объясняющих переменных, а затем последовательно отбрасываются переменные, статистические характеристики которых оказываются хуже других. Поэтому и критерии отбора  в этой процедуре  другие: они являются критериями удаления переменных. В SPSS предлагается для этой процедуры также два критерия. Первый определяется как минимальное значение F - статистики для переменной, которая должна оставаться в уравнении.  Переменные с критериями менее чем F, должны удаляться из уравнения.  В соответствии с избранной терминологией это значение, определяется как F  для удаления - F-to remove (FOUT).  Переменные с F оценкой меньше, чем это значение являются первоочередными претендентами на исключение из уравнения. Второй критерий - вероятность F- статистики  для удаления - probability of F to remove (POUT) – максимальный уровень значения F-статистики, который может иметь эта переменная.

      После исключения переменной – кандидата, модель вычисляется заново уже без  удаленной переменной для проверки следующей переменной. Процедура  последовательного исключения прекращается, когда значимость рассматриваемой  переменной станет меньше эталонного.

      Необходимо  отметить, что методы последовательного  включения и последовательного  исключения переменных, не всегда приводят к одинаковым результатам, даже при сравнимых критериях ввода и удаления.

5.2.3. Вид результатов расчета множественной линейной регрессии

 

      Представим  результаты расчета для параметров, приведенных на рис.5-8.   

Рис. 5-8. Множественная регрессия с методом пошагового включения и выключения переменных в модель 

Рис.5-9. Общие параметры 

Рис.5-10. Суммарные характеристики модели по шагам 

Рис.5-11. Коэффициенты моделей по шагам

Рис.5-12. Изменение модели по шагам 

Рис.5-13. Исключенные из моделей переменные по шагам 

      Детальный анализ результатов произведем на практическом занятии. Заметим только, что переменные Wag_R_M и RTRD имеют положительную корреляция с зависимой переменной, а IPCDE и IMQ – отрицательную.

5.3. Нелинейная регрессия

 

      Регрессия, парная или множественная, совсем не обязательно должна быть линейной. Существует много других, нелинейных, форм для ее выражения. В SPSS для формирования нелинейной регрессии предусмотрены следующие технологии:

    • подгонка кривых;
    • использование фиктивных переменных,
    • собственно нелинейная регрессия.

      Кроме того, предусмотрены методы расчета  специфических форм регрессии.

5.3.1. Подгонка кривых

 

      Подгонка кривых предназначена, в первую очередь, для вычисления парной нелинейной регрессии. Косвенно, с некоторыми усложнениями, она может быть использована и для расчета множественной нелинейной регрессии. Эта процедура позволяет вычислять статистики и строить графики для различных типовых регрессионных моделей. Можно также сохранять предсказанные значения, остатки и интервалы прогнозирования в виде новых переменных.

Предлагаемые  модели соответствуют следующим  типам (выражаемым посредством формул) - см. табл. 5.1.

Таблица 5.1

  Типы моделей

Модель Формула
Линейная у = b0 + b1
Логарифмическая y = b0 + b1*lnx
Обратная (гиперболическая) y = b0+b1/x
Квадратичная у=b0 + b1*х + b22
Кубическая у = b0 + b1*х + b22 + b33
Степенная у = b0*xb1
Показательная у=b0*b1x
S у=еb0+b1*x
Логистическая у=1/(1/u+b0(b1x))
Рост у = e(b0+b1x)
Экспоненциальная у=b0(eb1x)
 

      Требования  к данным:

    • зависимые и независимые переменные должны быть количественными;
    • если в качестве независимой переменной выбрано Время, а не переменная из исходного файла данных, зависимая переменная должна представлять собой временной ряд.

      Исходные  допущения:

    • остатки должны представлять собой случайные величины и распределяться по нормальному закону.

      При использовании линейной модели предъявляются  такие же требования, как и для  обычной линейной регрессии.

      Прежде  чем запустить выполнение процедуры, полезно ознакомиться с расположением  исходных точек на графике, чтобы  определить наиболее подходящие кривые. Хотя, это не обязательно.

      Выполним последовательность команд Chart/Legacy Dialogs (рис.5-14). В окне Scatter/Dot (рис. 5-15) установим флажок в ячейке Простая. Затем в следующем диалоговом окне Диаграмма рассеяния (рис. 5-16) укажем показатели для осей графика.

Рис.5-14. Выбор команд просмотр графика рассеяния 

Рис.5-15. Уточнение типа графика

Рис.1-16. Установка параметров графика

Рис.5-17. Облако исходных точек по годам 

      В результате получим облако рассеяния  исходных точек (рис. 5-17).

      Предполагаем, что наилучшее приближение к этому облаку может обеспечить одна из следующих моделей: логарифмическая, квадратичная, кубическая, гиперболическая.

      Теперь  обратимся к процедуре подгонка кривых, для чего выполним последовательность команд Анализ >• Регрессия >■ Подгонка кривых (рис.5-18). 

Рис.5-18. Выбор команд по подбору кривых 
 
 
 
 

      В окне Подгонка кривых (рис. 5-19) активизируем отобранные модели. Кроме того, установим флажки в ячейках Включать константу (в формуле для каждой модели), Графики моделей (для вывода графических зависимостей), Вывести таблицу дисперсионного анализа (для фиксации оценок качества регрессии). В результате получатся графики отобранных функций и, дополнительно, график аппроксимации наблюденных значений.

Рис. 5-19. Окно Подгонка кривых 

      Сравнение всех этих кривых (рис.5-20) показывает, что наилучшее приближение к множеству исходных точек дает кубическая модель:

Индекс РТС = b0+ b1(Время) +  b2*( Время)^2 + b3*( Время)^3.

Оснований для  такого утверждения два:

    • это видно из подобия кривых кубической модели и реальных значений (рис. 5-20);
    • данный вывод подтверждается результатами дисперсионного анализа для кубической модели (рис. 5-21), согласно которым R2 = 0,915, F=468,860, что говорит о хорошем приближении. Данный анализ проводится для каждой из сравниваемых моделей, и для кубической модели значения являются наибольшими.

Информация о работе Регрессионный анализ