Регрессионный анализ

Автор работы: v*******@gmail.com, 28 Ноября 2011 в 13:06, лекция

Описание

Цель занятия - научиться при помощи пакета SPSS 15.0 (и ниже) строить по имеющимся данным простую линейную, нелинейную и множественную регрессию.

Работа состоит из  1 файл

Лекция 5-Регрессия.doc

— 621.00 Кб (Скачать документ)

5.4.8. Выявление существенных наблюдений

 

      Некоторые наблюдения оказывают очень большое  влияние на линию регрессии, вне зависимости от того, как соотносятся зависимая и независимая переменная с их средними. Это происходит тогда, когда  какое-либо наблюдение, хотя и находится  близко к линии регрессии, очень далеко отстоит от общего массива точек, используемых для оценки параметров регрессии.

Обычно для выявления таких наблюдений применяют один из двух способов:

5.4.8.1. Включение и исключение подозрительного наблюдения

 

      Один  из способов выделить такие наблюдения - сравнить остатки  для уравнения  регрессии когда "подозрительное" наблюдение включено в расчет и исключено из него. Тогда можно рассчитать и изменение значения функции в зависимости от включения или исключения из  множества наблюдений конкретного наблюдения с номером i. Точно также можно рассчитать и исключенные остатки путем вычитания остатков с исключенным наблюдением из остатков, которые получаются  без этого исключения. Можно сравнивать такие остатки и решать, какие наблюдения лучше было бы исключить из расчета параметров регрессии.

      О существенности таких наблюдений судят  по таким признакам:

    • линия регрессии при отбрасывании этих данных значительно меняется,
    • в то же время, когда она включена в модель, остаток для этого наблюдения не велик.

5.4.8.2. Вычисление расстояния Кука

 

      Существует  также общая мера, которая позволяет  судить, как изменятся все расчетные значения  зависимой переменной при исключении одного наблюдения. Эта мера  называется расстоянием Кука ( Cook's distance) и рассчитывается как  нормированная сумма исключенных остатков:

,

где  в числителе суммируются квадраты стандартизованных исключенных остатков, если исключено наблюдение i , а в знаменателе число степеней свободы умножается на  стандартную ошибку уравнения.

5.4.9. Некоррелированность независимых переменных.

 

      Это предположение проверяется построением  корреляционной матрицы для модели множественной регрессии. Поэтому  одним из первых шагов при решении  уравнения с несколькими независимыми переменными должно быть вычисление корреляционной матрицы для всех переменных.

      Существование высокой корреляции между независимыми переменными характеризует ситуацию коллинеарности. Другими словами, не выполняется одна из главных предпосылок статистических методов оценки  уравнения регрессии.  Проблема состоит в том, что все независимые переменные оказывают схожее воздействие на зависимую, поэтому очень трудно отличить их воздействие друг от друга.  Различные статистические тесты направлены на то, чтобы определить присутствие коллинеарности и степень, в которой это явление портит оцениваемые параметры.

5.4.9.1. Вычисление фактора "вздутия" вариации

 

      Один  из часто используемых показателей  коллинеарности (чувствительность, допуск) — это толерантность или допуск переменной. Эта мера определяется как 1 -R2i, где Ri - множественный коэффициент корреляции, когда i -тая переменная предсказана на основе других независимых переменных. Если толерантность переменной мала, то данная переменная является почти линейной комбинацией других независимых переменных.

      С толерантностью тесно связан другой показатель коллинеарности: фактор влияния  на дисперсию (фактор "вздутия" вариации (variance inflation factor, сокращенно VIF). Фактически, он определяется как величина, обратная к толерантности. Иначе говоря, для i-ой переменной

VIF = 1/(1-R2 i ). 

      Данная  величина называется так потому, что  она участвует в вычислении дисперсии  i-ого регрессионного коэффициента. С возрастанием величины фактора влияния на дисперсию, возрастает и дисперсия соответствующего регрессионного коэффициента.

5.4.9.2. Вычисление собственных чисел

 

      Другой  характеристикой коллинеарности являются собственные числа. Когда собственные  значения превышают 13, проблема коллинеарности существует, когда эти числа больше 80, - она является острой. Чем больше индекс обусловленности, тем в большей степени введение данной переменной ухудшает проблему коллинеарности модели.  Пропорции вариации показывают, как распределяется вариация каждого регрессионного коэффициента, включая константу, между компонентами, связанными с каждым из собственных чисел. В матрице пропорции вариации  необходимо искать  для каждого собственного значения большие коэффициенты пропорциональности в нескольких переменных. Тогда можно определить, какие именно переменные наиболее тесно связаны между собой, и исключить из рассмотрения те, включение которых наименее необходимо исходя из теоретических соображений.

Информация о работе Регрессионный анализ