Регрессионный анализ

Автор работы: v*******@gmail.com, 28 Ноября 2011 в 13:06, лекция

Описание

Цель занятия - научиться при помощи пакета SPSS 15.0 (и ниже) строить по имеющимся данным простую линейную, нелинейную и множественную регрессию.

Работа состоит из  1 файл

Лекция 5-Регрессия.doc

— 621.00 Кб (Скачать документ)
 

      Параметры кубической модели:

b0=957,535;

b1=113,857;

b2=-2,913;

b3=0,022.

Рис.5-20. Графики подогнанных кривых и исходные точки 

Рис.5-21. Суммарные характеристики моделей

5.3.2. Использование фиктивных переменных

 

      Фиктивные переменные достаточно широко применяются в регрессионном анализе.

      Нелинейные  регрессионные модели в большинстве случаев могут быть двух типов:

    • модели нелинейные по переменным,
    • модели нелинейные по параметрам.

      5.3.2.1. Модели нелинейные по переменным

 

      В первом случае параметры регрессии (ее коэффициенты) остаются неизменными, нелинейными являются лишь переменные (то же самое может относиться и ко множественной регрессии), например:

Y=b0 + bl* X+b2* X2 + b3*X3 + e.   (1)

      В этом случае вводятся новые фиктивные  переменные Z1= X2, Z2 = X3, и репрессия принимает вид:

Y=b0 + bl*X+b2*Z+b3*Z2 + e. (2)

      После этого коэффициенты данной линейной регрессии находятся с помощью  обычных процедур множественной линейной регрессии. Но затем, при необходимости перехода от Z к X следует выполнить дополнительную процедуру вычисления:

X=√Z1  (3)

5.3.2.2. Модели нелинейные по параметрам

 

      Во  втором случае, когда речь идет о  нелинейности параметров (коэффициентов) регрессии: экспоненциальная модель, степенная модель и др.

      В ряде случаев данные модели можно  привести к линейной форме, например, путем логарифмирования.

      В этом случае коэффициенты находятся также с помощью обычных для линейной регрессии процедур. Если необходимо затем перейти от логарифма к самой величине, то используется функция EXP (numexpr), которую также можно найти в упомянутом окне Вычислить переменную. (см. рис. 5-22 и 5-23)

Рис.5-22. Команды «Вычислить переменную» 

Рис.5-23. Окно вычисления новой переменной

      Гораздо более сложной становится ситуация, когда нелинейная функция не поддается  линеаризации. В этом случае параметры  могут быть определены лишь итеративным  путем посредством последовательных приближений в процессе нелинейной оптимизации, когда минимизируется сумма квадратов разностей между предсказанными значениями регрессии по подбираемой формуле и исходными значениями. Здесь решающим становится подбор функциональной формы регрессионной модели, а также определение начальных значений искомых коэффициентов для нулевой итерации. Даже если выбрана подходящая формула, неудачное задание начальных значений может привести к тому, что итерационный процесс вообще не сойдется, или к тому, что полученное решение будет локальным, то есть годным лишь для конкретной точки и ее окрестностей. В общем случае при этом варианте расчета предусматривается достаточно длинный, многоступенчатый процесс.

5.4. Анализ остатков

5.4.1. Назначение анализа остатков

 

      Как правило, заранее неизвестно удовлетворяют ли исходные данные предположениям, лежащим в условиях применения метода МНК для нахождения неизвестных коэффициентов модели. Следовательно, необходимо произвести дополнительные исследования, сосредоточившись на остатках, для поиска доказательств того, что необходимые предположения не нарушены.

5.4.2. Понятие остатков

 

      Остатки - это разность между наблюденным значением и значением, предсказанным моделью:

ei= Yi – b0 – b1 Xi = Yi - Y`

      В регрессионном анализе предполагается, что истинные ошибки еi являются независимыми нормально распределенными случайными величинами со средним 0 и постоянной дисперсией σ2. Если в уравнение включен свободный член, среднее значение остатков всегда равно нулю, так что среднее остатков не дает никакой информации относительно истинного среднего ошибок. Поскольку сумма остатков должна равняться нулю, они не являются независимыми. Однако, если число остатков достаточно велико по сравнению с количеством независимых переменных, то на практике этой зависимостью можно пренебречь. 

      Нормированные остатки. Об относительной величине остатков легче судить, когда они поделены на оценки своих стандартных отклонений. Рассчитанные в результате нормированные остатки, выражены в единицах стандартных отклонений в обе стороны от среднего значения. Например, то, что данный остаток равен -5198.1, не содержит достаточной информации. Однако, если вы знаете, что будучи пронормированным, он становится равным -3.1, то вам становится известным не только то, что наблюденное значение меньше предсказанного, но также и то, что данный остаток больше по абсолютной величине трех σ.

      Имеются и другие способы корректировки  остатков:

  • Нормированный остаток для j-того наблюдения — это остаток, деленный на выборочное стандартное отклонение. Нормированные остатки имеют нулевое среднее значение и единичное стандартное отклонение.
  • Стьюдентизированный остаток — это остаток, деленный на оценку своего стандартного отклонения, меняющегося от одного наблюдения к другому, в зависимости от расстояния между Xi и средним значением X.

      Значения  нормированных и стьюдентизированных  остатков, как правило, близки, хотя это и не всегда так. Стьюдентизированные  остатки точнее отражают различия в  дисперсиях истинных ошибок для разных наблюдений.

5.4.3. Проверка линейности

 

 Проверку  линейности модели можно выполнить двумя способами.

5.4.3.1. График остатков по экспериментальным значениям У

 

      Удобным методом проверки линейности модели служит график остатков по экспериментальным значениям У. Если предположения о линейности и однородности дисперсий выполнены, зависимость между  У и остатками должна отсутствовать, любая же неслучайная тенденция в расположении точек на графике свидетельствует о нелинейности модели.

      Если  условие линейности выполняется, то остатки были бы случайным образом разбросаны вокруг горизонтальной прямой, проходящей через 0.

5.4.3.3. График остатков по независимой переменной

 

        Можно также исследовать графики, по одной оси которых располагаются отдельные независимые переменные Х, по другой – остатки У. Для этого нужно сохранить их в процедуре Linear Regression (Линейная регрессия), а затем вызвать раздел Scatter в меню Graphs. И снова, если соответствующие условия выполнены, вы увидите горизонтальную полосу остатков.

      Оба типа графика позволяют проверить  предположение о линейности, однородности и независимости ошибок и локализировать выбросы. Появление заметной закономерности в распределении остатков является индикатором определенной неадекватности  модели экспериментальным данным.

5.4.4. Однородность дисперсий

 

      Ранее описанные диаграммы можно использовать и для проверки предположения  о равенстве дисперсий. Если разброс  остатков увеличивается или уменьшается  в зависимости от значений независимых  переменных Х  или значений У, то предположение о постоянстве дисперсии У для всех значений Х становится необоснованным.

5.4.5. Независимость ошибок

 

      Если  данные собирались и записывались последовательно (например, во времени), всегда необходимо вывести на график остатки по переменной, отражающей такую последовательность. Даже тогда, когда время не включено в рассматриваемую модель, оно может оказывать влияние на остатки. Если последовательность следования исходных данных и остатки будут независимы, мы не увидим на графике различимого криволинейного тренда.

      Кроме графика при построения модели вычисляется статистика критерия Дурбина-Уотсона, формулой которой для сериальной корреляции остатков имеет вид:

      Значение  этой статистики меняется от 0 до 4. Если остатки взаимно не коррелированны, значение d близко к 2.

      Вычисленное значение критерия сравнивают с табличным:

    • если d<dL, то делается вывод о наличии в остатках автокорреляции. В этом случае необходима корректировка модели путем введения в нее дополнительного члена, учитывающего автокорреляцию;
    • если d>dU, то ряд не содержит автокорреляции;
    • если dL<d>dU, то необходимы дальнейшие исследования;

где dL и dU – нижняя и верхняя граница критерия (берется из таблиц).

5.4.6. Нормальность остатков

 

      Причинами ненормальности остатков могут послужить  неверное задание параметров модели, непостоянная дисперсия (неоднородность дисперсии), небольшое число доступных для анализа остатков и т.д. Следовательно, необходимо изучать этот вопрос одновременно при помощи разных методов.

5.4.6.1. Построение гистограммы остатков

 

      Одним из простейших способов проверки будет построение гистограммы остатков, такой, как изображена на рисунке 5-24.

На гистограмму  наблюденных частот (обозначенных столбиками) наложена нормальная кривая. При зрительной оценке, условие нормальности оценить затруднительно и поэтому его следует проверить на непротиворечие по соответствующим критериям (например, Смирнова-Колмогорова, Шапиро – Уиллса и др.).

5.4.6.2. Построения графика остатков на нормальной вероятностной бумаге

. Другой способ сравнения эмпирического распределения остатков с распределением, ожидаемым при выполнении условия нормальности, состоит в выводе двух этих распределений (теоретическим и экспериментальным) на нормальную вероятностную бумагу. Если распределения идентичны, они лягут на одну прямую линию. Наблюдая разброс точек вокруг прямой, соответствующей теоретическому нормальному закону, вы можете сравнить эти распределения (рис.5-25). 

5.4.7. Выявление выбросов

 

      Нетипичными данными, появляющиеся по причине ошибок измерения или другим могут быть значения результирующей (зависимой) переменной У или независимой переменной Х.

5.4.7.1. Проверка на выбросы зависимой переменной

 

      В первом случае обычно проверяют эти  подозрительные точки по критерию3σ. На графиках остатков легко выявлять выбросы, так как им соответствуют очень большие положительные или отрицательные остатки. Как правило, нормированные остатки, превосходящие 3σ по абсолютной величине, рассматриваются как выбросы. Эти подозрительные точки необходимо исключить из модели.

5.4.7.2. Проверка на выбросы независимой переменной

 

      В тех случаях, когда существуют наблюдения, в которых "нетипичными" являются значения независимой переменной, то это также приводит к ухудшению качества уравнения. Для определения таких наблюдений полезно рассчитать "расстояние Махаланобиса". Расстояние Махаланобиса служит  для того, чтобы выделить такие случаи, когда уровень независимой переменной слишком сильно отклоняется от собственного среднего значения, в результате чего отклоняется и регрессия в целом. Значения наблюдений с наибольшими расстояниями Махаланобиса также должны анализироваться индивидуально. 

Информация о работе Регрессионный анализ