Автор работы: v*******@gmail.com, 28 Ноября 2011 в 13:06, лекция
Цель занятия - научиться при помощи пакета SPSS 15.0 (и ниже) строить по имеющимся данным простую линейную, нелинейную и множественную регрессию.
Параметры кубической модели:
b0=957,535;
b1=113,857;
b2=-2,913;
b3=0,022.
Рис.5-20.
Графики подогнанных
кривых и исходные точки
Рис.5-21. Суммарные характеристики моделей
Фиктивные переменные достаточно широко применяются в регрессионном анализе.
Нелинейные регрессионные модели в большинстве случаев могут быть двух типов:
В первом случае параметры регрессии (ее коэффициенты) остаются неизменными, нелинейными являются лишь переменные (то же самое может относиться и ко множественной регрессии), например:
Y=b0 + bl* X+b2* X2 + b3*X3 + e. (1)
В этом случае вводятся новые фиктивные переменные Z1= X2, Z2 = X3, и репрессия принимает вид:
Y=b0 + bl*X+b2*Z+b3*Z2 + e. (2)
После этого коэффициенты данной линейной регрессии находятся с помощью обычных процедур множественной линейной регрессии. Но затем, при необходимости перехода от Z к X следует выполнить дополнительную процедуру вычисления:
X=√Z1 (3)
Во втором случае, когда речь идет о нелинейности параметров (коэффициентов) регрессии: экспоненциальная модель, степенная модель и др.
В ряде случаев данные модели можно привести к линейной форме, например, путем логарифмирования.
В этом случае коэффициенты находятся также с помощью обычных для линейной регрессии процедур. Если необходимо затем перейти от логарифма к самой величине, то используется функция EXP (numexpr), которую также можно найти в упомянутом окне Вычислить переменную. (см. рис. 5-22 и 5-23)
Рис.5-22.
Команды «Вычислить
переменную»
Рис.5-23. Окно вычисления новой переменной
Гораздо
более сложной становится ситуация,
когда нелинейная функция не поддается
линеаризации. В этом случае параметры
могут быть определены лишь итеративным
путем посредством
Как правило, заранее неизвестно удовлетворяют ли исходные данные предположениям, лежащим в условиях применения метода МНК для нахождения неизвестных коэффициентов модели. Следовательно, необходимо произвести дополнительные исследования, сосредоточившись на остатках, для поиска доказательств того, что необходимые предположения не нарушены.
Остатки - это разность между наблюденным значением и значением, предсказанным моделью:
ei= Yi – b0 – b1 Xi = Yi - Y`
В
регрессионном анализе
Нормированные остатки. Об относительной величине остатков легче судить, когда они поделены на оценки своих стандартных отклонений. Рассчитанные в результате нормированные остатки, выражены в единицах стандартных отклонений в обе стороны от среднего значения. Например, то, что данный остаток равен -5198.1, не содержит достаточной информации. Однако, если вы знаете, что будучи пронормированным, он становится равным -3.1, то вам становится известным не только то, что наблюденное значение меньше предсказанного, но также и то, что данный остаток больше по абсолютной величине трех σ.
Имеются и другие способы корректировки остатков:
Значения
нормированных и
Проверку линейности модели можно выполнить двумя способами.
Удобным методом проверки линейности модели служит график остатков по экспериментальным значениям У. Если предположения о линейности и однородности дисперсий выполнены, зависимость между У и остатками должна отсутствовать, любая же неслучайная тенденция в расположении точек на графике свидетельствует о нелинейности модели.
Если условие линейности выполняется, то остатки были бы случайным образом разбросаны вокруг горизонтальной прямой, проходящей через 0.
Можно также исследовать графики, по одной оси которых располагаются отдельные независимые переменные Х, по другой – остатки У. Для этого нужно сохранить их в процедуре Linear Regression (Линейная регрессия), а затем вызвать раздел Scatter в меню Graphs. И снова, если соответствующие условия выполнены, вы увидите горизонтальную полосу остатков.
Оба типа графика позволяют проверить предположение о линейности, однородности и независимости ошибок и локализировать выбросы. Появление заметной закономерности в распределении остатков является индикатором определенной неадекватности модели экспериментальным данным.
Ранее
описанные диаграммы можно
Если данные собирались и записывались последовательно (например, во времени), всегда необходимо вывести на график остатки по переменной, отражающей такую последовательность. Даже тогда, когда время не включено в рассматриваемую модель, оно может оказывать влияние на остатки. Если последовательность следования исходных данных и остатки будут независимы, мы не увидим на графике различимого криволинейного тренда.
Кроме графика при построения модели вычисляется статистика критерия Дурбина-Уотсона, формулой которой для сериальной корреляции остатков имеет вид:
Значение этой статистики меняется от 0 до 4. Если остатки взаимно не коррелированны, значение d близко к 2.
Вычисленное значение критерия сравнивают с табличным:
где dL и dU – нижняя и верхняя граница критерия (берется из таблиц).
Причинами ненормальности остатков могут послужить неверное задание параметров модели, непостоянная дисперсия (неоднородность дисперсии), небольшое число доступных для анализа остатков и т.д. Следовательно, необходимо изучать этот вопрос одновременно при помощи разных методов.
Одним из простейших способов проверки будет построение гистограммы остатков, такой, как изображена на рисунке 5-24.
На гистограмму наблюденных частот (обозначенных столбиками) наложена нормальная кривая. При зрительной оценке, условие нормальности оценить затруднительно и поэтому его следует проверить на непротиворечие по соответствующим критериям (например, Смирнова-Колмогорова, Шапиро – Уиллса и др.).
. Другой способ
сравнения эмпирического распределения
остатков с распределением, ожидаемым
при выполнении условия нормальности,
состоит в выводе двух этих распределений
(теоретическим и экспериментальным) на
нормальную вероятностную бумагу. Если
распределения идентичны, они лягут на
одну прямую линию. Наблюдая разброс точек
вокруг прямой, соответствующей теоретическому
нормальному закону, вы можете сравнить
эти распределения (рис.5-25).
Нетипичными данными, появляющиеся по причине ошибок измерения или другим могут быть значения результирующей (зависимой) переменной У или независимой переменной Х.
В первом случае обычно проверяют эти подозрительные точки по критерию3σ. На графиках остатков легко выявлять выбросы, так как им соответствуют очень большие положительные или отрицательные остатки. Как правило, нормированные остатки, превосходящие 3σ по абсолютной величине, рассматриваются как выбросы. Эти подозрительные точки необходимо исключить из модели.
В тех случаях, когда существуют наблюдения, в которых "нетипичными" являются значения независимой переменной, то это также приводит к ухудшению качества уравнения. Для определения таких наблюдений полезно рассчитать "расстояние Махаланобиса". Расстояние Махаланобиса служит для того, чтобы выделить такие случаи, когда уровень независимой переменной слишком сильно отклоняется от собственного среднего значения, в результате чего отклоняется и регрессия в целом. Значения наблюдений с наибольшими расстояниями Махаланобиса также должны анализироваться индивидуально.