Простой линейный регрессионный анализ

Автор работы: f*********@gmail.com, 27 Ноября 2011 в 13:27, контрольная работа

Описание

Зависимость условной средней M(Y /X=x) от значения x величины X, случайной или не случайной, называют регрессией Y по X, равенство y= M(Y/X= x), связывающее x и y, – уравнением регрессии, а соответствующий график – линией регрессии Y по X. Статистическая оценка параметров зависимости условной средней y = M(Y/X=x) от x в основном осуществляется методом наименьших квадратов.

Содержание

Оглавление 2
Введение 3
Выполнение работы 9
Выводы 12

Работа состоит из  1 файл

ГОСУДАРСТВЕННЫЙ КОМИТЕТ ПО РЫБОЛОВСТВУ.doc

— 150.50 Кб (Скачать документ)

. 
 

 

Выполнение  работы

 
  1. Работа  выполняется по вариантам в пакете программ Excel, вариант m определяется порядковым номером студента в журнале учебной группы. Статистический материал в виде двумерной выборки для пары величин X и Y вносится в электронную таблицу Excel. Мы избегаем трудоемкой работы по его составлению, для учебных целей мы имитируем его для пары нормальных случайных величин Î N(mxsx) в столбце A и ΠN(ms) в столбце B генерацией случайных чисел, начиная с ячеек A1 и B1, mx=MX, m=MY. В ячейки D1:H1 вносим метки MX=, MY=, MZ=, n=, k= для числовых значений этих величин, помещаемых непосредственно ниже в ячейках D2:H2. Объем n двумерной выборки определяем равенством n=m+60. Коэффициент k обеспечивает зависимость Z от X, чтобы он статистически распознавался при упомянутых (невысоких) значениях n, выбираем ³ 0,3.
  2. Значениями величину Z=Y+k(X-mx), связанными с X, заполняем столбец C. Первое из этих значений вычисляется в ячейке C1 формулой =B1+H$2*(A1-D$2), которая затем копируется вниз.
  3. Параметры mx, sx, s выбираются произвольно, но приемлемые для экономики и производства: sx £  mx /10, s £ m/10.
  4. Сначала проверяем на коррелированность двумерную выборку X, Y, а затем выборку значений X, Z. Для этого вычисляем эмпирический коэффициент корреляции r и статистику Стьюдента T,

.

В свободную  ячейку, например E3, вводим функцию =КОРРЕЛ или =ПИРСОН, каждая из них вычисляет эмпирический коэффициент корреляции r по выборке, размещенной в столбцах A и B. B ячейку E4 вводим формулу =E3*КОРЕНЬ(($G2-2)/(1-E3^2)) для вычисления статистики Стьюдента T по эмпирическому коэффициенту корреляции r. Далее, в ячейку E5 вводим формулу =СТЬЮДРАСП(ABS(E4);$G2-2;2) для вычисления P-значения для статистики Т – вероятности, что случайная величина Стьюдента примет значение по абсолютной величине большее, чем значение статистики T. Наконец, выбираем уровень значимости a, например a = 0,01, вводим это число в ячейку H5 и в ячейке H4 функцией =СТЬЮДРАСПОБР(H5;$G2-2) вычисляем критическую точку ta, отвечающую выбранному уровню значимости a.

  1. Формулы в ячейках E3:E5 копируем в ячейки F3:F5, закрепив в них перед этим столбцы A и G знаком $, не допуская их изменения при копировании. Для этого в этих формулах перед буквой A и G ставим знак $, превращая их в $A и $G. Если статистика Т, вычисленная в ячейке E4, подчинена неравенству |T|>ta, она попадает в двустороннюю критическую область (-¥,-ta)È (ta+¥) и гипотеза H0 о равенстве коэффициента корреляции r = 0 отвергается, значение эмпирического коэффициента корреляции r признаётся значимым (значимо отличным от нуля), а случайные величины X и Y коррелированными. При этом вполне оправданно выписать для величин X и Y соответствующие уравнения линейной регрессии. В противном случае, когда |T|<ta, нет оснований говорить о коррелированности случайных величин X и Y, так как коэффициент корреляции либо 0, либо близок к 0. Заметим, что при = 0 коэффициенты регрессии также равны нулю, byx= 0 и bxy= 0.
  2. В ячейки G4:G5 вводим соответственно два знака < и >. Если они согласуются с абсолютными значениями чисел в ячейках E4 и H4 или, что равнозначно, в ячейках E5 и H5, то гипотеза H0 о некоррелированности (независимости) величин X и Y принимается, в противном случае отвергается. Если же они согласуются с абсолютными значениями чисел в ячейках F4 и H4 или, что равнозначно, в ячейках F5 и H5, то принимается гипотеза H0Z о некоррелированности (независимости) величин X и Z, в противном случае гипотеза H0Z отвергается.
  3. Во второй части работы исследуется на коррелированность двумерная выборка иной природы – для величин X и Z. Если в первой части работы независимость X и Y обеспечивал уже тот способ, каким эмитировались выборки этих величин, то в двумерной выборке X и Z это уже исключено.
  4. В пакете программ Excel находим и осваиваем программу регрессионного анализа, выбирая опции \Сервис (\Надстройка) \Пакет анализа \OK) \Анализ данных \Регрессия \ОК \Входные интервалы. В качестве последних указываются столбцы генерированных значений для Y и X. \Уровень надежности выбираем в соответствии с уровнем значимости a, например 99% (по умолчанию уровень надежности равен 95%) помечаем также для вывода график подбора. Для Выходного интервала указывается левый верхний угол свободного участка листа Excel, например D6, куда помещается обширная таблица с результатами регрессионного анализа Y по X. Программу последовательно применяем для исследования регрессии Y по X и Z по X. Из других опций при испытании на регрессионную зависимость величины Z по X помечаем для вывода также остатки и график подбора. Таблица выводит также многие другие характеристики линейной регрессии, её коэффициенты, предсказание, результаты F-теста.
  5. Прогнозирование ценностного показателя Y или Z для заданных значений X осуществляется в следующем порядке. Значения X выписываются в каком-либо столбце электронной таблицы, затем напротив первого из них в другом столбце составляется формула вида =a+bx, где на место a ставится коэффициент Y-пересечения регрессионной таблицы, а на место b второй коэффициент. Номер строки в обоих коэффициентах фиксируется знаком доллара. После чего малым крестом эта формула копируется вниз для вычисления прогнозируемых значений для всех последующих значений переменой X.

 

Выводы

 

    Мы  вычислили коэффициент корреляции r и статистику Стьюдента T, а так же проверили на коррелированность двумерные выборки в программе Excel. При сравнении значений, полученных величин со значениями уровня значимости и критической точкой (отвечающей выбранному уровню значимости), мы получили следующее:

Случай 1: статистика Т подчинена неравенству, когда |T|<ta. Таким образом, нет оснований говорить о коррелированности случайных величин X и Y, так как коэффициент корреляции либо 0, либо близок к 0.  Принимается гипотеза H0.

Случай 2:  статистика Т подчинена неравенству |T|>ta, она попадает в двустороннюю критическую область (-¥,-ta)È (ta+¥) и гипотеза H0 о равенстве коэффициента корреляции r = 0 отвергается, значение эмпирического коэффициента корреляции r признаётся значимым (значимо отличным от нуля), а случайные величины X и Y коррелированными.

     Далее, во второй части работы, был произведен регрессионный анализ по 2-м выборкам (X и Y), (X и Z). Для этого вывели две таблицы итогов соответственно:

Таблица 1: в результате регрессионного анализа регрессия может быть либо определена, либо не определена. В данном случае регрессия не определена, т.к. полученная в результате анализа F-значимость, равная 0,22875371, больше выбранного нами уровня значимости a=0,01.

Таблица 2: вывод итогов по выборке Z по X показал, что величина F-значимости составляет приблизительно 0.000058657, т.е. меньше выбранного нами уровня значимости a=0,01. Из этого следует, что регрессия определена при коэффициенте переменной Х1, равном 0,418616150349716. 

Информация о работе Простой линейный регрессионный анализ