Простой линейный регрессионный анализ (с включением корреляционного анализа)

Автор работы: Пользователь скрыл имя, 16 Февраля 2012 в 23:34, контрольная работа

Описание

Стохастическая зависимость случайной величины Y от величины X, случайной или не случайной, в отличие от функциональной не предполагает однозначности. Каждому значению xÎX отвечает, в целом, множество значений yÎY с условным распределением вероятностей Fx(y) =P(Y<y /X=x). Меж тем стохастическая зависимость не всегда нужна во всей её полноте. Нас могут интересовать частные её проявления, например, как сильно влияет изменение величины X на величину Y (корреляционный анализ), или какова зависимость условной средней M(Y /X = x) от значений xÎX (регрессионный анализ).

Работа состоит из  1 файл

RGZ_V_Sh_MAT.doc

— 180.00 Кб (Скачать документ)

ФЕДЕРАЛЬНОЕ  АГЕНТСТВО  ПО  РЫБОЛОВСТВУ 

ФЕДЕРАЛЬНОЕ  ГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ  УЧРЕЖДЕНИЕ

«МУРМАНСКИЙ  ГОСУДАРСТВЕННЫЙ  ТЕХНИЧЕСКИЙ  УНИВЕРСИТЕТ» 
 

Кафедра информационных систем

и прикладной математики. 
 

Расчетно-графическое  задание

По математике

Простой линейный регрессионный анализ

(с включением  корреляционного анализа) 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Выполнил: Горшенин И. В.

Студент группы – 

ЛОГ -202. 

                  Проверила: Комарова С.Н. 
                   
                   
                   
                   
                   
                   

Мурманск, 2011 
 

Введение

 

      Стохастическая  зависимость случайной величины Y от величины X, случайной или не случайной, в отличие от функциональной не предполагает однозначности. Каждому значению xÎX отвечает, в целом, множество значений yÎY с условным распределением вероятностей Fx(y) =P(Y<y /X=x). Меж тем стохастическая зависимость не всегда нужна во всей её полноте. Нас могут интересовать частные её проявления, например, как сильно влияет изменение величины X на величину Y (корреляционный анализ), или какова зависимость условной средней M(Y /X = x) от значений xÎX (регрессионный анализ). Будет ли эта зависимость линейной y=a+bx, параболической y=a+bx+ cx2, гиперболической y=a/(x+b), экспоненциальной y=aebx и т. п.? Те же вопросы возникают и в том случае, когда X – вектор.

      Зависимость условной средней M(Y /X=x) от значения x величины X, случайной или не случайной, называют регрессией Y по X, равенство y= M(Y/X= x), связывающее x и y, – уравнением регрессии, а соответствующий график – линией регрессии Y по X. Статистическая оценка параметров зависимости условной средней y = M(Y/X=x) от x в основном осуществляется методом наименьших квадратов. В отличие от функциональной (однозначной), стохастическая зависимость имеет ту особенность, что регрессия x=M(X /Y=y) величины X по Y в общем случае отлична от y=M(Y /X=x), имеет, в целом, другой график и другое уравнение. 

      Целью данной работы является получение представления о параметрах – числовых характеристиках случайного вектора (X,Y), посредством их статистического оценивания по двумерной выборке (Xi,Yi) – результатам n независимых измерений одновременно обеих составляющих X и Y вектора (X,Y), i=1, 2,…, n.

      Сопоставление данных выборки (Xi,Yi) с теоретически возможной регрессионной зависимостью Y от X осуществляется обычно методом наименьших квадратов. Например, предполагается, что регрессия Y по X выражена функцией y = f(x,a,b) аргумента x, но истинные числовые значения параметров a и b нам не известны. Метод наименьших квадратов подбирает для a, b такие приближенные значения a, b, которые минимизируют расхождение Q между значениями функции f(xi,a,b) и выборочными значениями yi, выраженное функцией

2. 
 

    Ход работы: 

  1. Статистический  материал в виде двумерной выборки  для пары величин X и Y вносится в электронную таблицу Excel. Для учебных целей мы имитируем его для пары нормальных случайных величин Î N(mxsx) в столбце A и ΠN(ms) в столбце B генерацией случайных чисел, mx=MX, m=MY.
  2. Параметры mx, sx, s выбираются произвольно, но приемлемые для экономики и производства: sx £  mx /16, s £ m/16.
  3. Значениями величину Z=Y+k(X-mx), связанными с X, заполняем столбец C.
  4. Сначала проверяем на коррелированность двумерную выборку X, Y, а затем выборку значений X, Z. Для этого вычисляем эмпирический коэффициент корреляции r и статистику Стьюдента T

                                      .

  1. Далее вычисляем P-значение для статистики Т – вероятности, что случайная величина Стьюдента примет значение по абсолютной величине большее, чем значение статистики T.
  2. Выбираем уровень значимости a, например a = 0,01, вычисляем критическую точку ta, отвечающую выбранному уровню значимости a.
  3. Если статистика Т, подчинена неравенству |T|>ta, она попадает в двустороннюю критическую область (-¥,-ta)È (ta+¥) и гипотеза H0 о равенстве коэффициента корреляции r = 0 отвергается, значение эмпирического коэффициента корреляции r признаётся значимым (значимо отличным от нуля), а случайные величины X и Y коррелированными. При этом вполне оправданно выписать для величин X и Y соответствующие уравнения линейной регрессии. В противном случае, когда |T|<ta, нет оснований говорить о коррелированности случайных величин X и Y, так как коэффициент корреляции либо 0, либо близок к 0. Заметим, что при = 0 коэффициенты регрессии также равны нулю, byx= 0 и bxy= 0.
  4. Если знаки < и > согласуются с абсолютными значениями чисел в ячейках T и ta  или, что равнозначно, P-значение для статистики Т и a = 0,01, то гипотеза H0 о некоррелированности (независимости) величин X и Y принимается, в противном случае отвергается.
  5. Во второй части работы исследуется на коррелированность двумерная выборка иной природы – для величин X и Z. Если в первой части работы независимость X и Y обеспечивал уже тот способ, каким эмитировались выборки этих величин, то в двумерной выборке X и Z это уже исключено. Аналогично для величин X и Z.
  6.   В пакете программ Excel находим и осваиваем программу регрессионного анализа выбираем в соответствии с уровнем значимости a, например 99%. Программу последовательно применяем для исследования регрессии Y по X и Z по X. других опций при испытании на регрессионную зависимость величины Z по X помечаем для вывода также остатки и график подбора. Таблица выводит также многие другие характеристики линейной регрессии, её коэффициенты, предсказание, результаты F-теста.
  7. Наконец, осуществляем прогнозирование ценностного показателя Y или Z для заданных значений X.
 
 
 

Решение:

                                                                

-0,82489 0,484702 -44,4703 MX= MY= MZ= n= k=
0,346097 -1,86838 10,55484 0,092561573 0,011623876 0,011623876 49 0,3
-0,40131 0,569094 -23,6306 r= 0,085685142 0,999825667 H0  
0,638969 0,121972 26,89593 T= 0,589596115 367,1023901 < 2,68455561
-1,23754 -1,43022 -66,605   0,558285266 6,44757E-83 > 0,01
1,21179 0,992793 55,835
0,610976 0,28817 25,69047
-0,20753 0,790121 -13,9143
-0,27686 0,837094 -17,2648
-0,37541 -0,00998 -22,9405
0,585906 -0,33507 23,83878
-1,17134 -0,55815 -62,4892
-0,03194 -0,33491 -6,43567
-1,76455 -0,4233 -91,4218
-0,61726 -0,63747 -35,4186
0,304797 1,287608 11,68713
-0,28777 -0,648 -19,2843
-0,83092 0,128294 -45,1224
1,173316 0,058517 53,0155
1,763829 -0,61467 81,27741
0,826608 -0,21426 35,75401
0,85802 1,097812 38,60525
0,235361 -0,21191 6,78528
-0,77495 0,203466 -42,3047
1,419876 1,320186 66,35859
0,166112 -0,44161 3,162381
0,191376 -0,14451 4,697391
1,151072 -0,18577 51,68126
1,203543 0,496782 54,93489
0,427735 -0,64169 15,78182
-0,39469 0,45786 -23,4172
0,918867 0,809503 41,29847
0,682651 0,020311 28,93468
-1,61043 -0,586 -84,0327
0,311375 -0,77196 9,949878
2,262241 -0,97566 105,3386
-0,8535 1,314174 -45,0427
-0,26861 -0,02345 -17,7208
0,812372 0,792948 36,06366
0,258469 0,779194 8,908672
0,78501 -0,31378 33,61618
0,333778 0,796304 12,6159
-2,23077 -0,24126 -114,085
-1,55375 2,180277 -78,4892
1,184967 0,341714 53,86958
 -0,9212 -0,61098 -50,2854
1,517687 -0,65699 69,17417
-0,15945 0,560659 -11,7877
-0,85262 -3,28 -49,5938

                                  

 

ВЫВОД ИТОГОВ              
                 
Регрессионная статистика              
Множественный R 0,999825667              
R-квадрат 0,999651364              
Нормированный R-квадрат 0,999643946              
Стандартная ошибка 0,911552707              
Наблюдения 49              
                 
Дисперсионный анализ              
  df SS MS F Значимость F      
Регрессия 1 111979,3634 111979,3634 134764,1648 6,44757E-83      
Остаток 47 39,05363185 0,830928337          
Итого 48 112018,417            
                 
  Коэффициенты Стандартная ошибка t-статистика P-Значение Нижние 95% Верхние 95% Нижние 99,0% Верхние 99,0%
Y-пересечение -4,531189313 0,130808472 -34,6398764 4,1083E-35 -4,794342013 -4,26804 -4,88235 -4,18003
Переменная X 1 49,07882456 0,133692468 367,1023901 6,44757E-83 48,80987001 49,34778 48,71992 49,43773

Информация о работе Простой линейный регрессионный анализ (с включением корреляционного анализа)