Автор работы: f*********@gmail.com, 27 Ноября 2011 в 13:27, контрольная работа
Зависимость условной средней M(Y /X=x) от значения x величины X, случайной или не случайной, называют регрессией Y по X, равенство y= M(Y/X= x), связывающее x и y, – уравнением регрессии, а соответствующий график – линией регрессии Y по X. Статистическая оценка параметров зависимости условной средней y = M(Y/X=x) от x в основном осуществляется методом наименьших квадратов.
Оглавление 2
Введение 3
Выполнение работы 9
Выводы 12
ГОСУДАРСТВЕННЫЙ
КОМИТЕТ ПО РЫБОЛОВСТВУ
ФЕДЕРАЛЬНОЕ
ГОСУДАРСТВЕННОЕ
«МУРМАНСКИЙ
ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ
Кафедра
ИС и ПМ
РГЗ № 2
по дисциплине
«Прикладная статистика и планирование
эксперимента»
Простой линейный
регрессионный
анализ
№ 10
Выполнила студентка экономического факультета, группы Мар-371:
Мельник И.С.
Проверил:
Пантелеев В.П.
Мурманск
2009
Цель
работы: Освоить элементы корреляционного
и простого линейного регрессионного
анализа.
Стохастическая зависимость случайной величины Y от величины X, случайной или не случайной, в отличие от функциональной не предполагает однозначности. Каждому значению xÎX отвечает, в целом, множество значений yÎY с условным распределением вероятностей Fx(y) =P(Y<y /X=x). Меж тем стохастическая зависимость не всегда нужна во всей её полноте. Нас могут интересовать частные её проявления, например, как сильно влияет изменение величины X на величину Y (корреляционный анализ), или какова зависимость условной средней M(Y /X = x) от значений xÎX (регрессионный анализ). Будет ли эта зависимость линейной y=a+bx, параболической y=a+bx+ cx2, гиперболической y=a/(x+b), экспоненциальной y=aebx и т. п.? Те же вопросы возникают и в том случае, когда X – вектор.
Зависимость условной средней M(Y /X=x) от значения x величины X, случайной или не случайной, называют регрессией Y по X, равенство y= M(Y/X= x), связывающее x и y, – уравнением регрессии, а соответствующий график – линией регрессии Y по X. Статистическая оценка параметров зависимости условной средней y = M(Y/X=x) от x в основном осуществляется методом наименьших квадратов. В отличие от функциональной (однозначной), стохастическая зависимость имеет ту особенность, что регрессия x=M(X /Y=y) величины X по Y в общем случае отлична от y=M(Y /X=x), имеет, в целом, другой график и другое уравнение. Слово регрессия впервые появилось в 1889 г. в статье английского статистика Ф. Гальтона (Francis Galton) и означало отступление в детях от экстремальных свойств родителей, например рост детей, в целом, отступает к среднему статическому. Этот исходный смысл слова регрессия сохраняется и ныне, предполагается снятие крайних отклонений, выделяется по возможности характерная для исследуемых величин устойчивая связь.
Регрессионный анализ во многом близок другой дисциплине – корреляционному анализу. Последний исследует силу линейной связи случайных величин Y и X посредством статистических оценок коэффициента корреляции r = М[(X- MX)(Y-MY)] /(sxsy), а также силу нелинейной связи посредством корреляционного отношения sf /sy, составляемого для дисперсии уловных средних M(Y/X=x) по значениям величины X. Если же коэффициент корреляции r =±1, то величины X и Y связаны линейной функциональной зависимостью
.
При r =1 величина Y возрастает по X, а при r =–1 убывает. При значениях |r|, близких к 1, линейное уравнение (1) выражает приближенную зависимость Y от X. В целом большим значениям X отвечают большие значения величины Y, если r близко к 1, и меньшие, если r близко к -1. Когда корреляционное отношение sf/sy = 1, величины X и Y связаны функциональной зависимостью.
Если ковариация C(X,Y) = М[(X-MX)(Y-MY)] = 0, величины X и Y называются некоррелированными. В противном случае, когда C(X,Y) ¹ 0, величины X и Y называются коррелированными. Независимые величины X и Y заведомо не коррелированны, поскольку для них M(XY) = MXMY и C(X,Y) = М[(X-MX)(Y-MY)] = М(XY) – МX MY=0. Для нормальных величин верно и обратное, если X и Y не коррелированны, то они и независимы.
Чтобы получить представление о параметрах – числовых характеристиках случайного вектора (X,Y), производится их статистическое оценивание по двумерной выборке (Xi,Yi) – результатам n независимых измерений одновременно обеих составляющих X и Y вектора (X,Y), i=1, 2,…, n. Сопоставление данных выборки (Xi,Yi) с теоретически возможной регрессионной зависимостью Y от X осуществляется обычно методом наименьших квадратов. Например, предполагается, что регрессия Y по X выражена функцией y = f(x,a,b) аргумента x, но истинные числовые значения параметров a и b нам не известны. Метод наименьших квадратов подбирает для a, b такие приближенные значения a, b, которые минимизируют расхождение Q между значениями функции f(xi,a,b) и выборочными значениями yi, выраженное функцией
2.
Отсюда происходит и название метода наименьших квадратов – по виду функции Q и способу получения оценок a, b для неизвестных a и b, определяющих истинную регрессионную зависимость y = f(x,a,b). Как известно, минимум функции Q достигается при значениях a, b, когда частные производные равны нулю:
(2)
Если имеются основания полагать, что Y и X связаны линейной регрессией y=a+bx, то эта зависимость ищется в классе линейных функций y=a+bx. В этом случае равенства (2) принимают вид линейных уравнений относительно a и b:
Решая эту систему линейных уравнений, например, по формулам Крамера, получаем . Здесь , , и – статистические оценки ожиданий и дисперсий, составленные соответственно для X и Y, а r – эмпирический (выборочный) коэффициент корреляции,
, .
Коэффициент b перед аргументом x уравнении линейной регрессии y=a+bx, называют её коэффициентом, а его статистическую оценку b = rsy/sx, найденную методом наименьших квадратов, – эмпирическим коэффициентом регрессии. Аналогично выводится уравнение линейной регрессии случайной величины X по аргументу Y. Уравнения линейной регрессии Y по X и X по Y при |r| ¹ 1 существенно отличны один от другого, имеют разные графики.
Некоррелированность означает равенство нулю коэффициента корреляции r = 0, равно как и регрессии b = rsy/sx= 0. В то же время для непрерывных величин X и Y их эмпирический коэффициент регрессии b = rsy/sx в силу чистой случайности непременно отличен от нуля, b ¹ 0. Поэтому случайное отклонение r от нуля в сторону положительных или отрицательных значений не даёт оснований предполагать, что Y в целом возрастает при возрастании X. В этом смысле эмпирические уравнения регрессии
и
с не равными нулю коэффициентами b =rsy/sx ¹ 0 и bxy = rsx/sy¹ 0 сомнительны. Необходимо избежать ошибки, предсказывая рост или убывание величины Y, когда к этому нет достаточных оснований, поскольку коэффициент регрессии b ненадежен или, как говорят, незначимый. В этом случае из двух альтернатив, зависит Y от X или не зависит, лучше выбрать второе – независимость Y от X. Пользуясь эмпирическим уравнением (3) регрессии Y по X, надо помнить, что имеющийся статистический материал не позволяет сделать вывод, что истинный коэффициент регрессии b = rsy/sx отличен от 0, являясь строго положительным или строго отрицательным.
Вопрос о некоррелированности величин X, Y решается статистикой
,
составляемой по n наблюдениям вектора (X, Y). Для нормально распределенных независимых величин X, Y коэффициент корреляции равен нулю (r = 0 –величины не коррелированны) статистика T распределена по закону Стьюдента с n-2 степенями свободы. Поэтому проверка гипотезы H0:r = 0 о равенстве нулю коэффициента корреляции r состоит в следующем. Выбираем уровень значимости a, то есть малую вероятность риска совершить ошибку первого рода, отвергнув основную гипотезу H0, когда она верна. Для распределения Стьюдента с n-2 степенями свободы находим верхний квантиль ta уровня a/2, решая уравнение P(T >ta) = a/2 или равнозначное ему P(|T | > ta) = a. Для альтернативной гипотезы H1: r ¹ 0 критическую область выбираемся двустороннюю (-¥,-ta) È (ta,+¥). Если вычисленная по выборке статистика T попадает в критическую область, что происходит, когда | T |>ta, основная гипотеза H0 отвергается, принимается альтернативная ей гипотеза H1. В противном случае, когда |T | < ta, принимается гипотеза H0:r = 0 о некоррелированности и независимости величин X и Y. Последнее надо понимать так, что X и Y не имеют заметной или, как говорят, значимой корреляционной связи.
Для величины Z, связанной с X линейной регрессионной зависимостью z =a+bzxx, возникает необходимость в надежной интервальной оценке коэффициента bzx = rzxsz/sx регрессии Z по X. В этом случае величины Y=Z-bzxX и X не коррелированны. Действительно, условное ожидание величины Y=Z-bzxX при условии X=x равно M(Y/X=x) = M((Z-bzxX)/X=x) = a+bzxx–bzxx=a. Величина Y не зависит от x, byx= ryxsy/sx= 0, и следовательно, коэффициент корреляции ryx= 0 – величины Y и X не коррелированны. Поэтому статистика
или, что то же самое, ,
составленная для величин X и Y, распределена по Стьюденту с n-2 степенями свободы. Ранее рассмотренная статистика , вычисленная для X и Z, при rzx¹0, конечно же, не распределена по Стьюденту, но если её использовать, Tb можно записать в более простом виде Tb=T(bzx–bzx)/bzx.
Зададимся
надежностью g и для распределения Стьюдента
с n-2 степенями свободы выберем квантиль
ta
уровня a =
(1+g)/2 так, чтобы P(|Tb| <
ta)
= g. Неравенство |Tb| < ta
равнозначно |bzx – bzx|
< tabzx/T
и двойному неравенству bzx(1–
ta/T)< bzx<
bzx(1+ ta/T). Тем самым определился
доверительный интервал (bzx(1–
ta/T),
bzx(1+ ta/T)) надежности g
для коэффициента bzx регрессии.
Надежность g выражает вероятность P(bzx(1–ta/T ) < bzx < bzx(1+t