Простой линейный регрессионный анализ

Автор работы: f*********@gmail.com, 27 Ноября 2011 в 13:27, контрольная работа

Описание

Зависимость условной средней M(Y /X=x) от значения x величины X, случайной или не случайной, называют регрессией Y по X, равенство y= M(Y/X= x), связывающее x и y, – уравнением регрессии, а соответствующий график – линией регрессии Y по X. Статистическая оценка параметров зависимости условной средней y = M(Y/X=x) от x в основном осуществляется методом наименьших квадратов.

Содержание

Оглавление 2
Введение 3
Выполнение работы 9
Выводы 12

Скачать (43.14 Кб) Сколько стоит заказать работу?

Работа состоит из 1 файл

ГОСУДАРСТВЕННЫЙ КОМИТЕТ ПО РЫБОЛОВСТВУ.doc

— 150.50 Кб (Скачать документ)

ГОСУДАРСТВЕННЫЙ КОМИТЕТ ПО РЫБОЛОВСТВУ

ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ

«МУРМАНСКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ»

Кафедра ИС и ПМ

РГЗ № 2

по дисциплине «Прикладная статистика и планирование эксперимента»

Простой линейный

регрессионный анализ

№ 10

Выполнила студентка экономического факультета, группы Мар-371:

Мельник И.С.

Проверил:

Пантелеев В.П.

Мурманск

2009

Введение

Цель работы: Освоить элементы корреляционного и простого линейного регрессионного анализа.

Стохастическая зависимость случайной величины Y от величины X, случайной или не случайной, в отличие от функциональной не предполагает однозначности. Каждому значению xÎX отвечает, в целом, множество значений yÎY с условным распределением вероятностей F_x(y) =P(Y<y /X=x). Меж тем стохастическая зависимость не всегда нужна во всей её полноте. Нас могут интересовать частные её проявления, например, как сильно влияет изменение величины X на величину Y (корреляционный анализ), или какова зависимость условной средней M(Y /X = x) от значений xÎX (регрессионный анализ). Будет ли эта зависимость линейной y=a+bx, параболической y=a+bx+ cx², гиперболической y=a/(x+b), экспоненциальной y=ae^bx и т. п.? Те же вопросы возникают и в том случае, когда X – вектор.

Зависимость условной средней M(Y /X=x) от значения x величины X, случайной или не случайной, называют регрессией Y по X, равенство y= M(Y/X= x), связывающее x и y, – уравнением регрессии, а соответствующий график – линией регрессии Y по X. Статистическая оценка параметров зависимости условной средней y = M(Y/X=x) от x в основном осуществляется методом наименьших квадратов. В отличие от функциональной (однозначной), стохастическая зависимость имеет ту особенность, что регрессия x=M(X /Y=y) величины X по Y в общем случае отлична от y=M(Y /X=x), имеет, в целом, другой график и другое уравнение. Слово регрессия впервые появилось в 1889 г. в статье английского статистика Ф. Гальтона (Francis Galton) и означало отступление в детях от экстремальных свойств родителей, например рост детей, в целом, отступает к среднему статическому. Этот исходный смысл слова регрессия сохраняется и ныне, предполагается снятие крайних отклонений, выделяется по возможности характерная для исследуемых величин устойчивая связь.

Регрессионный анализ во многом близок другой дисциплине – корреляционному анализу. Последний исследует силу линейной связи случайных величин Y и X посредством статистических оценок коэффициента корреляции r = М[(X- MX)(Y-MY)] /(s_xs_y), а также силу нелинейной связи посредством корреляционного отношения s_f/s_y, составляемого для дисперсии уловных средних M(Y/X=x) по значениям величины X. Если же коэффициент корреляции r =±1, то величины X и Y связаны линейной функциональной зависимостью

. (1)

При r =1 величина Y возрастает по X, а при r =–1 убывает. При значениях |r|, близких к 1, линейное уравнение (1) выражает приближенную зависимость Y от X. В целом большим значениям X отвечают большие значения величины Y, если r близко к 1, и меньшие, если r близко к -1. Когда корреляционное отношение s_f/s_y = 1, величины X и Y связаны функциональной зависимостью.

Если ковариация C(X,Y) = М[(X-MX)(Y-MY)] = 0, величины X и Y называются некоррелированными. В противном случае, когда C(X,Y) ¹ 0, величины X и Y называются коррелированными. Независимые величины X и Y заведомо не коррелированны, поскольку для них M(XY) = MXMY и C(X,Y) = М[(X-MX)(Y-MY)] = М(XY) – МX MY=0. Для нормальных величин верно и обратное, если X и Y не коррелированны, то они и независимы.

Чтобы получить представление о параметрах – числовых характеристиках случайного вектора (X,Y), производится их статистическое оценивание по двумерной выборке (X_i,Y_i) – результатам n независимых измерений одновременно обеих составляющих X и Y вектора (X,Y), i=1, 2,…, n. Сопоставление данных выборки (X_i,Y_i) с теоретически возможной регрессионной зависимостью Y от X осуществляется обычно методом наименьших квадратов. Например, предполагается, что регрессия Y по X выражена функцией y = f(x,a,b) аргумента x, но истинные числовые значения параметров a и b нам не известны. Метод наименьших квадратов подбирает для a, b такие приближенные значения a, b, которые минимизируют расхождение Q между значениями функции f(x_i,a,b) и выборочными значениями y_i, выраженное функцией

².

Отсюда происходит и название метода наименьших квадратов – по виду функции Q и способу получения оценок a, b для неизвестных a и b, определяющих истинную регрессионную зависимость y = f(x,a,b). Как известно, минимум функции Q достигается при значениях a, b, когда частные производные равны нулю:

(2)

Если имеются основания полагать, что Y и X связаны линейной регрессией y=a+bx, то эта зависимость ищется в классе линейных функций y=a+bx. В этом случае равенства (2) принимают вид линейных уравнений относительно a и b:

Решая эту систему линейных уравнений, например, по формулам Крамера, получаем . Здесь , , и – статистические оценки ожиданий и дисперсий, составленные соответственно для X и Y, а r – эмпирический (выборочный) коэффициент корреляции,

, .

Коэффициент b перед аргументом x уравнении линейной регрессии y=a+bx, называют её коэффициентом, а его статистическую оценку b = rs_y/s_x, найденную методом наименьших квадратов, – эмпирическим коэффициентом регрессии. Аналогично выводится уравнение линейной регрессии случайной величины X по аргументу Y. Уравнения линейной регрессии Y по X и X по Y при |r| ¹ 1 существенно отличны один от другого, имеют разные графики.

Некоррелированность означает равенство нулю коэффициента корреляции r = 0, равно как и регрессии b = rs_y/s_x= 0. В то же время для непрерывных величин X и Y их эмпирический коэффициент регрессии b = rs_y/s_x в силу чистой случайности непременно отличен от нуля, b ¹ 0. Поэтому случайное отклонение r от нуля в сторону положительных или отрицательных значений не даёт оснований предполагать, что Y в целом возрастает при возрастании X. В этом смысле эмпирические уравнения регрессии

и (3)

с не равными нулю коэффициентами b =rs_y/s_x¹ 0 и b_xy= rs_x/s_y¹ 0 сомнительны. Необходимо избежать ошибки, предсказывая рост или убывание величины Y, когда к этому нет достаточных оснований, поскольку коэффициент регрессии b ненадежен или, как говорят, незначимый. В этом случае из двух альтернатив, зависит Y от X или не зависит, лучше выбрать второе – независимость Y от X. Пользуясь эмпирическим уравнением (3) регрессии Y по X, надо помнить, что имеющийся статистический материал не позволяет сделать вывод, что истинный коэффициент регрессии b = rs_y/s_x отличен от 0, являясь строго положительным или строго отрицательным.

Вопрос о некоррелированности величин X, Y решается статистикой

составляемой по n наблюдениям вектора (X, Y). Для нормально распределенных независимых величин X, Y коэффициент корреляции равен нулю (r = 0 –величины не коррелированны) статистика T распределена по закону Стьюдента с n-2 степенями свободы. Поэтому проверка гипотезы H₀:r = 0 о равенстве нулю коэффициента корреляции r состоит в следующем. Выбираем уровень значимости a, то есть малую вероятность риска совершить ошибку первого рода, отвергнув основную гипотезу H₀, когда она верна. Для распределения Стьюдента с n-2 степенями свободы находим верхний квантиль t_a уровня a/2, решая уравнение P(T >t_a) = a/2 или равнозначное ему P(|T | > t_a) = a. Для альтернативной гипотезы H₁: r ¹ 0 критическую область выбираемся двустороннюю (-¥,-t_a) È (t_a,+¥). Если вычисленная по выборке статистика T попадает в критическую область, что происходит, когда | T |>t_a, основная гипотеза H₀ отвергается, принимается альтернативная ей гипотеза H₁. В противном случае, когда |T | < t_a, принимается гипотеза H₀:r = 0 о некоррелированности и независимости величин X и Y. Последнее надо понимать так, что X и Y не имеют заметной или, как говорят, значимой корреляционной связи.

Для величины Z, связанной с X линейной регрессионной зависимостью z =a+b_zxx, возникает необходимость в надежной интервальной оценке коэффициента b_zx= r_zxs_z/s_x регрессии Z по X. В этом случае величины Y=Z-b_zxX и X не коррелированны. Действительно, условное ожидание величины Y=Z-b_zxX при условии X=x равно M(Y/X=x) = M((Z-b_zxX)/X=x) = a+b_zxx–b_zxx=a. Величина Y не зависит от x, b_yx= r_yxs_y/s_x= 0, и следовательно, коэффициент корреляции r_yx= 0 – величины Y и X не коррелированны. Поэтому статистика

или, что то же самое, ,

составленная для величин X и Y, распределена по Стьюденту с n-2 степенями свободы. Ранее рассмотренная статистика , вычисленная для X и Z, при r_zx¹0, конечно же, не распределена по Стьюденту, но если её использовать, T_b можно записать в более простом виде T_b=T(b_zx–b_zx)/b_zx.

Зададимся надежностью g и для распределения Стьюдента с n-2 степенями свободы выберем квантиль t_a уровня a = (1+g)/2 так, чтобы P(|T_b| < t_a) = g. Неравенство |T_b| < t_a равнозначно |b_zx– b_zx| < t_ab_zx/T и двойному неравенству b_zx(1– t_a/T)< b_zx< b_zx(1+ t_a/T). Тем самым определился доверительный интервал (b_zx(1– t_a/T), b_zx(1+ t_a/T)) надежности g для коэффициента b_zx регрессии. Надежность g выражает вероятность P(b_zx(1–t_a/T ) < b_zx< b_zx(1+t_a/T )) = g попадания коэффициента b_zx= rs_z/s_x линейной регрессии в доверительный интервал. Статистика T позволяет также наиболее просто записать доверительный интервал надежности g для линейной регрессии z = a+bx случайной величины Z по X.

Информация о работе Простой линейный регрессионный анализ