.
Выполнение
работы
- Работа
выполняется по вариантам в пакете
программ Excel, вариант m определяется
порядковым номером студента в журнале
учебной группы. Статистический материал
в виде двумерной выборки для пары величин
X и Y вносится в электронную таблицу
Excel. Мы избегаем трудоемкой работы по
его составлению, для учебных целей мы
имитируем его для пары нормальных случайных
величин X Î N(mx, sx)
в столбце A и Y Î N(m, s)
в столбце B генерацией случайных чисел,
начиная с ячеек A1 и B1, mx=MX,
m=MY. В ячейки D1:H1 вносим метки MX=,
MY=, MZ=, n=, k= для числовых значений
этих величин, помещаемых непосредственно
ниже в ячейках D2:H2. Объем n двумерной
выборки определяем равенством n=m+60.
Коэффициент k обеспечивает зависимость
Z от X, чтобы он статистически распознавался
при упомянутых (невысоких) значениях
n, выбираем k ³ 0,3.
- Значениями
величину Z=Y+k(X-mx), связанными
с X, заполняем столбец C. Первое из
этих значений вычисляется в ячейке C1
формулой =B1+H$2*(A1-D$2), которая затем
копируется вниз.
- Параметры
mx, sx, s выбираются произвольно,
но приемлемые для экономики и производства: sx £
mx /10, s £ m/10.
- Сначала проверяем
на коррелированность двумерную выборку
X, Y, а затем выборку значений X,
Z. Для этого вычисляем эмпирический
коэффициент корреляции r и статистику
Стьюдента T,
.
В свободную
ячейку, например E3, вводим функцию =КОРРЕЛ
или =ПИРСОН, каждая из них вычисляет эмпирический
коэффициент корреляции r по выборке,
размещенной в столбцах A и B. B ячейку E4
вводим формулу =E3*КОРЕНЬ(($G2-2)/(1-E3^2))
для вычисления статистики Стьюдента
T по эмпирическому коэффициенту корреляции
r. Далее, в ячейку E5 вводим формулу
=СТЬЮДРАСП(ABS(E4);$G2-2;2)
для вычисления P-значения для статистики
Т – вероятности, что случайная величина
Стьюдента примет значение по абсолютной
величине большее, чем значение статистики
T. Наконец, выбираем уровень значимости a,
например a
= 0,01, вводим это число в ячейку H5 и в ячейке
H4 функцией =СТЬЮДРАСПОБР(H5;$G2-2)
вычисляем критическую точку ta,
отвечающую выбранному уровню значимости a.
- Формулы в
ячейках E3:E5 копируем в ячейки F3:F5, закрепив
в них перед этим столбцы A и G знаком $,
не допуская их изменения при копировании.
Для этого в этих формулах перед буквой
A и G ставим знак $, превращая их в $A и $G.
Если статистика Т, вычисленная в ячейке
E4, подчинена неравенству |T|>ta,
она попадает в двустороннюю критическую
область (-¥,-ta)È
(ta+¥) и гипотеза H0
о равенстве коэффициента корреляции r
= 0 отвергается, значение эмпирического
коэффициента корреляции r признаётся
значимым (значимо отличным от нуля), а
случайные величины X и Y коррелированными.
При этом вполне оправданно выписать для
величин X и Y соответствующие уравнения
линейной регрессии. В противном случае,
когда |T|<ta, нет оснований говорить
о коррелированности случайных величин
X и Y, так как коэффициент корреляции
либо 0, либо близок к 0. Заметим, что при r = 0
коэффициенты регрессии также равны нулю, byx=
0 и bxy=
0.
- В ячейки
G4:G5 вводим соответственно два знака <
и >. Если они согласуются с абсолютными
значениями чисел в ячейках E4 и H4 или, что
равнозначно, в ячейках E5 и H5, то гипотеза
H0 о некоррелированности (независимости)
величин X и Y принимается, в противном
случае отвергается. Если же они согласуются
с абсолютными значениями чисел в ячейках
F4 и H4 или, что равнозначно, в ячейках F5
и H5, то принимается гипотеза H0Z о
некоррелированности (независимости)
величин X и Z, в противном случае
гипотеза H0Z отвергается.
- Во второй
части работы исследуется на коррелированность
двумерная выборка иной природы – для
величин X и Z. Если в первой части
работы независимость X и Y обеспечивал
уже тот способ, каким эмитировались выборки
этих величин, то в двумерной выборке
X и Z это уже исключено.
- В пакете
программ Excel находим и осваиваем программу
регрессионного анализа, выбирая опции
\Сервис (\Надстройка) \Пакет
анализа \OK) \Анализ
данных \Регрессия \ОК \Входные
интервалы. В качестве последних указываются
столбцы генерированных значений для
Y и X. \Уровень
надежности выбираем в соответствии
с уровнем значимости a, например 99% (по умолчанию
уровень надежности равен 95%) помечаем
также для вывода график
подбора. Для Выходного
интервала указывается левый верхний
угол свободного участка листа Excel, например
D6, куда помещается обширная таблица с
результатами регрессионного анализа
Y по X. Программу последовательно
применяем для исследования регрессии
Y по X и Z по X. Из других опций
при испытании на регрессионную зависимость
величины Z по X помечаем для вывода
также остатки и график
подбора. Таблица выводит также многие
другие характеристики линейной регрессии,
её коэффициенты, предсказание, результаты
F-теста.
- Прогнозирование
ценностного показателя Y или Z
для заданных значений X осуществляется
в следующем порядке. Значения X выписываются
в каком-либо столбце электронной таблицы,
затем напротив первого из них в другом
столбце составляется формула вида =a+bx,
где на место a ставится коэффициент
Y-пересечения регрессионной таблицы,
а на место b второй коэффициент. Номер
строки в обоих коэффициентах фиксируется
знаком доллара. После чего малым крестом
эта формула копируется вниз для вычисления
прогнозируемых значений для всех последующих
значений переменой X.
Выводы
Мы
вычислили коэффициент корреляции
r и статистику Стьюдента T, а так же проверили
на коррелированность двумерные выборки
в программе Excel. При сравнении значений,
полученных величин со значениями уровня
значимости и критической точкой (отвечающей
выбранному уровню значимости), мы получили
следующее:
Случай
1: статистика Т подчинена неравенству,
когда |T|<ta. Таким образом, нет
оснований говорить о коррелированности
случайных величин X и Y, так как коэффициент
корреляции либо 0, либо близок к 0. Принимается
гипотеза H0.
Случай
2: статистика Т подчинена неравенству
|T|>ta, она попадает в двустороннюю
критическую область (-¥,-ta)È (ta+¥) и гипотеза H0
о равенстве коэффициента корреляции r
= 0 отвергается, значение эмпирического
коэффициента корреляции r признаётся
значимым (значимо отличным от нуля), а
случайные величины X и Y коррелированными.
Далее,
во второй части работы, был произведен
регрессионный анализ по 2-м выборкам
(X и Y), (X и Z). Для этого вывели две таблицы
итогов соответственно:
Таблица
1: в результате регрессионного
анализа регрессия может быть либо определена,
либо не определена.
В данном случае регрессия не определена,
т.к. полученная в результате анализа F-значимость,
равная 0,22875371, больше выбранного нами
уровня значимости a=0,01.
Таблица
2: вывод итогов по выборке Z по
X показал, что величина F-значимости составляет
приблизительно 0.000058657, т.е. меньше выбранного
нами уровня значимости a=0,01. Из этого следует,
что регрессия определена при коэффициенте
переменной Х1, равном 0,418616150349716.