Двухфакторный дисперсионный анализ

Автор работы: Пользователь скрыл имя, 15 Мая 2011 в 12:42, курсовая работа

Описание

Цель работы: ознакомиться с таким статистическим методом, как дисперсионный анализ, в общем, и двухфакторный дисперсионный анализ в частности.

Работа состоит из  1 файл

КУРСОВАЯ РАБОТА !!!!!!!!!!!!!!.docx

— 112.80 Кб (Скачать документ)
  1. Теперь рассмотрим противоположную ситуацию, т.е. нулевая гипотеза ложна. В этом случае с возрастанием расхождения между групповыми средними увеличивается факторная дисперсия, а вместе с ней и отношение . В итоге Fнабл > Fкр и значит гипотеза о равенстве дисперсий будет отвергнута.

    Таким образом, если гипотеза о равенстве  групповых средних ложна, то ложна  и гипотеза о равенстве факторной  и остаточной дисперсий.

    Итак, для того чтобы проверить нулевую  гипотезу о равенстве групповых  средних нормальных совокупностей  с одинаковыми дисперсиями, необходимо и достаточно проверить по критерию F нулевую гипотезу о равенстве факторной и остаточной дисперсий. В этом и состоит метод дисперсионного анализа.

    Выше  была описана теория, где число  испытаний на различных уровнях  предполагалось одинаковым. Пусть теперь число испытаний на различных  уровнях различно, а именно: произведено q1 испытаний на уровне F1, q2 испытаний- на уровне F2 , …,  qp испытаний- на уровне Fp . В этом случае общую сумму квадратов отклонений находят по формуле:

    Sобщ = [P1+P2+…+Pp] – [(R1+R2+…+Rp)2/n],

    где P1= - сумма квадратов наблюдавшихся значений признака на уровне F1 ;

    P2= сумма квадратов наблюдавшихся значений признака на уровне F2 ;

    Pp= сумма квадратов наблюдавшихся значений признака на уровне Fp ;

    R1= ,   R2= , …,   Rp= - суммы

    наблюдавшихся значений признака соответственно на уровнях F1, F2, …, Fp;

    n= q1+q2+…+qp- общее число испытаний (объем выборки)

    Факторную сумму квадратов отклонений находят  по формуле:

    Sфакт = [(/q1) + (/q2) +…+ (/qp)] – [(R1+R2+…+Rp)2/n]

    Остальные вычисления производят, как и в  случае одинакового числа испытаний:

    Sост = Sобщ – Sфакт,  ,          . 
     
     
     
     

    1. Двухфакторный дисперсионный анализ

С помощью дисперсионного анализа можно изучить влияние не только одного фактора на результат, а двух и более. В данном случае дисперсионный анализ будет называться, соответственно, двухфакторным и многофакторным. Двухфакторный дисперсионный анализ отличается от однофакторного, тем, что он может ответить на следующие вопросы:

  1. каково влияние обоих факторов вместе ?
  2. какова роль сочетания этих факторов ?

Предположим, что два фактора А и В изменяются в эксперименте или в рассматриваемой совокупности условий, например в эксперименте типа, где различные растения (А) были посажены на различных участках  (В) с одинаковым химическим составом смесей, или, например в астрономических исследованиях нескольких видов звезд (А), наблюдаемых в разное время (В). Если в первом случае (с растениями) рассматривается I растений и J местностей, то эти I и J называют соответственно I уровнями фактора А и J уровнями фактора В. Уровни могут описывать качественную классификацию, как, например, виды растений, или же количественную, как, например, отдаленность звезды.

В таких  двухфакторных экспериментах (или  неэкспериментальных исследованиях) наблюдения могут быть расположены  по этим двум факторам в виде таблицы  с двумя входами (двухфакторной  таблицы), I строк которой соответствуют  уровням фактора А, а J столбцов- уровням В. В «(i, j)- ячейку», расположенную на пересечении i-й строки и j-го столбца, записываются наблюдения, полученные при одновременном исследовании факторов А и В соответственно в i-м и j-м уровнях. Если в каждой ячейке есть по крайне мере одно наблюдение, то возможен полный анализ. Если, допустим, что наблюдения в (i, j)- ячейке являются случайной выборкой из всей совокупности, соответствующей этой ячейке, то можно говорить о среднем и дисперсии этой совокупности как об «истинном» среднем ячейки и «истинной» дисперсии ячейки. «Истинное» среднее (i, j)–ячейки обозначается через ηij ; если нет дополнительных предположений относительно {ηij}, то мнк- оценкой является среднее наблюдение в (i, j)-ячейке. Это среднее называют наблюдаемым средним ячейки или наблюдаемым результатом.

Предположим, что веса {wj} выбраны в соответствии с уровнями фактора В. Например, если в J местностях субъекта N, I сортов хлопка проверяется в эксперименте, на основании которого для всех N будет отобран единственный сорт, то естественно взвесить J местностей с весами {wj}, пропорциональными площадям хлопка в областях, типичными представителями которых являются эти J местностей. Средним i-го уровня А называют взвешенное среднее от средних ячейки {ηij} i-й строки, причем веса {wj} зависят от столбцов и не зависят от строк; таким образом, это среднее является средним результатом i-го уровня А, осредненным по уровням В. Предполагается, что веса {wj} неотрицательны и не все равны нулю, поэтому, не нарушая общности, допустим , что ; таким образом, {wj} рассматриваются как произвольные, но фиксированные числа. Теперь среднее i-го уровня А запишется в виде:

Аi= ;

это среднее  называют также средним i-й строки. Аналогично если {vi} является произвольным множеством чисел со всеми и , то среднее j-го уровня В, или среднее j-го столбца, определяется формулой

Вj = .

Генеральное среднее- взвешенное среднее средних  столбца {Вj} с весами {wj}, или взвешенное среднее средних строки {Аi} с весами {vi}. Обозначая генеральное среднее через µ, получим

µ== = .

Главный эффект i-го уровня А определяется как превышение среднего i-го уровня над генеральным средним αi= Ai -µ. Отметим, что {αi} удовлетворяют условию

=0                       (а)

Аналогично  главный эффект j-го уровня В определяется как βj=Bj-µ, откуда

=0                     (б)

Главные эффекты αi и βj называют также эффектом i-й строки и эффектом j-го столбца. Особое значение придается тому, что главные эффекты одного фактора являются средними по уровням других факторов и, таким образом, обычно зависят от того, каковы уровни других факторов, присутствующих в эксперименте.

Если  мы будем определять главный эффект i-го уровня А специально по отношению к j-му уровню В, то естественно определить его как превышение ηij над средним j-го столбца, следовательно

            ηij –Bj . (1)

Главный эффект i-го уровня А, определенный выше, является фактически взвешенным средним от (1) по столбцам: αi= Ai -µ=. Превышение (1) над своим средним называется взаимодействием i-го уровня А с j-м уровнем В

      γij= ηij –Bj –Ai +µ.      (2)

Можно было бы прийти к тому же результату (2), если бы начали с главного эффекта  j-го уровня В специально по отношению к i-му уровню А; взаимодействие симметрично, поэтому мы можем назвать γij взаимодействием i-го уровня А и j-го уровня В. Отметим, что IJ взаимодействий удовлетворяют условиям

=0   при всех j;

=0  при всех i.

Эти условия  обозначим (2а)

Подставляя, Bj= µ+βj и Ai= µ+αi в (2), получим

ηij= µ+ αi+ βj+ γij            (3)

Но, если множество постоянных {µ, αi , βj , γij} удовлетворяет (3), то этого еще недостаточно, чтобы они были генеральным средним, главными эффектами и взаимодействиями. Однако условие (3), дополнительные условия (а), (б) и (2а) уже однозначно определяют по {ηij} генеральное среднее, главные эффекты и взаимодействия. [1]

Исключение  известных взаимодействий преобразованием  шкалы измерений

Будем рассматривать строго возрастающие преобразования z=f (y), т. е. преобразования, удовлетворяющие при любых у'> у" условию f(y')>f(y"). Такое ограничение связано с тем, что мы хотим сохранить порядок по величине средних ячейки {ηij} и наблюдений. Рассмотрим случай, когда факторы количественны.

Случай  количественных факторов

В этом случае уровням А соответствуют  значения u=u1, …., uI непрерывной переменной u (например, давление, температура, вес удобрений и т.д.), а уровням В- значения v= v1, …, vJ  (не путать с весами {vj}, рассмотренными выше) непрерывной переменной v. Пусть существует функция регрессии η(u,v) такая, что ηij= η (ui ,vj) . Функция η(u,v) может быть названа аддитивной, если существуют функции g(u) и h(v) такие, что η(u,v)= g(u) +h(v). В этом случае, когда такие функции существуют, множество {ηij} будет иметь нулевые взаимодействия при любом выборе {ui} и {vj}.

Случай  качественных факторов

В двухфакторном  анализе мы скажем, что две строки

a1a2 … aJ ,

b1b2 … bJ

состоятельно  упорядочены, если все J разностей {аj — bj) положительны, или все равны нулю, или все отрицательны. Аналогично определяется состоятельная упорядоченность двух столбцов. Легко видеть, что состоятельная упорядоченность любой пары строк и любой пары столбцов является необходимым условием устранимости взаимодействий в (I*J)-таблице двухфакторного анализа при помощи преобразования. Действительно, если взаимодействия устранены, то любые пары строк  любые пары столбцов в преобразованной таблице являются состоятельно упорядоченными, так как любые пары разностей фиксированной пары строк или столбцов равны между собой; следовательно, первоначальная таблица тоже должна быть состоятельно упорядоченной, так как строго возрастающее преобразование не изменяет это свойство. Состоятельную упорядоченность легко проверить по следующему правилу. Сначала нужно переставить столбцы так, чтобы первая строка стала неубывающей, а затем переставить строки так, чтобы первый столбец стал неубывающим. Тогда в переставленной таблице состоятельная упорядоченность эквивалентна следующему условию: все строки и все столбцы должны быть неубывающими, а если в некоторой строке (или столбце) два элемента равны, то два столбца (или две строки), содержащие эти элементы, тоже должны быть равны. Если другие строки не являются неубывающими, то условие уже нарушено.Однако состоятельная упорядоченность не является достаточным условием для устранимости взаимодействий преобразованием. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Двухфакторный анализ с равными  числами наблюдений в ячейках.

Обозначим число наблюдений в (i, j)-ячейке через Kij . Сначала относительно {Kij}мы будем предполагать, что они не все равны 0 (разумеется, за исключением случая, когда общее число наблюдений n является нулем); в полном анализе все Kij положительны.

Если  через yijk обозначить k-е наблюдение в (i, j)-ячейке, а через D –множество пар {(i, j)}, которые соответствуют непустым ячейкам, то наше предположение запишется в виде

Ώ:

При Ώ  мы должны минимизировать

Ψ=                  (4)

Только  {ηij} непустых ячеек (в которых имеются наблюдения) составляют p параметров {βj}. Их мнк-оценками являются

              при (i, j) D.    (5)

Сумма квадратов ошибок, являющаяся минимумом (4), равна

SSe=

а ее число  степеней свободы равно n-p, где n- число наблюдений, p- число непустых ячеек.

Все линейные функции от p параметров {ηij}, соответствующих непустым ячейкам, допускают оценку. Если рассматривается полный анализ, то в предположениях Ώ по теореме Гаусса-Маркова мнк-оценки всех главных эффектов и взаимодействий, которые определяются как некоторые линейные функции от {ηij}, можно получить, заменяя ηij линейными комбинациями (5). После преобразований, получаем оценки генерального среднего, главных эффектов и взаимодействий

, , ,

             (6)

Обозначения  звездочками указывают на невзвешенное среднее наблюдаемых средних  ячейки{}. Однако если имеется хоть одна пустая ячейка, то генеральное среднее, главные эффекты и взаимодействия в предположениях Ώ не допускают оценку, так как в их определения входят ηij от пустой ячейки, для которой нет наблюдений. [10]

Обычно  проверяются следующие гипотезы:

НА: все αi=0,

HB: все βj=0,

HAB: все γij=0.

Для упрощения  критерия мы допустим, что все числа {Kij} равны K>1.

Информация о работе Двухфакторный дисперсионный анализ