Двухфакторный дисперсионный анализ

Автор работы: Пользователь скрыл имя, 15 Мая 2011 в 12:42, курсовая работа

Описание

Цель работы: ознакомиться с таким статистическим методом, как дисперсионный анализ, в общем, и двухфакторный дисперсионный анализ в частности.

Работа состоит из  1 файл

КУРСОВАЯ РАБОТА !!!!!!!!!!!!!!.docx

— 112.80 Кб (Скачать документ)
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Введение

Цель  работы: ознакомиться с таким статистическим методом, как дисперсионный анализ, в общем, и двухфакторный дисперсионный анализ в частности.

Дисперсионный анализ - это статистический метод анализа результатов наблюдений, зависящих от различных одновременно действующих факторов, отбор наиболее существенных факторов и оценка их влияния. Дисперсионный анализ, в современном понимании, был развит английским статистиком и генетиком сэром Рональдом Эйлмером Фишером, который ввел в статистику понятия дисперсионный анализ и дисперсия. По поводу года введения понятия «дисперсионный анализ» между исследователями ведутся споры, но большинством из них указывается 1925 год. Измерения и наблюдения могут проводиться в разных областях знаний: как в неэкспериментальных науках (например, в астрономии), так и в экспериментальных (например, в генетике). Теория анализа результатов измерений подсказывает, как планировать проведение опыта, т.е. приводит к планированию эксперимента. С исторической точки зрения, дисперсионный анализ развивался в основном в связи с приложениями к задачам сельского хозяйства.

Целью дисперсионного анализа является проверка значимости различия между средними с помощью сравнения дисперсий. Дисперсию измеряемого признака разлагают на независимые слагаемые, каждое из которых характеризует влияние того или иного фактора или их взаимодействия. Сравнение таких слагаемых позволяет оценить значимость каждого изучаемого фактора, а также их комбинации.

При истинности нулевой гипотезы (о равенстве  средних в нескольких группах  наблюдений, выбранных из генеральной  совокупности), оценка дисперсии, связанной с внутригрупповой изменчивостью, должна быть близкой к оценке межгрупповой дисперсии.

При проведении исследования рынка часто встает вопрос о сопоставимости результатов. Предположим, проводя опросы населения по поводу потребления какого-либо продукта в различных регионах страны, необходимо сделать выводы, насколько данные опроса отличаются, или наоборот, не отличаются друг от друга. Сопоставлять отдельные показатели, не имеет смысла и поэтому процедура сравнения и последующей оценки производится по некоторым усредненным значениям и отклонениям от этой оценки. Изучается вариация признака; за меру вариации может быть принята дисперсия. Дисперсия (σ2)- мера вариации, определяемая как средняя из отклонений признака, возведенных в квадрат.

На практике часто возникают задачи проверки существенности различий средних выборочных нескольких совокупностей. Например, требуется оценить влияние различного сырья на качество производимой продукции, решить задачу о влиянии количества удобрений на урожайность сельскохозяйственной продукции.

На основе дисперсионного анализа производится:

  1. оценка достоверности различий в групповых средних по одному факторному признаку или нескольким
  2. оценка достоверности взаимодействий факторов
  3. оценка частных различий между парами средних

Иногда  дисперсионный анализ применяется, чтобы установить однородность нескольких совокупностей (дисперсии этих совокупностей  одинаковы по предположению; если дисперсионный  анализ покажет, что и математические ожидания одинаковы, то в этом смысле совокупности однородны). Однородные же совокупности можно объединить в одну и тем самым получить о ней более полную информацию, значит, и более надежные выводы. На практике, чаще всего, дисперсионный анализ применяют, когда хотят выяснить, оказывает или не оказывает влияние на нормально распределенную случайную величину Х некоторый качественный фактор А, который имеет m различных качественных реализаций (уровней). Если Х – прибыль предприятия, то качественным фактором А, влияющим (или не влияющим) на прибыль Х, может быть технология производства; качество сырья; структура управления производством; система материального или морального стимулирования работников. Если исследуется влияние на величину Х лишь одного качественного фактора А, то говорят об однофакторном дисперсионном анализе. А если сразу нескольких – то о многофакторном. С помощью дисперсионного анализа исследуется значимость влияния на наблюдаемую величину Х каждого из факторов, сравнивается их влияние между собой, устанавливается факт их взаимодействия. 
 
 
 
 
 
 
 
 
 
 
 
 

    1. Сущность  дисперсионного анализа
 
    1. Математические  модели

Пусть мы имеем n наблюдений или измерений. В математических моделях наблюдения рассматриваются как n случайных величин y1, y2, …, yn, которые являются линейными комбинациями с p неизвестными постоянными β1, β2 , …, βp плюс ошибки ℮1 ,℮2 , …, ℮n:

yi= x1iβ1 + x2iβ2 +…+ xpiβp+ ℮i (i=1, 2, …, n),        (1)

где {xji} - постоянные известные коэффициенты (где j= 1,2, …,p; i=1,2, …,n)

Величины  βj являются отражением некоторых сторон наблюдаемого явления, представляющих интерес для исследователя. Целью дисперсионного анализа является получение выводов относительно {℮i } и некоторых {βi} выводов, остающихся правдивыми независимо от других  {βi}, «исключить», которые было бы более желательно чем «оценивать». [1]

Наименьшие  предположения о случайных величинах  {℮i } состоят в том, что их математические ожидания равны нулю, т.е

М (℮i)=0  (i=1, 2, …, n).

Кроме того, предположим, что 

М (℮ij)= σ2δij ,

где σ2 – неизвестная постоянная, δij равно 0 или 1 при соответственно i≠j и i=j. Эти условия эквивалентны тому, что случайные величины некоррелированы (т.е. их коэффициенты корреляции равны 0) и имеют равные дисперсии σ2. [1]

После выше сказанного можно дать более  точное и развернутое определение: дисперсионный анализ- это система  статистических методов обработки данных (наблюдений или экспериментов) допускающих представление (1), где коэффициенты {xji} являются целыми числами, равными обычно 0 или 1.

Параметры j} могут быть  двух видов: либо неизвестными постоянными, либо случайными величинами. При этом, если они являются случайными величинами, то закон их распределения может зависеть от других неизвестных параметров. Модель, в которой все параметры неизвестные постоянные называется моделью с постоянными факторами.

Модель, в которой все параметры {βj} случайны, за исключением одного, являющегося аддитивной постоянной (это обычно генеральная средняя), называется моделью со случайными факторами. Частный случай, когда один параметр βj случаен и хоть один не случаен, но не является аддитивной постоянной, называется смешанной моделью.

Математическая  модель — это абстракция реального мира, в которой интересующие исследователя отношения между реальными элементами заменены подходящими отношениями между математическими объектами. Математические модели, в описании которых используются случайные величины, называют вероятностными или стохастическими. Всякая модель является упрощенным представлением действительности, и искусство моделирования состоит в знании того, что, где, когда и как можно и нужно упростить. Это знание естественно приходит с опытом. [7]

В некотором  смысле математическая модель является для исследователя тем же, чем для физика физическая лаборатория. Можно ставить эксперименты в «мире», порожденном моделью, и, если математическая модель является правдивым отражением действительности, результаты этих экспериментов применимы к реальному миру.  Говоря о применимости моделей к описанию реальной действительности, подразумевается возможность их практического использования в качестве базы (отправной точки) при выборе наилучшего способа статистической обработки исходных данных, а также при решении таких задач, как планирование, прогнозирование, оптимальное управление системами и процессами, оценка эффективности функционирования (или комплексной характеристики качества) сложной системы, диагностика (медицинская и техническая), нормирование. 

  
 
 
 
 
 
 
 
 
 
 
 
 
 
 

1.2 Однофакторный дисперсионный анализ

В случае выделения групп по одному фактору  мы имеем однофакторный дисперсионный анализ.

Пусть на количественный нормально распределенный признак X воздействует фактор F, который имеет p постоянных уровней. Пусть число испытаний (наблюдений) на каждом уровне одинаково и равно q.

Предположим, наблюдалось n=pq значений xij признака X, где i (= 1,2, …, q)- номер испытания, j (=1,2, …, p)- номер уровня фактора. [3]

Результаты  наблюдений представим в табличной форме:

Результаты  испытаний и влияние  фактора

Номер испытания Уровни  фактора Fj
F1 F2 Fp
1 x11 x12 x1p
2 x21 x22 x2p
q xq1 xq2 xqp
Групповая средняя гр гр2 гр p

Введем,   

Sобщ =

(общая сумма квадратов отклонений наблюдаемых значений от общей средней ),

Sфакт = q

(факторная сумма квадратов отклонений групповых средних от общей средней, которая характеризует рассеяние между группами),

Sост =

(остаточная сумма квадратов отклонений наблюдаемых значений группы от своей групповой средней, которая характеризует рассеяние внутри групп). Но так как формула очень громоздка, то на практике для вычисления Sост используют более простую формулу

Sост = Sобщ - Sфакт → Sобщ = Sфакт+ Sост             

Разделив  суммы квадратов отклонений на соответствующее  число степеней свободы, получим общую, факторную и остаточную дисперсии:

= = ,               = ,

где p- число уровней фактора; q- число наблюдений на каждом уровне; pq-1- число степеней свободы общей дисперсии; p-1- число степеней свободы факторной дисперсии; p(q-1)- число степеней свободы остаточной дисперсии.

Если  нулевая гипотеза о равенстве  средних справедлива, то все эти  дисперсии являются несмещенными оценками генеральной дисперсии. Например, т.к. n=pq, имеем

 – исправленная выборочная дисперсия, которая является несмещенной оценкой генеральной дисперсии.

Поставим  перед собой следующую задачу, чтобы отразить метод дисперсионного анализа: проверить при заданном уровне значимости нулевую гипотезу о равенстве нескольких (p>2) средних нормальных совокупностей с неизвестными, но одинаковыми дисперсиями. Решение этой задачи сводится к сравнению факторной и остаточной дисперсий по критерию Фишера-Снедекора. [4]

  1. Пусть нулевая гипотеза о равенстве нескольких средних правильна. Тогда факторная и остаточная дисперсии являются несмещенными оценками неизвестной генеральной дисперсии и значит различаются незначимо. Если сравнить эти оценки по критерию F, то критерий укажет, что нулевую гипотезу о равенстве факторной и остаточной дисперсий следует принять.

    Т.е. можно сделать вывод: если гипотеза о равенстве групповых средних  правильна, то верна и гипотеза о  равенстве факторной и остаточной дисперсий.

Информация о работе Двухфакторный дисперсионный анализ