Автор работы: Пользователь скрыл имя, 05 Декабря 2011 в 21:22, реферат
Статистика как наука представляет собой целостную систему научных дисциплин: теория статистики, экономическая статистика и ее отрасли, социальная статистика, отраслевые и специальные статистики.
Общая теория статистики является наукой о наиболее общих принципах и методах статистического исследования социально-экономических явлений и решает другие общественные вопросы.
Она разрабатывает понятийный аппарат и систему категорий статистической науки, ра
В уже знакомом нам
примере про студента, который
сдал 4 экзамена и получил оценки:
3, 4, 4 и 5, ранее
уже была рассчитана средняя арифметическая = 4. Тогда дисперсия простая
Д = ((3-4)2+(4-4)2+(4-4)2+(5-4)2)/
Если исходные данные X сгруппированы (имеются частоты f), то расчет дисперсии выполняется по формуле средней арифметической взвешенной - получим дисперисю взвешенную:
В рассматриваемом
примере про студента, который
сдал 4 экзамена и получил следующие
оценки: 3, 4, 4 и 5, рассчитаем дисперсию
взвешенную: Д = ((3-4)2*1+(4-4)2*2+(5-4)2*1)/4
= 0,5.
Если преобразовать формулу дисперсии (раскрыть скобки в числителе, почленно разделить на знаменатель и привести подобные), то можно получить еще одну формулу для ее расчета как разность средней квадратов и квадрата средней:
В уже знакомом нам
примере про студента, который
сдал 4 экзамена и получил следующие
оценки: 3, 4, 4 и 5, рассчитаем дисперсию
методом разности средней квадратов
и квадрата средней:
Д = (32*1+42*2+52*1)/4-42
= 16,5-16 = 0,5.
Если значения X - это доли совокупности, то для расчета дисперсии используют частную формулу дисперсии доли:
.
Выше уже было рассказано о формуле средней квадратической, которая применяется для оценки вариации путем расчета среднего квадратического отклонения, обозначаемое малой греческой буквой сигма:
Еще проще можно найти среднее квадратическое отклонение, если предварительно рассчитана дисперсия, как корень квадратный из нее:
В примере про студента, в котором выше рассчитали дисперсию, найдем среднее квадратическое отклонение как корень квадратный из нее: .
Квадратический коэффициент вариации - это самый популярный относительный показатель вариации:
Критериальным значением квадратического коэффициента вариации V служит 0,333 или 33,3%, то есть если V меньше или равен 0,333 - вариация считает слабой, а если больше 0,333 - сильной. В случае сильной вариации изучаемая статистическая совокупность считается неоднородной, а средняя величина - нетипичной и ее нельзя использовать как обобщающий показатель этой совокупности.
В примере про
студента, в котором выше рассчитали среднее
квадратическое отклонение, найдем квадратический
коэффициент вариации V = 0,707/4 = 0,177, что
меньше критериального значения 0,333, значит
вариация слабая и равна 17,7%.
Исследуя природу, общество, экономику, необходимо считаться со взаимосвязью наблюдаемых процессов и явлений. При этом полнота описания так или иначе определяется количественными характеристиками причинно-следственных связей между ними. Оценка наиболее существенных из них, а также воздействия одних факторов на другие является одной из основных задач статистики.
Формы проявления взаимосвязей весьма разнообразны. В качестве двух самых общих их видов выделяют функциональную (полную) и корреляционную (неполную) связи. В первом случае величине факторного признака строго соответствует одно или несколько значений функции. Достаточно часто функциональная связь проявляется в физике, химии. В экономике примером может служить прямо пропорциональная зависимость между производительностью труда и увеличением производства продукции.
Корреляционная связь (которую также называют неполной, или статистической) проявляется в среднем, для массовых наблюдений, когда заданным значениям зависимой переменной соответствует некоторый ряд вероятных значений независимой переменной. Объяснение тому – сложность взаимосвязей между анализируемыми факторами, на взаимодействие которых влияют неучтенные случайные величины. Поэтому связь между признаками проявляется лишь в среднем, в массе случаев. При корреляционной связи каждому значению аргумента соответствуют случайно распределенные в некотором интервале значения функции.
Например, некоторое
увеличение аргумента повлечет за собой
лишь среднее увеличение или уменьшение
(в зависимости от направленности)
функции, тогда как конкретные значения
у отдельных единиц наблюдения будут
отличаться от среднего. Такие зависимости
встречаются повсеместно. Например,
в сельском хозяйстве это может
быть связь между урожайностью и
количеством внесенных
По направлению связи бывают прямыми, когда зависимая переменная растет с увеличением факторного признака, и обратными, при которых рост последнего сопровождается уменьшением функции. Такие связи также можно назвать соответственно положительными и отрицательными.
Относительно своей аналитической формы связи бывают линейными и нелинейными. В первом случае между признаками в среднем проявляются линейные соотношения. Нелинейная взаимосвязь выражается нелинейной функцией, а переменные связаны между собой в среднем нелинейно.
Существует еще одна достаточно важная характеристика связей с точки зрения взаимодействующих факторов. Если характеризуется связь двух признаков, то ее принято называть парной. Если изучаются более чем две переменные – множественной.
Указанные выше
классификационные признаки наиболее
часто встречаются в
По силе различаются слабые и сильные связи. Эта формальная характеристика выражается конкретными величинами и интерпретируется в соответствии с общепринятыми критериями силы связи для конкретных показателей.
В наиболее общем виде задача статистики в области изучения взаимосвязей состоит в количественной оценке их наличия и направления, а также характеристике силы и формы влияния одних факторов на другие. Для ее решения применяются две группы методов, одна из которых включает в себя методы корреляционного анализа, а другая – регрессионный анализ. В то же время ряд исследователей объединяет эти методы в корреляционно-регрессионный анализ, что имеет под собой некоторые основания: наличие целого ряда общих вычислительных процедур, взаимодополнения при интерпретации результатов и др.
Поэтому в
данном контексте можно говорить
о корреляционном анализе в широком
смысле – когда всесторонне
Задачи собственно корреляционного анализа сводятся к измерению тесноты связи между варьирующими признаками, определению неизвестных причинных связей и оценке факторов оказывающих наибольшее влияние на результативный признак.
Задачи регрессионного анализа лежат в сфере установления формы зависимости, определения функции регрессии, использования уравнения для оценки неизвестных значении зависимой переменной.
Решение названных задач опирается на соответствующие приемы, алгоритмы, показатели, применение которых дает основание говорить о статистическом изучении взаимосвязей.
Следует заметить,
что традиционные методы корреляции
и регрессии широко представлены
в разного рода статистических пакетах
программ для ЭВМ. Исследователю
остается только правильно подготовить
информацию, выбрать удовлетворяющий
требованиям анализа пакет
Методы оценки тесноты связи подразделяются на корреляционные (параметрические) и непараметрические. Параметрические методы основаны на использовании, как правило, оценок нормального распределения и применяются в случаях, когда изучаемая совокупность состоит из величин, которые подчиняются закону нормального распределения. На практике это положение чаще всего принимается априори. Собственно, эти методы – параметрические – и принято называть корреляционными.
Непараметрические методы не накладывают ограничений на закон распределения изучаемых величин. Их преимуществом является и простота вычислений.
8.2. Парная корреляция и парная линейная регрессия
Простейшим приемом выявления связи между двумя признаками является построение корреляционной таблицы:
|
В основу группировки положены два изучаемых во взаимосвязи признака – Х и У. Частоты fij показывают количество соответствующих сочетаний Х и У. Если fij расположены в таблице беспорядочно, можно говорить об отсутствии связи между переменными. В случае образования какого-либо характерного сочетания fij допустимо утверждать о связи между Х и У. При этом, если fij концентрируется около одной из двух диагоналей, имеет место прямая или обратная линейная связь.
Наглядным изображением корреляционной таблице служит корреляционное поле. Оно представляет собой график, где на оси абсцисс откладывают значения Х, по оси ординат – У, а точками показывается сочетание Х и У. По расположению точек, их концентрации в определенном направлении можно судить о наличии связи.
В итогах корреляционной таблицы по строкам и столбцам приводятся два распределения – одно по X, другое по У. Рассчитаем для каждого Хi среднее значение У, т.е. , как
Последовательность точек (Xi, ) дает график, который иллюстрирует зависимость среднего значения результативного признака У от факторного X, – эмпирическую линию регрессии, наглядно показывающую, как изменяется У по мере изменения X.
По существу,
и корреляционная таблица, и корреляционное
поле, и эмпирическая линия регрессии
предварительно уже характеризуют
взаимосвязь, когда выбраны факторный
и результативный признаки и требуется
сформулировать предположения о
форме и направленности связи. В
то же время количественная оценка
тесноты связи требует
Практически для количественной оценки тесноты связи широко используют линейный коэффициент корреляции. Иногда его называют просто коэффициентом корреляции. Если заданы значения переменных Х и У, то он вычисляется по формуле
Можно использовать и другие формулы, но результат должен быть одинаковым для всех вариантов расчета.
Коэффициент корреляции принимает значения в интервале от -1 до + 1. Принято считать, что если |r| < 0,30, то связь слабая; при |r| = (0,3÷0,7) – средняя; при |r| > 0,70 – сильная, или тесная. Когда |r| = 1 – связь функциональная. Если же r принимает значение около 0, то это дает основание говорить об отсутствии линейной связи между У и X. Однако в этом случае возможно нелинейное взаимодействие. что требует дополнительной проверки и других измерителей, рассматриваемых ниже.