Корреляционно-регрессионный анализ сельскохозяйственных культур (на данных статистики Республики Казахстан)

Автор работы: Пользователь скрыл имя, 01 Марта 2013 в 18:10, контрольная работа

Описание

Корреляционный анализ является одним из методов статистического анализа взаимосвязи нескольких признаков. В нашей модели представлена парная корреляция, т.е. связь между двумя признаками (факторным и результативным).
Основными задачами корреляционного анализа являются оценка силы связи и проверка статистических гипотез о наличии и силе корреляционной связи. Не все факторы, влияющие на экономические процессы, являются случайными величинами, поэтому при анализе экономических явлений обычно рассматриваются связи между случайными и неслучайными величинами. Такие связи называются регрессионными, а метод математической статистики, их изучающий, называется регрессионным анализом.

Содержание

Постановка задачи
Формирование факторов и их содержательный анализ
Установление тесноты связи факторов модели регрессии
Выбор вида модели регрессии
Определение параметров модели регрессии
Проверка адекватности модели регрессии
Проверка значимости параметров модели регрессии
Прогнозирование значений зависимой переменной
Регрессионный анализ в Excel

Работа состоит из  1 файл

ПРОЕКТ.docx

— 118.88 Кб (Скачать документ)

Казахский Экономический  Университет им. Т. Рыскулова

Факультет Управления

Кафедра Прикладной математики

 

 

 

 

 

 

 

ПРОЕКТ

Корреляционно-регрессионный  анализ сельскохозяйственных  культур (на данных статистики Республики Казахстан)

 

(дисциплина: «Эконометрика»)

 

 

 

 

 

 

Выполнили: Омарова Арзигуль

Хегай Антонина

СКС-205

Научный руководитель: Мадиярова  К. З.

 

Алматы 2011

Задание

  1. Постановка задачи
  2. Формирование факторов и их содержательный анализ
  3. Установление тесноты связи факторов модели регрессии
  4. Выбор вида модели регрессии
  5. Определение параметров модели регрессии
  6. Проверка адекватности модели регрессии
  7. Проверка значимости параметров модели регрессии
  8. Прогнозирование значений зависимой переменной
  9. Регрессионный анализ в Excel

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Введение

 

Сельскохозяйственные культуры – это культурные растения, возделываемые  с целью получения продуктов  питания, технического сырья и корма  для скота.

На продуктивность сельскохозяйственных культур влияет множество факторов:

-  естественные (природные) условия (температура воздуха, солнечная радиация), влиять на которые человек не может, но которые учитываются при выборе сроков сева, густоты стояния растений, направления рядков и т.д.

- факторы, зависящие от  производственной деятельности  человека: наличие влаги в почве;  обеспеченность растений элементами  питания; качество семян и т.д.

В нашей работе в качестве факторного признака, влияющего на урожайность сельскохозяйственных культур Республики Казахстан, была взята посевная площадь. Статистические данные взяты за последние 20 лет (1990 – 2010гг.). На основе этих данных, мы провели корреляционно-регрессионный анализ.

Корреляционный анализ является одним из методов статистического  анализа взаимосвязи нескольких признаков. В нашей модели представлена парная корреляция, т.е. связь между двумя признаками (факторным и результативным).

Основными задачами корреляционного  анализа являются оценка силы связи и проверка статистических гипотез о наличии и силе корреляционной связи. Не все факторы, влияющие на экономические процессы, являются случайными величинами, поэтому при анализе экономических явлений обычно рассматриваются связи между случайными и неслучайными величинами. Такие связи называются регрессионными, а метод математической статистики, их изучающий, называется регрессионным анализом.

 

  1. Постановка задачи

 

Целью нашего исследования является анализ статистических данных за последние 20 лет и прогнозирование данных урожайности сельскохозяйственных культур в РК на ближайшие годы. Задача состоит в проведении корреляционно-регрессионного анализа, на основе которого можно будет определить тесноту связи между факторами, а также выявить является ли модель адекватной.

 

  1. Формирование факторов и их содержательный анализ

 

После тщательного отбора данных, мы остановились на следующих переменных: урожайность и посевная площадь. От размеров посевной площади зависит многое. К примеру, если площадь вашего огорода будет маленькой, то соответственно и количество собранных вами овощей будет небольшим. Отсюда следует, что урожайность зависит от посевной площади. Факторный признак, или независимая переменная X, есть посевная площадь. Урожайность является зависимой переменной, то есть выступает в качестве результативного признака.

Рисунок 1. Исходные данные модели

 

Посевная площадь, тыс.га

Урожайность, ц 

                                                                           

 

Xi

Yi

1990

70,8

154,0

1991

75,1

121,0

1992

83,3

114,0

1993

74,0

106,0

1994

73,4

104,0

1995

76,1

101,0

1996

79,8

96,0

1997

87,1

101,0

1998

96,5

114,0

1999

96,1

134,0


 

2000

102,6

153,0

2001

107,7

166,0

2002

108,7

172,0

2003

110,2

177,0

2004

111,3

186,0

2005

110,8

196,0

2006

103,0

201,0

2007

104,2

211,0

2008

112,9

204,0

2009

110,6

218,7

2010

    120,3

214,4


 

  1. Установление тесноты связи факторов

 

Теснота связи определяется коэффициентом корреляции.

Коэффициент корреляции - это показатель того, насколько близко точки графика разброса лежат относительно прямой линии.

Корреляция – это статистическая зависимость между случайными величинами, не имеющими строго функционального  характера, при которой изменение одной из случайных величин приводит к изменению математического ожидания другой.

Корреляция и регрессия  тесно связаны между собой: первая оценивает силу (тесноту) статистической связи, вторая исследует ее форму. И корреляция, и регрессия служат для установления соотношений между явлениями и для определения наличия или отсутствия связи между ними.

Формула коэффициента корреляции:

, где

r – коэффициент корреляции;

Хi – значение фактора;

Хср – среднее значение фактора Хi;

Уi – значение результата;

Уср – среднее значение результата производства.

Значение коэффициента парной корреляции может изменяться от -1 до +1. Знак показывает на характер связи: + на прямую зависимость, – на обратную. При значениях коэффициента корреляции, близкого к 0, говорит о слабой связи  между фактором и его результатом  или означает что между ними нелинейная связь. Чем ближе значение коэффициента корреляции к 1, тем связь теснее. При значении, равном ±1, связь функциональная.

Подставив значения нашей модели, рассчитанные в EXCEL, в формулу коэффициента корреляции, мы выяснили, что связь нашей модели прямая, положительная и тесная.

 

Коэффициент детерминации представляет собой альтернативный показатель степени  зависимости между двумя переменными. Данное значение вычисляется путем  ввода в квадрат коэффициента корреляции, то есть . Коэффициент детерминации часто более предпочтителен, чем коэффициент корреляции, так как его можно использовать для количественного определения характеристики, связывающей две переменные. Это значение дает пропорцию общего изменения одной переменной у, которую можно объяснить изменением второй переменной х. Эта величина выражена в процентах.

=0.83313²=0.694106    →     69%  - доля вариации, 31% - приходится на неучтенные факторы.

 

  1. Определение вида модели регрессии

 

Определение вида модели регрессии осуществляется одним из трех способов: графическим, аналитическим, экспериментальным.

При изучении  зависимости  между признаками графический метод  подбора вида уравнения регрессии  достаточно нагляден. Он основан на поле корреляции. При небольшой численности наблюдений по одному признаку можно использовать графики. Графики занимают особое место в корреляционном анализе, как один из приемов установления формы связи.

При построении графиков на оси абсцисс располагаются данные независимой переменной, а на оси  ординат – зависимой переменной. По расположению точки можно определить форму связи факторов.

В нашем случае линейная функция выглядит таким образом:

Рисунок 2. График парной регрессии модели

Она представлена в виде линейной функции у=а+bх, где:

у – зависимая переменная;

х – независимая переменная;

а, в – параметры уравнения.

Коэффициент в называется коэффициентом пропорциональности, или коэффициентом регрессии. Он показывает, как изменится в среднем у при изменении х на единицу.

На графике видно, что  урожайность сельскохозяйственных культур имеет тенденцию роста.

 

 

  1. Определение параметров модели регрессии

На этом этапе определяются числовые назначения параметров (а, в) регрессии. Для этого используется метод наименьших квадратов.

{

Подставив в эту формулу  значения нашей таблицы, получаем следующую  систему уравнений:

{

С помощью операций в Excel, вычисляем обратную матрицу, и находим значения параметров а и b è a=-62,3795377; b=2,260645466.

Вычисление обратной матрицы  в Excel:

  1. Вводим значения Матрицы А и Матрицы В:

Матрица А

 

Матрица В

21

2014,5

 

3244,1

2014,5

198415,8

 

322884,2


 

  1. Выделяем 4 пустые ячейки для обратной матрицы è fx è МОБР è Выделить Матрицу А è Shift+Ctrl+Enter è Закрыть

Обратная матрица

1,828353908

-0,018563133

-0,018563133

0,00019351


 

  1. Выделить 2 пустые ячейки для параметров а и b è fx è МУМНОЖ è выделить обратную матрицу (Массив 1) è Выделить Матрицу В (Массив 2) è Shift+Ctrl+Enter è Закрыть

Значения 

-62,3795377

2,260645466


 

Отсюда a=-62,3795377; b=2,260645466 è y=-62,379+2,2606x

 

  1. Проверка  адекватности модели регрессии

 

Проверка состоит в  оценке трех параметров:

  1. Проверка качества подбора теоретического уравнения проводится с использованием средней ошибки аппроксимации. Средняя ошибка аппроксимации регрессии определяется по формуле:

Аср= (∑Аi)/n

Ошибка аппроксимации  в пределах 6-8% свидетельствует о  хорошем подборе модели к исходным данным.

Аср=2,69481/21=0,1284 *100%=12,84      → превышает пределы

  1. Проверка качества уравнения регрессии – состоит в проверке гипотезы Н˚ о статистической значимости уравнения регрессии и показателя тесноты связи. Для этого выполняется сравнение фактического Fфак и критического Fтабл значений F –критерия Фишера. Fфак определяется из соотношения:

Значение F вычисляемое по формуле сравнивают с критическим значением. Если Fф>Fкр, то нулевая гипотеза о случайной природе зависимости отклоняется и признается их статистическая значимость и надежность модели регрессии.

 Fтабл=4,32 < Fфакт=43,114 – модель надежна

3)Для оценки адекватности  модели регрессии рассчитывается t-критерий Стьюдента:

t=

Значение t вычисляемое по формуле сравнивают с критическим значением. Если tф>tкр, то нулевая гипотеза о случайной природе зависимости отклоняется и признается их статистическая значимость и надежность модели регрессии.

tтабл=2.0796 < tфакт=6,57

Уравнение регрессии является адекватным, т.е. полученное уравнение достоверно описывает количественную зависимость факторов у и х.

Если модель удовлетворяет  всем требованиям качества, то она  может быть использована для прогнозирования  или анализа механизмов исследуемых  процессов. Такая модель позволяет  с высокой долей надежности предсказать  среднее значение исследуемого экономического показателя на основе прогнозируемых или фиксируемых значений факторов, предвидеть вероятности отклонения конкретных значений изучаемой величины от предсказуемого по модели. Модель поможет  определить, на какие факторы, в каком  направлении и объеме следует  воздействовать, чтобы значение исследуемого показателя лежало в определенных числовых границах.

 

  1. Проверка значимости параметров модели регрессии

 

В линейной регрессии обычно оценивается значимость не только уравнения  в целом, но и отдельных его  параметров. Для этого по каждому  параметру определяется стандартная  ошибка ma и mb:

        

Подставляя данные из нашей  таблицы, получаем:

Информация о работе Корреляционно-регрессионный анализ сельскохозяйственных культур (на данных статистики Республики Казахстан)