Автор работы: Пользователь скрыл имя, 22 Мая 2012 в 18:44, курсовая работа
Целью данной курсовой работы является анализ исходных данных для прогнозирования.
Для достижения поставленной цели в работе необходимо решить
следующие задачи:
- Изучить теоретические основы методов прогнозирования для анализа
данных;
- Освоить методы прогнозирования на практике.
Средний темп роста является обобщающей характеристикой динамики и отражает интенсивность изменения уровней ряда. Он показывает, сколько в среднем процентов последующий уровень составляет от предыдущего на всем периоде наблюдения. Этот показатель рассчитывается по формуле средней геометрической из цепных темпов роста:
Выразив цепные темпы роста T2 ,T3 ,… Tn через соответствующие уровни ряда, получим:
= 105,07%
Задание 2. Проверить наличие тренда, гарантируя результат с вероятностью Р= 0,9 (tα = 1,89; Fкр = 5,34).. Отобразите на графике фактические данные.
Прогнозирование временных рядов целесообразно начинать с построения графика исследуемого экономического показателя. Часто уже по графику видно имеется ли общая тенденция временного ряда. В случае наличия сомнения в наличии тренда у временного ряда применим метод средних.
Проверка наличия тренда, используя метод средних
Метод средних, согласно которому изучаемый ряд динамики делится на два равных подряда, для каждого из которых определяется средняя величина и. И если они различаются существенно (более 10%), то признается наличие тренда.
= 71,025
= 130,96
Т.к. средние величины значительно различаются (31,7%) , то гипотеза о наличии тренда принимается.
Рисунок 2 - Тренд для Y1
Задание 3. Определите прогнозные значения данного показателя на сле-дующие 2 месяца с использованием модели Y= а0 + а1t. Табличное значение критерия Стьюдента: tтабл(α= 0,1; k= n-2 = 8) = 1,8596.
Для отражения
тенденции изменения
воспользуемся простейшей моделью вида:
Параметры кривой роста оцениваются по методу наименьших квадратов (МНК).
Для линейной модели:
tcp - среднее значение фактора времени;
Ycp – среднее значение исследуемого показателя
Таблица 2 - Оценка параметров уравнения прямой
t |
Факт |
(t-tcp) |
(t-tcp)2 |
Yt-Ycp |
(t-tcp) (Yt-Ycp) |
Расчет |
Отклонение |
Y(t) |
Yp(t) |
E (t) | |||||
1 |
51,8 |
-8 |
64 |
-50,95 |
407,6 |
48,24804 |
3,551961 |
2 |
59,2 |
-7 |
49 |
-43,55 |
304,85 |
55,06078 |
4,139216 |
3 |
62,3 |
-6 |
36 |
-40,45 |
242,7 |
61,87353 |
0,426471 |
4 |
67,6 |
-5 |
25 |
-35,15 |
175,75 |
68,68627 |
-1,08627 |
5 |
70,6 |
-4 |
16 |
-32,15 |
128,6 |
75,49902 |
-4,89902 |
6 |
76,8 |
-3 |
9 |
-25,95 |
77,85 |
82,31176 |
-5,51176 |
7 |
81,3 |
-2 |
4 |
-21,45 |
42,9 |
89,12451 |
-7,82451 |
8 |
98,6 |
-1 |
1 |
-4,15 |
4,15 |
95,93725 |
2,662745 |
9 |
109,5 |
0 |
0 |
6,75 |
0 |
102,75 |
6,75 |
10 |
114,5 |
1 |
1 |
11,75 |
11,75 |
109,5627 |
4,937255 |
11 |
116,8 |
2 |
4 |
14,05 |
28,1 |
116,3755 |
0,42451 |
12 |
120,8 |
3 |
9 |
18,05 |
54,15 |
123,1882 |
-2,38824 |
13 |
129,1 |
4 |
16 |
26,35 |
105,4 |
130,001 |
-0,90098 |
14 |
134,6 |
5 |
25 |
31,85 |
159,25 |
136,813 |
-2,21373 |
15 |
141,7 |
6 |
36 |
28,95 |
233,7 |
143,6265 |
-1,92647 |
16 |
149,5 |
7 |
49 |
46,75 |
327,25 |
150,4392 |
-0,93922 |
17 |
162,2 |
8 |
64 |
59,45 |
475,6 |
157,252 |
4,948039 |
Сумма |
1746,9 |
0 |
408 |
0,15 |
2779,6 |
1746,75 |
0,15 |
Yср = 102,75; tcp = 9
a1 = 6,81 a0 = 41,43
Таким образом линейная модель имеет вид:
Yp (t) = 41,43 + 6,81∙ t (t = 1, 2, …, 17).
Таблица 3 - Прогнозные оценки по линейной модели
Время t |
Шаг k |
Прогноз Yp(t) |
Нижняя граница |
Верхняя граница |
18 |
1 |
164,01 |
150,52 |
194,15 |
19 |
2 |
170,82 |
162,37 |
203,57 |
Отклонения расчетных значений от фактических наблюдений
вычисляются как E(t) = Y(t) – Yp(t), t = 1,2, …, 17
Задание 4. Оценить адекватность модели полученной ранее, описывающей временной ряд Y(t), на основе исследования:
• случайности остаточной компоненты по критерию пиков;
• независимости уровней ряда остатков по d-критерию (в качестве критических используйте уровни d1 = 0,697 и d2 = 1,641) или по первому коэффициенту корреляции, критический уровень которого r(1)= 0,36;
• нормальности распределения остаточной компоненты по RS-критерию с критическими уровнями 2,7—3,7.
Качество модели определяется ее адекватностью исследуемому
процессу, которая характеризуется выполнением определенных статистических свойств, и точностью, т.е. степенью близости к фактическим данным. Модель считается хорошей со статистической точки зрения, если она адекватна и достаточно точна.
Модель является адекватной, если ряд остатков обладает свойствами случайности, независимости последовательных уровней, нормальности распределения и равенства нулю средней ошибки.
Результаты исследования адекватности отражены в таблице 4:
Таблица 4 - Оценка адекватности модели
t |
Отклонение E(t) |
Точки поворота |
E (t)2 |
E (t) - E (t+1) |
[E(t)- E(t+1)]2 |
E (t) ∙ E (t+1) |
[E (t)] : Y(t)∙ 100 |
1 |
3,551961 |
- |
12,61643 |
-0,58725 |
0,34486832 |
14,70233 |
6,857067 |
2 |
4,139216 |
1 |
17,13311 |
3,712745 |
13,7844761 |
1,765254 |
6,991918 |
3 |
0,426471 |
0 |
0,181877 |
1,512745 |
2,28839773 |
-0,46326 |
0,684543 |
4 |
-1,08627 |
0 |
1,179992 |
3,812745 |
14,5370251 |
5,32168 |
-1,60691 |
5 |
-4,89902 |
0 |
24,00039 |
0,612745 |
0,37545655 |
27,00224 |
-6,93912 |
6 |
-5,51176 |
0 |
30,37955 |
2,312745 |
5,34878988 |
43,12686 |
-7,17678 |
7 |
-7,82451 |
1 |
61,22295 |
-10,4873 |
109,982515 |
-20,8347 |
-9,62424 |
8 |
2,662745 |
0 |
7,090211 |
-4,08725 |
16,7056526 |
17,97353 |
2,700553 |
9 |
6,75 |
1 |
45,5625 |
1,812745 |
3,28604479 |
33,32647 |
6,164384 |
10 |
4,937255 |
0 |
24,37649 |
4,512745 |
20,3648683 |
2,095913 |
4,312013 |
11 |
0,42451 |
0 |
0,180209 |
2,812745 |
7,91153498 |
-1,01383 |
0,36345 |
12 |
-2,38824 |
0 |
5,703668 |
-1,48725 |
2,21192714 |
2,151753 |
-1,97702 |
13 |
-0,90098 |
1 |
0,811766 |
1,312745 |
1,72329969 |
1,994523 |
-0,69789 |
14 |
-2,21373 |
1 |
4,900581 |
-0,28725 |
0,08251537 |
4,264677 |
-1,64467 |
15 |
-1,92647 |
0 |
3,711289 |
-0,98725 |
0,97467221 |
1,809371 |
-1,35954 |
16 |
-0,93922 |
0 |
0,882126 |
-5,88725 |
34,6597702 |
-4,64728 |
-0,62824 |
17 |
4,948039 |
- |
24,48309 |
- |
3,050579 | ||
Cумма |
0,15 |
5 |
264,4162 |
- |
1,94903498 |
128,576 |
-0,52991 |
Проверку случайности уровней ряда остатков проведем на основе критерия поворотных точек. В соответствии с ним каждый уровень ряда сравнивается с двумя рядом стоящими. Если он больше или меньше их, то эта точка считается поворотной. Далее подсчитывается сумма поворотных точек “р”. В случайном ряду чисел должно выполняться строгое неравенство:
При N=17 равенство выполняется, следовательно, свойство случайности также выполняется.
При проверке независимости (отсутствия автокорреляции) определяется отсутствие в ряду остатков систематической составляющей. Это проверяется с помощью d-критерия Дарбина - Уотсона, в соответствии с которым определяется коэффициент d:
Вычисленная величина этого критерия сравнивается с двумя табличными уровнями (нижним d1 и верхним d2).
Если 0 < d < d1 - то уровни остатков сильно автокоррелированы, а модель неадекватна;
d2 < d < 2 - то уровни ряда являются независимыми;
d > 2 - то это свидетельствует об отрицательной корреляции и перед
входом в таблицу необходимо выполнить преобразование: d’ = 4 - d;
d1 < d < d2 - то однозначного вывода сделать нельзя и необходимо применение других критериев, например, первого коэффициента автокорреляции r(1), который вычисляется по формуле:
Если r(1) > r (табл.) ( при N < 15r (табл) = 0,36), то присутствие в остаточном ряду существенной автокорреляции подтверждается.
В нашем примере d = 1,05
Для линейной модели при 20 наблюдениях можно взять в качестве критических табличных уровней величины d1 = 1,35 и d2 = 1,86.
Так как рассчитанная величина попала в зону между d1 , d2 , то
однозначного вывода сделать нельзя и необходимо применение других критериев.
Воспользуемся первым коэффициентом автокорреляции : r(1) = 1,06.
Следовательно,
по этому критерию также
подтверждается выполнение свойства
независимости уровней
Соответствие ряда остатков нормальному закону распределения
определим при помощи RS- критерия:
RS = (Emax - Emin) : S,
где Emax - максимальный уровень ряда остатков;
Emin - минимальный уровень ряда остатков;
S - среднее квадратическое отклонение.
Если значение этого критерия попадает между табулированными границами с заданным уровнем вероятности, то гипотеза о нормальном
распределении ряда остатков принимается. Для N = 17 и 5% - го уровня значимости этот интервал равен (2,7-3,7).
В нашем примере: Emax = 4,95 и Emin = -7,82
S =3,65 RS = 4,04
Расчетное значение не попадает в интервал. Следовательно, свойство нормальности распределения не выполняется, что не позволяет строить доверительный интервал прогноза.
Для характеристики точности воспользуемся среднеквадратическим
отклонением
и средней относительной
= 4,7%
Ее величина менее 5% свидетельствует об удовлетворительном уровне точности модели
Точечный прогноз на k шагов вперед получается путем подстановки в модель параметра t= N+1, ..., N+k. При прогнозировании на два шага имеем:
Yp(18) =41,43 + 6,81 ∙ 18 = 164,01 (k=1, t = 18)
Yp(19) =41,43 + 6,81∙ 19= 170,82 (k=2, t = 19)
Доверительный интервал прогноза будет иметь следующие границы:
Верхняя граница прогноза = Yp(N+k) + U(k)
Нижняя граница прогноза = Yp(N+k) - U(k)
Величина U(k) для линейной модели имеет вид:
U(k) = S Kp
Коэффициент Kp является табличным значением t-статистики Стьюдента. Если исследователь задает уровень вероятности попадания прогнозируемой величины внутрь доверительного интервала, равный 70%, то Kp = 1,05.
U(1) = 3,65 ∙ 1,05 = 2,4
U(1) = 3,65 ∙ 1,05 = 2,5
Если построенная модель адекватна, то с выбранной пользователем
вероятностью можно утверждать, что при сохранении сложившихся закономерностей развития прогнозируемая величина попадет в интервал,
образованный нижней и верхней границами. В нашем случае такое утверждение не совсем правомерно из-за неполной адекватности модели.
На рисунке 4 представлены результаты аппроксимации и прогнозирования по линейной модели.
Рисунок 3- Результаты аппроксимации
Задание 5. Выполните сглаживание временных рядов методом скользящей средней.
Выполним сглаживание временных рядов методом скользящей для того, чтобы сгладить как случайные, так и периодические колебания, выявить имеющуюся тенденцию в развитии процесса.
Алгоритм сглаживания по простой скользящей средней может быть представлен в виде следующей последовательности шагов.
Определим длину интервала сглаживания l, включающего в себя l последовательных уровней ряда (l < n). Так как колебания носят слабый характер, то за интервал сглаживания можно принять величину l=5 .
Наблюдения, которые берутся для расчета среднего значения, называются активным участком сглаживания.
Так как графическое изображение динамического ряда напоминает прямую, то применим метод простой скользящей средней.
Произведём расчёт скользящей средней с интервалом сглаживания l=5 по формуле:
Полученные значения приведены в таблице 5:
Таблица 5 – Расчёт скользящей средней с интервалом сглаживания l=5
Y |
|
29,2 |
|
35,9 |
|
42,9 |
48 |
56,1 |
61,22 |
75,9 |
73,66 |
95,3 |
89,76 |
98,1 |
104,76 |
123,4 |
117,48 |
131,1 |
126,5 |
139,5 |
137,48 |
140,4 |
145,34 |
153 |
152,76 |
162,7 |
159,88 |
168,2 |
169,56 |
175,1 |
178,84 |
188,8 |
|
199,4 |
В результате получаем график исследуемого показателя (Рисунок 9):
Рисунок 4 - Графическое изображение фактических и сглаженныхзначений (модель 2)
Задание 6. Провести качественный анализ взаимосвязей данных, определить вид связи графически по диаграмме рассеивания.
Таблица 6 – Исходные данные
Период |
Число собственных автомобилей Y |
Центральный федеральный округ X |
1990 |
51,8 |
29,2 |
1991 |
59,2 |
35,9 |
1992 |
62,3 |
42,9 |
1993 |
67,6 |
56,1 |
1994 |
70,6 |
75,9 |
1995 |
76,8 |
95,3 |
1996 |
81,3 |
98,1 |
1997 |
98,6 |
123,4 |
1998 |
109,5 |
131,1 |
1999 |
114,5 |
139,5 |
2000 |
116,8 |
140,4 |
2001 |
120,8 |
153 |
2002 |
129,1 |
162,7 |
2003 |
134,6 |
168,2 |
2004 |
141,7 |
175,1 |
2005 |
149,5 |
188,8 |
2006 |
162,2 |
199,4 |
Информация о работе Анализ и прогнозирование числа собственных легковых автомобилей по субъектам РФ