Курсовая работа: Анализ экономических данных в странах третьего мира

Задание для выполнения практической работы по дисциплине эконометрика

корреляция регрессия гетероскедастичность

Работа включает в себя анализ реальных экономических данных при помощи изученных эконометрических моделей.

Работа должны быть выполнена в соответствии со следующими этапами:

1) Рассчитайте корреляцию между, экономическими показателями (не менее 5) из статистических данных по выборке не менее 30 наблюдений (из Интернета, печатных источников или Вашего предприятия). Интерпретируйте полученные данные.

2) Постройте линейную и не линейную (на свой выбор) множественную регрессию. Определите теоретическое уравнение множественной регрессии. Оцените адекватность построенной модели. Определите значимость переменных, найдите среднюю ошибку аппроксимации (вручную в экселе), коэффициент детерминации, линейные коэффициенты корреляции между всеми членами регрессии, найти критерий Фишера, Т-статистику и т. д.

3) Проверьте модели на отсутствие автокорреляции.

4) Проверка на гетероскедастичность моделей.

5) Сравните модели между собой выберете лучшую

Работа выполняется на листах формата А4, с титульным листом и обязательными выводами по работе. Решение: Сбор данных из интернет – источников получены данные средней продолжительности жизни, ВВП в паритетах покупательной способности, темпы прироста населения по сравнению с предыдущим годом, %; темпы прироста рабочей силы по сравнению с предыдущим годом, %; коэффициент младенческой смертности. Изучим зависимость продолжительности жизни от нескольких факторов по данным за 2005 г., представленным в табл.1.

Таблица 1. Обзор социальных показателей стран третьего мира.

Страна	У	Х1	Х2	Х3	Х4
Мозамбик	47	3,0	2,6	2,4	113
Бурунди	49	2,3	2,6	2,7	98
Чад	48	2,6	2,5	2,5	117
Непал	55	4,3	2,5	2,4	91
Буркина-Фасо	49	2,9	2,8	2,1	99
Мадагаскар	52	2,4	3,1	3,1	89
Бангладеш	58	5,1	2,0	2,1	79
Гаити	57	3,4	2,0	1,7	72
Мали	50	2,0	2,9	2,7	123
Нигерия	53	4,5	2,9	2,8	80
Кения	58	5,1	2,7	2,7	58
Того	56	4,2	3,0	2,8	88
Индия	62	5,2	1,8	2,0	68
Бенин	50	6,5	2,9	2,5	95
Пакистан	68	7,4	3,1	4,0	46
Мавритания	59	7,4	2,8	2,7	73
Зимбабве	47	4,9	3,1	2,8	124
Гондурас	60	8,3	2,9	3,3	90
Китай	51	5,7	2,5	2,7	96
Камерун	57	7,5	2,4	2,2	55
Конго	67	7,0	3,0	3,8	45
Шри-Ланка	69	10,8	1,1	1,1	34
Египет	57	7,8	2,9	3,1	56
Индонезия	51	7,6	2,9	2,6	90
Филиппины	72	12,1	1,3	2,0	16
Марокко	63	14,2	2,0	2,7	56
Папуа - Новая	64	14,1	1,6	2,5	51
Гвинея	66	10,6	2,2	2,7	39
Гватемала	65	12,4	2,0	2,6	55
Эквадор	57	9,0	2,3	2,3	64
Доминиканская Республика	66	12,4	2,9	3,5	44
Ямайка	69	15,6	2,2	3,2	36

Принятые в таблице обозначения:

у — средняя продолжительность жизни, лет;

х1 - ВВП в паритетах покупательной способности, млрд. долл.;

х2 - темпы прироста населения по сравнению с предыдущим годом, %;

х3 - темпы прироста рабочей силы по сравнению с предыдущим годом;

х4 - коэффициент младенческой смертности, %с.

1. Корреляционный анализ

Корреляционный анализ проводился с использованием компьютерной программы EXCEL с помощью пакета анализа данных

Таблица 2. Корреляционная зависимость продолжительности жизни от различных факторов.

У	Х1	Х2	Х3	Х4
У	1
Х1	0,7782	1
Х2	-0,524	-0,49	1
Х3	0,1123	0,096	0,6963	1
Х4	-0,928	-0,763	0,523	-0,032	1

На основании полученных данных можно сделать вывод, что наибольшее влияние на продолжительность жизни оказывает фактор Х1- ВВП в паритетах покупательной способности, у остальных факторов наблюдается слабый корреляционный отклик.

3. Для выбора наилучшей регрессионной функции необходимо ее проанализировать по набору критериев: коэффициенты попарной корреляции, коэффициенты множественной корреляции, критерий Фишера, статистики Стьюдента.

Строим регрессионную функцию по всем регрессорам, использую при этом пакет анализа данных MS Excel «Регрессия»

Таблица 3. Регрессионная статистика

Множественный R	0,9546
R-квадрат	0,9112
Нормированный R-квадрат	0,8981
Стандартная ошибка	2,3541
Наблюдения	32

Пояснения к таблице 2. Регрисеонная статистика содержит строки, характеризующие построенное уравнение регрессии:

Для парной регрессии Множественный R равен коэффициенту корреляции (r_xу ). Множественный коэффициент корреляции R определяется как коэффициент корреляции между наблюдаемыми значениями Y_i и расчетными, прогнозируемыми значениями. По его значению 0,9546 можно сказать, что между X и Y существует сильная линейная зависимость.

Строка R–квадрат равна коэффициенту корреляции в квадрате, он близок к 1, это означает что данная модель хорошо описывает данные

Нормированный R–квадрат рассчитывается с учетом степеней свободы числителя (n-2) и знаменателя (n-1) по формуле:

Стандартная ошибка (S) регрессии вычисляется по формуле 1.4.

Последняя строка содержит количество выборочных данных (n). Значимость уравнения в целом оценивается с помощью F-критерия Фишера

Если найденное значение F больше табличного для уровня значимости α и степеней свободы (n-m-1) и m, то с вероятность 1 - α делаем заключение о статистической значимости уравнения в целом.

Таблица 4 Дисперсионный анализ

df	SS	MS	F	Значимость F
Регрессия	4	1535,9	383,97	69,285	8,42972E-14
Остаток	27	149,63	5,5418
Итого	31	1685,5

Пояснения к таблице дисперсионного анализа: число регрессоров m = 4 число n-m-1 = 27, где n – число наблюдений

Для уровня значимости α = 0,05 и при степенях свободы 4, 27 табличное значение критерия Фишера Fтаб = 2,71.

Значение F =69,285 существенно превышает табличное, что говорит о статистической значимости уравнения в целом.

Таблица 5 Коэффициенты регрессии

Коэффициенты	Стандартная ошибка	t-статистика	P-Значение	Нижние 95%	Верхние 95%
Y-пересечение	72,846	3,4746	20,965	3E-18	65,717	79,976
Х1	0,0031	0,1929	0,0163	0,9871	-0,3925	0,3989
Х2	-6,173	1,9298	-3,199	0,0035	-10,132	-2,213
Х3	5,1218	1,5086	3,395	0,0021	2,02631	8,2173
Х4	-0,18	0,0258	-6,98	2E-07	-0,2326	-0,127

В столбце «Коэффициенты» получены коэффициенты уравнения регрессии.

Коэффициент b0 = 72,846 в Таблице анализа – это Y -пересечение. Таким образом, получили уравнение регрессии:

У=72,846+0,0031Х1-6,173Х2+5,122Х3-0,18Х4

Коэффициент b1 =0,0013 показывает, что при увеличении ВВП на 1 млр. дол. Средняя продолжительность жизни увеличивается в среднем на 0,0031 лет, увеличение темпов прироста населения на 1%,. приводит в среднем уменьшению продолжительности жизни на 6,173 лет, увеличение темпов прироста рабочей силы на 1% приводит к увеличению продолжительности жизни на 5,122 лет, а увеличение коэффициента младенческой смертности, на 1% ведет к уменьшению средней продолжительности жизни на 0,18 лет.

Стандартные ошибки m_i , t-статистики t_i могут быть вычислены по формулам

Где σ_Y - среднее квадратическое отклонение для отклика Y, σ_Xi - среднее квадратическое отклонение для регрессора Xi (X1, X2, …)R² - коэффициент детерминации для уравнения множественной регрессии, - коэффициент детерминации для зависимости отклика Y от всех регрессоров кроме Xi,- коэффициент детерминации для зависимости Xi от всех регрессоров кроме Xi.

Табличные t–критерии Стьюдента зависят от принятого уровня значимости и от числа степеней свободы (n-m-1). Если вычисленные значения t–критерия превышают табличные, то говорят, что соответствующий коэффициент регрессии является статистически значимым и на него можно опираться в анализе и прогнозе.

Более того, используя табличное значение t-критерия и стандартную ошибку m_i коэффициента регрессии b_i можно с вероятностью 1 - α сделать вывод о том, что истинное значение коэффициента регрессии попадет в интервал (b_i – t_таб *m_i , b_i + t_таб *m_i ).

Они составляют:

m_(X1) =0.192, m_(X2) =1,9289, m_(X3) =1,5086, m_(X4) =0.0258, m_(y) =3.4746

t_(X1) =0.0163, t_(X2) =-3.199, t_(X3) =3.395, t_(X4) =-6.98, t_(y) =20.965

Табличное значение t–критерия Стьюдента при уровне значимости α = 0,05 и числе степеней свободы 27 t_таб =2,051. Коэффициенты t- статистики при регрессорах Х1 , Х2 и Х4 меньше t таб., и согласно t–критерию не являются статистически значимыми.

По величине Р -значения возможно определять значимость коэффициентов, не находя критическое значение t -статистики. Если значение t -статистики велико, то соответствующее значение вероятности значимости мало – меньше 0,05, и можно считать, что коэффициент регрессии значим. И наоборот, если значение t -статистики мало, соответственно вероятность значимости больше 0,05 – коэффициент считается незначимым.

Для коэффициентов b₀ , b₂ , b₃ , b₄ значения вероятности близко к нулю, следовательно, b₁ можно считать значимым, b1- близко к единице, коэффициент не значим.

Далее представлены доверительные интервалы (нижняя и верхняя границы) для рассчитанных коэффициентов.

Таблица 6 Расчет относительной ошибки аппроксимации

Страна	У	у ожидаемое	остатки E	остатки/у
Мозамбик	47	48,735	-1,73	0,0369
Бурунди	49	52,969	-3,97	0,081
Чад	48	49,143	-1,14	0,0238
Непал	55	53,316	1,68	0,0306
Буркина-Фасо	49	48,485	0,52	0,0105
Мадагаскар	52	53,552	-1,55	0,0299
Бангладеш	58	57,027	0,97	0,0168
Гаити	57	56,234	0,77	0,0134
Мали	50	46,617	3,38	0,0677
Нигерия	53	54,877	-1,88	0,0354
Кения	58	59,56	-1,56	0,0269
Того	56	52,819	3,18	0,0568
Индия	62	59,73	2,27	0,0366
Бенин	50	50,647	-0,65	0,0129
Пакистан	68	65,915	2,08	0,0307
Мавритания	59	56,25	2,75	0,0466
Зимбабве	47	45,724	1,28	0,0272
Гондурас	60	55,648	4,35	0,0725
Китай	51	53,956	-2,96	0,058
Камерун	57	59,399	-2,40	0,0421
Конго	67	65,687	1,31	0,0196
Шри-Ланка	69	65,577	3,42	0,0496
Египет	57	60,742	-3,74	0,0657
Индонезия	51	52,062	-1,06	0,0208
Филиппины	72	72,195	-0,20	0,0027
Марокко	63	64,082	-1,08	0,0172
Папуа - Новая	64	66,61	-2,61	0,0408
Гвинея	66	66,082	-0,08	0,0012
Гватемала	65	63,929	1,07	0,0165
Эквадор	57	58,912	-1,91	0,0335
Доминиканская Республика	66	64,964	1,04	0,0157
Ямайка	69	69,197	-0,20	0,0029
сумма				1,0424
средняя ошибка аппроксимации				3,2574

Средняя ошибка аппроксимации показывает среднее отклонение расчетных значений от фактических и рассчитывается по формуле:

Средняя ошибка аппроксимации составляет 3,2574 %. Это значит, что качество тренда, исходя из относительных отклонений по каждому наблюдения, признается хорошим, так в норме средняя ошибка аппроксимации колеблется в пределах до 10%

3) Проверка модели на отсутствие автокорреляции

Автокорреляция (последовательная корреляция) определяется как корреляция между наблюдаемыми показателями

При проверке независимости значений ei определяется отсутствие в остаточном ряду автокорреляции, под которой понимается корреляция между элементами одного и того же числового ряда. В нашем случае автокорреляция - это корреляция ряда e1, e2, e3 ... с рядом eL+1, eL+2, eL+3 Число L характеризует запаздывание (лаг). Корреляция между соседними членами ряда (т.е. когда L = 1) называется автокорреляцией первого порядка. Далее для остаточного ряда будем рассматривать зависимость между соседними элементами e_i .

Наличие автокорреляции может быть выявлено при помощи d-критерия Дарбина-Уотсона. Значение критерия вычисляется по формуле:

Таблица 7. Расчет критерия d - Дарбина-Уотсона

Страна	остатки E	(E_i –E_i-1 )²	E_i ²
Мозамбик	-1,73	3,01	3,01
Бурунди	-3,97	4,9903	15,75
Чад	-1,14	7,9868	1,31
Непал	1,68	7,9914	2,84
Буркина-Фасо	0,52	1,3661	0,27
Мадагаскар	-1,55	4,2746	2,41
Бангладеш	0,97	6,3751	0,95
Гаити	0,77	0,0428	0,59
Мали	3,38	6,8497	11,44
Нигерия	-1,88	27,662	3,52
Кения	-1,56	0,1	2,43
Того	3,18	22,484	10,12
Индия	2,27	0,8299	5,15
Бенин	-0,65	8,5083	0,42
Пакистан	2,08	7,46	4,35
Мавритания	2,75	0,4422	7,56
Зимбабве	1,28	2,1712	1,63
Гондурас	4,35	9,4605	18,94
Китай	-2,96	53,41	8,74
Камерун	-2,40	0,3109	5,75
Конго	1,31	13,775	1,72
Шри-Ланка	3,42	4,4504	11,71
Египет	-3,74	51,337	14,01
Индонезия	-1,06	7,1856	1,13
Филиппины	-0,20	0,7508	0,04
Марокко	-1,08	0,7854	1,17
Папуа - Новая	-2,61	2,3372	6,81
Гвинея	-0,08	6,3933	0,01
Гватемала	1,07	1,3285	1,15
Эквадор	-1,91	8,8971	3,66
Доминиканская Республика	1,04	8,6895	1,07
Ямайка	-0,20	1,5193	0,04
сумма	283,18	149,69
критерий d	1,8918

В таблице значений критерия Дарбина-Уотсона для уровня значимости 5% при m=4и n=32 критические значения d1=1.14, d2=1,74,

В нашем расчете значение d-критерия попадает в интервал от d2 до 2, автокорреляция отсутствует.

4) Проверка на гетероскедастичность моделей с использованием теста Бреуша-Пагана

Для этого проверки на гетероскедастичность воспользуемся таблицами 6 и 7

Затем строим регрессию, в которой за зависимую переменную берется столбец квадратов остатков еi2, а за зависимые переменные – переменные Х1, Х2, Х3, Х4,

Результат представлен в таблицах 8,9,10

Таблица 8. Регрессионная статистика

Множественный R	0,222046
R-квадрат	0,049305
Нормированный R-квадрат	-0,09154
Стандартная ошибка	5,309145
Наблюдения	32

Таблица 9. Дисперсионный анализ
df	SS	MS	F	Значимость F
Регрессия	4	39,4692	9,867301	0,35006	0,841652584
Остаток	27	761,0497	28,18702
Итого	31	800,5189

Таблица 10. Коэффициенты регресси

Коэффиц иенты	Стандартная ошибка	t-статистика	P-Значение	Нижние 95%	Верхние 95%
Y-пересечение	3,561922	7,836107	0,454552	0,65306	-12,516	19,6402
Х1	-0,21277	0,434968	-0,48916	0,62868	-1,1052	0,67971
Х2	-2,64445	4,352113	-0,60762	0,54851	-11,574	6,28535
Х3	2,473815	3,402388	0,727082	0,47343	-4,5073	9,45493
Х4	0,036775	0,058082	0,633148	0,53196	-0,0824	0,15595

Найдена статистика:

Х² _наб = nR² =32*0.049305=1,578

Так как

Х2набл =1,578< Х2крит =9,48,

То гипотеза о гетероскедастичности отвергается и модель считается гомоскедастичной.

Критическое значение распределения Хи-квадрат найдено с помощью действий: fx →Статистические→ХИ2ОБР(m ), где m – число переменных, входящих в уравнение регрессии (в данном случае 6).

5) Сравните модели между собой выберете лучшую.

Как уже отмечалось ранее по величине Р -значения возможно определять значимость коэффициентов, не находя критическое значение t -статистики. Если значение t -статистики велико, то соответствующее значение вероятности значимости мало – меньше 0,05, и можно считать, что коэффициент регрессии значим. И наоборот, если значение t -статистики мало, соответственно вероятность значимости больше 0,05 – коэффициент считается незначимым.

Для коэффициентов b₀ , b₂ , b₃ , b₄ полученных при регрессионном анализе в п.4 значения вероятности близко к 1, следовательно, данные коэффициенты не значимы.

Таким образом, модель выраженная уравнением

У=72,846+0,0031Х1-6,173Х2+5,122Х3-0,18Х4

Выводы

Проанализировав данные зависимости средней продолжительности жизни в странах третьего мира ВВП, темпы прироста населения, темпы прироста рабочей силы и коэффициент младенческой смертности можно сделать ряд выводов:

1. В результате проведенного корреляционного анализа наибольшее

влияние на среднюю продолжительность жизни оказывает ВВП, у остальных факторов наблюдается слабый корреляционный отклик.

2. В ходе регрессионного анализа было получено уравнение зависимости:

У=72,846+0,0031Х1-6,173Х2+5,122Х3-0,18Х4

При этом коэффициент b1=0,0013 показывает, что при увеличении ВВП на 1 млрд. дол. средняя продолжительность жизни увеличивается в среднем на 0,0031 лет, увеличение темпов прироста населения на 1%,. приводит в среднем уменьшению продолжительности жизни на 6,173 лет, увеличение темпов прироста рабочей силы на 1% приводит к увеличению продолжительности жизни на 5,122 лет, а увеличение коэффициента младенческой смертности, на 1% ведет к уменьшению средней продолжительности жизни на 0,18 лет.

3. По значению коэффициента множественной корреляции регрессии равным 0,9546 можно сказать, что между факторными и результативными признаками существует сильная линейная зависимость.

4. Значение F =69,285 существенно превышает табличное, что говорит о статистической значимости уравнения в целом.

5. Табличное значение t–критерия Стьюдента при уровне значимости α = 0,05 и числе степеней свободы 27 t_таб =2,051. Коэффициенты t- статистики при регрессорах Х1 , Х2 и Х4 меньше t таб., и согласно t–критерию не являются статистически значимыми.

6. Средняя ошибка аппроксимации составляет 3,2574 %. Это значит, что качество тренда, исходя из относительных отклонений по каждому наблюдения, признается хорошим, так в норме средняя ошибка аппроксимации колеблется в пределах до 10%

7. В таблице значений критерия Дарбина-Уотсона для уровня значимости 5% при m=4и n=32 критические значения d1=1.14, d2=1,74, В нашем расчете значение d-критерия = 1,89 попадает в интервал от d2 до 2, значит автокорреляция отсутствует.

8. Проверка на гетероскедастичность моделей проводилась с использованием теста Бреуша-Пагана. Тест показал гетероскедастичность отсутствует и модель считается гомоскедастичной.

Список используемой литературы

1. Эконометрика: Учебник / Под ред. И.И. Елисеевой. – М.: Финансы и статистика, 2006. – 576 с.

2. Практикум по эконометрике: Учеб. пособие / Под ред. И.И. Елисеевой. – М.: Финансы и статистика, 2006. – 344 с.

3. Эконометрика: Учебно-методическое пособие / Шалабанов А.К., Роганов Д.А. – Казань: Издательский центр Академии управления «ТИСБИ», 2008. – 198 с.

4. Практикум по эконометрике с применение MS Excel / Шалабанов А.К., Роганов Д.А. – Казань: Издательский центр Академии управления «ТИСБИ», 2008 – 53 с.

5. Прикладная статистика. Основы эконометрики: Учебник для вузов: В 2-х т. – Т. 1. Айвазян С.А., Мхитарян В.С. Теория вероятностей и прикладная статистика. – М.: ЮНИТИ-ДАНА, 2001. – 656 с.

6. Прикладная статистика. Основы эконометрики: Учебник для вузов: В 2-х т. – Т. 2. Айвазян С.А. Основы эконометрики. – М.: ЮНИТИ-ДАНА, 2001. – 432 с.

7. Эконометрика: Учебник / Тихомиров Н.П., Дорохина Е.Ю. – М.: Издательство «Экзамен», 2003. – 512 с

8. Берндт Э. Р. Практика эконометрики: классика и современность: Учебник для студентов вузов. – М.: ЮНИТИ-ДАНА, 2005. – 863 с.

9. Эконометрика: учебное пособие / А.В. Гладилин, А.Н. Герасимов, Е.И. Громов. – М.: КНОРУС, 2008. – 232 с.

10. Введение в эконометрику: учебное пособие / Л.П. Яновский, А.Г. Буховец. – М.: КНОРУС, 2009. – 256 с.

11. Луговская Л.В. Эконометрика в вопросах и ответах: учебное пособие. – М.: ТК Велби, Изд-во Проспект, 2006. – 208 с.