Скачать .docx  

Реферат: Построение регрессионной модели

Задание

Таблица 1

Пенсия, тыс. руб., у 131 110 170 141 150 160 200 230 240 260 270 300
Прожиточный минимум тыс. руб., х 100 90 150 31 60 39 40 70 80 150 120 130

Построить линейное регрессионное уравнение.

1. Построить поле корреляции и линию регрессии на одном графике.

Вычислить:

2. коэффициент детерминации;

3. среднюю ошибку аппроксимации;

4. t-статистики;

5. доверительные интервалы.

6. Сделать выводы

Построить показательную зависимость и повторить пункты 1–6.

Сравнить построенные модели.

Решение:

Построим поле корреляции:

Рис. 1. Поле корреляции пенсии от прожиточного минимума


По полю корреляции слабо прослеживается зависимость пенсии от прожиточного минимума.

Рассчитаем параметры уравнения линейной парной регрессии.

Для расчета параметров a и b уравнения линейной регрессии у = а + bx решим систему нормальных уравнений относительно а и b:

По исходным данным рассчитываем Sх, Sу, Sух, Sх2 , Sу2 .

Таблица 2

№ п/п y x yx x2 y2 у – (у –)2
1 131 100 13100 10000 17161 204,61 -73,61 5418,432 0,562
2 110 90 9900 8100 12100 197,94 -87,94 7733,444 0,799
3 170 150 25500 22500 28900 237,96 -67,96 4618,562 0,400
4 141 31 4371 961 19881 158,587 -17,587 309,303 0,125
5 150 60 9000 3600 22500 177,93 -27,93 780,085 0,186
6 160 39 6240 1521 25600 163,923 -3,923 15,390 0,025
7 200 40 8000 1600 40000 164,59 35,41 1253,868 0,177
8 230 70 16100 4900 52900 184,6 45,4 2061,160 0,197
9 240 80 19200 6400 57600 191,27 48,73 2374,613 0,203
10 260 150 39000 22500 67600 237,96 22,04 485,762 0,085
11 270 120 32400 14400 72900 217,95 52,05 2709,203 0,193
12 300 130 39000 16900 90000 224,62 75,38 5682,144 0,251
Итого 2362 1060 221811 113382 507142 2361,94 0,1 33441,964 3,203
Среднее 196,83 88,33 18484,25 9448,5 42261,83
Обозначение среднего

Найдем дисперсию переменных:


= 9448,5 – 88,332 = 1646,31 (тыс. руб.)2

= 42261,83 – 196,832 = 3519,78 (тыс. руб.)2

Найдем параметры a и b уравнения линейной регрессии:

0,667

196,83 – 0,667 · 88,33 = 137,91 тыс. руб.

Уравнение регрессии:

= 137,91 + 0,667 · х

Построим линию регрессии на рис. 1.

С увеличением прожиточного минимума на 1 тыс. руб. пенсия увеличивается на 0,667 тыс. руб.

Рассчитаем линейный коэффициент парной корреляции:

0,456

Т.к. коэффициент в интервале от 0,3 до 0,7 связь средняя, прямая.

Определим коэффициент детерминации:

(0,456)2 = 0,208

Т.е. вариация пенсий на 20,8% объясняется вариацией прожиточного минимума.

Найдем среднюю ошибку аппроксимации:

26,7%


Средняя ошибка аппроксимации имеет значение меньше 30% – это говорит о среднем уровне надежности уравнения регрессии.

Рассчитаем F-критерий:

2,628

Критическое значение распределения Фишера определяют либо по таблицам распределения Фишера, либо расчетным путем с использованием функции FРАСПОБР() табличного процессора Excel. Для уровня доверия 0,95, одного фактора и 12 значений:

Fкр = F(0,05; 1; 10) = 4,964

Т.к. Fкр > Fфакт , то необходимо отклонить гипотезу о статистической значимости параметров уравнения. Т.е. использовать данную функцию для аппроксимации нельзя.

Найдем стандартную ошибку остаточной компоненты по формуле:

= = = 55,14

Найдем средние квадратичные (стандартные) ошибки оценивания коэффициента b и свободного члена а уравнения регрессии:

39,99

0,411


Найдем t – критерий Стьюдента для обоих параметров:

137,91 / 39,99 = 3,448

0,667 / 0,411 = 1,623

Сравнивая значения t-статистики для каждого из коэффициентов линейной регрессии с табличным значением (α = 0,05; k = 12) tтабл = 2,228, можно сказать, что с вероятностью 95% коэффициент а надёжен, коэффициент b ненадёжен при данном уровне значимости.

Для расчета доверительного интервала определяем предельную ошибку Δ:

= tтабл · = 2,228 * 39,99 » 89,1

= tтабл · = 2,228 * 0,411 » 0,916

Доверительные интервалы для коэффициентов регрессии:

a – Δa < a < a + Δa

48,81 < a < 227,01

b – Δb < b < b + Δb

– 0,249 < b < 1,583

Таким образом, полученные оценки коэффициента регрессии b не являются эффективными и состоятельными, а само уравнение = 137,91 + 0,667·х не может использоваться для моделирования и прогнозирования динамики.

Это обусловлено большой ошибкой уравнения регрессии.

Для построения уравнения показательной кривой у = а · еb х линеризуем переменные логарифмированием обеих частей уравнения:

ln у = ln а + b·x

Y = A + b·x

ГдеY = ln y, A = ln a.

Для расчетов будем использовать данные таблицы 4.

Таблица 4

y Y x Yx x2 Y2 у – (у – )2 ( - )2
1 131 4,875 100 487,52 10000 23,7675 194,81 -63,81 4071,1 -2,025 4,1 0,487
2 110 4,700 90 423,043 8100 22,0945 188,78 -78,78 6206,8 -8,047 64,7 0,716
3 170 5,136 150 770,37 22500 26,3764 227,92 -57,92 3354,9 31,091 966,7 0,341
4 141 4,949 31 153,412 961 24,4902 156,86 -15,86 251,5 -39,972 1597,8 0,112
5 150 5,011 60 300,638 3600 25,1065 171,81 -21,81 475,8 -25,018 625,9 0,145
6 160 5,075 39 197,932 1521 25,7574 160,85 -0,85 0,7 -35,982 1294,7 0,005
7 200 5,298 40 211,933 1600 28,0722 161,35 38,65 1493,5 -35,476 1258,6 0,193
8 230 5,438 70 380,666 4900 29,5727 177,29 52,71 2778,1 -19,538 381,7 0,229
9 240 5,481 80 438,451 6400 30,0374 182,95 57,05 3255,0 -13,882 192,7 0,238
10 260 5,561 150 834,102 22500 30,9212 227,92 32,08 1029,0 31,091 966,7 0,123
11 270 5,598 120 671,811 14400 31,3423 207,43 62,57 3914,8 10,601 112,4 0,232
12 300 5,704 130 741,492 16900 32,5331 214,05 85,95 7387,8 17,218 296,5 0,287
Итого 2362 62,83 1060 5611,37 113382 330,0715 2272,02 90,0 34219,0 -89,938 7762,4 3,109
Среднее 196,83 5,235 88,33 467,614 9448,5 27,506
Обозначение среднего

Найдем дисперсию переменных:

= 9448,5 – 88,332 = 1646,31

= 27,506 – 5,2352 = 0,0955

Найдем параметров А и В регрессии составили:

b =0,00314

5,325 – 0,00314 · 88,33 = 4,958

Получено линейное уравнение:

= 4,958 + 0,00314 · х

Произведем потенцирование полученного уравнения и запишем его в обычной форме:

= e4,958 · e0,00314 · х = 142,31 · e0,00314 х

Тесноту связи оценим через индекс корреляции рху :


0,436

Связь средняя.

Определим коэффициент детерминации:

0,1838

Т.е. вариация результативного признака на 18,38% объясняется вариацией факторного признака.

Найдем среднюю ошибку аппроксимации:

25,9%

Средняя ошибка аппроксимации имеет значение меньше 30%, т.е. надежность уравнения средняя.

Рассчитаем F-критерий: (m – число параметров при переменной x)

1,8378

Fкр = 4,964

Т.к. Fкр > Fфакт , т.е. необходимо отклонить гипотезу о статистической значимости параметров уравнения.

Найдем стандартную ошибку остаточной компоненты по формуле:

= = = 55,77


Найдем средние квадратичные (стандартные) ошибки оценивания коэффициента b и свободного члена а уравнения регрессии:

40,45

0,416

Найдем t – критерий Стьюдента для обоих параметров:

142,31 / 40,45 = 3,518

0,00314 / 0,411 = 0,0076

Сравнивая значения t-статистики для каждого из коэффициентов линейной регрессии с табличным значением (α = 0,05; k = 12) tтабл = 2,228, можно сказать, что с вероятностью 95% коэффициент а надёжен, коэффициент b ненадёжен при данном уровне значимости.

Для расчета доверительного интервала определяем предельную ошибку Δ:

= tтабл · = 2,228 * 40,45 » 90,12

= tтабл · = 2,228 * 0,0076 » 0,0169

Доверительные интервалы для коэффициентов регрессии:


a – Δa < a < a + Δa

52,19 < a < 232,43

b – Δb < b < b + Δb

– 0,01376 < b < 0,02004

Построим линию показательной зависимости на поле корреляции:

Рис. 2. Рассчитанные линии регрессий

У линейной зависимости меньше стандартная ошибка и больше значение F-критерия. Поэтому из двух уравнений регрессий линейное более достоверно. Но низкая надежность коэффициента регрессии b, говорит, что результаты аппроксимации будут иметь достаточно низкую надежность (80%).