Скачать .docx  

Реферат: Регрессионный анализ. Парная регрессия

РЕФЕРАТ

Регрессионный анализ. Парная регрессия.


I. Построение регрессионных моделей

1. Смысл регрессионного анализа – построение функциональных зависимостей между двумя группами переменных величин Х1 , Х2 , … Хр и Y. При этом речь идет о влиянии переменных Х (это будут аргументы функций) на значения переменной Y (значение функции). Переменные Х мы будем называть факторами, а Y – откликом.

Сегодня мы разберем наиболее простой случай – установление зависимости одного отклика y от одного фактора х. Такой случай называется парной (простой) регрессией.

2. Построение модели

Этап 1. Исходные данные: заранее известные (экспериментальные, наблюденные) значения фактора хi – экзогенная переменная и соответствующие им значения отклика yi , (i = 1,…,n) - эндогенная переменная;

Активный и пассивный эксперимент.

Выборочные характеристики – позволяют кратко охарактеризовать выборку, т. е., получить ее модель, хотя и очень грубую:

а) среднее арифметическое:

Среднее арифметическое – это «центр», вокруг которого колеблются значения случайной величины.

Пример: средняя продолжительность жизни в России и США

б) дисперсия:

Отклонение от среднего: - характеризует лишь «разброс» конкретной, отдельно взятой величины хi . Если мы захотим получить более полную информацию, нам придется выписать такие отклонения для всех х, т. е., получить такой же ряд чисел, как и исходная выборка.

Можно попытаться усреднить все отклонения, но «среднее арифметическое отклонений от среднего арифметического» имеет особенность:

Эта величина обнуляется из-за того, что отрицательные значения отклонений и положительные взаимно погашаются.

Чтобы избежать этого, возведем их в квадрат, получив так называемую выборочную дисперсию:

Выборочная дисперсия характеризует разброс (вариацию) элементов выборки вокруг их среднего арифметического. Важно иметь в виду, что сами элементы выборки и их дисперсия имеют разные порядок: если элементы выборки измеряются в метрах, то дисперсия – в квадратных метрах.

Стандартное отклонение:

Полезное свойство дисперсии:

Т. о.

Характеристики генеральной совокупности:

математическое ожидание М(Х)

дисперсия D(X)

Несмещенная оценка дисперсии:

Для простоты, мы будем использовать смещенную оценку – выборочную дисперсию – при достаточно больших n они практически равны.

Этап 2. Постановка задачи: предположим, что значение каждого отклика yi как бы состоит из двух частей:

- во-первых, закономерный результат того, что фактор х принял конкретное значение хi ;

- во-вторых, некоторая случайная компонента ei , которая никак не зависит от значения хi .

Таким образом, для любого i = 1,…,n

yi = f(xi ) + ei

Смысл случайной величины (ошибки) e:

а) внутренне присущая отклику у изменчивость;

б) влияние прочих, не учитываемых в модели факторов;

в) ошибка в измерениях

Этап 3. Предположения о характере регрессионной функции

Возможный вид функции f(xi )

- линейная:

- полиномиальная

- степенная:

- экспоненциальная:

- логистическая:

Методы подбора вида функции:

- графический

- аналитический

Этап 4. Оценка параметров линейной регрессионной модели

1. Имея два набора значений: x1 , x2 , …, xn и y1 , y2 , …, yn , предполагаем, что между ними существует взаимосвязь вида:

yi = a + bxi + ei

т. н. функция регрессии

Истинные значения параметров функции регрессии мы не знаем, и узнать не можем.

Задача: построить линейную функцию:

ŷi = a + bxi

так, чтобы вычисленные значения ŷi (xi ) были максимально близки к экспериментальным уi (иначе говоря, чтобы остатки (ŷi - yi ) были минимальны).

Экономическая интерпретация коэффициентов:

a – «постоянная составляющая» отклика, независимая от фактора

b – степень влияния фактора на отклик (случаи отрицательного)

2. Метод наименьших квадратов (МНК):

подставим в задачу формулу (2.2):

В данном случае у нас a и b – переменные, а х и у – параметры. Для нахождения экстремума функции, возьмем частные производные по a и b и приравняем их к нулю.

Получили систему из двух линейных уравнений. Разделим оба на 2n:

Из первого уравнения выразим неизвестную а:

и подставим это выражение во второе уравнение:

Построив оценки a и b коэффициентов a и b, мы можем рассчитать т. н. «предсказанные», или «смоделированные» значения ŷi = a + bxi и их вероятностные характеристики – среднее арифметическое и дисперсию.

Несложно заметить, что оказалось. Так должно быть всегда:

Кроме того, вычислим т. н. случайные остатки и рассчитаем их вероятностные характеристики.

Оказалось, . Это также закономерно:

Таким образом, дисперсия случайных остатков будет равна:

Мы произвели вычисления, и построили регрессионное уравнение, позволяющее нам построить некую оценку переменной у (эту оценку мы обозначили ŷ). Однако, если бы мы взяли другие данные, по другим областям (или за другой период времени), то исходные, экспериментальные значения х и у у нас были бы другими и, соответственно, а и b, скорее всего, получились бы иными.

Вопрос: насколько хороши оценки, полученные МНК, иначе говоря, насколько они близки к «истинным» значениям a и b?

Этап 5. Исследование регрессионной модели

1. Теснота связи между фактором и откликом

Мерой тесноты связи служит линейный коэффициент корреляции:

(2.13)

-1 £ rxy £ 1 (2.14)

Отрицательное значение КК означает, что увеличение фактора приводит к уменьшению отклика и наоборот:

2. Доля вариации отклика у, объясненная полученным уравнением регрессии характеризуется коэффициентом детерминации R2 . Путем математических преобразований можно выразить:

где – оценка дисперсии случайных остатков в модели,

Таким образом, R2 – это доля дисперсии у, объясненной с помощью регрессионного уравнения в дисперсии фактически наблюденного у.

Очевидно:

0 £ R2 £ 1

3. Проверка статистической значимости уравнения регрессии

Мы получили МНК-оценки коэффициентов уравнения регрессии и рассчитали коэффициент детерминации. Однако, осталось неясным, достаточно ли он велик, чтобы говорить о существовании значимой связи между величинами х и у. Иначе говоря, достаточно ли сильна эта связь, чтобы на основании построенной нами модели можно было бы делать выводы?

Для ответа на этот вопрос можно провести т. н. F-тест.

Формулируется гипотеза Н0 : предположим, что yi ¹a + bxi + ei

Обратить внимание: выписаны не а, а a, т. е., не оценки коэффициентов регрессии, а их истинные значения.

Альтернатива – гипотеза Н1 : yi = a + bxi + ei

Мы не можем однозначно подтвердить или опровергнуть гипотезу Н0 , мы можем лишь принять или отвергнуть ее с определенной вероятностью.

Выберем некоторый уровень значимости g, такой что 0 £g£ 1 – вероятность того, что мы сделаем неправильный вывод, приняв или отклонив гипотезу Н0 .

Соответственно, величина Р = 1 - g - доверительная вероятность – вероятность того, что мы в итоге сделаем правильный вывод.

Для проверки истинности гипотезы Н0 , с заданным уровнем значимости g, рассчитывается F-статистика:

Значение F-статистики в случае парной регресии подчиняется т. н.

F-распределению Фишера с 1 степенью свободы числителя и (n - 2) степенями свободы знаменателя.

Для проверки Н0 величина F-статистики сравнивается с табличным значением Fg (1, n-2).

Если F > Fg (1, n-2) – гипотеза Н0 отвергается, т. е. мы считаем, что с вероятностью 1-g можно утверждать, что регрессия имеет место и:

yi = a + bxi + ei

В противном случае гипотеза Н0 не отвергается, принимаем:

yi ¹a + bxi + ei

Вопрос: почему бы нам не взять g поменьше? Чем меньше g, тем больше соответствующее табличное значение F-статистики, т. е., тем меньше шансов, что появятся основания отвергнуть гипотезу Н0 .

Ошибки первого и второго рода

Ошибка первого рода: отвергается Н0 , которая на самом деле верна.

Ошибка второго рода: принимается H0, которая на самом деле не верна.

Очевидно, чем меньше g, тем меньше наши шансы отвергнуть гипотезу Н0 , т. е., совершить ошибку первого рода. Соответственно, шансы совершить ошибку второго рода увеличиваются.

4. Характеристика оценок коэффициентов уравнения регрессии

1) математическое ожидание

Теорема: М(а) = a, M(b) = b - несмещенность оценок

Это означает, что при увеличении количества наблюдений значения МНК-оценок a и b будут приближаться к истинным значениям a и b;

2) дисперсия

Теорема:

;

Благодаря этой теореме, мы можем получить представление о том, как далеко, в среднем, наши оценки a и b находятся от истинных значений a и b.

Необходимо иметь в виду, что дисперсии характеризуют не отклонения, а «отклонения в квадрате». Чтобы перейти к сопоставимым значениям, рассчитаем стандартные отклонения a и b:

;

Будем называть эти величины стандартными ошибками a и b соответственно.

5. Построение доверительных интервалов

Пусть мы имеем оценку а. Реальное значение коэффициента уравнения регрессии a лежит где-то рядом, но где точно, мы узнать не можем. Однако, мы можем построить интервал, в который это реальное значение попадет с некоторой вероятностью. Доказано, что:

с вероятностью Р = 1 - g

где tg /2 (n-1) - g/2-процентная точка распределения Стьюдента с (n-1) степенями свободы – определяется из специальных таблиц.

При этом уровень значимостиg устанавливается произвольно.

Неравенство можно преобразовать следующим образом:

,

или, что то же самое:

Аналогично, с вероятностью Р = 1 - g:

откуда следует:

,

или:

Уровень значимости g - это вероятность того, что на самом деле истинные значения a и b лежат за пределами построенных доверительных интервалов. Чем меньше его значение, тем больше величина tg /2 (n-1), соответственно, тем шире будет доверительный интервал.

6. Проверка статистической значимости коэффициентов регрессии

Мы получили МНК-оценки коэффициентов, рассчитали для них доверительные интервалы. Однако мы не можем судить, не слишком ли широки эти интервалы, можно ли вообще говорить о значимости коэффициентов регрессии.

Гипотеза Н0 : предположим, что a=0, т. е. на самом деле независимой постоянной составляющей в отклике нет (альтернатива – гипотеза Н1 : a¹ 0).

Для проверки этой гипотезы, с заданным уровнем значимости g, рассчитывается t-статистика, для парной регрессии:

Значение t-статистики сравнивается с табличным значением tg /2 (n-1) - g/2-процентной точка распределения Стьюдента с (n-1) степенями свободы.

Если |t| < tg /2 (n-1) – гипотеза Н0 не отвергается (обратить внимание: не «верна», а «не отвергается»), т. е. мы считаем, что с вероятностью 1-g можно утверждать, что a = 0.

В противном случае гипотеза Н0 отвергается, принимается гипотеза Н1 .

Аналогично для коэффициента b формулируем гипотезу Н0 : b = 0, т. е. переменная, выбранная нами в качестве фактора, на самом деле никакого влияния на отклик не оказывае.

Для проверки этой гипотезы, с заданным уровнем значимости g, рассчитывается t-статистика:

и сравнивается с табличным значением tg /2 (n-1).

Если |t| < tg /2 (n-1) – гипотеза Н0 не отвергается, т. е. мы считаем, что с вероятностью 1-g можно утверждать, что b = 0.

В противном случае гипотеза Н0 отвергается, принимается гипотеза Н1 .

7. Автокорреляция остатков.

1. Примеры автокорреляции.

Возможные причины:

1) неверно выбрана функция регрессии;

2) имеется неучтенная объясняющая переменная (переменные)

2. Статистика Дарбина-Уотсона

Очевидно:

0 £ DW £ 4

Если DW близко к нулю, это позволяет предполагать наличие положительной автокорреляции, если близко к 4 – отрицательной.

Распределение DW зависит от наблюденных значений, поэтому получить однозначный критерий, при выполнении которого DW считается «хорошим», а при невыполнении - «плохим», нельзя. Однако, для различных величин n и g найдены верхние и нижние границы, DWL и DWU , которые в ряде случаев позволяют с уверенностью судить о наличии (отсутствии) автокорреляции в модели. Правило:

1) При DW < 2:

а) если DW < DWL – делаем вывод о наличии положительной автокорреляции (с вероятностью 1-g);

б) если DW > DWU – делаем вывод об отсутствии автокорреляции (с вероятностью 1-g);

в) если DWL £ DW £ DWU – нельзя сделать никакого вывода;

2) При DW > 2:

а) если (4 – DW) < DWL – делаем вывод о наличии отрицательной автокорреляции (с вероятностью 1-g);

б) если (4 – DW) > DWU – делаем вывод об отсутствии автокорреляции (с вероятностью 1-g);

в) если DWL £ (4 – DW) £ DWU – нельзя сделать никакого вывода;

8. Гетероскедастичность остатков.

Возможные причины:

- ошибки в исходных данных;

- наличие закономерностей;

Обнаружение – возможны различные тесты. Наиболее простой:

(упрощенный тест Голдфелда – Куандта)

1) упорядочиваем выборку по возрастанию одной из объясняющих переменных;

2) формулируем гипотезу Н0 : остатки гомоскедастичны

3) делим выборку приблизительно на три части, выделяя k остатков, соответствующих «маленьким» х и k остатков, соответствующих «большим» х (k»n/3);

4) строим модели парной линейной регрессии отдельно для «меньшей» и «большей» частей

5) оцениваем дисперсии остатков в «меньшей» (s2 1 ) и «большей» (s2 1 ) частях;

6) рассчитываем дисперсионное соотношение:

7) определяем табличное значение F-статистики Фишера с (k–m–1) степенями свободы числителя и (k - m - 1) степенями свободы знаменателя при заданном уровне значимости g

8) если дисперсионное соотношение не превышает табличное значение F-статистики (т. е., оно подчиняется F-распределению Фишера с (k–m–1) степенями свободы числителя и (k - m - 1) степенями свободы знаменателя), то гипотеза Н0 не отвергается - делаем вывод о гомоскедастичности остатков. Иначе – предполагаем их гетероскедатичность.

Метод устранения: взвешенный МНК.

Идея: если значения х оказывают какое-то воздействие на величину остатков, то можно ввести в модель некие «весовые коэффициенты», чтобы свести это влияние к нулю.

Например, если предположить, что величина остатка ei пропорциональна значению xi (т. е., дисперсия остатков пропорциональна xi 2 ), то можно перестроить модель следующим образом:

т. е. перейдем к модели наблюдений

где

Таким образом, задача оценки параметров уравнения регрессии методом наименьших квадратов сводится к минимизации функции:

или

где - весовой коэффициент.