Эконометрика 1
Overview
Sheet 1: дано
Задание 1. Модель парной линейной регрессии. | |||||||||||||||||||||||||||
Имеются данные по 16 сельхозпредприятий о затаратах на 1 корову и о надое молока на 1 корову. | |||||||||||||||||||||||||||
Таблица 1.1 | |||||||||||||||||||||||||||
№ сельхоз- предприятия | Затраты на 1 корову, руб./голов, x | Надой от 1 коровы, ц, y | |||||||||||||||||||||||||
1 | 1602 | 34.2 | 1 | 1602 | 34.2 | ||||||||||||||||||||||
2 | 1199 | 19.6 | 2 | 1199 | 19.6 | ||||||||||||||||||||||
3 | 1321 | 27.3 | 3 | 1321 | 27.3 | ||||||||||||||||||||||
4 | 1678 | 32.5 | 4 | 1678 | 32.5 | ||||||||||||||||||||||
5 | 1600 | 33.2 | 5 | 1600 | 33.2 | ||||||||||||||||||||||
6 | 1355 | 31.8 | 6 | 1355 | 31.8 | ||||||||||||||||||||||
7 | 1413 | 30.7 | 7 | 1413 | 30.7 | ||||||||||||||||||||||
8 | 1490 | 32.6 | 8 | 1490 | 32.6 | ||||||||||||||||||||||
9 | 1616 | 26.7 | 9 | 1616 | 26.7 | ||||||||||||||||||||||
10 | 1693 | 42.4 | 10 | 1693 | 42.4 | ||||||||||||||||||||||
11 | 1665 | 37.9 | 11 | 1665 | 37.9 | ||||||||||||||||||||||
12 | 1666 | 36.6 | 12 | 1666 | 36.6 | ||||||||||||||||||||||
13 | 1628 | 38.0 | 13 | 1628 | 38 | ||||||||||||||||||||||
14 | 1604 | 32.7 | 14 | 1604 | 32.7 | ||||||||||||||||||||||
15 | 2077 | 51.7 | 15 | 2077 | 51.7 | ||||||||||||||||||||||
16 | 2071 | 55.3 | 16 | 2071 | 55.3 | ||||||||||||||||||||||
Задание: | |||||||||||||||||||||||||||
1. Рассчитать линейный коэффициент парной корреляции, оценить его статистическую значимость и построить для него доверительный интервал с уровнем значимости α = 0,05. 2. Построить линейное уравнение парной регрессии y на x и оценить статистическую значимость параметров регрессии. Сделать рисунок. 3. Оценить качество уравнения регрессии при помощи коэффициента детерминации. Проверить качество уравнения регрессии при помощи F критерия Фишера. 4. Выполнить прогноз надоя от 1 коровы y при прогнозном значении x, составляющем 108% от среднего уровня. Оценить точность прогноза, рассчитав ошибку прогноза и его доверительный интервал для уровня значимости α = 0,05. |
119 |
Sheet 2: 1
Решение: | |||||||||||||||||||||||||||||||||||||||||||||
1. Для определения степени тесноты связи обычно используют линейный коэффици-ент корреляции: | |||||||||||||||||||||||||||||||||||||||||||||
где | – выборочные дисперсии переменных x и y, | ||||||||||||||||||||||||||||||||||||||||||||
– ковариация признаков. | |||||||||||||||||||||||||||||||||||||||||||||
Соответствующие средние определяются по формулам: | |||||||||||||||||||||||||||||||||||||||||||||
Для расчета коэффициента корреляции строим расчетную таблицу (табл. 1.2). | |||||||||||||||||||||||||||||||||||||||||||||
По данным таблицы находим: | |||||||||||||||||||||||||||||||||||||||||||||
cov(x,y) = 58267,54 - 1604,88 * 35,2 = 1775,94 | 1775.9438 | ||||||||||||||||||||||||||||||||||||||||||||
rxy = | 1775.94 | = 0,914 | 0.9138626361 | ||||||||||||||||||||||||||||||||||||||||||
226,26 * 8,59 | |||||||||||||||||||||||||||||||||||||||||||||
Таким образом, между переменными х и у существует прямая весьма высокая корреляционная зависимость. | |||||||||||||||||||||||||||||||||||||||||||||
Для оценки статистической значимости коэффициента корреляции рассчитывают двухсторонний t-критерий Стьюдента: | |||||||||||||||||||||||||||||||||||||||||||||
= 8,42 | 8.42 | ||||||||||||||||||||||||||||||||||||||||||||
Ткрит = Т | a = 0,05 | = 2,14 | 2.14 | ||||||||||||||||||||||||||||||||||||||||||
k = 16 - 2 = 14 | 14 | ||||||||||||||||||||||||||||||||||||||||||||
Поскольку T > Tкрит, то коэффициент корреляции признается существенным. | Поскольку T < Tкрит, то коэффициент корреляции существенно не отличается от нуля. | ||||||||||||||||||||||||||||||||||||||||||||
Для значимого коэффициента можно построить доверительный интервал, который с заданной вероятностью содержит неизвестный генеральный коэффициент корреляции. Для построения интервальной оценки (для малых выборок n<30), используют z-преобразование Фишера: | |||||||||||||||||||||||||||||||||||||||||||||
Распределение z уже при небольших n является приближенным нормальным распределением с математическим ожиданием | |||||||||||||||||||||||||||||||||||||||||||||
и дисперсией | |||||||||||||||||||||||||||||||||||||||||||||
Поэтому вначале строят доверительный интервал для M(z), а затем делают обратное z-преобразование. | |||||||||||||||||||||||||||||||||||||||||||||
Применяя z-преобразование для найденного коэффициента корреляции, получим | |||||||||||||||||||||||||||||||||||||||||||||
1 + 0,914 | = 1,55 | 1.55 | |||||||||||||||||||||||||||||||||||||||||||
1 - 0,914 | |||||||||||||||||||||||||||||||||||||||||||||
Доверительный интервал для M(z) будет иметь вид | |||||||||||||||||||||||||||||||||||||||||||||
где t находится с помощью функции Лапласа (t) = /2. Для = 0,95 имеем t = 1,96. Тогда | 1.96 | ||||||||||||||||||||||||||||||||||||||||||||
1.0063938077 | 2.0936061923 | 1.0063938077 | |||||||||||||||||||||||||||||||||||||||||||
Обратное z-преобразование осуществляется по формуле | 2.0936061923 | ||||||||||||||||||||||||||||||||||||||||||||
В результате находим | |||||||||||||||||||||||||||||||||||||||||||||
0.76 | 0.97 | 0.764 | |||||||||||||||||||||||||||||||||||||||||||
На уровне значимости 0,05 (с надежностью 0,95) генеральный коэффициент корреляции находится в найденном интервале. | 0.97 | ||||||||||||||||||||||||||||||||||||||||||||
2. Таким образом, между переменными x и y весьма высокая корреляционная зависимость. Будем считать, что эта зависимость является линейной. Модель парной линейной регрессии имеет вид | |||||||||||||||||||||||||||||||||||||||||||||
где y – зависимая переменная (результативный признак), x – независимая (объясняющая) переменная, – случайные отклонения, 0 и 1 – параметры регрессии. По выборке ограниченного объема можно построить эмпирическое уравнение регрессии: | |||||||||||||||||||||||||||||||||||||||||||||
где b0 и b1 – эмпирические коэффициенты регрессии. Для оценки параметров регрессии обычно используют метод наименьших квадратов (МНК). В соответствие с МНК, сумма квадратов отклонений фактических значений зависимой переменной y от теоретических была минимальной: | |||||||||||||||||||||||||||||||||||||||||||||
где ei = yi - b0 - b1xi – отклонения yi от оцененной линии регрессии. Необходимым условием существования минимума функции двух переменных является равенство нулю ее частных производных по неизвестным параметрам b0 и b1. В результате получаем систему нормальных уравнений: | |||||||||||||||||||||||||||||||||||||||||||||
Решая систему, найдем | |||||||||||||||||||||||||||||||||||||||||||||
1775.94 | = 0,035 | 0.035 | |||||||||||||||||||||||||||||||||||||||||||
51193.73 | |||||||||||||||||||||||||||||||||||||||||||||
35,2 - 0,035 * 1604,875 = -20,97 | -20.97 | ||||||||||||||||||||||||||||||||||||||||||||
Получено уравнение регрессии: | |||||||||||||||||||||||||||||||||||||||||||||
1199 | 19.6 | 21.00 | |||||||||||||||||||||||||||||||||||||||||||
Параметр b1 называется коэффициентом регрессии. Его величина показывает среднее изменение результата с изменением фактора на одну единицу. В рассматриваемом случае, с увеличением параметра Х на 1 руб./голову параметр У возрастает в среднем на 0,035 ц. | 1321 | 27.3 | 25.27 | ||||||||||||||||||||||||||||||||||||||||||
1355 | 31.8 | 26.46 | |||||||||||||||||||||||||||||||||||||||||||
1413 | 30.7 | 28.49 | |||||||||||||||||||||||||||||||||||||||||||
1490 | 32.6 | 31.18 | |||||||||||||||||||||||||||||||||||||||||||
1600 | 33.2 | 35.03 | |||||||||||||||||||||||||||||||||||||||||||
1602 | 34.2 | 35.10 | |||||||||||||||||||||||||||||||||||||||||||
1604 | 32.7 | 35.17 | |||||||||||||||||||||||||||||||||||||||||||
1616 | 26.7 | 35.59 | |||||||||||||||||||||||||||||||||||||||||||
1628 | 38 | 36.01 | |||||||||||||||||||||||||||||||||||||||||||
1665 | 37.9 | 37.31 | |||||||||||||||||||||||||||||||||||||||||||
Проверка адекватности моделей, построенных на основе уравнений регрессии, начинается с проверки статистической значимости каждого коэффициента регрессии. Значимость коэффициентов регрессии осуществляется с помощью t-критерия Стьюдента: | 1666 | 36.6 | 37.34 | ||||||||||||||||||||||||||||||||||||||||||
1678 | 32.5 | 37.76 | |||||||||||||||||||||||||||||||||||||||||||
1693 | 42.4 | 38.29 | |||||||||||||||||||||||||||||||||||||||||||
2071 | 55.3 | 51.52 | |||||||||||||||||||||||||||||||||||||||||||
Для коэффициента b1 оценку дисперсии можно получить по формуле: | 2077 | 51.7 | 51.73 | ||||||||||||||||||||||||||||||||||||||||||
194.66 | = 0,000017 | 0.000017 | |||||||||||||||||||||||||||||||||||||||||||
16 * (16 - 2) * 51193,73 | |||||||||||||||||||||||||||||||||||||||||||||
Следовательно, | |||||||||||||||||||||||||||||||||||||||||||||
0.035 | = 8,49 | 8.49 | |||||||||||||||||||||||||||||||||||||||||||
0.0041 | |||||||||||||||||||||||||||||||||||||||||||||
Отметим, что для парной линейной регрессии t-критерий для коэффициента корреляции rxy и коэффициента регрессии b1 совпадают. | |||||||||||||||||||||||||||||||||||||||||||||
Для коэффициента b0 оценку дисперсии можно получить по формуле: | |||||||||||||||||||||||||||||||||||||||||||||
0,000017 * 2626817,5 = 44,66 | 44.66 | ||||||||||||||||||||||||||||||||||||||||||||
Тогда | |||||||||||||||||||||||||||||||||||||||||||||
20.97 | = 3,14 | 3.138 | |||||||||||||||||||||||||||||||||||||||||||
6.68 | |||||||||||||||||||||||||||||||||||||||||||||
Критическое значение критерия было уже найдено | |||||||||||||||||||||||||||||||||||||||||||||
Ткрит = | 2.14 | 2.14 | |||||||||||||||||||||||||||||||||||||||||||
Имеем | |||||||||||||||||||||||||||||||||||||||||||||
и | |||||||||||||||||||||||||||||||||||||||||||||
то оба коэффициента регрессии и b0, и b1 значимо отличаются от нуля и признаются существенными. Построим для них доверительные интервалы. Определим предельные ошибки: | |||||||||||||||||||||||||||||||||||||||||||||
где t = Ткрит. | |||||||||||||||||||||||||||||||||||||||||||||
В нашем случае | |||||||||||||||||||||||||||||||||||||||||||||
2,14 * 0,0041 = 0,0088 | 0.0088 | ||||||||||||||||||||||||||||||||||||||||||||
14.3012 | |||||||||||||||||||||||||||||||||||||||||||||
В результате, получаем следующие доверительные интервалы для коэффициентов регрессии: | |||||||||||||||||||||||||||||||||||||||||||||
b1 = | 0,035 ± 0,0088 | ||||||||||||||||||||||||||||||||||||||||||||
b0 = | -20,97 ± 14,3 | ||||||||||||||||||||||||||||||||||||||||||||
или | |||||||||||||||||||||||||||||||||||||||||||||
0.0262 | 0.0438 | 0.0262 | 0.0438 | ||||||||||||||||||||||||||||||||||||||||||
-35.2712 | -6.67 | -35.2712 | -6.6688 | ||||||||||||||||||||||||||||||||||||||||||
т.е. генеральные коэффициенты регрессии находятся в найденных интервалах. | |||||||||||||||||||||||||||||||||||||||||||||
3. Оценку качества построенной модели дает коэффициент детерминации, а также средняя ошибка аппроксимации. | |||||||||||||||||||||||||||||||||||||||||||||
Средняя ошибка аппроксимации – среднее отклонение расчетных значений от фактических: | |||||||||||||||||||||||||||||||||||||||||||||
0,084 * 100% = 8,4% | 8.4 | ||||||||||||||||||||||||||||||||||||||||||||
Средняя ошибка аппроксимации меньше 10 %, то качество построенной модели можно признать хорошим. | Средняя ошибка аппроксимации мньше 8%, то качество построенной модели оценивается как хорошее. | ||||||||||||||||||||||||||||||||||||||||||||
Коэффициент детерминации для линейной модели равен квадрату коэффициента корреляции | |||||||||||||||||||||||||||||||||||||||||||||
= 0,835 | 0.835 | ||||||||||||||||||||||||||||||||||||||||||||
Это означает, что 83,5% вариации результативного признака У объясняется вариацией фактора X. | |||||||||||||||||||||||||||||||||||||||||||||
Значимость уравнения регрессии проверяется при помощи F-критерия Фишера, для линейной парной регрессии он будет иметь вид | |||||||||||||||||||||||||||||||||||||||||||||
0.835 | 16-2 | = 70,85 | 70.85 | ||||||||||||||||||||||||||||||||||||||||||
1 - 0,835 | |||||||||||||||||||||||||||||||||||||||||||||
F подчиняется распределению Фишера с уровнем значимости и степенями свободы k1 = 1 и k2 = n – 2 | |||||||||||||||||||||||||||||||||||||||||||||
Fкрит = F | a = 0,05 | ||||||||||||||||||||||||||||||||||||||||||||
k1 = 1 | = 4,6 | 4.6 | |||||||||||||||||||||||||||||||||||||||||||
k2 = | 16 - 2 = 14 | 14 | |||||||||||||||||||||||||||||||||||||||||||
Т.к. F > Fкрит, то признается статистическая значимость построенного уравнения регрессии. | |||||||||||||||||||||||||||||||||||||||||||||
Отметим, что для линейной модели F- и t-критерии связаны равенством | Т.к. F < Fкрит, то построенноt уравнениt регрессии признается статистически незначимым. | ||||||||||||||||||||||||||||||||||||||||||||
4. Полученные оценки уравнения регрессии рекомендуется использовать для прогноза в практических целях. Прогнозное значение yp определяется путем подстановки в уравнение регрессии соответствующего (прогнозного) значения xp. В нашем случае прогнозное значение составит: | |||||||||||||||||||||||||||||||||||||||||||||
1,19 = 1604,875 * 1,19 = 1909,8 руб./голову | 1909.8 | ||||||||||||||||||||||||||||||||||||||||||||
-20,97 + 0,035 * 1909,8 = 45,87 ц | 45.87 | ||||||||||||||||||||||||||||||||||||||||||||
Средняя стандартная ошибка прогноза вычисляется по формуле: | |||||||||||||||||||||||||||||||||||||||||||||
где | = 3,729 | 3.729 | |||||||||||||||||||||||||||||||||||||||||||
4.04 | 4.04 | ||||||||||||||||||||||||||||||||||||||||||||
Предельная ошибка прогноза, которая в 95% случаев не будет превышена, составит: | |||||||||||||||||||||||||||||||||||||||||||||
2,14 * 4,04 = 8,65 | 8.65 | ||||||||||||||||||||||||||||||||||||||||||||
Доверительный интервал прогноза | |||||||||||||||||||||||||||||||||||||||||||||
45,87 ± 8,65 | |||||||||||||||||||||||||||||||||||||||||||||
или | 37.22 | 54.52 | 37.22 | 54.52 | |||||||||||||||||||||||||||||||||||||||||
Выполненный прогноз надежный ( = 0,95), но неточный, т.к. относительная погрешность расчета составила | |||||||||||||||||||||||||||||||||||||||||||||
8,65 / 45,87 = 0,19 (19 %) | 0.19 |
Sheet 3: табл1.2
Таблица 1.2 | ||||||||
х | у | ху | х2 | у2 | ||||
1 | 1602 | 34.2 | 54788.4 | 2566404 | 1169.64 | 35.10 | 0.81 | 0.03 |
2 | 1199 | 19.6 | 23500.4 | 1437601 | 384.16 | 21.00 | 1.95 | 0.07 |
3 | 1321 | 27.3 | 36063.3 | 1745041 | 745.29 | 25.27 | 4.14 | 0.07 |
4 | 1678 | 32.5 | 54535.0 | 2815684 | 1056.25 | 37.76 | 27.67 | 0.16 |
5 | 1600 | 33.2 | 53120.0 | 2560000 | 1102.24 | 35.03 | 3.35 | 0.06 |
6 | 1355 | 31.8 | 43089.0 | 1836025 | 1011.24 | 26.46 | 28.57 | 0.17 |
7 | 1413 | 30.7 | 43379.1 | 1996569 | 942.49 | 28.49 | 4.91 | 0.07 |
8 | 1490 | 32.6 | 48574.0 | 2220100 | 1062.76 | 31.18 | 2.02 | 0.04 |
9 | 1616 | 26.7 | 43147.2 | 2611456 | 712.89 | 35.59 | 79.03 | 0.33 |
10 | 1693 | 42.4 | 71783.2 | 2866249 | 1797.76 | 38.29 | 16.93 | 0.10 |
11 | 1665 | 37.9 | 63103.5 | 2772225 | 1436.41 | 37.31 | 0.35 | 0.02 |
12 | 1666 | 36.6 | 60975.6 | 2775556 | 1339.56 | 37.34 | 0.55 | 0.02 |
13 | 1628 | 38.0 | 61864.0 | 2650384 | 1444.00 | 36.01 | 3.96 | 0.05 |
14 | 1604 | 32.7 | 52450.8 | 2572816 | 1069.29 | 35.17 | 6.10 | 0.08 |
15 | 2077 | 51.7 | 107380.9 | 4313929 | 2672.89 | 51.73 | 0.00 | 0.00 |
16 | 2071 | 55.3 | 114526.3 | 4289041 | 3058.09 | 51.52 | 14.33 | 0.07 |
Итого | 25678 | 563.2 | 932280.7 | 42029080 | 21004.96 | 563.21 | 194.66 | 1.34 |
Среднее | 1604.88 | 35.20 | 58267.54 | 2626817.50 | 1312.81 | 0.084 | ||
S | 226.26 | 8.59 | ||||||
S2 | 51193.73 | 73.77 |