Всё для Учёбы — студенческий файлообменник
1 монета
docx

Лабораторная № 2 «Автоматизированный корреляционно-регрессионный анализ взаимосвязи статистических данных в среде Excel» по Теории вероятностей и математической статистике (Пуляшкин В. В.)

Министерство образования и науки РФ

Федеральное агентство по образованию

Государственное образовательное учреждение

Высшего профессионального образования

Всероссийский заочный финансово-экономический институт

Филиал в г. Туле

О Т Ч Е Т

о результатах выполнения

компьютерной лабораторной работы №2

Автоматизированный корреляционно-регрессионный анализ взаимосвязи статистических данных в среде MS Excel

Вариант № 24

Выполнил: студент третьего курса

Факультета УС

Специальность БУА и А

Вечерняя группа №311

Проверил: Шелобаева И.С.

Тула, 2007 г.

1. Постановка задачи

Корреляционно-регрессионный анализ взаимосвязи признаков является составной частью проводимого статистического исследования двух экономических показателей статистической совокупности 32 предприятий и частично использует результаты Лабораторной работы № 1.

В Лабораторной работе № 2 изучается взаимосвязь между факторным признаком Среднегодовая стоимость основных производственных фондов (признак Х) и результативным признаком Выпуск продукции (признак Y), значениями которых являются исходные данные Лабораторной работы № 1 после исключения из них аномальных значений.

Исходные данные Таблица 1

Номер предприятия

Среднегодовая стоимость основных производственных фондов, млн.руб.

Выпуск продукции, млн. руб.

1 1394,00 1339,00

2 1641,00

1469,00 3 1693,00

1638,00 4 1784,00

1820,00 5 1160,00

910,00

6 1875,00 1560,00

7 1927,00 2106,00

8 1446,00 1430,00

9 1771,00

1677,00 10 2044,00

2093,00 11 2239,00

2210,00 13 1706,00

1742,00

14 1875,00 1898,00

15 2148,00 2301,00

16 2460,00 2470,00

17 1836,00

1664,00 18 2031,00

1976,00 19 1615,00

1235,00 20 2057,00

1690,00

21 2291,00 2275,00

22 1576,00 1287,00

23 1251,00 1209,00

24 2096,00

1937,00 25 1875,00

1690,00 26 1745,00

1599,00 27 1355,00

1040,00

28 1823,00 1625,00

29 2109,00 1781,00

30 2005,00 1690,00

32 1472,00

1508,00 В процессе статистического исследования необходимо решить ряд задач.

1. Установить наличие статистической связи между факторным признаком Х и результативным признаком Y:

а) графическим методом;

б) методом сопоставления параллельных рядов.

2. Установить наличие корреляционной связи между признаками Х и Y методом аналитической группировки.

3. Оценить тесноту связи признаков Х и Y на основе:

а) эмпирического корреляционного отношения ;

б) линейного коэффициента корреляции r.

4. Построить однофакторную линейную регрессионную модель связи признаков Х и Y, используя инструмент Регрессия надстройки Пакет анализа.

5. Оценить адекватность и практическую пригодность построенной линейной регрессионной модели, указав:

а) доверительные интервалы коэффициентов а0, a1 ;

б) степень тесноты связи признаков Х и Y;

в) погрешность регрессионной модели.

6. Дать экономическую интерпретацию:

а) коэффициента регрессии a1;

б) коэффициента эластичности КЭ;

в) остаточных величин ? i.

7. Найти наиболее адекватное нелинейное уравнение регрессии с помощью средств инструмента Мастер диаграмм. Построить для этого уравнения теоретическую кривую регрессии.

2. Расположение рабочего файла с результативными таблицами и графиками

Таблица 2.1

Номер варианта

Исходные данные

24 Номер предприятия

Среднегодовая стоимость основных производственных фондов, млн.руб.

Выпуск продукции, млн. руб.

5 1160,00 910,00

23 1251,00 1209,00

27 1355,00 1040,00

1

1394,00 1339,00

8 1446,00 1430,00

32 1472,00 1508,00

22

1576,00 1287,00

19 1615,00 1235,00

2 1641,00 1469,00

3

1693,00 1638,00

13 1706,00 1742,00

26 1745,00 1599,00

9

1771,00 1677,00

4 1784,00 1820,00

28 1823,00 1625,00

17

1836,00 1664,00

6 1875,00 1560,00

14 1875,00 1898,00

25

1875,00 1690,00

7 1927,00 2106,00

30 2005,00 1690,00

18

2031,00 1976,00

10 2044,00 2093,00

20 2057,00 1690,00

24

2096,00 1937,00

29 2109,00 1781,00

15 2148,00 2301,00

11

2239,00 2210,00

21 2291,00 2275,00

16 2460,00 2470,00

Таблица 2.2

Зависимость выпуска продукции от среднегодовой стоимости основных фондов

Номер группы

Группы предприятий по стоимости основных фондов

Число предприятий в группе

Выпуск продукции

Всего

В среднем на одно предприятие

1 1160-1420

4 4498,00 1124,500

2 1420-1680 5 6929,00

1385,800 3 1680-1940

11 19019,00

1729,000 4 1940-2200

7 13468,00 1924,000

5 2200-2460 3 6955,00

2318,333

Итого 30

50869,00 8481,633

Таблица 2.3

Показатели внутригрупповой вариации

Номер группы

Группы предприятий по стоимости основных фондов

Число предприятий в группе

Внутригрупповая дисперсия Y

1 1160-1420 4

26575,250 2 1420-1680

5 11262,160 3

1680-1940

11 22922,545 4

1940-2200 7 43360,571

5 2200-2460 3

12205,556

Итого 30

116326,082

Таблица 2.4

Показатели дисперсии и эмпирического корреляционного отношения

Общая дисперсия

Средняя из внутригрупповых дисперсия

Факторная дисперсия

Эмпирическое корреляционное отношение

136007,632

25163,349 110844,283

0,903

Таблица 2.5

Линейный коэффициент корреляции признаков

Столбец 1

Столбец 2

Столбец 1

1

Столбец 2

0,91318826 1

ВЫВОД ИТОГОВ

Таблица 2.6

Регрессионная статистика

Множественный R

0,91318826

R-квадрат

0,833912798

Нормированный R-квадрат

0,827981112

Стандартная ошибка

155,5719645

Наблюдения

30

Дисперсионный анализ

Таблица 2.7

df SS MS F

Регрессия

1 3402555,155

3402555,155 140,5861384

Остаток 28

677673,8119 24202,63614

Итого

29 4080228,967

Таблица 2.8

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Y-пересечение

-276,0995442

168,7023428 -1,636607647

0,112904938 Переменная X 1

1,089355181 0,09187519

11,85690257

1,97601E-12

ВЫВОД ОСТАТКА

Таблица 2.9

Наблюдение

Предсказанное Y

Остатки

1 987,5524657

-77,55246572

2 1086,683787

122,3162128 3

1199,976726 -159,976726

4

1242,461578 96,53842194

5 1299,108047

130,8919525 6

1327,431282

180,5687178 7

1440,724221 -153,724221

8 1483,209073

-248,209073

9 1511,532308

-42,53230775

10 1568,178777 69,82122284

11

1582,340395 159,6596055

12 1624,825247

-25,82524657

13 1653,148481

23,85151872 14

1667,310099 152,6899014

15 1709,794951

-84,79495069

16 1723,956568

-59,95656804

17 1766,44142 -206,4414201

18

1766,44142 131,5585799

19 1766,44142

-76,4414201 20

1823,08789

282,9121105 21

1908,057594 -218,0575936

22 1936,380828

39,61917168

23 1950,542446

142,4575543 24

1964,704063 -274,704063

25

2007,188915 -70,18891509

26 2021,350532

-240,3505324

27 2063,835384

237,1646155 28

2162,966706 47,03329404

29 2219,613175

55,38682463

30 2403,714201

66,28579905

Рис. 1

3.Выводы по результатам выполнения лабораторной работы.

Задача 1. Установление наличия статистической связи между факторным признаком X и результативным признаком Y графическим методом и методом сопоставления параллельных рядов.

Статистическая связь является разновидностью стохастической (случайной) связи, при которой с изменением факторного признака закономерным образом изменяется какой-либо из обобщающих статистических показателей распределения результативного признака.

По точечному графику связи признаков - диаграмме рассеяния, полученной в Лабораторной работы №1 после удаления аномальных значений, можно судить о тесной связи между признаками, т.к. точки на графике близко расположены и группируются вокруг определенной линии - линии регрессии (рис. 3). Этот точечный график связи признаков и табл.2.1, представляющая два параллельных ряда значений признаков X и Y с ранжированными значениями Xj показывают, что с увеличением значений факторного признака X увеличиваются значения результативного признака Y. Это позволяет сделать вывод, что имеет место статистическая связь.

На основе точечного графика и таблицы 2.1 можно сказать, что связь между X и Y линейная прямая.

Задача 2. Установление наличия корреляционной связи между признаками X и Y методом аналитической группировки.

Корреляционная связь - важнейший частный случай статистической связи, когда под воздействием вариации факторного признака X закономерно изменяются средние значения результативного признака. Для выявления наличия корреляционной связи используется метод аналитической группировки.

Вывод:

Результаты выполнения аналитической группировки предприятий по факторному признаку Среднегодовая стоимость основных производственных фондов даны в таблице 2.2. Таблица показывает, что с увеличением факторного признака X увеличиваются средние значения результативного признака. Это свидетельствует о наличии корреляционной связи между признаками X и Y.

Задача 3.Произведем оценку тесноты связи признаков X и Y:

а) на основе эмпирического корреляционного отношения.

Расчет - эмпирического корреляционного отношения, для анализа тесноты связи между факторным X и результативным Y признаками производят по формуле:

где и - соответственно межгрупповая и общая дисперсии результативного признака.

Результат расчета представлен в таблице 2.4.

Вывод: Значение коэффициента = 0,903. Это в соответствии с оценочной шкалой Чэддока говорит о весьма высокой степени связи изучаемых признаков (0,9?= 0,903?0,99).

б) на основе линейного коэффициента корреляции признаков:

В предположении, что связь между факторным X и результативным Y признаками прямолинейная, произведем оценку тесноты связи на основе линейного коэффициента корреляции r. Результат расчета r представлен в таблице 2.5.

Вывод:

Значение коэффициента корреляции r = 0,913. Это в соответствии с оценочной шкалой Чэддока говорит о весьма высокой степени связи изучаемых признаков (0,9? r = 0,913?0,99).

Так как значение коэффициента корреляции г положительное, то можно сказать, что связь между признаками прямая.

Если | |?0,1, то зависимость признака Y от фактора X можно считать прямолинейной.

Вывод:

При = 0,903, r = 0,913, | |? |0,815 - 0,834| = 0,019 , следовательно, зависимость признака Y от фактора X можно считать прямолинейной.

Задача 4. Построение однофакторной линейной регрессионной модели связи изучаемых признаков с помощью инструмента Регрессия надстройки Пакет анализа.

Построение регрессионной модели заключается в определении аналитического выражения связи между факторным признаком X и результативным признаком Y.

Инструмент Регрессия производит расчет параметров а0 и a1 уравнения однофакторной линейной регрессии = а0+а1х, а также вычисление показателей для проверки адекватности построенного уравнения фактическим данным.

В результате работы инструмента Регрессия надстройки Пакет анализа были получены четыре результативные таблицы 2.6 - 2.9.

Вывод:

Рассчитанные в табл.2.8 (ячейки В91 и В92) коэффициенты а0 и a1 позволяют построить однофакторную линейную регрессионную модель связи изучаемых признаков в виде уравнения = -276,0995 + 1,0894х

Задача 5. Оценка адекватности и практической пригодности построенной линейной регрессионной модели.

Анализ адекватности регрессионной модели преследует цель оценить, насколько построенная теоретическая модель взаимосвязи признаков отражает фактическую зависимость между этими признаками, и тем самым оценить практическую пригодность синтезированной модели связи.

а) Укажем доверительные интервалы коэффициентов уравнения регрессии а0, a1 :

Доверительные интервалы коэффициентов уравнения регрессии а0, a1 при уровнях надежности Р=0,95 и Р=0,683, рассчитанные при помощи инструмента Регрессия надстройки Пакет анализа (см. табл. 2.8), приведены в следующей таблице:

Таблица 2.10

Коэффициенты

Границы доверительных интервалов, млн. руб.

с надежностью Р=0,95

с надежностью Р=0,683

нижняя

верхняя нижняя

верхняя а0

-621,671 69,472

-447,981

-104,218 ai 0,901

1,278 0,996 1,183

Вывод: Из таблицы видно, что увеличение уровня надежности ведет к расширению доверительных интервалов коэффициентов уравнения.

б) Оценка степени тесноты связи признаков X и Y осуществляется на основе следующих показателей:

R2 - индекс детерминации (), показывающий какая часть общей вариации расчетных (теоретических) значений признака Y объясняется вариацией фактора X;

R - индекс корреляции (), оценивающий степень тесноты связи между факторными значениями хi и расчетными результативными значениями;

r - линейный коэффициент корреляции, используемый для измерения тесноты связи признаков в регрессионной модели в случае линейной функции связи f(x).

В результате работы инструмента Регрессия надстройки Пакет анализа рассчитаны эти показатели (см. табл. 2.6): R2 = 0,834; R = 0,913; r = 0,913.

Т.к. эти значения удовлетворяют неравенству R2 > 0,5 и отсюда R > 0,7 (или | r | > 0,7), это означает высокую степень тесноты связи признаков в уравнении регрессии. При этом более 50% вариации расчетных значений признака Y объясняется влиянием фактора X, что позволяет считать применение синтезированного уравнения регрессии правомерным.

в) Оценку погрешности регрессионной модели можно произвести по величине средней квадратической ошибки построенного уравнения регрессии.

В адекватных моделях ошибка не должна превышать 12%-15%.

Значение приводится в четвертой строке таблицы 2.6 "Регрессионная Статистика", значение - в таблице описательных статистик (Лабораторная работа №1, табл.3).

Вывод:

Погрешность линейной регрессионной модели составляет 9,17 % (155,572/1695,633*100). Это значение не превышает 12%-15%, что подтверждает адекватность модели.

Практическая пригодность построенной линейной регрессионной модели оценивается по величине показателей r, R2 или R.

Показатель R близок к единице (R = 0,913), это означает, что связь между признаками достаточно хорошо описывается избранным уравнением корреляционной зависимости = а0+а1х.

Показатель |r| так же близок к единице (r = 0,913), это свидетельствует о хорошей аппроксимации фактических данных полученной линейной функцией связи = а0+а1х.

Пригодность построенной регрессионной модели для практического использования можно оценить и по величине индекса детерминации R2:

Показатель R2 = 0,834 > 0,5 , и отсюда R > 0,7 (или | r | > 0,7), это означает высокую степень тесноты связи признаков в уравнении регрессии. При этом более 50% вариации расчетных значений признака Y объясняется влиянием фактора X, что позволяет считать применение синтезированного уравнения регрессии правомерным.

Все эти показатели свидетельствуют о пригодности построенной линейной регрессионной модели для практического использования.

Задача 6.

а) Экономическая интерпретация коэффициента регрессии a1.

В случае линейного уравнения регрессии = а0+а1х величина коэффициента регрессии a1 показывает, на сколько в среднем (в абсолютном выражении) изменяется значения результативного признака Y при изменении фактора X на единицу его измерения. Знак при a1 показывает направление этого изменения.

Вывод: Коэффициент регрессии a1 = 1,089 показывает, что при увеличении стоимости основных фондов на 1 млн. руб., выпуск продукции увеличится в среднем на 1,089 млн. руб.

б) Экономическая интерпретация коэффициента эластичности КЭ.

С целью расширения возможностей экономического анализа используется коэффициент эластичности КЭ = a1 , который показывает, на сколько процентов изменяется в среднем результативный признак при изменении факторного признака на 1%.

Средние значения признаков X и Y даны в таблице описательных статистик (Лабораторная работа №1, табл.3)

Вывод:

Коэффициента эластичности КЭ = 1,162 (1,089 * 1810/1695,633), показывает, что при увеличении среднегодовой стоимости основных фондов на 1% выпуск продукции возрастет в среднем на 1,16%.

в) Экономическая интерпретация остаточных величин ? i .

Каждый их остатков ? i = характеризует отклонение i-тых наблюдений от значений , рассчитанных по регрессионной модели, которые следует ожидать в среднем.

Значения остатков ? i представлены в таблице 2.9.

Экономический интерес представляют наибольшие и наименьшие отклонения от среднего объема как в положительную, так и в отрицательную сторону.

Вывод: Согласно таблице остатков, в построенной линейной регрессионной модели наибольшее превышение среднего объема выпускаемой продукции имеют три предприятия - с номерами 20, 27, 6; а наибольшие отрицательные отклонения от среднего объема выпуска - три предприятия с номерами 24, 8, 26 (см. табл. 2.9). Именно эти шесть предприятий подлежат дальнейшему экономическому анализу для выяснения причин наибольших отклонений объема выпускаемого продукта от ожидаемого среднего объема.

Задача 7.

Нахождение наиболее адекватного нелинейного уравнения регрессии с помощью средств инструмента Мастер диаграмм. Построение для этого уравнения теоретической кривой регрессии.

Уравнения регрессии и их графики построены для 4-х видов нелинейной зависимости между признаками и представлены на рис. 2.

Рис. 2

Уравнения регрессии и соответствующие им индексы детерминации R2 приведены в следующей таблице:

Регрессионные модели связи Таблица 2.11

Вид уравнения

Уравнение регрессии

Индекс детерминации R2

Полином 2-го порядка

= 0,0001x2 + 0,6718x + 85,905

R2 = 0,8353

Полином 3-го порядка

= 5E-07x3 - 0,0024 x2 + 5,0218x - 2400,4

R2 = 0,8381 Степенное

= 0,251x1,1746

R2 = 0,8371 Экспоненциальное

= 487,96e0,0007x

R2 = 0,8272 Выбор наиболее адекватного уравнения регрессии определяется максимальным значением индекса детерминации R2: чем ближе значение R2 к единице, тем более точно регрессионная модель соответствует фактическим данным.

Вывод:

Максимальное значение индекса детерминации R2 = 0,8381, следовательно наиболее адекватное нелинейное уравнение регрессии полином 3-его порядка ( = 5E-07x3 - 0,0024 x2 + 5,0218x - 2400,4).

Это уравнение и его график приведены на рис.3

Рис. 3

7

Показать полностью…
Похожие документы в приложении