Всё для Учёбы — студенческий файлообменник
1 монета
docx

Лабораторная № 2 «Автоматизированный корреляционно-регрессионный анализ взаимосвязи статистических данных в среде Excel» по Теории вероятностей и математической статистике (Пуляшкин В. В.)

ВСЕРОССИЙСКИЙ ЗАОЧНЫЙ ФИНАНСОВО-ЭКОНОМИЧЕСКИЙ ИНСТИТУТ

КАФЕДРА СТАТИСТИКИ

ОТЧЕТ

О результатах выполнения компьютерной лабораторной работы № 2

"Автоматизированный корреляционно-регрессионный анализ взаимосвязи статистических данных в среде MS Excel"

Вариант № 93

Выполнила: Катаева Евгения

Студентка 3 курса (ФНО), 5 гр. (ЭГ)

Специальность: "Бух. учет, анализ и аудит"

Номер зачетной книжки: 06УБД44093

Проверила: Брыкина Г. С.

Омск - 2009

Постановка задачи.

В процессе статистического исследования необходимо решить ряд задач.

1. Установить наличие статистической связи между факторным признаком X и результативным признаком Y:

а) графическим методом;

б) методом сопоставления параллельных рядов.

2. Установить наличие корреляционной связи между признаками X и Y методом аналитической группировки.

3. Оценить тесноту связи признаков X и Y на основе:

а) эмпирического корреляционного отношения ;

б) линейного коэффициента корреляции .

4. Построить однофакторную линейную регрессионную модель связи признаков X и Y, используя инструмент Регрессия надстройки Пакета анализа.

5. Оценить адекватность и практическую пригодность построенной линейной регрессионной модели, указав:

а) доверительные интервалы коэффициентов ;

б) степень тесноты связи признаков X и Y;

в) погрешность регрессионной модели.

6. Дать экономическую интерпретацию:

а) коэффициента регрессии ;

б) коэффициента эластичности ;

в) остаточных величин .

7. Найти наиболее адекватное нелинейное уравнение регрессии с помощью средств инструмента Мастер диаграмм. Построить для этого уравнения теоретическую кривую регрессии.

Исходные данные представлены в таблице 1.

Номер предприятия

Среднегодовая стоимость основных производственных фондов, млн. руб.

Выпуск продукции, млн. руб.

1 2960,00

2832,50 2 3482,50

3107,50 3 3592,50

3465,00 4 3785,00

3850,00

5 2465,00 1925,00

6 3977,50 3300,00

7 4087,50 4455,00

8 3070,00

3025,00 9 3757,50

3547,50 10 4335,00

4427,50 11 4747,50

4675,00

13 3620,00 3685,00

14 3977,50 4015,00

15 4555,00 4867,50

16 5215,00

5225,00 17 3895,00

3520,00 18 4307,50

4180,00 19 3427,50

2612,50

20 4362,50 3575,00

21 4857,50 4812,50

22 3345,00 2722,50

23 2657,50

2557,50 24 4445,00

4097,50 25 3977,50

3575,00 26 3702,50

3382,50

27 2877,50 2200,00

28 3867,50 3437,50

29 4472,50 3767,50

30 4252,50

3575,00 32 3125,00

3190,00 Таблица 1. Исходные данные после удаления аномальных значений.

Исходные данные

Номер предприятия

Среднегодовая стоимость основных производственных фондов, млн.руб.

Выпуск продукции, млн. руб.

1 2960,00 2832,50

5 2465,00

1925,00 23 2657,50

2557,50 27 2877,50

2200,00 8 3070,00

3025,00

32 3125,00 3190,00

22 3345,00 2722,50

19 3427,50 2612,50

2 3482,50

3107,50 3 3592,50

3465,00 13 3620,00

3685,00 26 3702,50

3382,50

9 3757,50 3547,50

4 3785,00 3850,00

28 3867,50 3437,50

17 3895,00

3520,00 6 3977,50

3300,00 14 3977,50

4015,00 25 3977,50

3575,00

7 4087,50 4455,00

30 4252,50 3575,00

18 4307,50 4180,00

10 4335,00

4427,50 20 4362,50

3575,00 24 4445,00

4097,50 29 4472,50

3767,50

15 4555,00 4867,50

11 4747,50 4675,00

21 4857,50 4812,50

16 5215,00

5225,00 Таблица 2.1. Сгруппированные исходные данные.

Таблица 2.2

Зависимость выпуска продукции от среднегодовой стоимости основных фондов

Номер группы

Группы предприятий по стоимости основных фондов

Число предприятий

Выпуск продукции

Всего

В среднем

на одно предприятие

1 2465 - 3015 4

9515,00

2378,75 2 3015 - 3565

5 14657,50 2931,50

3 3565 - 4115 11

40232,50

3657,50 4 4115 - 4665

7 28490,00 4070,00

5 4665 - 5215 3

14712,50

4904,17 Итого

- 30 107607,50

3586,916667 Таблица 2.2. Зависимость выпуска продукции от среднегодовой стоимости основных фондов.

Таблица 2.3

Показатели внутригрупповой вариации

Номер группы

Группы предприятий по стоимости основных фондов

Число предприятий

Внутригрупповая дисперсия

1 2465 - 3015 4

118920,31 2 3015 - 3565

5 50396,50

3 3565 - 4115 11

102575,00 4 4115 - 4665

7 194032,14 5 4665 - 5215

3 54618,06

Итого 30

520542,01 Таблица 2.3. Показатели внутригрупповой вариации.

Таблица 2.4

Показатели дисперсии и эмпирического корреляционного отношения

Общая дисперсия

Средняя из внутригрупповых дисперсия

Межгрупповая дисперсия

Эмпирическое корреляционное отношение

608614,0347

112602,2639 496011,7708

0,902765617 Таблица 2.4. Показатели дисперсии и эмпирического корреляционного отношения.

Таблица 2.5

Линейный коэффициент корреляции признаков

Столбец 1

Столбец 2

Столбец 1

1 Столбец 2

0,91318826 1 Таблица 2.5. Линейный коэффициент корреляции признаков.

Выходные таблицы:

ВЫВОД ОСТАТКА

Наблюдение

Предсказанное Y

Остатки 1

2628,284107 204,2158926

2 2089,053293

-164,0532929 3 2298,754165

258,7458348 4 2538,412305

-338,412305 5 2748,113177

276,8868227

6 2808,027712 381,9722877

7 3047,685852 -325,1858521

8 3137,557655 -525,0576545

9 3197,472189

-89,97218948 10

3317,301259 147,6987406

11 3347,258527 337,7414731

12 3437,130329

-54,63032929 13

3497,044864 50,45513576

14 3527,002132 322,9978683

15 3616,873934

-179,3739341 16

3646,831202 -126,8312016

17 3736,703004 -436,703004

18 3736,703004

278,296996 19 3736,703004

-161,703004 20 3856,532074

598,467926 21 4036,275679

-461,2756788

22 4096,190214 83,80978624

23 4126,147481 301,3525188

24 4156,104749 -581,1047487

25 4245,976551

-148,4765511 26

4275,933819 -508,4338186

27 4365,805621 501,694379

28 4575,506493

99,49350662 29 4695,335563

117,1644367 30 5084,78004

140,2199595 Диаграмма 1. Переменная Х 1 график подбора.

Диаграмма 2. Уравнения регрессии и их графики.

Диаграмма 3. Наиболее адекватное уравнение регрессии и его график.

Выводы: 1. а) Чтобы осуществить графическое представление связи между факторным признаком X и результативным признаком Y необходимо найти середины интервалов группировки для сгруппированных факторных значений. Сгруппированные факторные значения и соответствующие средние групповые значения представлены в таблице 2. 2.

Группы предприятий по стоимости основных фондов

Середины интервалов группировки

2465 - 3015 2740

3015 - 3565 3290

3565 - 4115 3840

4115 - 4665

4390 4665 - 5215

4940 Таблица 3.1. Середины интервалов группировки для сгруппированных факторных значений.

Диаграмма 4. Корреляционное поле и эмпирическая линия связи.

1. б) Метод сопоставления параллельных рядов.

Сопоставим ряду среднегодовой стоимости ОПФ, расположенному в порядке возрастания, ряд выпуска продукции (результативный признак).

Среднегодовая стоимость основных производственных фондов, млн. руб.

Выпуск продукции, млн. руб.

2465,00

1925,00 2657,50

2557,50 2877,50

2200,00 2960,00

2832,50

3070,00 3025,00

3125,00 3190,00

3345,00 2722,50

3427,50

2612,50 3482,50

3107,50 3592,50

3465,00 3620,00

3685,00

3702,50 3382,50

3757,50 3547,50

3785,00 3850,00

3867,50

3437,50 3895,00

3520,00 3977,50

3300,00 3977,50

4015,00

3977,50 3575,00

4087,50 4455,00

4252,50 3575,00

4307,50

4180,00 4335,00

4427,50 4362,50

3575,00 4445,00

4097,50

4472,50 3767,50

4555,00 4867,50

4747,50 4675,00

4857,50

4812,50 5215,00

5225,00 Таблица 3.2. Первичные данные статистического наблюдения.

Вывод. Точки на корреляционном поле группируются вокруг определенной линии, выражающей форму связи. Таким образом, по виду корреляционного поля и эмпирической линии связи можно сделать вывод, что с ростом значений фактора X также закономерно возрастают средние значения результативного признака Y. Таким образом, существует статистическая связь между факторным признаком X и результативным признаком Y.

Методом сопоставления параллельных рядов наличие статистической связи в данном случае, четко не прослеживается.

2. В результате расчетов была получена аналитическая группировка и групповые средние результативного признака Y, которые приведены в таблице 2.2. Из нее видно, что с ростом значений фактора X также закономерно возрастают групповые средние значения результативного признака Y. Поскольку закономерно меняется средняя величина, то статистическая связь является корреляционной.

3. Значение эмпирического корреляционного отношения получено в таблице 2.4. и составляет 0,903. Это значение достаточно близко к единице, поэтому корреляционная связь обладает весьма высокой теснотой (по шкале Чэддока).

Значение линейного коэффициента корреляции, было получено в таблице 2.5. и равно 0, 913. Это еще раз подтверждает весьма высокую тесноту корреляционной связи. И так как линейный коэффициент корреляции имеет положительное значение, связь между признаками является прямой.

4. Однофакторная линейная регрессионная модель связи признаков X и Y представлена в выходных таблицах.

Уравнение парной линейной корреляционной связи имеет вид:

, где - расчетное теоретическое значение результативного признака Y, полученное по уравнению регрессии;

- коэффициенты уравнения регрессии (параметры связи).

Подставим полученные коэффициенты в уравнение:

Это уравнение показывает вариацию (среднее изменение) признака Y на единицу вариации фактора X.

Т.к. > 0, - увеличение признака X приводит к увеличению среднего изменения признака Y.

5. А) Основываясь на данных, полученных в выходных таблицах, запишем

доверительные интервалы для коэффициентов регрессии , рассчитанные для уровня надежности P=0, 95:

(-1329,3; 136,88)

(0,901; 1,278) Доверительные интервалы для коэффициентов регрессии , рассчитанные для уровня надежности P=0,683:

(-960,83; -231,58)

(0,996; 1,18). Б) Возьмем из выходной таблицы значения r , R:

r = 0, 913, R= 0, 834.

Близость к единице свидетельствует о хорошей аппроксимации фактических данных полученной линейной функцией связи .

R> 0, 5, что означает высокую степень тесноты связи признаков в уравнении регрессии. Это позволяет считать применение уравнения регрессии правомерным.

Оценим адекватность построенной регрессионной модели.

Рассчитаем фактическое значение t-критерия Стьюдента по формуле:

Сравним полученное фактическое значение t-критерия Стьюдента с критическим, определяемым по таблице значений t-критерия Стьюдента с учетом заданного уровня значимости и числа степеней свободы k = n - 2.

= 0,05

, т.к. 12,069 >2,0484.

Следовательно, величина коэффициента корреляции признается значимой.

Для оценки значимости индекса корреляции R применяется F-критерий Фишера , фактическое значение которого определяется по формуле:

Где m - число параметров уравнения регрессии. В нашем примере m=2.

Сравним расчетную величину с критическим табличным значением (), которое определяется по таблице F-критерия с учетом принятого уровня значимости и числа степеней свободы и .

, т.к. 140,675 >4,20.

Следовательно, величина найденного индекса корреляции R признается значимой.

Значимость показателя тесноты связи R или r означает, что зависимость между признаками X и Y регрессионной модели является статистически существенной, т.е. построенная модель адекватна исследуемому процессу. Таким образом, выводы, сделанные на основе регрессионной модели, построенной по данным ограниченной выборки, можно с достаточной вероятностью распространить на всю генеральную совокупность.

В) Средняя квадратическая ошибка уравнения регрессии представляет собой среднее квадратическое отклонение эмпирических значений признака Y от теоретических. По выходной таблице ее значение = 329, 095.

< 12% - значит, модель адекватна.

Основываясь на данных таблицы "вывод остатка" рассчитаем среднюю ошибку аппроксимации по формуле:

= 8,058% < 12%, что подтверждает адекватность модели.

6. А) При возрастании среднегодовой стоимости ОПФ на 1 млн. руб. выпуск продукции увеличивается на 1,089 млн. руб.

Б) Рассчитаем коэффициент эластичности:

Э = Таким образом, при изменении среднегодовой стоимости ОПФ на 1%, выпуск продукции в среднем изменяется на 1,166%.

В) Предприятия, имеющие наибольшие положительные остатки 21 и 27 (номера предприятий приведены по таблице остатков), они обеспечивают наибольшее повышение среднего выпуска продукции. Эти предприятия представляют наибольший экономический интерес.

Предприятия, имеющие наибольшие отрицательные остатки 8, 24, 26, они снижают величину среднего выпуска продукции. Эти предприятия относятся к числу отстающих предприятий.

7. Наиболее адекватное нелинейное уравнение регрессии найдено с помощью средств инструмента Мастер диаграмм и имеет вид: y = -5E-07x + 0,0052x - 17,166x + 20438. Эта модель имеет наибольшее значение показателя R.Теоретическая кривая регрессии изображена на диаграмме №3. Эта функция лучше других выражает реально существующую связь между признаками, обеспечивает наилучшее приближение и достаточную статистическую достоверность и надежность.

5

Показать полностью…
Похожие документы в приложении