Сетевая библиотекаСетевая библиотека

ОБРАЗЕЦ ЛАБОРАТОРНОЙ РАБОТЫ 1

Дата публикации: 14.03.2019
Тип: Текстовые документы DOCX
Размер: 1.09 Мбайт
Идентификатор документа: 38132767_496134549
Файлы этого типа можно открыть с помощью программы:
Microsoft Word из пакета Microsoft Office
Для скачивания файла Вам необходимо подтвердить, что Вы не робот

Предпросмотр документа

Не то что нужно?


Вернуться к поиску
Содержание документа


ОБРАЗЕЦ ЛАБОРАТОРНОЙ РАБОТЫ №1

Рассмотрим пример выявления зависимости затрат на ремонт оборудования (У) от срока его службы (Х).



Рис. 1. Поле корреляции зависимости затрат на ремонт оборудования (У) от срока его службы (Х).

Анализ рисунка 1 показывает наличие близкой к прямолинейной зависимости, так как точки расположены практически по прямой линии.

Прямолинейная форма зависимости у от х описывается уравнением прямой:

yx=a+bxТаблица 1 расчетная таблица

N п/п Затраты на ремонт (тыс. руб) У Срок службы оборудования (лет) Х у(у-ух)(у-ух)2 yi-yx/yi(у-у)21,5 4 16 6 2,25 0,875 0,625 0,391 9 0,417 1,44

2 5 25 10 4 1,484 0,516 0,266 4 0,258 0,49

1,4 5 25 7 1,96 1,484 -0,084 0,007 4 0,060 1,69

2,3 6 36 13,8 5,29 2,093 0,207 0,043 1 0,090 0,16

2,7 8 64 21,6 7,29 3,311 -0,611 0,373 1 0,226 1,97E-31

4 10 100 40 16 4,529 -0,529 0,280 9 0,132 1,69

2,3 8 64 18,4 5,29 3,311 -1,011 1,022 1 0,440 0,16

2,5 7 49 17,5 6,25 2,702 -0,202 0,041 0 0,081 0,04

6,6 11 121 72,6 43,56 5,138 1,462 2,137 16 0,222 15,21

1,7 6 36 10,2 2,89 2,093 -0,393 0,154 1 0,231 1

сумма 27 70 536 217,1 94,78 27,02 -0,02 4,715 46 2,156 21,88

средняя 2,7 7 53,6 21,71 9,478 2,702 -0,002 0,471 4,6 0,216 2,188

Определим параметры уравнения прямой на основе метода наименьших квадратов. Исходные данные и расчетные показатели представлены в таблице 1.

na+b1x=yax+b1x2=xy10a+70b=2770a+536b=217Представим эту систему в матричном виде:



===460

Определители и ∆b получаются заменой свободными членами элементов соответственно первого () и второго (b) столбцов. Получаем таким образом:

===-718

∆b===280

==-1,576

b=∆b∆=nxy-xynx2-xx=0,61

Решая систему уравнений, получаем уравнение прямой:

yx=a+bxОтсюда: y=-1,576+0,61xТакже коэффициент b можно рассчитать с помощью Мастера функций среди Статистических выбрать функцию ЛИНЕЙН и заполнить ее аргументы:

В таблицу заносятся значения Х и У

Конст – логическое значение (1 или 0), которое указывает на наличие или отсутствие свободного члена в уравнении; ставим 1;

Статистика – логическое значение (1 или 0), которое указывает, выводить дополнительную информацию по регрессионному анализу или нет; ставим 1.



Рис.2 Расчет коэффициента b с помощью функции ЛИНЕЙН

В Excel линия тренда может быть добавлена в диаграмму с областями гистограммы или в график. Для этого необходимо построить точечную диаграмму и добавить в нее линию тренда.



Рис.3. Добавление линии тренда в точечную диаграмму



Рис. 4 Теоретическое уравнение линейной регрессии

В уравнении регрессии параметр а0 показывает усредненное влияние на результативный признак неучтенных (невыделенных для исследования) факторов; параметр b=0,61 – коэффициент регрессии показывает, что с увеличением срока службы оборудования на 1 год затраты на ремонт возрастают на 0,61 тыс. руб.

Проверим параметры данного уравнения на типичность. Для этого, используя формулы, рассчитаем необходимые данные:

ma=4,715(10-2)∙53610∙46=0,829 mb=4,715(10-2)∙46=0,113ta=-1,5760,829=-1,901

tb=0,610,113=5,397Определим по специальным таблицам распределения Стьюдента (t – распределение): tk = 2,228

На уровне значимости =0,05 либо по таблице -критерия Стьюдента либо с помощью встроенной статистической функции СТЬЮДЕНТ.ОБР.2Х определим =2,228.



Рис. 5 Определение -критерия Стьюдента с помощью встроенной статистической функции СТЬЮДЕНТ.ОБР.2Х

Сравнение фактических и табличных значений t-критерия:

– 1,901 > 2,2 < 5,397

позволяет признать вычисленные по уравнению параметры:

а0 – нетипичным, b – типичным.

Далее произведем оценку практической значимости синтезированной модели:

y=-1,576+0,61xДля прямолинейной связи это выполняется посредством показателя коэффициента корреляции r. По формуле:

r=xy-x∙yσx∙σy=bσxσy=cov(x,y)σx∙σy=21,71-7∙2,72,145∙1,479=0,886σy=(y-y)2n=21,8810=2,188=1,479Полученная величина r = 0,886 означает, что в соответствии со шкалой Чеддока установленная по уравнению регрессии связь между сроком службы оборудования и затратами на ремонт высокая. Рассчитаем коэффициент детерминации r2 = 0,785, следовательно 78,5% общей вариации объясняется изменением факторного признака.

Оценка значимости коэффициента корреляции осуществляется по F-критерию. Фактическое значение этого критерия tr определяется по формуле

Fфакт=r21-r2n-2=0,7851-0,78510-2=29,21На уровне значимости 0,05 =5,31 определяем по таблице -критерия Фишера либо с помощью встроенной статистической функции F.ОБР.ПХ (рис.10).



Рис. 10. Диалоговое окно функции FРАСПОБР

Так как =5,31 <Fфакт =29,21 уравнение регрессии значимо при =0,05.

Среднюю ошибку аппроксимации определили по формуле:

ε=1nyi-yxyi∙100ε=1102,156*100=21,56%Средняя ошибка аппроксимации составляет 21,56%, что не допустимо велико.

Определим коэффициент эластичности по формуле:

Эхi=aixiyi=0,6172,7=1,579Коэффициент эластичности показывает, что при росте срока службы оборудования на 1% затраты на ремонт оборудования вырастут на 1,579%.

Таким образом, построенная нами модель зависимости У от Х: y=-1,576+0,61xна основе ее проверки по F-критерию в целом адекватна, но не все коэффициенты регрессии значимы (а0 – нетипичен). Такая модель может быть использована для практических целей, но не для осуществления прогнозов.

Реализация расчетов в Excel

Для расчета параметров уравнения линейной регрессии и проверки его адекватности исследуемому процессу Microsoft Excel располагает функцией Регрессия.

Для вызова этой функции необходим пакет статистического анализа. Пакет анализа представляет собой надстройку, т.е. программу, которая доступна при установке Microsoft Office или Excel. Чтобы использовать эту надстройку, необходимо сначала загрузить ее. Для этого:

на вкладке Меню выберите элемент Сервис, затем пункт Надстройки и установите флажок в окошке Пакет анализа, а затем нажмите кнопку ОК.

Для вызова функции Регрессия необходимо выбрать команду меню Данные → Анализ данных. На экране раскроется диалоговое окно Анализ данных, в котором следует выбрать значение Регрессия, в результате чего на экране появится диалоговое окно Регрессия, представленное на рис. 11.



Рис. 11 Окно для ввода параметров расчета линейной регрессии

В диалоговом окне Регрессия задаются следующие параметры.

В поле Входной интервал Y вводится диапазон ячеек, содержащих исходные данные по результативному признаку. Диапазон должен состоять из одного столбца.

В поле Входной интервал X вводится диапазон ячеек, содержащих исходные данные факторного признака. Максимальное число входных диапазонов (столбцов) равно 16.

Флажок Метки устанавливается в том случае, если первая строка во входном диапазоне содержит заголовок. Если заголовок отсутствует, этот флажок следует сбросить. В последнем случае для данных выходного диапазона будут автоматически созданы стандартные названия.

Флажок опции Уровень надежности устанавливается в том случае, если в расположенное рядом с флажком поле необходимо ввести уровень надежности, отличный от уровня 95%, применяемого по умолчанию. Установленный в данном поле уровень надежности используется для проверки значимости коэффициента детерминации и коэффициентов регрессии. Если данный флажок сброшен, в таблице параметров уравнения регрессии генерируются две одинаковые пары столбцов для границ доверительных интервалов.

Флажок Константа-ноль устанавливается в том случае, когда требуется, чтобы линия регрессии прошла через начало координат (т.е. b0 = 0).

Переключатель в группе Параметры вывода может быть установлен в одно из трех положений, определяющих, где должны быть размещены результаты расчета:Выходнойинтервал, Новый рабочий лист или Новая рабочая книга.

Флажок опции Остатки устанавливается в том случае, если в диапазон ячеек с выходными данными требуется включить столбец остатков.

Флажок опции Стандартизированные остатки устанавливается в том случае, если в диапазон ячеек с выходными данными требуется включить столбец стандартизированных остатков.

Флажок опции График остатков должен быть установлен, если на рабочий лист требуется вывести графики зависимости остатков от факторных признаков xt.

Флажок опции График подбора должен быть установлен, если на рабочий лист требуется вывести точечные графики зависимости теоретических результативных значений j от факторных признаков

Флажок опции График нормальной вероятности должен быть установлен, если на рабочий лист требуется вывести точечный график зависимости наблюдаемых значений у от автоматически формируемых интервалов персентелей.

Рассмотрим результаты решения рассмотренного нами примера:

Таблица 5 Вывод итогов

Регрессионная статистика Соответствие показателей

Множественный R 0,885 коэффициент корреляции r

R-квадрат 0,785 коэффициент детерминации r2

Нормированный R-квадрат 0,758 нормированное значение коэффициента корреляции

Стандартная ошибка 0,768 стандартное отклонение для остатков

Наблюдения 10 число исходных наблюдений

Таблица 6 Дисперсионный анализ

  dfSS MS F Значимость F

Регрессия 1 17,16543478 17,16543 29,1275 0,000648342

Остаток 8 4,714565217 0,589321 Итого 9 21,88    

Столбец df – число степеней свободы

Для строки Регрессия число степеней свободы определяется количеством факторных признаков т, для строки Остаток - числом наблюдений n и количеством переменных в уравнении регрессии т + 1: n - (т + 1), а для строки Итого - суммой степеней свободы для строк Регрессия и Остаток и, следовательно, равно n - 1.

Столбец SS - сумма квадратов отклонений.

Для строки Регрессия значение определяется как сумма квадратов отклонений расчетных данных от среднего. (yxi-у)2Для строки Остаток – это сумма квадратов отклонений фактических данных от теоретических (у-yxi)2Для строки Итого – это сумма квадратов отклонений расчетных данных от среднего (у-у)2.

Столбец MS содержит значения дисперсий:

Для строки Регрессия – это факторная дисперсия σух2=(yxi-y)2mДля строки Остаток – это остаточная дисперсия σε2=(y-yxi)2n-m-1Столбец F содержит расчетное значение F – критерия Фишера

Столбец Значимость F содержит значение уровня значимости, соответствующее вычисленному значению F.

Таблица 7 Результаты расчета параметров линейной модели

Коэффи-циентыСтандартная ошибка t-статистика P-Значение Нижние 95% Верхние 95%

Y-пере-сечение -1,576 0,829 -1,902 0,093685 -3,4869 0,3348

Х 0,611 0,113 5,397 0,000648 0,3498 0,8718

В таблице 7 представлены результаты расчета параметров модели и проведена оценка их надежности.

В столбце Коэффициенты представлены расчеты параметров уравнения а0 и b.

В столбце Стандартная ошибка представлены стандартные ошибки для полученных коэффициентов.

В столбце t-статистика представлены расчетные значения t-критерия Стьюдента

В столбце P-Значение получены значения уровней значимости, соответствующие вычисленным значениям t.

В столбце Нижние 95% и Верхние 95% - это нижние и верхние границы доверительных интервалов для коэффициентов регрессии.

Таким образом, расчеты, проведенные в Exel позволяют сделать следующие выводы относительно уравнения линейной регрессии:

У=-1,576+0,611х

Индекс корреляции r=0,89 указывает на наличие высокой тесноты связи (согласно шкалы Чеддока) между сроком службы оборудования (х) и затратами на его ремонт (у). Выборочный коэффициент детерминации r2=0,785 показывает, что 78,5% разброса зависимой переменной у объясняется зависимостью от срока службы оборудования.

F-критерий Фишера расчетный Fрасч=29,1, а Fтабл=5,31. Так как расчетное значение F-критерия выше F-табличного вычисленный коэффициент корреляции признается существенным.

Рассчитанный уровень значимости Fрасч= 0,001227<0,05 подтверждает статистическую значимость величины r2 (т.е. гипотеза Н0: r2=0 отвергается в пользу Н1: r2>0 при уровне значимости α=0,05). В этом случае говорят еще, что уравнение регрессии значимо в целом при а = 0,05.

Следующим этапом является проверка значимости коэффициентов регрессии а и b . При парном сравнении коэффициентов и их стандартных ошибок (табл. 7) можно сделать вывод, что вычисленный коэффициент b является статистически значимыми (т.е. гипотезы H : Р = 0 и H : р = 0 отвергаются). Этот вывод подтверждается величиной Р-значений коэффициента, который меньше уровня значимости а = 0,05. Доверительные интервалы с уровнем надежности У = 1 - а = 1 - 0,05 = 0,95 для теоретического коэффициента b равны соответственно и (0,366; 0,973). Последнее означает, что, основываясь на выборочных данных, можно утверждать о попадании неизвестных параметров b в указанные интервалы с вероятностью 0,95. Однако коэффициент а не является статистически значимым, так как величина Р-значений коэффициента, выше уровня значимости а = 0,05.

Аналогичные результаты дает t-критерий Стьюдента.

Определим по специальным таблицам распределения Стьюдента (t – распределение): tk = 2,2.

Сравнение фактических и табличных значений t-критерия:

– 1,9 > 2,2 < 5,4

позволяет признать вычисленные по уравнению параметры:

а0 – нетипичным, b – типичным.

Дадим экономическую интерпретацию. Коэффициент регрессии b=0,61 показывает, что при увеличении срока службы оборудования на 1 год затраты на ремонт увеличиваются на 0,61 тыс.руб.

Замечание. К экономической интерпретации коэффициента а следует относиться с известной долей осторожности, сообразуясь со здравым смыслом, поскольку выборочные данные находятся достаточно далеко от нуля. В ряде случаев ограничиваются интерпретацией коэффициента при объясняющей переменной.

Проверим наличие тесноты связи и регрессии с помощью парных нелинейных моделей.

Составим систему уравнений для нахождения параметров уравнения параболы второй степени yx = a+bx+cx2

Таблица 9 Вспомогательная таблица для расчета параметров уравнения параболы второй степени

х у х2 х3 xyx4 x2y уxiу-уxi(у-уxi)2 yi-yx/yi1 4 1,5 16 64 6 256 24 1,814 -0,314 0,099 0,209

2 5 2 25 125 10 625 50 1,665 0,335 0,112 0,167

3 5 1,4 25 125 7 625 35 1,665 -0,265 0,070 0,189

4 6 2,3 36 216 13,8 1296 82,8 1,768 0,532 0,283 0,231

5 8 2,7 64 512 21,6 4096 172,8 2,727 -0,027 0,001 0,010

6 10 4 100 1000 40 10000 400 4,692 -0,692 0,479 0,173

7 8 2,3 64 512 18,4 4096 147,2 2,727 -0,427 0,182 0,186

8 7 2,5 49 343 17,5 2401 122,5 2,122 0,378 0,143 0,151

9 11 6,6 121 1331 72,6 14641 798,6 6,052 0,548 0,300 0,083

10 6 1,7 36 216 10,2 1296 61,2 1,768 -0,068 0,005 0,040

∑ 70 27 536 4444 217,1 39332 1894,1 27 1,675 1,441

ср 7 2,7 53,6 444 21,71 3933,2 189,41 2,7 0,167 0,144

an+bx+cx2=yax+bx2+cx3=xyax2+bx3+cx4=x2y10a+70b+536c=2770a+536b+4444c=217,1536a+4444b+39332c=1894,1Найдем общий определитель матрицы

∆общ=10 70 53670 536 4444536 4444 39332=88464Найдем определитель матрицы a

∆а=27 70 536217,1 536 44441894,1 4444 39332=435628,8Найдем определитель матрицы b

∆b=10 27 53670 217,1 4444536 1894,1 39332=-113274Найдем определитель матрицы c

∆c=10 70 2770 536 217,1536 4444 1894,1=11122Определим параметры уравнения параболы второго порядка:

a=∆a∆=435628,888464=4,924b=∆b∆=-11327488464=-1,28

c=∆c∆=1112288464=0,126Таким образом, уравнение параболы примет вид:

y=4,924-1,28x+0,126x2Далее определим индекс корреляции

R=1-σε2σy2=1-0,1672,188=0,961Согласно шкалы Чеддока теснота связи весьма высокая, а коэффициент детерминации составит соответственно R2=0,924. Коэффициент детерминации используется для проверки существенности в целом уравнения регрессии по F – критерию Фишера.

F=Rxy21-Rxy2∙n-m-1m=0,9241-0,924∙10-2-12=42,55Сравним расчетное значение F-критерия Фишера с табличным Fкр=19,35 Так как расчетное больше табличного величина уравнения является существенной, следовательно его можно использовать в практических расчетах. Ошибка аппроксимации не превышает 15%, что свидетельствует о надежности построенной модели регрессии.

Определим среднюю ошибку аппроксимации:

ξ=1nyi-yxyi∙100=1101,44*100=14,4%

Рис. 12 Теоретическое распределение параболы второго порядка

Проведем расчет точечного и интервального прогнозов размера затрат на ремонт оборудования при сроке его эксплуатации 5 лет.

Подставим в полученное уравнение регрессии значение х=5, получим точечный прогноз:

y=4,924-1,28*5+0,126*52=1,674 тыс.рубОпределим среднюю ошибку прогнозируемого индивидуального значения

m=σε1+1n+(xпр-x)2nσx2=0,4091+110+(5-7)210∙4,6=0,445Определим предельную ошибку при уровне значимости 0,05 (tтабл=2,2), ∆=0,445*2,2=0,98

Упр-∆≤Упр≤Упр+∆1,674-0,98=0,694

1,674+0,98=2,654

Таким образом при сроке службы оборудования 5 лет затраты на их ремонт будут находиться в пределах от 0,694 до 2,654 тыс. руб при сроке службы оборудования 5 лет.

Рассмотрим решение поставленной задачи с помощью экспоненциальной зависимости.

Экспоненциальная регрессия:

Линеаризующее преобразование:

Таблица 10 Вспомогательная таблица для расчета параметров

уравнения экспоненциальной регрессии

х у ln y x lnyx2 уxiу-уxi(у-уxi)2yi-yx/yi1 4 1,5 0,405 1,622 16 1,352 0,148 0,022 0,099

2 5 2 0,693 3,466 25 1,640 0,359 0,129 0,180

3 5 1,4 0,336 1,682 25 1,640 -0,240 0,057 0,171

4 6 2,3 0,833 4,998 36 1,999 0,310 0,096 0,135

5 8 2,7 0,993 7,946 64 2,929 -0,229 0,053 0,085

6 10 4 1,386 13,863 100 4,312 -0,312 0,098 0,078

7 8 2,3 0,833 6,663 64 2,929 -0,629 0,396 0,274

8 7 2,5 0,916 6,414 49 2,414 0,086 0,007 0,034

9 11 6,6 1,887 20,758 121 5,232 1,368 1,871 0,207

10 6 1,7 0,531 3,184 36 1,999 -0,289 0,084 0,171

∑ 70 27 8,814 70,595 536 26,43 0,570 2,814 1,434

средние 7 2,7 0,881 7,06 53,6 2,64 0,057 0,281 0,143

b=10∙70,6-70∙8,81410∙536-702=0,193a=110∙8,814-110∙0,193∙70=-0,472Получаем уравнение y=e-0,472+0,193xДалее определим индекс корреляции

R=1-σε2σy2=1-0,2812,188=0,933Согласно шкалы Чеддока теснота связи весьма высокая, а коэффициент детерминации составит соответственно R2=0,871. Коэффициент детерминации используется для проверки существенности в целом уравнения регрессии по F – критерию Фишера.

F=Rxy21-Rxy2∙n-m-1m=0,8711-0,871∙10-2-12=23,63Сравним расчетное значение F-критерия Фишера с табличным Fкр=19,35. Так как расчетное больше табличного величина уравнения является существенной, следовательно его можно использовать в практических расчетах. Ошибка аппроксимации не превышает 15%, что свидетельствует о надежности построенной модели регрессии.

Определим среднюю ошибку аппроксимации:

ξ=1nyi-yxyi∙100=1101,43*100=14,3%

Рис. 12 Теоретическое распределение экспоненциальной зависимости

Проведем расчет точечного и интервального прогнозов размера затрат на ремонт оборудования при сроке его эксплуатации 5 лет.

Подставим в полученное уравнение регрессии значение х=5, получим точечный прогноз:

Получаем уравнение y=e-0,472+0,193x=e-0,472+0,193∙5=2,929Определим среднюю ошибку прогнозируемого индивидуального значения

m=σε1+1n+(xпр-x)2nσx2=0,2811+110+(5-7)210∙4,6=0,306Определим предельную ошибку при уровне значимости 0,05 (tтабл=2,2), ∆=0,306*2,2=0,673

Упр-∆≤Упр≤Упр+∆2,929-0,673=2,256

2,929+0,673=3,602

Таким образом при сроке службы оборудования 5 лет затраты на их ремонт будут находится в пределах от 2,256 до 3,602 тыс. руб при сроке службы оборудования 5 лет.

Сравним построенные модели по индексу детерминации и средней ошибке аппроксимации.

Таблица 11 Результаты сравнения различных моделей зависимости

Модель Коэффициент детерминации, R Средняя ошибка аппроксимации, %

линейная 0,785 21,56

парабола второго порядка 0,961 14,4

экспоненциальная 0,933 14,3

Наиболее адекватно описывает зависимость между сроком службы оборудования и затратами на ремонт модели параболы второго порядка и экспоненциальная регрессия.