Всё для Учёбы — студенческий файлообменник
1 монета
docx

Студенческий документ № 075955 из МГГЭУ (бывш. МГГЭИ, МГСГИ)

1. Вероятностью события А называют отношение числа благоприятствующих этому событию исходов к общему числу всех равновозможных несовместных элементарных исходов, образующих полную группу. Итак, вероятность события А определяется формулой

Р (A) = m / n,

где m - число элементарных исходов, благоприятствующих A; n - число всех возможных элементарных исходов испытания.

Вероятность - численная характеристика реальности появления того или

иного события.

2. Случайной называют величину, которая в результате испытания примет одно и только одно возможное значе­ние, наперед не известное и зависящее от случайных причин, которые заранее не могут быть учтены.

Дискретной (прерывной) называют случайную величину, которая принимает отдельные, изолированные возможные значения с определенными вероятностями. Число возможных значений дискретной случайной величины может быть конечным или бесконечным. Дадим более точное определение :

Дискретной случайной величиной (ДСВ) называют такую величину, множество значений которой либо конечное, либо бесконечное, но счетное.

Непрерывной случайной величиной (НСВ) называют случайную величину, которая может принимать все значения из некоторого конечного или бесконечного промежутка. Множество возможных значений непрерывной случайной величины бесконечно и несчетно.

3. функция распределения содержит полную информацию о случайной величине. На практике функцию распределения не всегда можно установить; иногда такого исчерпывающего знания и не требуется. Частичную информацию о случайной величине дают числовые характеристики, которые в зависимости от рода информации делятся на следующие группы.

1. Характеристики положения случайной величины на числовой оси (мода Мo, медиана Мe, математическое ожидание М(Х)).

2. Характеристики разброса случайной величины около среднего значения (дисперсия D(X), среднее квадратическое отклонение ?(х)).

3. Характеристики формы кривой y = ?(x) (асимметрия As, эксцесс Ех).

Рассмотрим подробнее каждую из указанных характеристик.

Математическое ожидание случайной величины Х указывает некоторое среднее значение, около которого группируются все возможные значения Х. Для дискретной случайной величины, которая может принимать лишь конечное число возможных значений, математическим ожиданием называют сумму произведений всех возможных значений случайной величины на вероятность этих значений:

. (2.4)

Для непрерывной случайной величины Х, имеющей заданную плотность распределения ?(x) математическим ожиданием называется следующий интеграл:

. (2.5)

Здесь предполагается, что несобственный интеграл сходится абсолютно, т.е. существует.

Свойства математического ожидания:

1. М(С) = C, где С = const;

2. M(C•Х) = С•М(Х);

3. М(Х ± Y) = М(Х) ± М(Y), где X и Y - любые случайные величины;

4. М(Х•Y)=М(Х)•М(Y), где X и Y - независимые случайные величины.

Две случайные величины называются независимыми, если закон распределения одной из них не зависит от того, какие возможные значения приняла другая величина.

Модой дискретной случайной величины, обозначаемой Мо, называется ее наиболее вероятное значение (рис. 2.3), а модой непрерывной случайной величины - значение, при котором плотность вероятности максимальна (рис. 2.4).

Рис. 2.3 Рис. 2.4

Медианой непрерывной случайной величины Х называется такое ее значение Ме, для которого одинаково вероятно, окажется ли случайная величина меньше или больше Ме, т.е.

Р(Х Ме)

Из определения медианы следует, что Р(Х x1 F(x2) > F(x1);

2. F(-?) = 0;

3Пусть в каждом из n независимых испытаний событие А может произойти с одной и той же вероятностью р (следовательно, вероятность непоявления q =1 - p). Дискретная случайная величина Х - число наступлений события А - имеет распределение, которое называется биномиальным.

Очевидно, событие А в n испытаниях может либо не появиться, либо появиться 1 раз, либо 2 раза, ..., либо n раз. Таким образом, возможные значения Х таковы: х1 = 0, х2 = 1, х3 = 2,..., хn+1 = n. Вероятность возможного значения Х = k (числа k появления события) вычисляют по формуле Бернулли:

Pn(k) = Cnk·pk·qn-k,

где k = 0, 1, 2, ..., n.

Ряд распределения случайной величины Х, подчиненной биномиальному закону, можно представить в виде следующей таблицы:

Х 0 1 ... k ... n Р Cn0· p0·qn Cn1 ·p1·qn-1 ... Cnk·pk·qn-k ... Cnn·pn·q0 Название закона связано с тем, что вероятности Pn(k) при k = 0, 1, 2, ..., n являются членами разложения бинома Ньютона

(p + q)n = qn + Cn1·p1·qn-1 + ... + Cnk·pk·qn-k + ... +pn.

Отсюда сразу видно, что сумма всех вероятностей второй строки таблицы равна 1, так как p +q =1.. F(+?) = 1

Распределение Пуассона.

Соотношениями, описывающими биноминальное распределение, удобно пользоваться в тех случаях, если величина и достаточно мала, а р велико.

Теорема: Если, а так, что то

при любом k=0,1,....

Числовые характеристики: М[Х] = ?, D[X] = ?.

Закон Пуассона зависит от одного параметра ?, смысл которого заключается в следующем: он является одновременно и математическим ожиданием и дисперсией случайной величины Х.

Непрерывная случайная величина Х называется распределенной по нормальному закону, если ее плотность распределения равна

, где m - математическое ожидание случайной величины;

?2 - дисперсия случайной величины, характеристика рассеяния значений случайной величины около математического ожидания.

Условием возникновения нормального распределения являются формирование признака как суммы большого числа взаимно независимых слагаемых, ни одно из которых не характеризуется исключительно большой по сравнению с другими дисперсиями.

Нормальное распределение является предельным, к нему приближаются другие распределения.

Математическое ожидание случайной величины Х. распределено по нормальному закону, равно

mx = m, а дисперсия Dx = ?2.

Вероятность попадания случайной величины Х, распределенной по нормальному закону, в интервале (?, ?) выражается формулой

где - табулированная функция

5. Генеральная и выборочная совокупности.

Пусть требуется изучить совокупность однородных объектов относительно некоторого качествен­ного или количественного признака, характеризующего эти объекты. Например, если имеется партия деталей, то качественным признаком может служить стандартность детали, а количественным-контролируемый размер детали.

Иногда проводят сплошное обследование, т. е. обследуют каждый из объектов совокупности относительно признака, которым интересуются. На практике, однако, сплошное обследование применяют сравнительно редко. Например, если совокупность содержит очень большое число объектов, то провести сплошное обследование физически невозможно. Если обследование объекта связано с его уничтожением или требует больших материальных затрат, то проводить сплошное обследование практически не имеет смысла. В таких случаях случайно отбирают из всей совокупности ограниченное число объектов и подвергают их изучению. Различают генеральную и выборочную совокупности:

Генеральной совокупностью называют совокупность всех мысленно возможных объектов данного вида, над которыми проводятся наблюдения с целью получения конкретных значений случайной величины, или совокупность результатов всех мыслимых наблюдений, проводимых в неизменных условиях над одной из случайных величин, связанных с данным видом объектов.

Замечание: Часто генеральная совокупность содержит конечное число объектов. Однако если это число достаточно велико, то иногда в целях упрощения вычислений допускают, что генеральная совокупность состоит из бесчисленного множества объектов. Такое допущение оправдывается тем, что увеличение объема генеральной совокупности (достаточно большого объема) практически не сказывается на результатах обработки данных выборки.

Выборочной совокупностью называют часть отобранных объектов из генеральной совокупности.

Объемом совокупности (выборочной или генеральной) называют число объектов этой совокупности. Например, если из 1000 деталей отобрано для обследования 100 деталей, то объем генеральной совокупности N = 1000, а объем выборки п =100.

Число объектов генеральной совокупности N значительно превосходит объем выборки n .

6. Выборочная средняя.

Пусть для изучения генеральной совокупности относительно количественного признака Х извлечена выборка объема n.

Выборочной средней называют среднее арифметическое значение признака выборочной совокупности.

Если все значения признака выборки различны, то

если же все значения имеют частоты n1, n2,...,nk, то

Выборочная средняя является несмещенной и состоятельной оценкой генеральной средней.

Замечание: Если выборка представлена интервальным вариационным рядом, то за xi принимают середины частичных интервалов.

Генеральная дисперсия.

Для того чтобы охарактеризовать рассеяние значений количественного признака Х генеральной совокупности вокруг своего среднего значения, вводят сводную характеристику - генеральную дисперсию.

Генеральной дисперсией Dг называют среднее арифметическое квадратов отклонений значений признака генеральной совокупности от их среднего значения .

Если все значения признака генеральной совокупности объема N различны, то

Если же значения признака имеют соответственно частоты N1, N2, ..., Nk, где N1 +N2+...+Nk= N, то

Кроме дисперсии для характеристики рассеяния значений признака генеральной совокупности вокруг своего среднего значения пользуются сводной характеристикой- средним квадратическим отклонением.

Генеральным средним квадратическим отклонением (стандартом) называют квадратный корень из генеральной дисперсии:

1.4.Выборочная дисперсия.

Для того, чтобы наблюдать рассеяние количественного признака значений выборки вокруг своего среднего значения , вводят сводную характеристику- выборочную дисперсию.

Выборочной дисперсией называют среднее арифметическое квадратов отклонения наблюдаемых значений признака от их среднего значения .

Если все значения признака выборки различны, то

если же все значения имеют частоты n1, n2,...,nk, то

Для характеристики рассеивания значений признака выборки вокруг своего среднего значения пользуются сводной характеристикой - средним квадратическим отклонением.

Выборочным средним квадратическим отклоненим называют квадратный корень из выборочной дисперсии:

Вычисление дисперсии- выборочной или генеральной, можно упростить, используя формулу:

Замечание: если выборка представлена интервальным вариационным рядом, то за xi принимают середины частичных интервалов.

7. Выборочная ковариация величин и определяется формулой

где , а , - выборочные средние величин и . При небольшом количестве экспериментальных данных удобно находить как полный вес ковариационного графа:

*

* * Если - независимые случайные величины, то:

* Но обратное утверждение, вообще говоря, неверно: из отсутствия ковариации не следует независимость. Пример:

Пусть случайная величина принимает значения , каждое с вероятностью . Тогда будет принимать значения ?1, 0 и 1, каждое с вероятностью , а . Тогда , но

* Ковариация случайной величины с собой равна дисперсии: .

* Ковариация симметрична:

. * В силу линейности математического ожидания, ковариация может быть записана как

. * Пусть случайные величины, а их две произвольные линейные комбинации. Тогда

. В частности ковариация (в отличие от коэффициента корреляции) не инвариантна относительно смены масштаба, что не всегда удобно в приложениях.

* Если и - числа, то

. * Неравенство Коши-Буняковского: если принять в качестве скалярного произведения двух случайных величин ковариацию , то квадрат нормы случайной величины будет равен дисперсии , и Неравенство Коши-Буняковского запишется в виде:

. * ковариация(Y;X) = коэффициент корреляции (Х;Y)* ско(X)*СКО(Y)[1]

Если ковариация положительна, то с ростом значений одной случайной величины, значения второй имеют тенденцию возрастать, а если знак отрицательный - то убывать.

Однако только по абсолютному значению ковариации нельзя судить о том, насколько сильно величины взаимосвязаны, так как её масштаб зависит от их дисперсий. Масштаб можно отнормировать, поделив значение ковариации на произведение стандартных отклонений (квадратных корней из дисперсий). При этом получается так называемый коэффициент корреляции Пирсона, который всегда находится в интервале от ?1 до 1.

Случайные величины, имеющие нулевую ковариацию, называются некоррелированными. Независимые случайные величины всегда некоррелированы, но не наоборот.

8. Выборочный коэффициент корреляции находится по формуле

где - выборочные средние квадратические отклонения величин и .

Выборочный коэффициент корреляции показывает тесноту линейной связи между и : чем ближе к единице, тем сильнее линейная связь между и .

Корреляционной зависимостью от называют функциональную зависимость условной средней от .

представляет уравнение регрессии на , а - уравнение регрессии на .

Корреляционная зависимость может быть линейной и криволинейной. В случае линейной корреляционной зависимости выборочное уравнение прямой линии регрессии на имеет вид:

Параметры и уравнения прямой линии регрессии на можно находить по методу наименьших квадратов из системы уравнений

9. Точечные оценки параметров распределения.

Пусть требуется изучить количественный признак генеральной совокупности. Допустим, что из теоретических соображений удалось установить, какое именно распределение имеет признак. Возникает задача оценки параметров, которыми определяется это распределение.

Обычно в распоряжении исследователя имеются лишь данные выборки, полученные в результате n наблюдений (здесь и далее наблюдения предполагаются независимыми). Через эти данные и выражают оцениваемый параметр. Рассматривая значения количественного признака как независимые случайные величины, можно сказать, что найти статистическую оценку неизвестного параметра теоретического распределения - это значит найти функцию от наблюдаемых случайных величин, которая и дает приближенное значение оцениваемого параметра.

Итак, статистической оценкой неизвестного параметра теоретического распределения называют функцию от наблюдаемых случайных величин.

Для того чтобы статистические оценки давали "хорошие" приближения оцениваемых параметров, они должны удовлетворять определенным требованиям: оценка должна быть несмещенной, эффективной и состоятельной.

Поясним каждое из понятий.

Несмещенной называют статистическую оценку Q*, математическое ожидание которой равно оцениваемому параметру Q при любом объеме выборки, т. е.

M(Q*) = Q. Смещенной называют оценку, математическое ожидание которой не равно оцениваемому параметру.

Эффективной называют статистическую оценку, которая (при заданном объеме выборки п) имеет наименьшую возможную дисперсию.

При рассмотрении выборок большого объема (n велико!) к статистическим оценкам предъявляется требование состоятельности.

Состоятельной называют статистическую оценку, которая при п?? стремится по вероятности к оцениваемому параметру. Например, если дисперсия несмещенной оценки при п?? стремится к нулю, то такая оценка оказывается и состоятельной.

Рассмотрим точечные оценки параметров распределения, т.е.

оценки, которые определяются одним числом Q* =f( x1, x2,...,xn), где x1, x2,...,xn- выборка.

10. Интервальные оценки параметров распределения.

Интервальной называют оценку, которая определяется двумя числами-концами интервала. Интервальные оценки позволяют установить точность и надежность оценок .

Пусть найденная по данным выборки статистическая характеристика Q* служит оценкой неизвестного параметра Q. Будем считать Q постоянным числом (Q может быть и случайной величиной). Ясно, что Q* тем точнее определяет параметр Q, чем меньше абсолютная величина разности |Q- Q*|. Другими словами, если ?>0 и |Q- Q*| 0, то если q >1 , левая граница интервала равна 0:

0 р. Тогда

Обе части неравенства положительны; возведя их в квадрат, получим равносильное квадратное неравенство относительно р:

Дискриминант трехчлена положительный, поэтому корни действительные и различные:

меньший корень

больший корень:

Замечание1: При больших значениях n , пренебрегая слагаемыми

,и учитывая

получим приближенные формулы для границ доверительного интервала :

Пример1. Производят независимые испытания с одинаковой и неизвестной вероятностью появления события А в каждом испытании. Найти доверительный интервал для оценки вероятности с надежностью 0,95, если в 80 испытаниях событие А появилось 16 раз.

По условию n =80, m=16, ? =0,95. Относительная частота

. Из соотношения Ф(t)=0,95/2 = 0,475 по таблице находим t = 1,96. Т.к. n<100, то используем точные формулы, получим : р1= 0,128, р2= 0,299.

Замечание 2: Если n мало, то используем для определения концов доверительного интервала вероятности события при биноминальном распределении "Таблицу доверительных границ р1 и р2". Значения р1 и р2 находят в зависимости от n и m.

Пример. В пяти независимых испытаниях событие А произошло 3 раза. Найти с надежностью 0,95 интервальную оценку для вероятности события А в единичном испытании.

По условию задачи n=5, m=3. Имеет место схема повторных испытаний. Используя таблицу, находим доверительный интервал : 0,147

11. Под статистической гипотезой понимают всякое высказывание о генеральной совокупности (случайной величине), проверяемое по выборке (по результатам наблюдений).

Не располагая сведениями о всей генеральной совокупности, высказанную гипотезу сопоставляют по определенным правилам, с выборочными сведениями и делают вывод о том, можно принять гипотезу или нет.

Нулевой (основной) называют выдвинутую гипотезу Н0.

Конкурирующей {альтернативной) называют гипотезу Hi, которая противоречит нулевой.

Процедура сопоставления высказанной гипотезы с выборочными данными называется проверкой гипотезы.

Рассмотрим этапы проверки гипотезы и используемые при этом понятия.

Этап 1. Располагая выборочными данными и руководствуясь конкретными условиями рассматриваемой задачи, формулируют гипотезу Но, которую называют основной или нулевой, и гипотезу Н1 конкурирующую с гипотезой Н0. Термин "конкурирующая" означает, что являются противоположными следующие два события:

по выборке будет принято решение о справедливости для генеральной совокупности гипотезы Н0;

по выборке будет принято решение о справедливости для генеральной совокупности гипотезы Н1.

Гипотезу H1 называют также альтернативной. Например, если нулевая гипотеза такова: математическое ожидание равно 5,- то альтернативная гипотеза может быть следующей: математическое ожидание меньше 5, что записывается следующим образом:

Этап 2. Задаются вероятностью ? , которую называют уровнем значимости. Поясним ее смысл.

Решение о том, можно ли считать высказывание Н0 справедливым для генеральной совокупности, принимается по выборочным данным, т. е. по ограниченному ряду наблюдений, следовательно, это решение может быть ошибочным. При этом может иметь место ошибка двух родов:

отвергают гипотезу Но, или, иначе, принимают альтернативную гипотезу H1, тогда как на самом деле гипотеза Н0 верна; это ошибка первого рода;

принимают гипотезу Н0 , тогда как на самом деле высказывание Но неверно, т. е. верной является гипотеза Н1 это ошибка второго рода.

Так вот уровень значимости ?-это вероятность ошибки первого рода, т. е.

вероятность того, что будет принята гипотеза Н1 , если на самом деле в генеральной совокупности верна гипотеза Но. Вероятность ? задается заранее малым числом, используют некоторые стандартные значения: 0,05; 0,01; 0,005; 0,001. Например, ?=0,05 означает следующее: если гипотезу Но проверять по каждой из 100 выборок одинакового объема, то в среднем в 5 случаях из 100 мы совершим ошибку первого рода.

Вероятность ошибки второго рода обозначают ?, т. е.

-вероятность того, что будет принята гипотеза Но, если на самом деле верна гипотеза Н1.

Этап 3. Находят величину ? такую, что:

ее значения зависят от выборочных данных, т. е. для которой справедливо равенство

- ее значения позволяют судить о "расхождении выборки с гипотезой Н0";

- и которая, будучи величиной случайной в силу случайности выборки, подчиняется при выполнении гипотезы Но некоторому известному закону распределения.

Величину ? называют критерием.

Этап 4. Далее рассуждают так. Так как значения критерия позволяют судить о "расхождении выборки с гипотезой Но", то из области допустимых значений критерия ? следует выделить подобласть ? таких значений, которые свидетельствовали бы о существенном расхождении выборки с гипотезой Но и, следовательно, о невозможности принять гипотезу Но.

Подобласть ? называют критической областью.

Допустим, что критическая область выделена. Тогда руководствуются следующим правилом: если вычисленное по выборке значение критерия ? попадает в критическую область, то гипотеза Но отвергается и принимается гипотеза Н1. При этом следует понимать, что такое решение может оказаться ошибочным:

на самом деле гипотеза Но может быть справедливой. Таким образом, ориентируясь на критическую область, можно совершить ошибку первого рода, вероятность которой задана заранее и равна ?. Отсюда вытекает следующее требование к критической области ?:

вероятность того, что критерий ? примет значение из критической области ? , должна быть равна заданному числу ?, т. е.

Но критическая область данным равенством определяется неоднозначно. Действительно, представив себе график функции плотности f? (х) критерия ? , нетрудно понять, что на оси абсцисс существует бесчисленное множество областей-интервалов таких, что площади построенных на них криволинейных трапеций равны ?. Поэтому кроме требования

выдвигается следующее требование: критическая область ? должна быть расположена так, чтобы при заданной вероятности ? ошибки первого рода вероятность ? ошибки второго рода была минимальной.

Возможны три вида расположения критической области (в зависимости от вида нулевой и альтернативной гипотез, вида и распределения критерия ?):

правосторонняя критическая область (рис.а) , где критическая точка

определяется из условия:

левосторонняя критическая область(рис.б) , где критическая точка

определяется из условия :

двусторонняя критическая область (рис.в), где критические точки

,

называемые двусторонними, определяются из условий

И называются двусторонними критическими точками.

Этап 5. В формулу критерия

вместо Х1, Хг, ..., Хп подставляют конкретные числа, полученные в результате п наблюдений, и подсчитывают числовое значение ?чис критерия.

Если ?чис попадает в критическую область ?, то гипотеза Но отвергается и принимается гипотеза Н1.

Если ?чис не попадает в критическую область, гипотеза Но не отвергается.

12. При проверке гипотезы может быть принято неправильное решение, т.е. могут быть допущены ошибки двух родов.

Ошибка первого рода состоит в том, что отвергается нулевая гипотеза , когда на самом деле она верна.

Ошибка второго рода состоит в том, что отвергается альтернативная гипотеза , когда она на самом деле верна.

Вероятность ошибки 1-го рода (обозначается через ) называется уровнем значимости критерия.

Очевидно, . Чем меньше , тем меньше вероятность отклонить верную гипотезу. Допустимую ошибку 1-го рода обычно задают заранее.

В одних случаях считается возможным пренебречь событиями, вероятность которых меньше 0,05 ( означает, что в среднем в 5 случаях из 100 испытаний верная гипотеза будет отвергнута), в других случаях, когда речь идет, например, о разрушении сооружений, гибели судна и т.п., нельзя пренебречь обстоятельствами, которые могут появиться с вероятностью, равной 0,001.

Обычно для используются стандартные значения: ; 0,01; 0,005; 0,001.

Вероятность ошибки 2-го рода обозначается через , т.е. .

Величину , т.е. вероятность недопущения ошибки 2-го рода (отвергнуть неверную гипотезу , принять верную ), называется мощностью критерия.

Очевидно, .

Чем больше мощность критерия, тем вероятность ошибки 2-го рода меньше, что, конечно, желательно (как и уменьшение ).

Последствия ошибок 1-го, 2-го рода могут быть совершенно различными: в одних случаях надо минимизировать , в другом - . Так, применительно к судебной системе, ошибка 1-го рода приводит к оправданию виновного, ошибка 2-го рода - осуждению невиновного.

Отметим, что одновременное уменьшение ошибок 1-го и 2-го рода возможно лишь при увеличении объема выборок. Поэтому обычно при заданном уровне значимости отыскивается критерий с наибольшей мощностью.

Методика проверки гипотез сводится к следующему:

1. Располагая выборкой , формируют нулевую гипотезу и альтернативную .

2. В каждом конкретном случае подбирают статистику критерия .

3. По статистике критерия и уровню значимости определяют критическую область S (и ). Для ее отыскания достаточно найти критическую точку , т.е. границу (или квантиль), отделяющую область S от .

4. Границы областей определяются, соответственно, из соотношений: , для правосторонней критической области S (рис. 7); , для левосторонней критической области S (рис. 8); , для двусторонней критической области S (рис. 9).

5. Для каждого критерия имеются соответствующие таблицы, по которым и находят критическую точку, удовлетворяющую приведенным выше соотношениям.

6. Для полученной реализации выборки подсчитывают значение критерия, т.е. .

7. Если (например, для правосторонней области S), то нулевую гипотезу отвергают; если же (), то нет оснований, чтобы отвергнуть гипотезу

13.

Показать полностью… https://vk.com/doc20138515_145583111
Рекомендуемые документы в приложении