Курсовая работа: КОРРЕКТИРОВКА БУТСТРАПОВСКОЙ ИНТЕРВАЛЬНОЙ ОЦЕНКИ МАТЕМАТИЧЕСКОГО ОЖИДАНИЯ РАВНОМЕРНО РАСПРЕДЕЛЕННОЙ СЛУЧАЙНОЙ ВЕЛИЧИНЫ
Текст работы
МИНИСТЕРСТВО ОБРАЗОВАНИЯ РЕСПУБЛИКИ БЕЛАРУСЬУчреждение образования
«Брестский государственный университет имени А. С. Пушкина»
Физико-математический факультет
Кафедра алгебры, геометрии и математического моделирования
Курсовая работа
КОРРЕКТИРОВКА БУТСТРАПОВСКОЙ ИНТЕРВАЛЬНОЙ ОЦЕНКИ МАТЕМАТИЧЕСКОГО ОЖИДАНИЯ РАВНОМЕРНО РАСПРЕДЕЛЕННОЙ СЛУЧАЙНОЙ ВЕЛИЧИНЫ
Хайбулин Илья Марсельевич,
студент 3 курса
специальности «Экономическая кибернетика»
Брест 2014
ВВЕДЕНИЕ
Эконометрика и прикладная статистика бурно развиваются последние десятилетия. Серьезным (хотя, разумеется, не единственным и не главным) стимулом является стремительно растущая производительность вычислительных средств. Поэтому понятен острый интерес к статистическим методам, интенсивно использующим компьютеры. Одним из таких методов является так называемый "бутстрап", предложенный в 1977 г. Б. Эфроном из Станфордского университета (США).
Что же такое бутстрап?
Бутстрап - это практический компьютерный метод определения статистик вероятностных распределений, основанный на многократной генерации выборок методом Монте-Карло на базе имеющейся выборки. Позволяет просто и быстро оценивать самые разные статистики (доверительные интервалы, дисперсию, корреляцию и так далее) для сложных моделей.
В истории эконометрики было несколько более или менее успешно осуществленных рекламных кампаний. В каждой из них "раскручивался" тот или иной метод, который, как правило, отвечал нескольким условиям:
по мнению его пропагандистов, полностью решал актуальную научную задачу;
был понятен (при постановке задачи, при ее решении и при интерпретации результатов) широким массам потенциальных пользователей;
использовал современные возможности вычислительной техники.
В стране с условиями отсутствия систематического эконометрического образования подобные рекламные кампании находили особо благоприятную почву, поскольку у большинства затронутых ими специалистов не было достаточных знаний в области методологии построения эконометрических моделей для того, чтобы составить самостоятельное квалифицированное мнение.
Речь идет о таких методах как бутстрап, нейронные сети, метод группового учета аргументов, робастные оценки по Тьюки-Хуберу, асимптотика пропорционального роста числа параметров и объема данных и др. Бывают локальные всплески энтузиазма, например, московские социологи в 1980-х годах пропагандировали так называемый "детерминационный анализ" - простой эвристический метод анализа таблиц сопряженности, хотя в Новосибирске в это время давно уже было разработано продвинутое программное обеспечение анализа векторов разнотипных.
Однако на фоне всех остальных рекламных кампаний судьба бутстрапа исключительна. Во-первых, признанный его автор Б. Эфрон с самого начала признавался, что он ничего принципиально нового не сделал. Его исходная статья называлась: "Бутстрап-методы: новый взгляд на методы складного ножа". Во вторых, сразу появились статьи и дискуссии в научных изданиях, публикации рекламного характера, и даже в научно-популярных журналах. Бурные обсуждения на конференциях, спешный выпуск книг. В 1980-е годы финансовая подоплека всей этой активности, связанная с выбиванием грантов на научную деятельность, содержание учебных заведений и т.п. была мало понятна отечественным специалистам.
1. ПОЛУЧЕНИЕ ИНТЕРВАЛЬНОЙ ОЦЕНКИ
1.1Основные понятия и определения интервального оценивания
Задача интервального оценивания состоит в следующем: По данным выборки построить числовой интервал, относительно которого с заранее выбранной вероятностью можно сказать, что внутри этого интервала находится оцениваемый параметр.
Интервальная оценка - оценка, которая определяется двумя числами, а именно - концами интервала (
), покрывающего оцениваемый параметр
.Требования, предъявляемые к статическим оценкам:
Для того чтобы статические оценки давали хорошее приближение оцениваемых параметров, они должны удовлетворять определенным требованиям:
.Несмещенность оценки (асимптотическая несмещенность);
Оценка
называется несмещенной оценкой параметра
, если
.Оценка
называется асимптотически несмещенной оценкой
, если
.2.Состоятельность оценки;
Оценка
называется состоятельной оценкой параметра
, если
, т.е.
.3.Эффективность оценки;
Оценка
называется эффективной оценкой
, если она имеет наименьшую дисперсию среди всех несмещенных оценок данного параметра
.Пусть
- статистика, где
- точечная оценка неизвестного параметра
. Чем меньше абсолютная величина разности, тем оценка точнее. Т.е. соотношение
определяет следующее:
- называется точностью оценки. Чем меньше
- тем оценка точнее.Доверительной вероятностью (надежностью оценки) называется вероятность
, с которой выполняется соотношение
. [1, с. 22].Статистические методы не позволяют категорически утверждать, что оценка
удовлетворяет неравенству
. Можно лишь говорить о вероятности
, с которой это соотношение
выполняется. Обычно
определяется в статистических таблицах(
) и задается в задачах заранее.Доверительным интервалом называется интервал
который покрывает неизвестный параметр
с надежностью
. Число
называют уровнем значимости..2Построение доверительного интервала. Пусть
получены при n независимых наблюдений, проведенных при одинаковых условиях над генеральной совокупностью
.Математическое ожидание

Отсюда следует что доверительный интервал для неизвестного математического ожидания равен
(
.2. БУТСТРАП КАК МЕТОД ОПРЕДЕЛЕНИЯ СТАТИСТИК ВЕРОЯТНОСТНЫХ РАСПРЕДЕЛЕНИЙ
2.1 Возникновение бутстрапа
В институтах студентов учат интегрировать аналитически, а потом обнаруживается, что на практике интегралы почти все считают численными методами или проверяют, таким образом, аналитическое решение. В статистике тоже есть «нечестный» метод, который позволяет получить примерный ответ на многие практические вопросы без анализа, грубой компьютерной силой: бутстрап. Придумал и опубликовал его в 1979 году Брэдли Эфрон.
Суть метода: Допустим, есть у нас интернет-магазин, где мы торгуем разным товаром и привлекаем клиентов разными способами. Понятное дело, что мы постоянно что-то тестируем - расположение картинок и кнопок на странице, рекламный текст, баннеры на сайтах партнёров и так далее. В конечном счете, мы получаем свежие результаты - в тестовой группе из 893 пришедших у нас что-то купили 34, а в контрольной группе из 923 пришедших что-то купили 28.
Возникает вопрос - идти к начальству и говорить: «в тестовой группе соотношение числа купивших у нас что-либо к числу всех посетивших - 3.81%, в контрольной группе - 3.03%, налицо улучшение на 26%, где моя премия?» или продолжать сбор данных, потому что разница в 6 человек - ещё не статистика?
Эту задачу несложно решить аналитически. Видим две случайные величины (проценты в тестовой и контрольной группах). При большом количестве наблюдений биномиальное распределение похоже на нормальное. Нас интересует разность. Нормальное распределение бесконечно делимо, вычитаем математические ожидания и складываем дисперсии, получаем:
.математическое ожидание: 34/893-28/923 = 0.77%;
.дисперсию (34/893)*(1-34/893)/893+(28/923)*(1-28/923)/923.
Стандартное отклонение равно корню из дисперсии, в нашем случае 0.85%. Истинное значение с 95% вероятностью лежит в пределах плюс-минус двух стандартных отклонений от математического ожидания, то есть между -0.93% и 2.48%. Так что премия пока не будет, надо продолжать собирать данные.
Теперь решим эту же задачу методом бутстрапа. Основная идея такова: хорошо бы повторить наш эксперимент много раз и посмотреть на распределение результатов. Но мы это сделать не можем, поэтому будем действовать «нечестно» - «надёргаем» выборок из имеющихся данных и сделаем вид, что каждая из них - результат повторения нашего эксперимента.
2.2 Алгоритм бутстрапа
1.Выбираем наугад одно наблюдение из имеющихся.
.Повторяем пункт 1 столько раз, сколько у нас есть наблюдений. При этом некоторые из них мы выберем несколько раз, некоторые не выберем вообще - это нормально.
.Считаем интересующие нас метрики по этой новой выборке. Запоминаем результат.
Повторяем пункты 1-3 много раз. Например, 10 тысяч. Можно меньше, но точность будет хуже. Можно больше, но долго будет считать.
Теперь у нас есть распределение, на которое мы можем посмотреть или что-то по нему посчитать. Например, доверительный интервал, медиану или стандартное отклонение.
Следует обратить внимание на то, что мы не делаем никаких предположений о распределении чего-либо. Распределения могут быть разные. Алгоритм от этого не меняется. Однако если у распределения нет математического ожидания (такие встречаются) - бутстрап его не найдёт. То есть он найдёт математическое ожидание выборки, но не генеральной совокупности. То же касается ситуации, когда выборка маленькая.
Рассмотрим приведенный ниже пример написания бутстрапа на C++:
#include "stdafx.h"
#include
#include
#include
#include
#include
typedef int Data_t;
#define ARRAY_SIZE(x) sizeof(x)/sizeof(x[0])
static double bootstrap(const Data_t* data, unsigned n)
{
unsigned i;
double sum = 0;
for (i = 0; i *(double*)b) return 1;
if (*(double*)a *(double*)b) return 1;
if (*(double*)a X_-Sqrt(S_/N)*T5) then Inc(PA[1]);
If (AX_-Sqrt(S_/N)*T2_5) and (AAb[J] then begin
R:=Ab[J]; H:=J
end;[H]:=Ab[L]; Ab[L]:=R
end;
IF (A>Ab[trunc(G*0.05)]) then inc(PbA[1,K]);
IF (AAb[trunc(G*0.025)]) and (AЛевосторонняя критическая область

Рисунок 1 - График значений математического ожидания
Где при объеме бутстрапа, который равен 7, мы получаем границу доверительного интервала, максимально приближенный к истинному значению. Проделаем данные наблюдения для разных объемов выборки, математических ожиданий и стандартных отклонений. Найдя все точки пересечения с надежностью, и построив по ним графики, мы можем увидеть зависимость оптимального объема бутстрапа от объема исследуемой выборки для разных параметров. К примеру, ниже приведен график зависимости для параметров 0 1 л:
Таблица 2 - Значения показателей объемов для параметров: 0 1 л
| 10 | 8 | 0,94701 | 0,95 |
| 20 | 18 | 0,94853 | 0,95 |
| 30 | 27 | 0,95038 | 0,95 |
| 40 | 38 | 0,95018 | 0,95 |
| 50 | 47 | 0,95084 | 0,95 |
| 60 | 58 | 0,9503 | 0,95 |
| 70 | 68 | 0,95029 | 0,95 |
| 80 | 79 | 0,95002 | 0,95 |
| 90 | 90 | 0,95053 | 0,95 |
| 100 | 98 | 0,95033 | 0,95 |
| 10 | 8 | 0,94701 | 0,95 |

Рисунок 2 - Зависимость оптимального объема бутстрапа от объема исследуемой выборки для параметров: 1 1 л
Следовательно, для данных параметров объем бустрапа нужно брать приблизительно на 3 единицы меньше объема основной выборки, чтобы получить доверительный интервал, в котором будет находиться истинное значение. В таком случае оценка получается несмещенной. Ниже будут приведены следующие зависимости объемов бутстрапа от объемов исследуемых выборок:
1.0 1 л (Приложение A)
2.0 1 п (Приложение Б)
3.0 1 лп (Приложение В)
4.0 10 л (Приложение Г)
5.0 10 п (Приложение Д)
6.0 10 лп (Приложение Е)
7.1 1 л (Приложение Ж)
8.1 1 п (Приложение И)
9.1 1 лп (Приложение К)
10.1 10 л (Приложение Л)
11.1 10 п (Приложение М)
12.1 10 лп (Приложение Н)
13.10 1 л (Приложение П)
14.10 1 п (Приложение Р)
15.10 1 лп (Приложение С)
16.10 10 л (Приложение Т)
17.10 10 п (Приложение У)
18.10 10 лп (Приложение Ф)
ЗАКЛЮЧЕНИЕ
В ходе выполненного исследования мы выяснили, что каждую нормально распределенную выборку можно бутстрапировать. Однако при этом объем бутстрапа нужно брать в среднем на 3 единицы меньше, чем объем исходной выборки. Только выполнив это условие, мы получим доверительный интервал, соответствующий заданной вероятности.
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ
1.Баврин, И.И. Теория вероятностей и математическая статистика / И.И. Баврин. - М.: Высш. шк., 2005. - 160 с.
.Максимов, Ю.Д. Вероятностные разделы математики / Ю.Д. Максимов. - Изд.: Иван Федоров, 2001. - 592 с.
.Пугачев B.C. Теория вероятностей и математическая статистика: Учеб. Пособие / В.С. Пугачев. - 2-е изд., исправл. и дополн. - М.: Физматлит,2002. - 496 с.
.Электронная библиотека [Электронный ресурс] - Режим доступа: http://habrahabr.ru - Дата доступа: 25.01.2014.
ПРИЛОЖЕНИЯ
Приложение А
Таблица 3 - Значения показателей объемов для параметров: 0 1 л
| Объем выборки | Объем бутстрапа | ||
| 10 | 8 | 0,94701 | 0,95 |
| 20 | 18 | 0,94853 | 0,95 |
| 30 | 27 | 0,95038 | 0,95 |
| 40 | 38 | 0,95018 | 0,95 |
| 50 | 47 | 0,95084 | 0,95 |
| 60 | 58 | 0,9503 | 0,95 |
| 70 | 68 | 0,95029 | 0,95 |
| 80 | 79 | 0,95002 | 0,95 |
| 90 | 90 | 0,95053 | 0,95 |
| 100 | 98 | 0,95033 | 0,95 |

Рисунок 3 - Зависимость оптимального объема бутстрапа от объема исследуемой выборки для параметров: 1 1 л
Для данных параметров объем бутстрапа нужно брать приблизительно на 2 единицы меньше объема основной выборки, чтобы получить доверительный интервал, в котором будет находиться истинное значение.
Приложение Б
Таблица 4 - Значения показателей объемов для параметров: 0 1 п
| Объем выборки | Объем бутстрапа | ||
| 10 | 8 | 0,9478 | 0,95 |
| 20 | 18 | 0,94803 | 0,95 |
| 30 | 27 | 0,95098 | 0,95 |
| 40 | 38 | 0,95018 | 0,95 |
| 50 | 47 | 0,95084 | 0,95 |
| 60 | 57 | 0,95062 | 0,95 |
| 70 | 66 | 0,95097 | 0,95 |
| 80 | 77 | 0,94962 | 0,95 |
| 90 | 86 | 0,95031 | 0,95 |
| 100 | 96 | 0,94995 | 0,95 |

Рисунок 4 - Зависимость оптимального объема бутстрапа от объема исследуемой выборки для параметров: 0 1 п
Для данных параметров объем бутстрапа нужно брать приблизительно на 3-4 единицы меньше объема основной выборки, чтобы получить доверительный интервал, в котором будет находиться истинное значение.
Приложение В
Таблица 5 - Значения показателей объемов для параметров: 0 1 лп
| Объем выборки | Объем бутстрапа | ||
| 10 | 7 | 0,94961 | 0,95 |
| 20 | 17 | 0,95131 | 0,95 |
| 30 | 27 | 0,95075 | 0,95 |
| 40 | 37 | 0,95023 | 0,95 |
| 50 | 47 | 0,95 | 0,95 |
| 60 | 57 | 0,95029 | 0,95 |
| 70 | 66 | 0,95075 | 0,95 |
| 80 | 76 | 0,95186 | 0,95 |
| 90 | 88 | 0,95032 | 0,95 |
| 100 | 96 | 0,94988 | 0,95 |

Рисунок 5 - Зависимость оптимального объема бутстрапа от объема исследуемой выборки для параметров: 0 1 лп
Для данных параметров объем бутстрапа нужно брать на 3 единицы меньше объема основной выборки, чтобы получить доверительный интервал, в котором будет находиться истинное значение.
Приложение Г
Таблица 6 - Значения показателей объемов для параметров: 0 10 л
| Объем выборки | Объем бутстрапа | ||
| 10 | 7 | 0,95189 | 0,95 |
| 20 | 17 | 0,95039 | 0,95 |
| 30 | 27 | 0,95073 | 0,95 |
| 40 | 37 | 0,94958 | 0,95 |
| 50 | 46 | 0,94981 | 0,95 |
| 60 | 57 | 0,9498 | 0,95 |
| 70 | 66 | 0,95082 | 0,95 |
| 80 | 77 | 0,94965 | 0,95 |
| 90 | 86 | 0,94998 | 0,95 |
| 100 | 96 | 0,95028 | 0,95 |

Рисунок 6 - Зависимость оптимального объема бутстрапа от объема исследуемой выборки для параметров: 10 1 п
Для данных параметров объем бутстрапа нужно брать приблизительно на 3 единицы меньше объема основной выборки, чтобы получить доверительный интервал, в котором будет находиться истинное значение.
Приложение Д
Таблица 7 - Значения показателей объемов для параметров: 10 1 лп
| Объем выборки | Объем бутстрапа | ||
| 10 | 7 | 0,94406 | 0,95 |
| 20 | 17 | 0,94675 | 0,95 |
| 30 | 27 | 0,94812 | 0,95 |
| 40 | 37 | 0,94814 | 0,95 |
| 50 | 46 | 0,94984 | 0,95 |
| 60 | 57 | 0,94936 | 0,95 |
| 70 | 66 | 0,94955 | 0,95 |
| 80 | 76 | 0,94979 | 0,95 |
| 90 | 86 | 0,94913 | 0,95 |
| 100 | 96 | 0,95028 | 0,95 |

Рисунок 7 - Зависимость оптимального объема бутстрапа от объема исследуемой выборки для параметров: 10 1 лп
Для данных параметров объем бутстрапа нужно брать приблизительно на 3 единицы меньше объема основной выборки, чтобы получить доверительный интервал, в котором будет находиться истинное значение.
Приложение Е
Таблица 8 - Значения показателей объемов для параметров: 1 10 л
| Объем выборки | Объем бутстрапа | ||
| 10 | 7 | 0,95176 | 0,95 |
| 20 | 18 | 0,94667 | 0,95 |
| 30 | 27 | 0,95034 | 0,95 |
| 40 | 38 | 0,94957 | 0,95 |
| 50 | 47 | 0,95046 | 0,95 |
| 60 | 58 | 0,94984 | 0,95 |
| 70 | 68 | 0,9505 | 0,95 |
| 80 | 78 | 0,95047 | 0,95 |
| 90 | 87 | 0,95007 | 0,95 |
| 100 | 96 | 0,94991 | 0,95 |

Рисунок 8 - Зависимость оптимального объема бутстрапа от объема исследуемой выборки для параметров: 1 10 л
Для данных параметров объем бутстрапа нужно брать приблизительно на 2 единицы меньше объема основной выборки, чтобы получить доверительный интервал, в котором будет находиться истинное значение.
Приложение Ж
Таблица 9 - Значения показателей объемов для параметров: 1 10 п
| Объем выборки | Объем бутстрапа | ||
| 10 | 7 | 0,95096 | 0,95 |
| 20 | 17 | 0,95013 | 0,95 |
| 30 | 27 | 0,95033 | 0,95 |
| 40 | 37 | 0,94946 | 0,95 |
| 50 | 47 | 0,94947 | 0,95 |
| 60 | 56 | 0,95068 | 0,95 |
| 70 | 66 | 0,95004 | 0,95 |
| 80 | 77 | 0,94988 | 0,95 |
| 90 | 86 | 0,9508 | 0,95 |
| 100 | 96 | 0,95071 | 0,95 |

Рисунок 9 - Зависимость оптимального объема бутстрапа от объема исследуемой выборки для параметров: 1 10 п
Для данных параметров объем бутстрапа нужно брать приблизительно на 3 единицы меньше объема основной выборки, чтобы получить доверительный интервал, в котором будет находиться истинное значение.
Приложение И
Таблица 10 - Значения показателей объемов для параметров: 1 10 лп
| Объем выборки | Объем бутстрапа | ||
| 10 | 7 | 0,94286 | 0,95 |
| 20 | 17 | 0,94693 | 0,95 |
| 30 | 27 | 0,94745 | 0,95 |
| 40 | 37 | 0,94852 | 0,95 |
| 50 | 46 | 0,94994 | 0,95 |
| 60 | 57 | 0,94942 | 0,95 |
| 70 | 66 | 0,95086 | 0,95 |
| 80 | 77 | 0,9496 | 0,95 |
| 90 | 86 | 0,95088 | 0,95 |
| 100 | 96 | 0,94988 | 0,95 |

Рисунок 10 - Зависимость оптимального объема бутстрапа от объема исследуемой выборки для параметров: 1 10 лп
Для данных параметров объем бутстрапа нужно брать приблизительно на 3 единицы меньше объема основной выборки, чтобы получить доверительный интервал, в котором будет находиться истинное значение.
Приложение К
Таблица 11 - Значения показателей объемов для параметров: 10 10 л
| Объем выборки | Объем бутстрапа | ||
| 10 | 7 | 0,95263 | 0,95 |
| 20 | 17 | 0,95026 | 0,95 |
| 30 | 28 | 0,94856 | 0,95 |
| 40 | 37 | 0,95063 | 0,95 |
| 50 | 47 | 0,95086 | 0,95 |
| 60 | 58 | 0,94924 | 0,95 |
| 70 | 68 | 0,9496 | 0,95 |
| 80 | 77 | 0,94997 | 0,95 |
| 90 | 88 | 0,94986 | 0,95 |
| 100 | 97 | 0,94955 | 0,95 |

Рисунок 11 - Зависимость оптимального объема бутстрапа от объема исследуемой выборки для параметров: 10 10 л
Для данных параметров объем бутстрапа нужно брать приблизительно на 3 единицы меньше объема основной выборки, чтобы получить доверительный интервал, в котором будет находиться истинное значение.
Приложение Л
Таблица 12 - Значения показателей объемов для параметров: 10 10 п
| Объем выборки | Объем бутстрапа | ||
| 10 | 7 | 0,9533 | 0,95 |
| 20 | 17 | 0,9497 | 0,95 |
| 30 | 27 | 0,95042 | 0,95 |
| 40 | 37 | 0,9499 | 0,95 |
| 50 | 46 | 0,95056 | 0,95 |
| 60 | 57 | 0,94914 | 0,95 |
| 70 | 66 | 0,94989 | 0,95 |
| 80 | 76 | 0,94989 | 0,95 |
| 90 | 86 | 0,95062 | 0,95 |
| 100 | 95 | 0,95053 | 0,95 |

Рисунок 12 - Зависимость оптимального объема бутстрапа от объема исследуемой выборки для параметров: 10 10 п
Для данных параметров объем бутстрапа нужно брать приблизительно на 2-3 единицы меньше объема основной выборки, чтобы получить доверительный интервал, в котором будет находиться истинное значение.
Приложение М
Таблица 13 - Значения показателей объемов для параметров: 10 10 лп
| Объем выборки | Объем бутстрапа | ||
| 10 | 7 | 0,94438 | 0,95 |
| 20 | 17 | 0,94528 | 0,95 |
| 30 | 27 | 0,9484 | 0,95 |
| 40 | 37 | 0,94852 | 0,95 |
| 50 | 46 | 0,95064 | 0,95 |
| 60 | 56 | 0,95019 | 0,95 |
| 70 | 66 | 0,94986 | 0,95 |
| 80 | 75 | 0,95056 | 0,95 |
| 90 | 86 | 0,95007 | 0,95 |
| 100 | 96 | 0,94979 | 0,95 |

Рисунок 13 - Зависимость оптимального объема бутстрапа от объема исследуемой выборки для параметров: 10 10 лп
Для данных параметров объем бутстрапа нужно брать приблизительно на 3 единицы меньше объема основной выборки, чтобы получить доверительный интервал, в котором будет находиться истинное значение.
Похожие материалы не найдены
Комментарии