Функция tBootG бутстреп анализ различий средних в двух группах с наглядной визуализацией
Статистические методы проверки гипотез как правило базируются на теоретических распределениях и работают только при соблюдении ограничений и допущений. Но существует альтернативный подход, который вместо теории задействует грубую компьютерную силу – ресемплинг (Resampling — это статистическая процедура, которая предполагает повторное взятие выборок из исходных данных. С помощью этих выборок вычисляют различные статистические показатели.) Этот подход объединяет целый класс методов генерации дополнительных выборок из уже имеющихся. При ресемплинге расчет параметров проводится на фактических данных, а теоретическое распределения не используется.
К ресемплингу относится бутстрэп анализ, перестановочные тесты и «складной нож».
Bootstrap - процедура состоит в многократном извлечении подвыборок из эмпирического распределения. Для оценки любых параметров можно сформировать тысячи повторных бутстрэп-выборок (обычно 500-1000), каждая из которых содержит 2/3 значений исходной выборки. Используя подвыборки, мы можем построить распределение любой статистики, даже для непараметрических данных. Бутстреп позволяет с большим успехом сравнивать группы между собой. При сравнении групп нас интересуют некоторые статистики: разность средних, разность медиан, разность стандартных отклонений. В общем бутстреп это наиболее универсальный способ сравнивать группы (обратим внимание что он хорошо работает даже на небольших выборках). Рассмотрим сначала общий пример применения бутстрепа для сравнения разности средних в двух группах. Если группы происходят из одной Генеральной Совокупности, то разница средних будет стремиться к нулю.
На мой взгляд лучшее решение задачи о нахождения разности средней между двумя группами бутстреп подходом является функция («обёртка») которая принимает на вход необходимые данные и параметры и проведя многочисленную генерацию повторных выборок bootstrapping выдает значение разности средних между двумя группами с параллельной наглядной визуализацией: границ доверительных интервалов (если доверительные интервалы пересекаются – то мы выдвигаем гипотезу что и статистически значимых различий в группах нет) и круговую диаграмму многочисленных тестов (t.test) в которых нас интересует число принятых нулевых гипотез H0.
Функция tBootG (ttest Bootstraping Grup):
1 сравнить две группы х1 и х2 бутстреп
2 вывести графики доверительных интервалов
3 разница между средними в группах
tBootG(x1 = x1, x2 = x2,dig = 2,R = 1000,siz = 0,CI = 95)
где:
x1, x2 - вектора сравниваемых групп
dig - число знаков после запятой
R - кол-во циклов бутстрепинга
siz - объем создаваемой выборки
if siz = 0 (0 - объем будет равен числу выборок в двух группах)
CI уровень доверительного интервала %
set.seed(0)
x1 = round(rnorm(n = 200, mean = 100, sd = 3),2)
x2 = round(rnorm(n = 250, mean = 100, sd = 5),2)
tBootG(x1 = x1, x2 = x2,dig = 2,R = 1000,siz = 0,CI = 95)
> tBootG(x1 = x1, x2 = x2,dig = 2,R = 1000,siz = 250,CI = 95) ----------------------------------------------------- Итоги Бутстреп теста Разница средних в группах: -0.15 Среднее p.value= 0.47868318 ----------------------------------------------------- Name Low Hi 1 X1 99.58 100.35 2 X2 99.47 100.77 -----------------------------------------------------

