Доверительный интервал в оценке различий в двух группах
Часто в статистических исследованиях мы получаем описательную статистику выборки (например ее среднее значение), которое не всегда принимает истинное значение (в статистике эта величина называется параметром) которое характеризует генеральную совокупность. Как правили параметр во многих случаях невозможно вычислить. Но с помощью статистической оценки возможно найти его примерное местонахождение. И в этом вопросе нам и поможет доверительный интервал.
Доверительный интервал представляет собой диапазон, в котором с заданной вероятностью находится параметр (например, среднее значение генеральной совокупности). Вероятность задается заранее и еще ее иначе называют доверительной вероятностью. Чаще всего используют два значения доверительной вероятности: 95% и 99%. В этих случаях они называются 95 и 99 процентными соответственно.
Для сравнения различий в двух группах можно применить Welch Two Sample t-test, или сравнив границы доверительных интервалов обеих групп. Если границы доверительных интервалов перекрывают друг друга, то можно принять нулевую гипотезу: статистически значимых различий в группах нет. Практически все описанное выше удобно реализовать с помощью функции StatTwoGrupCI загрузить жми сюда.
setwd('C:/R myFunction')
source('StatTwoGrupCI.R')
options(digits = 9)
set.seed(445)
x1 = rnorm(100, 45, 3)
x2 = rnorm(100, 44, 5)
CI = 95
# описательная статистика по группам
StatTwoGrupCI(x1 = x1, x2 = x2, CI = CI)
> StatTwoGrupCI(x1 = x1, x2 = x2, CI = CI) ----------------------------------------------------- Name N Mean SD Med As Ex Min 1 X1 100 44.5251473 2.85037980 44.5719643 -0.067451137 -0.436348984 36.6460953 2 X2 100 43.0528013 4.90650076 43.0878105 0.477935200 0.559022690 31.4250638 Max V CS 1 50.2795338 6.4017302 0.64017302 2 59.3728577 11.3964727 1.13964727 ----------------------------------------------------- Name Low Hi 1 X1 43.9595701 45.0907245 2 X2 42.0792451 44.0263575 ----------------------------------------------------- Welch Two Sample t-test data: x1 and x2 t = 2.594733, df = 158.9903, p-value = 0.0103517 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: 0.351660575 2.593031384 sample estimates: mean of x mean of y 44.5251473 43.0528013 |
Обратите внимание что на картинке мы наглядно видим,что границы доверительных интервалов двух групп не пересекаются, то есть группы статистически значимо различаются. Об этом говорит и p-value = 0.0103517. Рассмотрим теперь противоположный случай: когда статистически различий в группах нет. Немного изменим данные и применим к ним еще раз функцию StatTwoGrupCI:
set.seed(445)
x1 = rnorm(100, 45, 3)
x2 = rnorm(100, 45, 5)
CI = 95
# описательная статистика по группам
StatTwoGrupCI(x1 = x1, x2 = x2, CI = CI)
> StatTwoGrupCI(x1 = x1, x2 = x2, CI = CI) ----------------------------------------------------- Name N Mean SD Med As Ex Min 1 X1 100 44.5251473 2.85037980 44.5719643 -0.067451137 -0.436348984 36.6460953 2 X2 100 44.0528013 4.90650076 44.0878105 0.477935200 0.559022690 32.4250638 Max V CS 1 50.2795338 6.4017302 0.64017302 2 60.3728577 11.1377724 1.11377724 ----------------------------------------------------- Name Low Hi 1 X1 43.9595701 45.0907245 2 X2 43.0792451 45.0263575 ----------------------------------------------------- Welch Two Sample t-test data: x1 and x2 t = 0.8324209, df = 158.9903, p-value = 0.40642 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -0.648339425 1.593031384 sample estimates: mean of x mean of y 44.5251473 44.0528013 |
Теперь доверительные интервалы пересекаются а следовательно группы не имеют статистически значимых различий (то есть мы принимаем нулевую гипотезу о равенстве групп) что так же подтверждается и p-value = 0.40642 который значительно выше заданного порога уровня значимости 0.05.

