Описательная статистика для двух групп
x1 = c(0, 10, 20, 30, 40)
x2 = c(32, 50, 68, 86, 104)
m1 = mean(x1)
med1 = median(x1)
n1 = length(x1)
s1 = sd(x1)
skew1 = sum((x1 - m1)^3/s1^3)/n1
kurt1 = sum((x1 - m1)^4/s1^4)/n1 - 3
minx1 = min(x1)
maxx1 = max(x1)
m2 = mean(x2)
med2 = median(x2)
n2 = length(x2)
s2 = sd(x2)
skew2 = sum((x2 - m2)^3/s2^3)/n2
kurt2 = sum((x2 - m2)^4/s2^4)/n2 - 3
minx2 = min(x2)
maxx2 = max(x2)
v1 = s1/m1*100 # значение коэффициента вариации V %
v2 = s2/m2*100 # значение коэффициента вариации V %
CS1 = v1/sqrt(n1) # показатель точности (CS)
CS2 = v2/sqrt(n2) # показатель точности (CS)
# эксцесс (англ. kurtosis) асимметрия (skewness)
stx12 = data.frame(Name = c('X1','X2'),N = c(n1, n2), Mean = c(m1, m2),
SD = c(s1, s2), Med = c(med1, med2),
As = c(skew1, skew2), Ex = c(kurt1, kurt2),
Min = c(minx1, minx2), Max = c(maxx1, maxx2),
V = c(v1, v2), CS= c(CS1, CS2))
stx12
Name N Mean SD Med As Ex Min Max V CS 1 X1 5 20 15.81 20 0 -1.912 0 40 79.06 35.36 2 X2 5 68 28.46 68 0 -1.912 32 104 41.85 18.72 |
Mean - среднее значение
SD - Стандартное отклонение
Med - Медиа́на (от лат. mediāna «середина»), или серединное значение набора чисел — число, которое находится в середине этого набора, если его упорядочить по возрастанию, то есть такое число, что половина из элементов набора не меньше него, а другая половина не больше. Другое равносильное определение: медиана набора чисел — это число, сумма расстояний (или, если более строго, модулей) от которого до всех чисел из набора минимальна. Это определение естественным образом обобщается на многомерные наборы данных и называется 1-медианой. Например, медианой набора {11, 9, 3, 5, 1} является число 5, так как оно стоит в середине этого набора после его упорядочивания: {1, 3, 5, 9, 11}. Если в выборке чётное число элементов, медиана может быть не определена однозначно: тогда для числовых данных чаще всего используют полусумму двух соседних значений (то есть медиану набора {1, 3, 5, 7} принимают равной 4).
As - Асимметрия в статистике — это показатель, который характеризует скошенность распределения в сторону больших или меньших значений признака. Это мера отклонения распределения частоты от симметричного (нормального) распределения, то есть такого, у которого на одинаковом удалении от среднего значения по обе стороны выборки данных располагается одинаковое количество значений. Коэффициент асимметрии изменяется от минус до плюс бесконечности, для нормальных распределений A=0. Если вершина асимметричного распределения сдвинута к меньшим значениям, то говорят о положительной асимметрии (А>0), в противоположном случае — об отрицательной (А<0).
Ex - Эксцесс в статистике — это мера интенсивности выбросов. Он характеризует частоту появления значений, которые удалены от среднего, то есть насколько много наблюдений находится в «хвостах» распределения. Для нормального распределения значение эксцесса равно 0. Положительный эксцесс означает, что выбросы в данных интенсивнее, чем для нормального распределения. Отрицательный эксцесс означает, что выбросы в данных менее интенсивны, чем для нормального распределения. Также эксцесс является показателем «крутости» вариационного ряда по сравнению с нормальным распределением. Кривые, более островершинные, чем нормальная, обладают положительным эксцессом, более плосковершинные — отрицательным эксцессом.
Для нормального распределения коэффициент асимметрии равен нулю, аналогично и эксцесс — равен нулю. Если эксцесс сильно отличается от трёх, то говорят о наличии «тяжёлых хвостов»
Min Max минимальное и максимальное значение
V - коэффициент вариации. Он используется для оценки интенсивности вариации и показывает, сколько единиц среднего квадратического отклонения приходится на единицу среднего значения изучаемого признака. Если коэффициент вариации составляет примерно 30% и меньше, то статистическая совокупность считается однородной. Это означает, что большинство вариант находится недалеко от средней, и найденное значение хорошо характеризует центральную тенденцию совокупности. Если показатель вариации составляет существенно больше 30%, то совокупность неоднородна, то есть значительное количество вариант находятся далеко от средней, и выборочная средняя плохо характеризует типичную варианту.
CS - показатель точности (CS). Под точностью определения выборочной средней понимается степень приближения ее к средней генеральной совокупности. Чем точнее определен средний результат, тем меньше будет CS и наоборот, при менее точном среднем результате показатель CS окажется больше. Точность считается достаточной, если CS не превышает 5 %. Если проводят очень важные испытания, связанные с жизнью человека, то CS не превышает 3 %.