Описательная статистика
Описательная статистика — это раздел статистики, который используется для обобщения и осмысленной организации данных. Этот тип статистики используется для описания основных характеристик набора данных, таких как среднее значение, медиана, мода, диапазон, дисперсия и стандартное отклонение. Описательную статистику также можно использовать для визуализации данных, например, с помощью гистограмм и диаграмм рассеяния. Те, кто впервые в своей работе сталкивается с обработкой и описанием данных, не всегда четко представляют, в какой форме их корректно отображать и обрабатывать для того, чтобы в дальнейшем подвергнуть статистическому выводу. Поэтому нужно четко представлять, что такое описательная статистика. Она еще носит название дескриптивной и занимается анализом и обработкой эмпирических данных с проведением необходимой систематизации. Описательная статистика – это сжатая и концентрированная характеристика изучаемого явления, представленная в виде графиков, таблиц, схем и числовых выражений.
Вот что входит в описательную статистику в качестве основных показателей:
- переменная, которая не является постоянным. Ее можно не только измерять, но и подвергать изменениям в ходе определенных манипуляций;
- экстремумы, или так называемые максимумы и минимумы значений самой переменной;
- под вариационными рядами понимают все количественные признаки, которые имеются у каждой единицы статистического наблюдения;
- среднее – представляется средним арифметическим или выборочным. Здесь есть несколько параметров, таких как гармоническое, геометрическое, арифметическое и квадратическое. Все они нужны для того, чтобы охарактеризовать центр распределения;
- мода представляет собой наиболее часто встречающееся значение в выборке. Правда, она может отражать также и среднее значение класса, обладающего наибольшей частотой;
- медиана – это среднее значение чаще всего встречающихся значений выборки;
- дисперсия – позволяет оценить отклонения в определенном числе наблюдений. Этот параметр относится к показателям рассеяния вариант.
Как правило сводная статистика подразделяются на три категории:
- меры местоположения или центрированности (если распределение симметричное все три характеристики равны друг другу)
- Среднее значение
- Математическое ожидание
- Медиана (не подвержена "выбросам", инструмент для избавления от "выбросов")
- Мода
- меры разброса или рассеивания/местоположения
- Дисперсия случайной величины - средний квадрат от среднего, так как квадратичная мера наименее надежна (как среднее не явл. устойчивой характеристикой так и дисперсия, "выбросы сказываются" на дисперсии)
- Среднеквадратическое отклонение (практически равна дисперсии)
- Минимум, Максимум(экстремальные значения)
- Интерквантильный размах
- Размах вариации
- Интервал
- Доверительный интервал
- меры формы
Для удобства расчета описательной статистики я написал функцию Rsummary - русифицированный скрипт (функция) на вход принимает вектор и возвращает (округленные) табличные значения большинства описательных статистик, точные их значения также храниться в виде скаляров с тем же названием что и в таблице.
# Rsummary (загрузить файл с сайта жми сюда) русифицированный скрипт (функция) на вход принимает вектор
# и возвращает (округленные) значения большинства описательных статистик
setwd('C:/R myFunction')
source('Rsummary.R')
data = c(14.9, 15.7, 18.0, 15.3, 15.9)
Rsummary(x = data)
N Mean SD Disp R Min Max Me CV Cs As Ex 1 5 15.96 1.2 1.45 3.1 14.9 18 15.7 7.54 3.37 0.8 -1.21 |
Mean – среднее значение выборки
SD – стандартное отклонение
Disp – дисперсия (варианса, средний квадрат отклонений)
N – количество элементов (наблюдений, вариант) в выборке
Min и Max минимальное и максимальное значения вариант в выборке
R – размах вариации (разность между максимальной и минимальной вариантой)
CV – коэффициент вариации в процентах
# cv Коэффициент вариации — это отношение стандартного отклонения к
# средней арифметической для выборки, выраженное в процентах.
# Этот параметр показывает, насколько велик разброс в данных,
# независимо от масштаба измерений.
# Чем больше значение коэффициента вариации,
# тем выше изменчивость (вариабельность) признака в выборке.
# Обычно используют 3 пороговых значения:
#— CV = 5 % — низкая изменчивость,
#— CV = 10 % — средняя изменчивость,
#— CV = 15 % — высокая изменчивость.
Me – медиана (это средняя, относительно которой ряд распределения делиться на две половины: в обе стороны от медианы располагается одинаковое число вариант.
Cs – показатель точности определения средней. Показывает близость выборочной средней к генеральному параметру. Считается очень полезной характеристикой при оценке результатов измерений различных величин опытным путем. Точность считается удовлетворительной при показателях Cs в пределах 3 – 5 процентов.
AS - Коэффициент асимметрии. Показатель принимает значения примерно от -3 до 3. Значение 0 соответствует симметричному распределению (например, нормальному, вспомните график плотности, симметричный относительно математического ожидания). Значения меньше 0 соответствуют распределению, которое скошено влево (длинный хвост «слева»), значения больше 0 соответствуют распределению, которое скошено вправо (длинный «хвост» справа).
Ex - Коэффициент эксцесса. Показатель принимает значения примерно от -3 до 3 и отвечает за выраженность пика распределения. Чем больше значение коэффициента, тем более выраженный пик. Стандартное нормальное распределение имеет коэффициент эксцесса равный 0. Отрицательные значения коэффициента соответствуют более «плоским» и «гладким» распределениям, у которых пик не такой заметный.