Описательная статистика

Описательная статистика — это раздел статистики, который используется для обобщения и осмысленной организации данных. Этот тип статистики используется для описания основных характеристик набора данных, таких как среднее значение, медиана, мода, диапазон, дисперсия и стандартное отклонение. Описательную статистику также можно использовать для визуализации данных, например, с помощью гистограмм и диаграмм рассеяния. Те, кто впервые в своей работе сталкивается с обработкой и описанием данных, не всегда четко представляют, в какой форме их корректно отображать и обрабатывать для того, чтобы в дальнейшем подвергнуть статистическому выводу. Поэтому нужно четко представлять, что такое описательная статистика. Она еще носит название дескриптивной и занимается анализом и обработкой эмпирических данных с проведением необходимой систематизации. Описательная статистика – это сжатая и концентрированная характеристика изучаемого явления, представленная в виде графиков, таблиц, схем и числовых выражений.

Вот что входит в описательную статистику в качестве основных показателей:

переменная, которая не является постоянным. Ее можно не только измерять, но и подвергать изменениям в ходе определенных манипуляций;
экстремумы, или так называемые максимумы и минимумы значений самой переменной;
под вариационными рядами понимают все количественные признаки, которые имеются у каждой единицы статистического наблюдения;
среднее – представляется средним арифметическим или выборочным. Здесь есть несколько параметров, таких как гармоническое, геометрическое, арифметическое и квадратическое. Все они нужны для того, чтобы охарактеризовать центр распределения;
мода представляет собой наиболее часто встречающееся значение в выборке. Правда, она может отражать также и среднее значение класса, обладающего наибольшей частотой;
медиана – это среднее значение чаще всего встречающихся значений выборки;
дисперсия – позволяет оценить отклонения в определенном числе наблюдений. Этот параметр относится к показателям рассеяния вариант.

Как правило сводная статистика подразделяются на три категории:

меры местоположения или центрированности (если распределение симметричное все три характеристики равны друг другу)
1. Среднее значение
2. Математическое ожидание
3. Медиана (не подвержена "выбросам", инструмент для избавления от "выбросов")
4. Мода
меры разброса или рассеивания/местоположения
1. Дисперсия случайной величины - средний квадрат от среднего, так как квадратичная мера наименее надежна (как среднее не явл. устойчивой характеристикой так и дисперсия, "выбросы сказываются" на дисперсии)
2. Среднеквадратическое отклонение (практически равна дисперсии)
3. Минимум, Максимум(экстремальные значения)
4. Интерквантильный размах
5. Размах вариации
6. Интервал
7. Доверительный интервал
меры формы
1. Коэффициент асимметрии
2. Коэффициент перекоса

Для удобства расчета описательной статистики я написал функцию Rsummary - русифицированный скрипт (функция) на вход принимает вектор и возвращает (округленные) табличные значения большинства описательных статистик, точные их значения также храниться в виде скаляров с тем же названием что и в таблице.

# Rsummary (загрузить файл с сайта жми сюда) русифицированный скрипт (функция) на вход принимает вектор
# и возвращает (округленные) значения большинства описательных статистик
setwd('C:/R myFunction')
source('Rsummary.R')

data = c(14.9, 15.7, 18.0, 15.3, 15.9)
Rsummary(x = data)

N Mean SD Disp R Min Max Me CV Cs As Ex
1 5 15.96 1.2 1.45 3.1 14.9 18 15.7 7.54 3.37 0.8 -1.21

Mean – среднее значение выборки

SD – стандартное отклонение

Disp – дисперсия (варианса, средний квадрат отклонений)

N – количество элементов (наблюдений, вариант) в выборке

Min и Max минимальное и максимальное значения вариант в выборке

R – размах вариации (разность между максимальной и минимальной вариантой)

CV – коэффициент вариации в процентах

# cv Коэффициент вариации — это отношение стандартного отклонения к

# средней арифметической для выборки, выраженное в процентах.

# Этот параметр показывает, насколько велик разброс в данных,

# независимо от масштаба измерений.

# Чем больше значение коэффициента вариации,

# тем выше изменчивость (вариабельность) признака в выборке.

# Обычно используют 3 пороговых значения:

#— CV = 5 % — низкая изменчивость,

#— CV = 10 % — средняя изменчивость,

#— CV = 15 % — высокая изменчивость.

Me – медиана (это средняя, относительно которой ряд распределения делиться на две половины: в обе стороны от медианы располагается одинаковое число вариант.

Cs – показатель точности определения средней. Показывает близость выборочной средней к генеральному параметру. Считается очень полезной характеристикой при оценке результатов измерений различных величин опытным путем. Точность считается удовлетворительной при показателях Cs в пределах 3 – 5 процентов.

AS - Коэффициент асимметрии. Показатель принимает значения примерно от -3 до 3. Значение 0 соответствует симметричному распределению (например, нормальному, вспомните график плотности, симметричный относительно математического ожидания). Значения меньше 0 соответствуют распределению, которое скошено влево (длинный хвост «слева»), значения больше 0 соответствуют распределению, которое скошено вправо (длинный «хвост» справа).

Ex - Коэффициент эксцесса. Показатель принимает значения примерно от -3 до 3 и отвечает за выраженность пика распределения. Чем больше значение коэффициента, тем более выраженный пик. Стандартное нормальное распределение имеет коэффициент эксцесса равный 0. Отрицательные значения коэффициента соответствуют более «плоским» и «гладким» распределениям, у которых пик не такой заметный.

Понедельник, 06.04.2026, 14:27	Приветствуем вас Гость \| RSS
Решение задач в среде R
Главная \| Описательная статистика \| Регистрация \| Вход