Стандартное отклонение зачем нужно
Exceltip
Блог о программе Microsoft Excel: приемы, хитрости, секреты, трюки
Что такое стандартное отклонение — использование функции СТАНДОТКЛОН для расчета стандартного отклонения в Excel
Стандартное отклонение является одним из тех статистических терминов в корпоративном мире, которое позволяет поднять авторитет людей, сумевших удачно ввернуть его в ходе беседы или презентации, и оставляет смутное недопонимание тех, кто не знает, что это такое, но стесняется спросить. На самом деле большинство менеджеров не понимают концепцию стандартного отклонения и, если вы один из них, вам пора перестать жить во лжи. В сегодняшней статье я расскажу вам, как эта недооцененная статистическая мера позволит лучше понять данные, с которыми вы работаете.
Что измеряет стандартное отклонение?
Представьте, что вы владелец двух магазинов. И чтобы избежать потерь, важно, чтобы был четкий контроль остатков на складе. В попытке выяснить, кто из менеджеров лучше управляет запасами, вы решили проанализировать стоки последних шести недель. Средняя недельная стоимость стока обоих магазинов примерно одинакова и составляет около 32 условных единиц. На первый взгляд среднее значение стока показывает, что оба менеджера работают одинаково.
Но если внимательнее изучить деятельность второго магазина, можно убедится, что хотя среднее значение корректно, вариабельность стока очень высокая (от 10 до 58 у.е.). Таким образом, можно сделать вывод, что среднее значение не всегда правильно оценивает данные. Вот где на выручку приходит стандартное отклонение.
Стандартное отклонение показывает, как распределены значения относительно среднего в нашей выборке. Другими словами, можно понять на сколько велик разброс величины стока от недели к неделе.
В нашем примере, мы воспользовались функцией Excel СТАНДОТКЛОН, чтобы рассчитать показатель стандартного отклонения вместе со средним.
В случае с первым менеджером, стандартное отклонение составило 2. Это говорит нам о том, что каждое значение в выборке в среднем откланяется на 2 от среднего значения. Хорошо ли это? Давайте рассмотрим вопрос под другим углом – стандартное отклонение равное 0, говорит нам о том, что каждое значение в выборке равно его среднему значению (в нашем случае, 32,2). Так, стандартное отклонение 2 ненамного отличается от 0, и указывает на то, что большинство значений находятся рядом со средним значением. Чем ближе стандартное отклонение к 0, тем надежнее среднее. Более того, стандартное отклонение близкое к 0, говорит о маленькой вариабельности данных. То есть, величина стока со стандартным отклонением 2, указывает на невероятную последовательность первого менеджера.
В случае со вторым магазином, стандартное отклонение составило 18,9. То есть стоимость стока в среднем отклоняется на величину 18,9 от среднего значения от недели к неделе. Сумасшедший разброс! Чем дальше стандартное отклонение от 0, тем менее точно среднее значение. В нашем случае, цифра 18,9 указывает на то, что среднему значению (32,8 у.е. в неделю) просто нельзя доверять. Оно также говорит нам о том, что еженедельная величина стока обладает большой вариабельностью.
Такова концепция стандартного отклонения в двух словах. Хотя оно не дает представление о других важных статистических измерениях (Мода, Медиана…), фактически стандартное отклонение играет решающую роль в большинстве статистических расчетов. Понимание принципов стандартного отклонения прольет свет на суть многих процессов вашей деятельности.
Как рассчитать стандартное отклонение?
Итак, теперь мы знаем, о чем говорит цифра стандартного отклонения. Давайте разберемся, как она считается.
Рассмотрим набор данных от 10 до 70 с шагом 10. Как видите, я уже рассчитал для них значение стандартного отклонения с помощью функции СТАНДОТКЛОН в ячейке H2 (оранжевым).
Ниже описаны шаги, которые предпринимает Excel, чтобы прийти к цифре 21,6.
Обратите внимание, что все расчеты визуализированы, для лучшего понимания. На самом деле в Excel расчет происходит мгновенно, оставляя все шаги за кулисами.
Для начала Excel находит среднее значение выборки. В нашем случае, среднее получилось равным 40, которое на следующем шаге отнимают от каждого значения выборки. Каждую полученную разницу возводят в квадрат и суммируют. У нас получилась сумма равная 2800, которую необходимо разделить на количество элементов выборки минус 1. Так как у нас 7 элементов, получается необходимо 2800 разделить на 6. Из полученного результата находим квадратный корень, это цифра будет стандартным отклонением.
Для тех, кому не совсем ясен принцип расчета стандартного отклонения с помощью визуализации, привожу математическую интерпретацию нахождения данного значения.
Функции расчета стандартного отклонения в Excel
В Excel присутствует несколько разновидностей формул стандартного отклонения. Вам достаточно набрать =СТАНДОТКЛОН и вы сами в этом убедитесь.
Стоит отметить, что функции СТАНДОТКЛОН.В и СТАНДОТКЛОН.Г (первая и вторая функция в списке) дублируют функции СТАНДОТКЛОН и СТАНДОТКЛОНП (пятая и шестая функция в списке), соответственно, которые были оставлены для совместимости с более ранними версиями Excel.
Особенностью функций СТАНДОТКЛОНА и СТАНДОТКЛОНПА (третья и четвертая функция в списке), является то, что при расчете стандартного отклонения массива в расчет принимаются логические и текстовые значения. Текстовые и истинные логические значения равняются 1, а ложные логические значения равняются 0. Мне трудно представить ситуацию, когда бы мне могли понадобится эти две функции, поэтому, думаю, что их можно игнорировать.
Вам также могут быть интересны следующие статьи
32 комментария
Ренат, добрый день.
Мне нравится статья, а главное способ подачи материала. Визуализация расчёта также порадовала новизной подхода, хотя и времени потребовала больше для понимания (классическое советское образование). Согласен, что про стандартное отклонение никто толком не знает, а зря…
Добрый день.
В формуле ошибка: под знаком корня необходимо суммировать квадраты отклонений
Стандартное отклонение
Стандартное (среднеквадратическое) отклонение (Standard Deviation) используется для оценки отклонения (разброса) значений от их средней величины. Рассчитывается как корень квадратный из дисперсии и обычно обозначается греческой буквой σ (сигма). В финансовом анализе его считают мерой неопределенности, то есть риска.
Большое значение отклонения показывает больший разброс значений от средней величины и указывает на более высокий риск; меньшее, соответственно, показывает, что значения в множестве сгруппированы вокруг среднего значения и указывает на меньшую волатильность.
Инвестиции в акции США, IPO и Pre-IPO
Рассмотрим, как работает стандартное отклонение на примере. Допустим, что средняя годовая доходность некой инвестиции составляет 5%, а годовое стандартное отклонение доходности этой инвестиции равняется 10%.
В случае нормального распределения в пределы одного стандартного отклонения попадают порядка 68% ожидаемых будущих доходов. Это означает, что вероятность того, что фактический результат будет отстоять от ожидаемого значения больше, чем на величину одного отклонения, равняется лишь 32%.
Вероятность того, что фактический результат попадет в пределы двух стандартных отклонений от ожидаемого значения соответствующего распределения, равняется приблизительно 95%, а вероятность того, что он попадет в пределы трех отклонений от ожидаемого значения, составляет больше 99%.
Среднеквадратическое (стандартное) отклонение доходности различных классов активов не является статичной величиной. Бывают времена, когда доходность одних классов активов оказывается более волатильной, чем доходность других.
Из книги Ричарда Ферри “Все о распределении активов”.
Стандартное отклонение
Опубликовано 06.07.2021 · Обновлено 06.07.2021
Что такое стандартное отклонение?
Стандартное отклонение – это статистика, которая измеряет разброс набора данных относительно его среднего значения. Стандартное отклонение рассчитывается как квадратный корень из дисперсии путем определения отклонения каждой точки данных относительно среднего значения. Если точки данных находятся дальше от среднего значения, в наборе данных имеется большее отклонение; таким образом, чем шире разброс данных, тем выше стандартное отклонение.
Ключевые выводы:
Понимание стандартного отклонения
Стандартное отклонение – это статистический показатель в области финансов, который в применении к годовой норме доходности инвестиций проливает свет на историческую волатильность этих инвестиций. Чем больше стандартное отклонение ценных бумаг, тем больше разница между каждой ценой и средним значением, которое показывает больший диапазон цен. Например, волатильные акции имеют высокое стандартное отклонение, в то время как отклонение стабильных голубых фишек обычно довольно низкое.
Формула стандартного отклонения
Расчет стандартного отклонения
Стандартное отклонение рассчитывается следующим образом:
Использование стандартного отклонения
Стандартное отклонение – особенно полезный инструмент в инвестиционных и торговых стратегиях, поскольку он помогает измерять волатильность рынка и ценных бумаг, а также прогнозировать тенденции производительности. Например, что касается инвестирования, индексный фонд, вероятно, будет иметь низкое стандартное отклонение по сравнению с его эталонным индексом, поскольку цель фонда – воспроизвести индекс.
С другой стороны, можно ожидать, что фонды агрессивного роста будут иметь высокое стандартное отклонение от относительных фондовых индексов, поскольку их управляющие портфелями делают агрессивные ставки для получения прибыли выше среднего.
Более низкое стандартное отклонение не обязательно является предпочтительным. Все зависит от вложений и готовности инвестора принять на себя риск. Имея дело с величиной отклонений в своих портфелях, инвесторы должны учитывать свою терпимость к волатильности и свои общие инвестиционные цели. Более агрессивные инвесторы могут быть довольны инвестиционной стратегией, которая выбирает автомобили с волатильностью выше среднего, в то время как более консервативные инвесторы могут не делать этого.
Стандартное отклонение – паевых инвестиционных фондов и других продуктов. Большой разброс показывает, насколько доходность фонда отклоняется от ожидаемой нормальной доходности. Поскольку эта статистика проста для понимания, она регулярно предоставляется конечным клиентам и инвесторам.
Стандартное отклонение против дисперсии
Дисперсия получается путем взятия среднего значения точек данных, вычитания среднего значения из каждой точки данных в отдельности, возведения в квадрат каждого из этих результатов, а затем взятия другого среднего значения этих квадратов. Стандартное отклонение – это квадратный корень из дисперсии.
Дисперсия помогает определить размер разброса данных по сравнению со средним значением. По мере того, как дисперсия становится больше, происходит большее изменение значений данных, и может быть больший разрыв между одним значением данных и другим. Если все значения данных близки друг к другу, дисперсия будет меньше. Однако это сложнее понять, чем стандартное отклонение, потому что дисперсия представляет собой результат, возведенный в квадрат, который не может быть осмысленно выражен на том же графике, что и исходный набор данных.
Стандартные отклонения обычно легче изобразить и применить. Стандартное отклонение выражается в той же единице измерения, что и данные, что не обязательно относится к дисперсии. Используя стандартное отклонение, статистики могут определить, имеют ли данные нормальную кривую или другую математическую зависимость. Если данные ведут себя по нормальной кривой, то 68% точек данных будут находиться в пределах одного стандартного отклонения от среднего или среднего значения точки данных. Большие отклонения приводят к тому, что большее количество точек данных выходит за пределы стандартного отклонения. Меньшие отклонения приводят к большему количеству данных, близких к среднему.
Большой недостаток
Самый большой недостаток использования стандартного отклонения заключается в том, что на него могут влиять выбросы и экстремальные значения. Стандартное отклонение предполагает нормальное распределение и рассчитывает всю неопределенность как риск, даже если она в пользу инвестора, например, доходность выше среднего.
Пример стандартного отклонения
Скажем, у нас есть точки данных 5, 7, 3 и 7, всего 22. Затем вы разделите 22 на количество точек данных, в данном случае на четыре, что даст среднее значение 5,5. Это приводит к следующим определениям: x̄ = 5.5 и N = 4.
Затем вычисляется квадратный корень из дисперсии, что дает стандартное отклонение примерно 1,915.
Таким образом, абсолютное значение годовой доходности за вычетом среднего составляет 24,39%, 11,57%, 42,27%, 52,1% и 24,03% соответственно. Затем все эти значения возводятся в квадрат, чтобы получить 0,059, 0,013, 0,179, 0,271 и 0,058. Выборочная дисперсия – это среднее значение квадрата разности, или 0,145, где значения в квадрате складываются и делятся на 4 (N минус 1). Квадратный корень из дисперсии используется для получения стандартного отклонения 38,08%.
Конспект курса «Основы статистики»
1. Введение
Способы формирования репрезентативной выборки:
Простая случайная выборка (simple random sample)
Стратифицированная выборка (stratified sample)
Групповая выборка (cluster sample)
Типы переменных:
непрерывные (рост в мм)
дискретные (количество публикаций у учёного)
Ранговые (успеваемость студентов)
Гистограмма частот:
Позволяет сделать первое впечатление о форме распределения некоторого количественного признака.
Описательные статистики:
Меры центральной тенденции (узкий диапазон, высокие значения признака):
( используется для среднего значения из выборки, а для генеральной совокупности латинская буква )
Свойства среднего:
Если к каждому значению выборки прибавить определённое число, то и среднее значение увеличится на это число.
Если к каждому значению выборки прибавить определённое число, то и среднее значение увеличится на это число.
Если для каждого значения выборки, рассчитать такой показатель как его отклонение от среднего арифметического, то сумма этих отклонений будет равняться нулю.
Меры изменчивости (широкий диапазон, вариативность признака):
При добавлении сильно отличающегося значения данные меняются сильно и могут быть некорректные.
Дисперсия генеральной совокупности:
(среднеквадратическое отклонение генеральной совокупности)
(среднеквадратическое отклонение выборки)
Свойства дисперсии:
Квартили распределения и график box-plot
Нормальное распределение
Отклонения наблюдений от среднего подчиняются определённому вероятностному закону.
Стандартизация
Правило «двух» и «трёх» сигм
Центральная предельная теорема
Есть признак, распределенный КАК УГОДНО* с некоторым средним и некоторым стандартным отклонением. Тогда, если выбирать из этой совокупности выборки объема n, то их средние тоже будут распределены нормально со средним равным среднему признака в ГС и стандартным отклонением .
30″ alt=»SE = \frac
Доверительные интервалы для среднего
Доверительный интервал является показателем точности измерений. Это также показатель того, насколько стабильна полученная величина, то есть насколько близкую величину (к первоначальной величине) вы получите при повторении измерений (эксперимента).
Идея статистического вывода
2. Сравнение средних
T-распределение
Если число наблюдений невелико и \sigma неизвестно (почти всегда), используется распределение Стьюдента (t-distribution).
Унимодально и симметрично, но: наблюдения с большей вероятностью попадают за пределы от
«Форма» распределения определяется числом степеней свободы ().
С увеличением числа распределение стремится к нормальному.
t-распределение используется не потому что у нас маленькие выборки, а потому что мы не знаем стандартное отклонение в генеральной совокупности.
Сравнение двух средних; t-критерий Стьюдента
Критерий, который позволяет сравнивать средние значения двух выборок между собой, называется t-критерий Стьюдента.
Условия для корректности использования t-критерия Стьюдента:
Две независимые группы
Формула стандартной ошибки среднего:
Формула числа степеней свободы:
Формула t-критерия Стьюдента:
Переход к p-критерию:
Проверка распределения на нормальность, QQ-Plot
Однофакторный дисперсионный анализ
Часто в исследованиях необходимо сравнить несколько групп между собой. В таком случае применятся однофакторный дисперсионный анализ.
Группы:
Нулевая гипотеза:
Альтернативная гипотеза:
Среднее значение всех наблюдений:
Общая сумма квадратов (Total sum of sqares):
Показатель, который характеризует насколько высока изменчивость данных, без учёта разделения их на группы.
Число степеней свободы:
— Межгрупповая сумма квадратов (Sum of sqares between groups)
— Внутригрупповая сумма квадратов (Sum of sqares within groups)
F-значение (основной статистический показатель дисперсионного анализа):
При делении значения межгрупповой суммы квадратов на число степеней свободы, полученный показатель усредняется.
Поэтому формула F-значения часто записывается:
Множественные сравнения в ANOVA
Проблема множественных сравнений:
Поправка Бонферрони
Самый простой (и консервативный) метод: P-значения умножаются на число выполненных сравнений.
Критерий Тьюки
Критерий Тьюки используется для проверки нулевой гипотезы против альтернативной гипотезы , где индексы и обозначают любые две сравниваемые группы.
Указанные сравнения выполняются при помощи критерия Тьюки, который представляет собой модифицированный критерий Стьюдента:
где — рассчитываемая в ходе дисперсионного анализа внутригрупповая дисперсия.
Многофакторный ANOVA
При применении двухфакторного дисперсионного анализа исследователь проверяет влияние двух независимых переменных (факторов) на зависимую переменную. Может быть изучен также эффект взаимодействия двух переменных.
Исследуемые группы называют эффектами обработки. Схема двухфакторного дисперсионного анализа имеет несколько нулевых гипотез: одна для каждой независимой переменной и одна для взаимодействия.
Условия применения двухмерного дисперсионного анализа:
Генеральные совокупности, из которых извлечены выборки, должны быть нормально распределены.
Выборки должны быть независимыми.
Дисперсии генеральных совокупностей, из которых извлекались выборки, должны быть равными.
Группы должны иметь одинаковый объем выборки.
АБ тесты и статистика
3. Корреляция и регрессия
Понятие корреляции
Коэффициент корреляции – это статистическая мера, которая вычисляет силу связи между относительными движениями двух переменных.
Принимает значения [-1, 1]
— показатель силы и направления взаимосвязи двух количественных переменных.
Знак коэффициента корреляции показывает направление взаимосвязи.
Коэффициент детерминации
— показывает, в какой степени дисперсия одной переменной обусловлена влиянием другой переменной.
Равен квадрату коэффициента корреляции.
Принимает значения [0, 1]
Условия применения коэффициента корреляции
Для применения коэффициента корреляции Пирсона, необходимо соблюдать следующие условия:
Сравниваемые переменные должны быть получены в интервальной шкале или шкале отношений.
Распределения переменных и должны быть близки к нормальному.
Число варьирующих признаков в сравниваемых переменных и должно быть одинаковым.
Коэффициент корреляции Спирмена
Регрессия с одной независимой переменной
Уравнение прямой:
— (intersept) отвечает за то, где прямая пересекает ось y.
— (slope) отвечает за направление и угол наклона, образованный с осью x.
Метод наименьших квадратов
Формула нахождения остатка:
— остаток
— реальное значение
— значение, которое предсказывает регрессионная прямая
Сумма квадратов всех остатков:
Параметры линейной регрессии:
Гипотеза о значимости взаимосвязи и коэффициент детерминации
Коэффициенты линейной регрессии
Коэффициенты регрессии (β) — это коэффициенты, которые рассчитываются в результате выполнения регрессионного анализа. Вычисляются величины для каждой независимой переменной, которые представляют силу и тип взаимосвязи независимой переменной по отношению к зависимой.
Коэффициент детерминации
— доля дисперсии зависимой переменной (Y), объясняем регрессионной моделью.
— сумма квадратов остатков
— сумма квадратов общая
Условия применения линейной регрессии с одним предиктором
Линейная взаимосвязь и
Нормальное распределение остатков
Регрессионный анализ с несколькими независимыми переменными
Множественная регрессия (Multiple Regression)
Множественная регрессия позволяет исследовать влияние сразу нескольких независимых переменных на одну зависимую.
Требования к данным
линейная зависимость переменных
нормальное распределение остатков
проверка на мультиколлинеарность
нормальное распределение переменных (желательно)