Как понять не пытаются ли меня
Существует множество способов посчитать среднее значение чего-нибудь. Например, среднее арифметическое, среднее геометрическое, медиана, взвешенное среднее, мода и т.д.
Давайте посмотрим, чем они отличаются на живом примере инвестиционного сервиса.
У каждого способа расчета свое назначение и свой смысл. Взвешенное среднее, например, используется для расчета ожидаемой доходности портфеля из разных классов активов. Когда у вас 70% акций с доходностью 6% и 30% облигаций с доходностью 2%, просто среднее арифметическое считать нельзя.
Или если вы ищете среднюю доходность инвестиций за 10 лет, а у вас данные за каждый отдельный год. В этом случае среднее арифметическое тоже не подойдет, т.к. будет работать сложный процент. Здесь нужно считать среднее геометрическое.
Среднее арифметическое и медиана
А вот среднее арифметическое и медиана, кажется очень похожи. Со всей этой историей со средним доходом на душу населения в России, я часто слышу, что медиана это правильно, а среднее нет. Не совсем так.
Давайте сразу определим разницу:
- Среднее арифметическое, это сумма всех значения ряда разделенная на количество значений. Например, среднее арифметическое ряда 2, 3, 4, 5, 7 будет (2+3+4+5+7)/5=4,2. Точное определение здесь.
- Медиана это среднее значение в ряду, то есть число находящееся в середине массива. В нашем случае это 4, т.к. до него 2 значения и после него тоже 2. Точное определение здесь.
Эти два способа (ну еще и мода, но я не буду загромождать) удобнее всего использовать вместе, а не отдельно. Здесь нет правильного и неправильного.
Важно то что когда у вас есть среднее арифметическое или медиана, то у вас только они. А вот когда вы посчитали оба, вы можете сделать дополнительные выводы. Какие?
Жирные хвосты
Я хотел взять значения по зарплате, но не нашел подходящего источника. Поэтому давайте возьмем для примера текущие доходности всех рекомендаций из сервиса Analityca. У меня как раз есть все цифры и я могу быть уверен в их надежности.

У нас было всего 27 рекомендаций. Результаты находятся в диапазоне от -31% до 196%.
Среднее арифметическое значение доходности 25.38% абсолютного дохода или 52% годовых. Я мог бы прямо сейчас выставить эти результаты на сайте и говорить, как все круто. Цифры-то прекрасные. Но пару месяцев назад, я наоборот убрал эти данные со страницы с результатами рекомендаций. Почему?
Потому что медиана по доходности 8.6% в абсолюте и 14.76% годовых. Тоже нормальный результат, но уже не космос.
Но сейчас нам важнее посмотреть не на каждое значение отдельно, а на оба вместе. Сравнив 8.6% медианы и 25.38% среднего арифметического, даже не анализируя отдельные значения массива, я сходу могу сказать, что здесь сильное позитивное отклонение от среднего. То есть небольшая часть рекомендаций показали доходность значительно выше средней.
И если мы построим гистограмму нормального распределения доходностей, то это станет очевидно. Смотрите какой перекос вправо.

Это называется положительная асимметрия (или жирный хвост). Среднее значение для распределений с положительной асимметрией больше, чем медиана, а для распределений с отрицательной асимметрией — наоборот.
Какие выводы
- Смотреть на один вариант среднего не всегда достаточно.В случае с нашими доходностями, выгоднее показать среднюю. Если бы они были смещены в минусовую зону, то выгоднее было бы показать медиану. Также и с зарплатами у Росстата :)
- Сравнивая эти значения я не просто получаю данные о средней. Я также понимаю какое распределение. В нашем случае видно, что основную доходность дают жирные хвосты - исключения из правил, которые сильно отрываются от среднего.
Но в случае Аналитики, это часть стратегии. А вот если вам кто-то говорит, что «у нас консервативные инвестиции и высокая средняя доходность» нужно обязательно проверить, а так уж ли они консервативны и так уж ли высока средняя доходность, а та ли вообще средняя?
Такие вещи важно понимать при принятии решения об инвестиции.