Зміст
У посібнику роз'яснюється сутність стандартного відхилення та стандартної похибки середнього значення, а також яка формула найкраще підходить для розрахунку стандартного відхилення в Excel.
В описовій статистиці середнє арифметичне (також зване середнім) і стандартне відхилення є двома тісно пов'язаними поняттями. Але в той час як перше добре зрозуміле більшості, друге мало хто розуміє. Мета цього підручника - пролити світло на те, що насправді являє собою стандартне відхилення і як його розрахувати в Excel.
Що таке середньоквадратичне відхилення?
На сьогоднішній день, на жаль, це не так. середньоквадратичне відхилення це міра, яка показує, наскільки значення набору даних відхиляються (розкидані) від середнього значення. Іншими словами, стандартне відхилення показує, наскільки ваші дані близькі до середнього значення чи сильно коливаються.
Мета стандартного відхилення - допомогти вам зрозуміти, чи дійсно середнє значення повертає "типові" дані. Чим ближче стандартне відхилення до нуля, тим менша варіабельність даних і тим надійніше середнє значення. Стандартне відхилення, що дорівнює 0, вказує на те, що кожне значення в наборі даних точно дорівнює середньому значенню. Чим вище стандартне відхилення, тим більше варіабельності в даних.і тим менш точним є середнє значення.
Щоб краще зрозуміти, як це працює, будь ласка, подивіться на наступні дані:
Для біології стандартне відхилення дорівнює 5 (округлене до цілого числа), що свідчить про те, що більшість балів відрізняються від середнього значення не більше, ніж на 5 балів. Чи добре це? Так, це свідчить про те, що результати учнів з біології є досить стабільними.
Для математики стандартне відхилення становить 23. Це свідчить про те, що існує величезна дисперсія (розкид) у балах, що означає, що деякі учні показали набагато кращі результати, а деякі - набагато гірші, ніж середній показник.
На практиці стандартне відхилення часто використовується бізнес-аналітиками як міра інвестиційного ризику - чим вище стандартне відхилення, тим вище волатильність прибутковості.
Стандартне відхилення вибірки порівняно зі стандартним відхиленням генеральної сукупності
По відношенню до стандартного відхилення часто можна почути терміни "вибірка" і "генеральна сукупність", які відносяться до повноти даних, з якими ви працюєте. Основна відмінність полягає в наступному:
- Населення включає всі елементи з набору даних.
- Зразок це підмножина даних, яка включає один або більше елементів із сукупності.
Дослідники та аналітики оперують стандартним відхиленням вибірки та генеральної сукупності в різних ситуаціях. Наприклад, підбиваючи підсумки іспитів класу учнів, вчитель буде використовувати стандартне відхилення генеральної сукупності. Статистики, які розраховують середній бал національного тесту SAT, будуть використовувати вибіркове стандартне відхилення, оскільки вони мають дані лише з вибірки, а не з генеральної сукупності.від усього населення.
Розуміння формули середньоквадратичного відхилення
Причина, через яку характер даних має значення, полягає в тому, що стандартне відхилення генеральної сукупності та стандартне відхилення вибірки розраховуються за дещо різними формулами:
Середньоквадратичне відхилення вибірки | Популяційне стандартне відхилення |
Де:
- x i є окремими значеннями в наборі даних
- x це середнє арифметичне всіх x цінності
- n загальна кількість x значення в наборі даних
Маєте труднощі з розумінням формул? Розбиття їх на прості кроки може допомогти. Але спочатку давайте матимемо кілька прикладів даних, з якими можна попрацювати:
1. розрахувати середнє значення (середнє арифметичне)
Спочатку знаходять середнє значення всіх значень у наборі даних ( x При підрахунку вручну ви складаєте числа, а потім ділите суму на кількість цих чисел, ось так:
(1+2+4+5+6+8+9)/7=5
Для знаходження середнього значення в Excel використовуйте функцію СРЗНАЧ, наприклад, =СРЗНАЧ(A2:G2)
2. для кожного числа відніміть середнє значення та піднесіть результат до квадрату
Це та частина формули середньоквадратичного відхилення, яка говорить: ( x i - x )2
Для візуалізації того, що відбувається насправді, пропоную ознайомитися з наступними зображеннями.
У цьому прикладі середнє значення дорівнює 5, тому ми розраховуємо різницю між кожною точкою даних і 5.
Потім ви підносите різниці до квадрату, перетворюючи їх на позитивні числа:
3. скласти різниці в квадраті
Щоб сказати "підсумувати" в математиці, ви використовуєте сигму Σ. Отже, те, що ми робимо зараз, це складаємо квадрати різниць, щоб завершити цю частину формули: Σ( x i - x )2
16 + 9 + 1 + 1 + 9 + 16 = 52
4. розділити загальну суму квадратів різниць на кількість значень
До цього часу формули вибіркового стандартного відхилення та генерального стандартного відхилення були ідентичними. Наразі вони відрізняються.
Для середньоквадратичне відхилення вибірки ви отримуєте дисперсія вибірки шляхом ділення загальної суми квадратів різниць на обсяг вибірки мінус 1:
52 / (7-1) = 8.67
Для середньоквадратичне відхилення популяції ви знайдете середнє квадратів різниць шляхом ділення суми квадратів різниць на їх кількість:
52 / 7 = 7.43
Чому така різниця у формулах? Тому що у формулі вибіркового середньоквадратичного відхилення потрібно виправити зміщення в оцінці вибіркового середнього, а не істинного середнього по генеральній сукупності. І робиться це за допомогою n - 1 замість n яка називається поправкою Бесселя.
5. взяти квадратний корінь
Нарешті, візьміть квадратний корінь з наведених вище чисел, і ви отримаєте ваше стандартне відхилення (у наведених нижче формулах, округлене до 2 знаків після коми):
Середньоквадратичне відхилення вибірки | Середньоквадратичне відхилення популяції |
√ 8.67 = 2.94 | √ 7.43 = 2.73 |
В Microsoft Excel стандартне відхилення обчислюється аналогічно, але всі перераховані вище обчислення виконуються "за кадром". Головне для вас - правильно підібрати функцію стандартного відхилення, про що в наступному розділі ми дамо вам деякі підказки.
Як розрахувати середньоквадратичне відхилення в Excel
Загалом, існує шість різних функцій для знаходження стандартного відхилення в Excel. Якою з них скористатися, залежить насамперед від характеру даних, з якими ви працюєте - чи це вся генеральна сукупність, чи вибірка.
Функції для розрахунку середньоквадратичного відхилення вибірки в Excel
Для розрахунку середньоквадратичного відхилення на основі вибірки використовуйте одну з наведених нижче формул (всі вони засновані на методі "n-1", описаному вище).
Функція STDEV Excel
STDEV(number1,[number2],...)
є найстарішою функцією Excel для оцінки стандартного відхилення на основі вибірки, і вона доступна у всіх версіях Excel з 2003 по 2019 рік.
В Excel 2007 і пізніших версіях функція "СРЗНАЧ" може приймати до 255 аргументів, які можуть бути представлені числами, масивами, іменованими діапазонами або посиланнями на комірки, що містять числа. В Excel 2003 функція може приймати тільки до 30 аргументів.
Підраховуються логічні значення і текстові представлення чисел, що подаються безпосередньо в списку аргументів. У масивах і посиланнях підраховуються тільки числа; порожні комірки, логічні значення TRUE і FALSE, текст і значення помилок ігноруються.
Примітка: Excel STDEV є застарілою функцією, яка зберігається в нових версіях Excel лише для забезпечення зворотної сумісності. Проте Microsoft не дає жодних обіцянок щодо майбутніх версій. Тому в Excel 2010 та пізніших версіях рекомендується використовувати STDEV.S замість STDEV.
Функція Excel STDEV.S
STDEV.S(number1,[number2],...)
є вдосконаленою версією STDEV, впровадженою в Excel 2010.
Як і функція STDEV, функція STDEV.S обчислює вибіркове середньоквадратичне відхилення набору значень на основі класичної формули вибіркового середньоквадратичного відхилення, розглянутої в попередньому розділі.
Функція STDEVA Excel
STDEVA(значення1, [значення2], ...)
ще одна функція для обчислення середньоквадратичного відхилення вибірки в Excel, яка відрізняється від двох попередніх лише способом роботи з логічними та текстовими значеннями:
- Всі логічні значення враховуються незалежно від того, чи містяться вони в масивах або посиланнях, чи введені безпосередньо в список аргументів (TRUE оцінюється як 1, FALSE - як 0).
- Текстові значення всередині масивів або посилань вважаються за 0, включаючи порожні рядки (""), текстові представлення чисел і будь-який інший текст. Текстові представлення чисел, подані безпосередньо в списку аргументів, вважаються тими числами, які вони представляють (приклад формули).
- Порожні клітинки ігноруються.
Примітка. Для коректної роботи формули вибіркового середньоквадратичного відхилення аргументи, що вводяться, повинні містити не менше двох числових значень, інакше повертається помилка #DIV/0!
Функції для розрахунку середньоквадратичного відхилення генеральної сукупності в Excel
Якщо ви маєте справу з усією сукупністю, використовуйте одну з наступних функцій для обчислення стандартного відхилення в Excel. Ці функції засновані на методі "n".
Функція STDEVP Excel
STDEVP(номер1,[номер2],...)
це стара функція Excel для знаходження стандартного відхилення сукупності.
У нових версіях Excel 2010, 2013, 2016 і 2019 вона замінена вдосконаленою функцією STDEV.P, але все ще зберігається для забезпечення зворотної сумісності.
Функція Excel STDEV.P
STDEV.P(номер1,[номер2],...)
це сучасна версія функції СТДЕВП, яка забезпечує підвищену точність і доступна в Excel 2010 і більш пізніх версіях.
Як і аналоги вибіркового середньоквадратичного відхилення, функції STDEVP і STDEV.P у масивах або еталонних аргументах підраховують тільки числа. У списку аргументів вони також підраховують логічні значення і текстові представлення чисел.
Функція Excel STDEVPA
STDEVPA(значення1, [значення2], ...)
обчислює стандартне відхилення сукупності, включаючи текстові та логічні значення. Що стосується нечислових значень, STDEVPA працює так само, як і функція STDEVA.
Примітка. Яку б формулу середньоквадратичного відхилення Excel ви не використовували, вона поверне помилку, якщо один або декілька аргументів містять значення помилки, повернуте іншою функцією, або текст, який не може бути інтерпретований як число.
Яку функцію середньоквадратичного відхилення Excel використовувати?
Різноманітність функцій середньоквадратичного відхилення в Excel, безумовно, може викликати плутанину, особливо у недосвідчених користувачів. Щоб вибрати правильну формулу середньоквадратичного відхилення для конкретної задачі, досить відповісти на наступні 3 питання:
- Чи розраховуєте ви стандартне відхилення вибірки або генеральної сукупності?
- Яку версію Excel ви використовуєте?
- Ваш набір даних включає лише числа чи логічні значення та текст також?
Для розрахунку середньоквадратичного відхилення на основі числового зразок використовуйте функцію STDEV.S в Excel 2010 і новіших версіях; STDEV в Excel 2007 і новіших версіях.
Знайти середньоквадратичне відхилення a населення використовуйте функцію STDEV.P в Excel 2010 і новіших версіях; STDEVP в Excel 2007 і новіших версіях.
Якщо ви хочете логічний або текст значення, які потрібно включити в розрахунок, використовуйте STDEVA (стандартне відхилення вибірки) або STDEVPA (стандартне відхилення популяції). Хоча я не можу придумати жодного сценарію, в якому будь-яка з функцій може бути корисною сама по собі, вони можуть стати в нагоді у великих формулах, де один або більше аргументів повертаються іншими функціями у вигляді логічних значень або текстових представлень чисел.
Щоб допомогти вам вирішити, яка з функцій стандартного відхилення Excel найкраще підходить для ваших потреб, перегляньте наступну таблицю, яка узагальнює інформацію, яку ви вже вивчили.
STDEV | STDEV.S | STDEVP | STDEV.P | STDEVA | STDEVPA | |
Версія в Excel | 2003 - 2019 | 2010 - 2019 | 2003 - 2019 | 2010 - 2019 | 2003 - 2019 | 2003 - 2019 |
Зразок | ✓ | ✓ | ✓ | |||
Населення | ✓ | ✓ | ✓ | |||
Логічні значення в масивах або посиланнях | Ігнорується | Оцінено (TRUE=1, FALSE=0) | ||||
Текст у масивах або посиланнях | Ігнорується | Оцінюється як нуль | ||||
Логічні значення та "текст-числа" в списку аргументів | Оцінено (TRUE=1, FALSE=0) | |||||
Порожні клітинки | Ігнорується |
Приклади формули середньоквадратичного відхилення в Excel
Після того, як ви вибрали функцію, яка відповідає вашому типу даних, труднощів з написанням формули виникнути не повинно - синтаксис настільки простий і прозорий, що не залишає місця для помилок :) Наступні приклади демонструють кілька формул середньоквадратичного відхилення в Excel в дії.
Розрахунок середньоквадратичного відхилення вибірки та генеральної сукупності
Залежно від характеру ваших даних, використовуйте одну з наступних формул:
- Розрахувати середньоквадратичне відхилення на основі всієї сукупності населення тобто повний перелік значень (B2:B50 в даному прикладі), використовуйте функцію STDEV.P:
=STDEV.P(B2:B50)
- Знайти середньоквадратичне відхилення на основі зразок що становить частину або підмножину сукупності (B2:B10 у цьому прикладі), використовуйте функцію STDEV.S:
=STDEV.S(B2:B10)
Як видно на скріншоті нижче, формули повертають дещо різні числа (чим менша вибірка, тим більша різниця):
В Excel 2007 і новіших версіях замість цього використовуються функції STDEVP і STDEV:
- Отримати середньоквадратичне відхилення популяції:
=STDEVP(B2:B50)
- Розрахувати вибіркове середньоквадратичне відхилення:
=STDEV(B2:B10)
Розрахунок середньоквадратичного відхилення для текстових представлень чисел
Обговорюючи різні функції для обчислення середньоквадратичного відхилення в Excel, ми іноді згадували про "текстові представлення чисел", і вам, можливо, буде цікаво дізнатися, що це насправді означає.
В даному контексті "текстові представлення чисел" - це просто числа, відформатовані у вигляді тексту. Як такі числа можуть з'являтися на ваших робочих аркушах? Найчастіше вони експортуються із зовнішніх джерел. Або повертаються так званими текстовими функціями, призначеними для маніпулювання текстовими рядками, наприклад, TEXT, MID, RIGHT, LEFT і т.д. Деякі з цих функцій можуть працювати і з числами, але на виході у них завжди текст, навіть якщо вониякщо воно дуже схоже на число.
Для кращої ілюстрації розглянемо наступний приклад. Припустимо, що у вас є стовпець кодів товарів типу "Джинси-105", де цифри через дефіс позначають кількість. Ваша мета - виділити кількість кожного товару, а потім знайти середньоквадратичне відхилення витягнутих чисел.
Перенесення кількості в інший стовпчик не є проблемою:
=RIGHT(A2,LEN(A2)-SEARCH("-",A2,1))
Проблема полягає в тому, що використання формули стандартного відхилення Excel для витягнутих чисел повертає або #DIV/0! або 0, як показано на скріншоті нижче:
Чому такі дивні результати? Як було сказано вище, вихід функції RIGHT - це завжди текстовий рядок. Але ні STDEV.S, ні STDEVA не вміють обробляти числа, відформатовані як текст у посиланнях (перша просто ігнорує їх, а друга зараховує як нулі). Щоб отримати середньоквадратичне відхилення таких "текст-чисел", потрібно подавати їх безпосередньо в список аргументів, що можна зробити, вмонтувавши всіRIGHT у вашу формулу STDEV.S або STDEVA:
=STDEV.S(RIGHT(A2,LEN(A2)-SEARCH("-",A2,1)), RIGHT(A3,LEN(A3)-SEARCH("-",A3,1)), RIGHT(A4,LEN(A4)-SEARCH("-",A4,1)), RIGHT(A5,LEN(A5)-SEARCH("-",A5,1))
=STDEVA(RIGHT(A2,LEN(A2)-SEARCH("-",A2,1)), RIGHT(A3,LEN(A3)-SEARCH("-",A3,1)), RIGHT(A4,LEN(A4)-SEARCH("-",A4,1)), RIGHT(A5,LEN(A5)-SEARCH("-",A5,1))
Формули трохи громіздкі, але це може бути робочим рішенням для невеликої вибірки. Для більшої вибірки, не кажучи вже про все населення, це, безумовно, не варіант. У цьому випадку більш елегантним рішенням буде використання функції VALUE для перетворення "текстових чисел" у числа, які зрозумілі будь-якій формулі стандартного відхилення (зверніть увагу на вирівняні праворуч числа на скріншоті).на відміну від вирівняних по лівому краю текстових рядків на скріншоті вище):
Як розрахувати середньоквадратичну похибку середнього значення в Excel
У статистиці існує ще один показник для оцінки варіабельності даних - це стандартна похибка середнього значення Стандартне відхилення і стандартна похибка середнього - це два тісно пов'язані поняття, але не одне і те ж. Стандартне відхилення і стандартна похибка середнього - це два близьких поняття, але не одне і те ж.
У той час як стандартне відхилення вимірює мінливість набору даних від середнього значення, стандартна помилка середнього значення (SEM) оцінює, наскільки вибіркове середнє значення, ймовірно, відрізняється від справжнього середнього значення генеральної сукупності. Іншими словами, якщо ви взяли кілька вибірок з однієї і тієї ж генеральної сукупності, стандартна помилка середнього значення покаже дисперсію між цими вибірковими середніми значеннями. Оскільки зазвичай ми розраховуємо лише одну вибірку.середнє для набору даних, а не множинне середнє, стандартна похибка середнього оцінюється, а не вимірюється.
У математиці стандартна похибка середнього значення розраховується за такою формулою:
Де SD середньоквадратичне відхилення, а n обсяг вибірки (кількість значень у вибірці).
У робочих таблицях Excel ви можете використовувати функцію COUNT для отримання кількості значень у вибірці, SQRT для отримання квадратного кореня з цієї кількості та STDEV.S для обчислення стандартного відхилення вибірки.
Склавши все це разом, ви отримаєте стандартну похибку середньої формули в Excel:
STDEV.S( діапазон )/SQRT(COUNT( діапазон ))Припускаючи, що дані вибірки знаходяться у діапазоні B2:B10, наша формула SEM буде виглядати наступним чином:
=STDEV.S(B2:B10)/SQRT(COUNT(B2:B10))
І результат може бути подібним до цього:
Як додати стовпчики стандартного відхилення в Excel
Для наочного відображення величини середньоквадратичного відхилення на діаграму в Excel можна додати смуги середньоквадратичного відхилення. Ось як це зробити:
- Створіть графік звичайним способом ( Вставка вкладка> Графіки група).
- Клацніть в будь-якому місці графіка, щоб вибрати його, а потім натисніть кнопку Елементи діаграми кнопку.
- Натисніть на стрілку поруч з Панелі помилок і вибери Середньоквадратичне відхилення .
Це дозволить вставити однакові смуги стандартного відхилення для всіх точок даних.
Ось як зробити стандартне відхилення в Excel. Сподіваюся, ця інформація буде для вас корисною. У будь-якому випадку, дякую за прочитання і сподіваюся побачити вас на нашому блозі наступного тижня.