Съдържание
В урока се обяснява същността на стандартното отклонение и стандартната грешка на средната стойност, както и коя формула е най-добре да се използва за изчисляване на стандартното отклонение в Excel.
В описателната статистика средното аритметично (наричано още средна стойност) и стандартното отклонение и са две тясно свързани понятия. Но докато първото е добре разбираемо за повечето, второто се разбира от малцина. Целта на този урок е да хвърли малко светлина върху това какво всъщност е стандартното отклонение и как да го изчислим в Excel.
Какво представлява стандартното отклонение?
Сайтът стандартно отклонение е мярка, която показва колко много стойностите на набора от данни се отклоняват (разсейват) от средната стойност. Казано по друг начин, стандартното отклонение показва дали вашите данни са близки до средната стойност или се колебаят много.
Целта на стандартното отклонение е да ви помогне да разберете дали средната стойност наистина връща "типични" данни. Колкото по-близо е стандартното отклонение до нула, толкова по-малка е вариативността на данните и толкова по-надеждна е средната стойност. Стандартно отклонение, равно на 0, означава, че всяка стойност в набора от данни е точно равна на средната. Колкото по-високо е стандартното отклонение, толкова по-голяма вариативност има вданни и толкова по-малко точна е средната стойност.
За да добиете по-добра представа за начина на работа, разгледайте следните данни:
За биологията стандартното отклонение е 5 (закръглено до цяло число), което ни казва, че повечето резултати се различават с не повече от 5 точки от средната стойност. Това добре ли е? Ами да, това показва, че резултатите на учениците по биология са доста постоянни.
За математиката стандартното отклонение е 23. То показва, че има огромна дисперсия (разсейване) в резултатите, което означава, че някои ученици са се представили много по-добре и/или някои са се представили много по-зле от средното.
На практика стандартното отклонение често се използва от бизнес анализаторите като мярка за инвестиционния риск - колкото по-високо е стандартното отклонение, толкова по-висока е волатилността на възвръщаемостта.
Стандартно отклонение на извадката спрямо стандартно отклонение на популацията
Във връзка със стандартното отклонение често може да чуете термините "извадка" и "популация", които се отнасят до пълнотата на данните, с които работите. Основната разлика е следната:
- Население включва всички елементи от даден набор от данни.
- Образец е подмножество от данни, което включва един или повече елементи от популацията.
Изследователите и анализаторите работят със стандартното отклонение на извадката и на популацията в различни ситуации. Например, когато обобщава резултатите от изпитите на клас ученици, учителят ще използва стандартното отклонение на популацията. Статистиците, които изчисляват средния резултат на националния изпит SAT, ще използват стандартното отклонение на извадката, тъй като разполагат с данни само от извадката, а неот цялото население.
Разбиране на формулата за стандартно отклонение
Причината, поради която естеството на данните има значение, е, че стандартното отклонение на популацията и стандартното отклонение на извадката се изчисляват по малко по-различни формули:
Стандартно отклонение на извадката | Стандартно отклонение на популацията |
Къде:
- x i са отделни стойности в набора от данни
- x е средната стойност на всички x стойности
- n е общият брой на x стойности в набора от данни
Имате трудности с разбирането на формулите? Разбиването им на прости стъпки може да ви помогне. Но нека първо да разполагаме с някои примерни данни, върху които да работим:
1. Изчислете средната стойност (средната стойност)
Първо, намирате средната стойност на всички стойности в набора от данни ( x Когато изчислявате на ръка, сумирайте числата и след това разделете сумата на броя на тези числа, както е описано по-горе:
(1+2+4+5+6+8+9)/7=5
За да намерите средната стойност в Excel, използвайте функцията AVERAGE, например =AVERAGE(A2:G2)
2. За всяко число извадете средната стойност и изравнете резултата с квадрат
Това е частта от формулата за стандартното отклонение, която гласи: ( x i - x )2
За да си представите какво всъщност се случва, разгледайте следните изображения.
В този пример средната стойност е 5, така че изчисляваме разликата между всяка точка от данни и 5.
След това изравнете разликите, като ги превърнете в положителни числа:
3. Съберете квадратните разлики
За да кажете "да обобщим нещата" в математиката, използвайте сигма Σ. Така че това, което правим сега, е да съберем квадратните разлики, за да завършим тази част от формулата: Σ( x i - x )2
16 + 9 + 1 + 1 + 9 + 16 = 52
4. Разделете общия брой квадратни разлики на броя на стойностите
Досега формулите за стандартното отклонение на извадката и стандартното отклонение на популацията бяха идентични. В този момент те са различни.
За стандартно отклонение на извадката , получавате дисперсия на извадката като разделите общите квадратни разлики на размера на извадката минус 1:
52 / (7-1) = 8.67
За стандартно отклонение на населението , намирате средна стойност на квадратните разлики като разделите общия брой квадратни разлики на техния брой:
52 / 7 = 7.43
Защо е тази разлика във формулите? Защото във формулата за стандартно отклонение на извадката трябва да коригирате отклонението в оценката на средната стойност на извадката вместо на истинската средна стойност на популацията. n - 1 вместо n , което се нарича корекция на Бесел.
5. Вземете квадратния корен
Накрая вземете квадратния корен от горните числа и ще получите стандартното отклонение (в уравненията по-долу, закръглено до втория знак след десетичната запетая):
Стандартно отклонение на извадката | Стандартно отклонение на популацията |
√ 8.67 = 2.94 | √ 7.43 = 2.73 |
В Microsoft Excel стандартното отклонение се изчислява по същия начин, но всички горепосочени изчисления се извършват зад сцената. Ключовото за вас е да изберете подходяща функция за стандартно отклонение, за която следващият раздел ще ви даде някои насоки.
Как да изчислим стандартното отклонение в Excel
Общо взето, има шест различни функции за намиране на стандартното отклонение в Excel. Коя от тях да използвате зависи най-вече от естеството на данните, с които работите - дали става въпрос за цялата популация или за извадка.
Функции за изчисляване на стандартното отклонение на извадката в Excel
За да изчислите стандартното отклонение въз основа на извадка, използвайте една от следните формули (всички те се основават на метода "n-1", описан по-горе).
Функция Excel STDEV
STDEV(number1,[number2],...)
е най-старата функция на Excel за оценка на стандартното отклонение въз основа на извадка и е налична във всички версии на Excel от 2003 до 2019 г.
В Excel 2007 и по-нови версии STDEV може да приема до 255 аргумента, които могат да бъдат представени като числа, масиви, именувани диапазони или препратки към клетки, съдържащи числа. В Excel 2003 функцията може да приема само до 30 аргумента.
Отчитат се логическите стойности и текстовите представяния на числата, въведени директно в списъка с аргументи. В масивите и препратките се отчитат само числата; празните клетки, логическите стойности TRUE и FALSE, текстовите стойности и стойностите за грешки се игнорират.
Забележка: Excel STDEV е остаряла функция, която е запазена в по-новите версии на Excel само за обратна съвместимост. Microsoft обаче не дава никакви обещания за бъдещите версии. Затова в Excel 2010 и по-нови версии се препоръчва да използвате STDEV.S вместо STDEV.
Функция Excel STDEV.S
STDEV.S(number1,[number2],...)
е подобрена версия на STDEV, въведена в Excel 2010.
Подобно на STDEV, функцията STDEV.S изчислява извадковото стандартно отклонение на набор от стойности въз основа на класическата формула за извадково стандартно отклонение, разгледана в предишния раздел.
Функция Excel STDEVA
STDEVA(стойност1, [стойност2], ...)
е друга функция за изчисляване на стандартното отклонение на извадка в Excel. Тя се различава от горните две само по начина, по който обработва логически и текстови стойности:
- Всички логически стойности се отчитат, независимо дали се съдържат в масиви или препратки, или са въведени директно в списъка с аргументи (TRUE се оценява като 1, FALSE се оценява като 0).
- Текстови стойности в рамките на масиви или референтни аргументи се отчитат като 0, включително празни низове (""), текстови представяния на числа и всякакъв друг текст. Текстовите представяния на числа, предоставени директно в списъка с аргументи, се отчитат като числата, които представляват (ето пример за формула).
- Празните клетки се игнорират.
Забележка. За да работи правилно формулата за стандартно отклонение на извадката, предоставените аргументи трябва да съдържат поне две числови стойности, в противен случай се връща грешка #DIV/0!.
Функции за изчисляване на стандартното отклонение на популацията в Excel
Ако се занимавате с цялата популация, използвайте една от следните функции за стандартно отклонение в Excel. Тези функции се основават на метода "n".
Функция Excel STDEVP
STDEVP(number1,[number2],...)
е старата функция на Excel за намиране на стандартното отклонение на дадена популация.
В новите версии на Excel 2010, 2013, 2016 и 2019 тя е заменена с подобрената функция STDEV.P, но все още е запазена за обратна съвместимост.
Функция Excel STDEV.P
STDEV.P(number1,[number2],...)
е съвременната версия на функцията STDEVP, която осигурява подобрена точност. Тя е налична в Excel 2010 и по-късните версии.
Подобно на своите аналози за стандартно отклонение на извадката, в рамките на масиви или референтни аргументи функциите STDEVP и STDEV.P броят само числа. В списъка с аргументи те броят и логически стойности и текстови представяния на числа.
Функция Excel STDEVPA
STDEVPA(стойност1, [стойност2], ...)
изчислява стандартното отклонение на дадена популация, включително текстови и логически стойности. По отношение на нецифрови стойности функцията STDEVPA работи точно както функцията STDEVA.
Забележка: Която и формула за стандартно отклонение да използвате в Excel, тя ще върне грешка, ако един или повече аргументи съдържат стойност за грешка, върната от друга функция, или текст, който не може да се интерпретира като число.
Коя функция за стандартно отклонение в Excel да използвате?
Разнообразието от функции за стандартно отклонение в Excel определено може да доведе до объркване, особено за неопитните потребители. За да изберете правилната формула за стандартно отклонение за конкретна задача, просто отговорете на следните 3 въпроса:
- Изчислявате ли стандартното отклонение на извадка или популация?
- Каква версия на Excel използвате?
- Дали наборът ви от данни включва само числа или и логически стойности и текст?
Изчисляване на стандартното отклонение въз основа на цифрова образец , използвайте функцията STDEV.S в Excel 2010 и по-нови версии; STDEV в Excel 2007 и по-ранни версии.
Намиране на стандартното отклонение на население , използвайте функцията STDEV.P в Excel 2010 и по-нови версии; STDEVP в Excel 2007 и по-ранни версии.
Ако искате логически или текст Въпреки че не мога да се сетя за сценарий, в който някоя от двете функции може да бъде полезна сама по себе си, те могат да бъдат полезни в по-големи формули, където един или повече аргументи се връщат от други функции като логически стойности или текстови представяния на числа.
За да ви помогнем да решите коя от функциите на Excel за стандартно отклонение е най-подходяща за вашите нужди, прегледайте следната таблица, в която е обобщена информацията, която вече научихте.
STDEV | STDEV.S | STDEVP | STDEV.P | STDEVA | STDEVPA | |
Версия за Excel | 2003 - 2019 | 2010 - 2019 | 2003 - 2019 | 2010 - 2019 | 2003 - 2019 | 2003 - 2019 |
Образец | ✓ | ✓ | ✓ | |||
Население | ✓ | ✓ | ✓ | |||
Логически стойности в масиви или референции | Игнориран | Оценен (TRUE=1, FALSE=0) | ||||
Текст в масиви или референции | Игнориран | Оценява се като нула | ||||
Логически стойности и "текстови числа" в списъка с аргументи | Оценен (TRUE=1, FALSE=0) | |||||
Празни клетки | Игнориран |
Примерна формула за стандартно отклонение на Excel
След като сте избрали функцията, която съответства на вашия тип данни, не би трябвало да има трудности при писането на формулата - синтаксисът е толкова прост и прозрачен, че не оставя място за грешки :) Следващите примери показват няколко формули за стандартно отклонение в Excel в действие.
Изчисляване на стандартното отклонение на извадка и популация
В зависимост от характера на данните използвайте една от следните формули:
- Изчисляване на стандартното отклонение на базата на целия население , т.е. пълния списък от стойности (B2:B50 в този пример), използвайте функцията STDEV.P:
=STDEV.P(B2:B50)
- Намиране на стандартно отклонение въз основа на образец която представлява част или подмножество от популацията (B2:B10 в този пример), използвайте функцията STDEV.S:
=STDEV.S(B2:B10)
Както можете да видите на скрийншота по-долу, формулите дават малко по-различни числа (колкото по-малка е извадката, толкова по-голяма е разликата):
В Excel 2007 и по-ниски версии вместо това трябва да използвате функциите STDEVP и STDEV:
- За да получите стандартното отклонение на популацията:
=STDEVP(B2:B50)
- Изчисляване на стандартното отклонение на извадката:
=STDEV(B2:B10)
Изчисляване на стандартното отклонение за текстови представяния на числа
Когато обсъждахме различни функции за изчисляване на стандартно отклонение в Excel, понякога споменавахме "текстови представяния на числата" и може би ви е интересно да разберете какво всъщност означава това.
В този контекст "текстови представяния на числата" са просто числа, форматирани като текст. Как такива числа могат да се появят в работните ви листове? Най-често те се експортират от външни източници. Или се връщат от така наречените текстови функции, които са предназначени за манипулиране на текстови низове, например TEXT, MID, RIGHT, LEFT и т.н. Някои от тези функции могат да работят и с числа, но изходът им винаги е текст, дориако прилича на число.
За да илюстрирате по-добре въпроса, моля, разгледайте следния пример. Да предположим, че имате колона от кодове на продукти като "Дънки-105", където цифрите след тирето означават количеството. Вашата цел е да извлечете количеството на всеки артикул и след това да намерите стандартното отклонение на извлечените числа.
Изтеглянето на количеството в друга колона не е проблем:
=RIGHT(A2,LEN(A2)-SEARCH("-",A2,1))
Проблемът е, че използването на формулата за стандартно отклонение на Excel върху извлечените числа връща или #DIV/0!, или 0, както е показано на снимката по-долу:
Защо има такива странни резултати? Както беше споменато по-горе, изходът на функцията RIGHT винаги е текстов низ. Но нито STDEV.S, нито STDEVA могат да обработват числа, форматирани като текст в препратки (първата просто ги игнорира, а втората ги отчита като нули). За да получите стандартното отклонение на такива "текстови числа", трябва да ги предоставите директно в списъка с аргументи, което може да стане чрез вграждане на всичкифункциите RIGHT във вашата формула STDEV.S или STDEVA:
=STDEV.S(RIGHT(A2,LEN(A2)-SEARCH("-",A2,1)), RIGHT(A3,LEN(A3)-SEARCH("-",A3,1)), RIGHT(A4,LEN(A4)-SEARCH("-",A4,1)), RIGHT(A5,LEN(A5)-SEARCH("-",A5,1)))
=STDEVA(RIGHT(A2,LEN(A2)-SEARCH("-",A2,1)), RIGHT(A3,LEN(A3)-SEARCH("-",A3,1)), RIGHT(A4,LEN(A4)-SEARCH("-",A4,1)), RIGHT(A5,LEN(A5)-SEARCH("-",A5,1)))
Формулите са малко тромави, но това може да е работещо решение за малка извадка. За по-голяма извадка, да не говорим за цялата популация, това определено не е вариант. В този случай по-елегантно решение би било функцията VALUE да преобразува "текстови числа" в числа, които всяка формула за стандартно отклонение може да разбере (моля, обърнете внимание на дясно подравнените числа на снимката на екранапо-долу, за разлика от текстовите низове, подравнени наляво на снимката по-горе):
Как да изчислим стандартната грешка на средната стойност в Excel
В статистиката има още една мярка за оценка на променливостта на данните - стандартна грешка на средната стойност , което понякога се съкращава (макар и неправилно) само на "стандартна грешка". Стандартното отклонение и стандартната грешка на средната стойност са две тясно свързани понятия, но не са едно и също.
Докато стандартното отклонение измерва променливостта на набора от данни спрямо средната стойност, стандартната грешка на средната стойност (SEM) оценява колко далеч е вероятно средната стойност на извадката от истинската средна стойност на популацията. Казано по друг начин - ако сте взели няколко извадки от една и съща популация, стандартната грешка на средната стойност би показала разсейването между средните стойности на тези извадки. Тъй като обикновено изчисляваме само еднасредна стойност за набор от данни, а не за множество средни стойности, стандартната грешка на средната стойност се оценява, а не се измерва.
В математиката стандартната грешка на средната стойност се изчислява по тази формула:
Къде: SD е стандартното отклонение, а n е размерът на извадката (броят на стойностите в извадката).
В работните си листове в Excel можете да използвате функцията COUNT, за да получите броя на стойностите в извадката, SQRT, за да вземете квадратен корен от това число, и STDEV.S, за да изчислите стандартното отклонение на извадката.
Като съберете всичко това, ще получите формулата за стандартна грешка на средната стойност в Excel:
STDEV.S( обхват )/SQRT(COUNT( обхват ))Ако приемем, че данните от извадката са в B2:B10, нашата формула за SEM ще бъде следната:
=STDEV.S(B2:B10)/SQRT(COUNT(B2:B10))
Резултатът може да е подобен на този:
Как да добавите барове със стандартно отклонение в Excel
За да покажете визуално маржа на стандартното отклонение, можете да добавите стълбове на стандартното отклонение към диаграмата на Excel. Ето как:
- Създайте графика по обичайния начин ( Вмъкване на tab> Графики група).
- Щракнете където и да е върху графиката, за да я изберете, след което щракнете върху Елементи на диаграмата бутон.
- Щракнете върху стрелката до Барове за грешка , и изберете Стандартно отклонение .
Това ще вмъкне еднакви барове на стандартното отклонение за всички точки с данни.
Ето как да направите стандартно отклонение в Excel-а. Надявам се, че тази информация ще ви бъде полезна. Както и да е, благодаря ви за четенето и се надявам да се видим в нашия блог следващата седмица.