Centralna tendencija u odnosu na disperziju
U deskriptivnoj i inferencijalnoj statistici koristi se nekoliko indeksa za opisivanje skupa podataka koji odgovaraju njegovoj središnjoj tendenciji, disperziji i asimetriji: tri najvažnija svojstva koja određuju relativni oblik distribucije skupa podataka.
Što je središnja tendencija?
Središnja tendencija se odnosi na i locira središte raspodjele vrijednosti. Srednja vrijednost, način i medijan najčešće su korišteni indeksi u opisivanju središnje tendencije skupa podataka. Ako je skup podataka simetričan, tada se i medijan i srednja vrijednost skupa podataka međusobno podudaraju.
S obzirom na skup podataka, srednja vrijednost se izračunava uzimanjem zbroja svih vrijednosti podataka i dijeljenjem s brojem podataka. Na primjer, izmjerena težina 10 ljudi (u kilogramima) iznosi 70, 62, 65, 72, 80, 70, 63, 72, 77 i 79. Tada srednja težina deset ljudi (u kilogramima) može biti izračunati na sljedeći način. Zbroj utega je 70 + 62 + 65 + 72 + 80 + 70 + 63 + 72 + 77 + 79=710. Srednja vrijednost=(zbroj) / (broj podataka)=710 / 10=71 (u kilogramima). Podrazumijeva se da outlieri (podatkovne točke koje odstupaju od normalnog trenda) imaju tendenciju da utječu na srednju vrijednost. Stoga, u prisutnosti outliera srednja vrijednost sama po sebi neće dati ispravnu sliku o središtu skupa podataka.
Medijan je podatkovna točka koja se nalazi na točnoj sredini skupa podataka. Jedan od načina za izračunavanje medijana je poredanje podatkovnih točaka uzlaznim redoslijedom, a zatim lociranje podatkovne točke u sredini. Na primjer, ako se jednom poreda, prethodni skup podataka izgleda kao 62, 63, 65, 70, 70, 72, 72, 77, 79, 80. Stoga je (70+72)/2=71 u sredini. Iz ovoga se vidi da medijan ne mora biti u skupu podataka. Na medijan ne utječe prisutnost outliera. Stoga će medijan poslužiti kao bolja mjera središnje tendencije u prisutnosti izvanrednih vrijednosti.
Mod je vrijednost koja se najčešće pojavljuje u skupu podataka. U prethodnom primjeru, vrijednost 70 i 72 pojavljuju se dva puta i stoga su obje modovi. Ovo pokazuje da u nekim distribucijama postoji više od jedne modalne vrijednosti. Ako postoji samo jedan način, kaže se da je skup podataka unimodalni, u ovom slučaju, skup podataka je bimodalan.
Što je disperzija?
Disperzija je količina širenja podataka o središtu distribucije. Raspon i standardna devijacija najčešće su korištene mjere disperzije.
Raspon je jednostavno najveća vrijednost minus najniža vrijednost. U prethodnom primjeru, najveća vrijednost je 80, a najniža vrijednost je 62, tako da je raspon 80-62=18. Ali raspon ne daje dovoljnu sliku o disperziji.
Za izračun standardne devijacije, prvo se izračunavaju odstupanja vrijednosti podataka od srednje vrijednosti. Korijen kvadrata srednje vrijednosti odstupanja naziva se standardna devijacija. U prethodnom primjeru, odgovarajuća odstupanja od srednje vrijednosti su (70 – 71)=-1, (62 – 71)=-9, (65 – 71)=-6, (72 – 71)=1, (80 – 71)=9, (70 – 71)=-1, (63 – 71)=-8, (72 – 71)=1, (77 – 71)=6 i (79 – 71)=8. Zbroj kvadrati odstupanja su (-1)2 + (-9)2 + (-6)2+ 12 + 92 + (-1)2 + (-8) 2 + 12 + 62 + 82=366 Standardna devijacija je √(366/10)=6,05 (u kilogramima). Osim ako skup podataka nije jako iskrivljen, iz ovoga se može zaključiti da je većina podataka u intervalu 71±6,05, a to je doista tako u ovom konkretnom primjeru.
Koja je razlika između središnje tendencije i disperzije?
• Središnja tendencija se odnosi na i locira središte distribucije vrijednosti
• Disperzija je količina širenja podataka oko središta skupa podataka.