Neuveriteľný sprievodca základnými štatistickými pojmami a ich praktickým využitím!

Štatistika je veda, ktorá sa zaoberá zberom, analýzou, interpretáciou, prezentáciou a organizáciou dát. Pochopenie základných štatistických pojmov je kľúčové pre akúkoľvek formu analýzy dát, či už ide o vedecký výskum, obchodné rozhodovanie alebo dokonca bežné životné situácie. Tento článok sa zameriava na vysvetlenie základných stavebných kameňov štatistickej analýzy: štatistického súboru, rozsahu súboru, štatistickej jednotky a štatistického znaku, ako aj na rôzne spôsoby ich merania a interpretácie pomocou základných štatistických charakteristík.

Štatistický súbor a jeho charakteristiky

Základným východiskom každej štatistickej analýzy je štatistický súbor. Predstavuje konečnú množinu dát, ktoré chceme skúmať. Tieto dáta môžu byť veľmi rôznorodé. Ak by sme napríklad chceli skúmať priemerný plat v istej krajine, naším štatistickým súborom by bola celá populácia ľudí pracujúcich v danej krajine.

Počet prvkov v tomto štatistickom súbore sa nazýva rozsah súboru, často označovaný ako n alebo |S|. Napríklad, ak by sme mali triedu s desiatimi žiakmi, rozsah súboru by bol desať. Štatistický súbor môže byť tvorený napríklad skupinkou desiatich detí z tretej triedy.

Každý konkrétny prvok štatistického súboru sa nazýva štatistická jednotka. V prípade triedy s desiatimi žiakmi je každé dieťa štatistickou jednotkou. Ak by sme skúmali platy v krajine, každá osoba pracujúca v danej krajine by bola štatistickou jednotkou.

Štatistický znak je to, čo na štatistických jednotkách meriame alebo skúmame. V príklade s platmi by štatistickým znakom bol práve plat. V triede by to mohla byť napríklad známka z matematiky, meno žiaka, jeho výška alebo váha.

Štatistické znaky môžeme rozdeliť na dva základné typy:

Kvalitatívne znaky: Opisujú vlastnosti alebo kategórie, ktoré nie je možné priamo číselne vyjadriť a usporiadať. Príkladom je meno, farba očí, alebo typ povolania. Znak "meno" v štatistickom súbore nadobúda rôzne hodnoty ako Anna, Eva, Ján a podobne.
Kvantitatívne znaky: Môžu byť vyjadrené číselne a je možné s nimi vykonávať matematické operácie. Tieto znaky sa ďalej delia na:
- Diskrétne kvantitatívne znaky: Nadobúdajú len určité, oddelené hodnoty, zvyčajne celé čísla. Príkladom je počet detí v rodine (nemôže byť 1,5 dieťaťa), počet predaných mobilov za deň, alebo počet hodov kockou. Počet detí v rodine označíme ako diskrétnu náhodnú veličinu X, ktorá môže nadobudnúť hodnoty 0, 1, 2, 3, …
- Spojité kvantitatívne znaky: Môžu nadobudnúť akúkoľvek hodnotu v rámci daného intervalu. Príkladom je výška osoby (môže byť 172,3784392 cm), váha, teplota alebo čas.

Ilustrácia rôznych typov štatistických znakov

Četnosť hodnôt štatistického znaku

Pri analýze štatistických súborov nás často zaujíma, ako často sa jednotlivé hodnoty štatistického znaku vyskytujú. Tu vstupujú do hry pojmy absolútna četnosť a relatívna četnosť.

Absolútna četnosť hodnoty znaku z v štatistickom súbore S (označovaná ako n(z) alebo N(z)) udáva presný počet výskytov tejto hodnoty v danom súbore.

Príklad: Majme triedu desiatich žiakov a ich známky z matematiky. Ak chceme zistiť absolútnu četnosť známky 3, spočítame, koľko žiakov dostalo práve túto známku. Ak dvaja žiaci dostali trojku, potom absolútna četnosť hodnoty 3 je 2. V kontexte súboru, kde sú jednotky (žiaci) označené identifikátormi, napríklad žiaci 3 a 10 dostali trojku, potom n(3) = 2.

Relatívna četnosť (označovaná ako f(z) alebo F(z)) udáva podiel výskytov danej hodnoty znaku k celkovému rozsahu súboru. Vypočítame ju ako:

$f(z) = \frac{n(z)}{|S|}$

kde n(z) je absolútna četnosť hodnoty z a |S| je rozsah štatistického súboru.

Príklad: V našej triede s desiatimi žiakmi (rozsah súboru |S|=10) zistíme, že známku 3 dostali dvaja žiaci (absolútna četnosť n(3)=2). Relatívna četnosť známky 3 je potom:

$f(3) = \frac{2}{10} = 0.2$

Často sa relatívna četnosť vyjadruje aj v percentách. Vynásobením relatívnej četnosti číslom 100 získame percentuálne vyjadrenie:

$0.2 \times 100 \% = 20 \%$

Teda, 20 % žiakov v triede dostalo z matematiky známku 3.

Relatívna četnosť hodnoty "Vanesa" v skupinke desiatich detí, kde sú dve s týmto menom, je $\frac{2}{10} = 0.2$, čo predstavuje 20 %.

Pri práci s dátami sa často stretávame aj s kumulatívnou četnosťou. Kumulatívna absolútna četnosť Ni pre danú hodnotu znaku je súčtom absolútnych četností všetkých hodnôt znaku, ktoré sú menšie alebo rovné danej hodnote. Podobne, kumulatívna relatívna četnosť Fi je súčtom relatívnych četností všetkých hodnôt menších alebo rovných danej hodnote. Vzťah je:

$Ni = n1 + n2 + … + ni$$Fi = f1 + f2 + … + fi$

Táto metóda sa používa napríklad pri triedení dát do kategórií alebo pri výpočte percentilov.

Míry polohy: Aritmetický priemer, medián a modus

Aby sme mohli lepšie pochopiť a zhrnúť dáta, používame tzv. míry polohy (alebo miery centrálnej tendencie). Tieto ukazovatele nám hovoria, kde sa "nachádza stred" dátového súboru.

Aritmetický priemer (často nazývaný jednoducho "priemer") je najbežnejšou mierou polohy. Vypočíta sa ako súčet všetkých hodnôt v štatistickom súbore vydelený ich počtom (rozsahom súboru). Ak máme hodnoty $x1, x2, …, x_n$, potom aritmetický priemer $\bar{x}$ je:

$\bar{x} = \frac{\sum{i=1}^{n} xi}{n}$

Príklad: V triede s desiatimi žiakmi, kde známky z matematiky boli (v poradí podľa žiakov): 2, 3, 1, 4, 2, 3, 2, 5, 3, 1. Súčet známok je $2+3+1+4+2+3+2+5+3+1 = 26$. Rozsah súboru je 10. Aritmetický priemer je $\frac{26}{10} = 2.6$.

Diagram znázorňujúci výpočet aritmetického priemeru

Aritmetický priemer má však svoju slabinu. Je veľmi citlivý na extrémne hodnoty (odľahlé hodnoty). Ak by v našom príklade jeden žiak dostal jednotku a ostatní by mali známky od 2 do 3, ale jeden žiak by mal napríklad 75 (čo je v kontexte známkovania nezmysel, ale ilustruje to princíp), priemerná známka by bola výrazne skreslená. V súbore s hodnotami 1, 3, 2, 5, 4, 2, 75, aritmetický priemer by bol $\frac{1+3+2+5+4+2+75}{7} = \frac{92}{7} \approx 13.14$. Táto hodnota je oveľa vyššia ako väčšina hodnôt v súbore a neodráža typickú hodnotu.

Medián je prostredná hodnota v štatistickom súbore, ktorý bol zoradený podľa veľkosti. Medián rozdeľuje dáta na dve rovnako veľké polovice.

Ak má súbor lichý počet prvkov, medián je presne tá prostredná hodnota.
Ak má súbor sudý počet prvkov, medián je aritmetický priemer dvoch prostredných hodnôt.

Príklad (známky z matematiky): Zoradený súbor známok: 1, 1, 2, 2, 2, 3, 3, 3, 4, 5.Súbor má 10 prvkov (sudý počet). Prostredné hodnoty sú na 5. a 6. pozícii, čo sú čísla 2 a 3.Medián = $\frac{2+3}{2} = 2.5$.

V príklade s odľahlými hodnotami (1, 2, 2, 3, 4, 5, 75), zoradený súbor je 1, 2, 2, 3, 4, 5, 75. Prostredná hodnota (na 4. pozícii) je 3. Medián = 3. Vidíme, že medián (3) oveľa lepšie odráža typickú hodnotu v tomto súbore ako aritmetický priemer (13.14). Medián je menej citlivý na extrémne hodnoty.

Medián sa často nazýva aj 50%-ný percentil, pretože 50 % hodnôt je menších alebo rovných mediánu a 50 % hodnôt je väčších alebo rovných mediánu.

Modus (označovaný ako Mod(x)) je hodnota, ktorá sa v štatistickom súbore vyskytuje najčastejšie. Je to hodnota s najvyššou absolútnou četnosťou.

Príklad (známky z matematiky): V súbore 2, 3, 1, 4, 2, 3, 2, 5, 3, 1:Známka 1 sa vyskytuje 2x.Známka 2 sa vyskytuje 3x.Známka 3 sa vyskytuje 3x.Známka 4 sa vyskytuje 1x.Známka 5 sa vyskytuje 1x.V tomto prípade máme dve hodnoty s najvyššou četnosťou (3), a to 2 a 3. Takýto súbor sa nazýva bimodálny. Modus by teda bol 2 a 3.

V príklade s odľahlými hodnotami (1, 2, 2, 3, 4, 5, 75), hodnota 2 sa vyskytuje dvakrát, ostatné len raz. Modus = 2.

Grafické porovnanie aritmetického priemeru, mediánu a módu na príklade

Výhodou módu je, že ho môžeme použiť aj pre kvalitatívne dáta (napr. najčastejšia farba auta). Nevýhodou je, že nemusí existovať, alebo môže byť viacero módov, alebo nemusí dobre reprezentovať "stred" dát.

Geometrický a Harmonický priemer

Okrem aritmetického priemeru existujú aj iné typy priemerov, ktoré sú užitočné v špecifických situáciách.

Geometrický priemer sa používa najmä na meranie rastu alebo priemerovanie pomerov. Vypočíta sa ako n-tá odmocnina súčinu všetkých hodnôt v súbore:

$G = \sqrt[n]{x1 \times x2 \times … \times x_n}$

Príklad: Predpokladajme, že cena produktu vzrástla za rok o 10 % (faktor 1.1), ďalší rok o 15 % (faktor 1.15) a ďalší rok o 5 % (faktor 1.05).Geometrický priemer rastu: $\sqrt[3]{1.1 \times 1.15 \times 1.05} \approx 1.0989$. Priemerný ročný rast je teda približne 9.89 %.

Geometrický priemer je vhodný pre multiplikatívne veličiny. Napríklad, ak by sme mali úrokové sadzby v jednotlivých rokoch: 3%, 4%, 2%, 2.5%, 1.5%, 2%. Použitím geometrického priemeru pre výpočet priemerného úroku (po premene percent na faktory, napr. 3% je 1.03) získame priemerný úrok, ktorý je menej ako aritmetický priemer týchto úrokov.

Harmonický priemer sa používa priemerovanie mier, ktoré sú v inverznom vzťahu k iným veličinám, napríklad priemerovanie rýchlostí na rovnakú vzdialenosť. Vypočíta sa ako prevrátená hodnota aritmetického priemeru prevrátených hodnôt:

$H = \frac{n}{\sum{i=1}^{n} \frac{1}{xi}}$

Príklad: Ak auto prejde prvú polovicu cesty rýchlosťou 60 km/h a druhú polovicu rýchlosťou 40 km/h, jeho priemerná rýchlosť nie je (60+40)/2 = 50 km/h. Priemerná rýchlosť sa vypočíta pomocou harmonického priemeru:$H = \frac{2}{\frac{1}{60} + \frac{1}{40}} = \frac{2}{\frac{2+3}{120}} = \frac{2}{\frac{5}{120}} = \frac{2 \times 120}{5} = \frac{240}{5} = 48$ km/h.

Vzťah medzi týmito priemermi je vždy: $H \le G \le \bar{x}$.

Prečo len málo študentov matematiky skutočne chápe význam priemerov

Míry variability: Rozptyl a smerodajná odchýlka

Zatiaľ čo miery polohy nám hovoria o "strede" dát, míry variability (alebo miery rozptýlenosti) popisujú, ako sú dáta rozptýlené okolo tohto stredu. Ukazujú nám, nakoľko sú si jednotlivé hodnoty podobné alebo odlišné.

Rozptyl (označovaný ako $\sigma^2$ pre populáciu alebo $s^2$ pre výber) je priemerný štvorcový rozdiel hodnôt od aritmetického priemeru. Vypočítava sa ako:

$\sigma^2 = \frac{\sum{i=1}^{n} (xi - \mu)^2}{n}$ (pre populáciu s priemerom $\mu$)$s^2 = \frac{\sum{i=1}^{n} (xi - \bar{x})^2}{n-1}$ (pre výber s priemerom $\bar{x}$)

Použitie $n-1$ v menovateli pre výberovú varianciu je korekcia, ktorá zaisťuje, že odhad rozptýlenosti populácie z výberu je nestranný.

Príklad: Pre súbor 1, 2, 2, 3, 4, 5, 75 a priemer $\bar{x} \approx 13.14$:Rozdiely od priemeru: $(1-13.14), (2-13.14), …, (75-13.14)$Umocnené rozdiely: $(-12.14)^2, (-11.14)^2, …, (61.86)^2$Súčet umocnených rozdielov by bol potom vydelený $n-1 = 6$. Rozptyl bude vysoký, čo signalizuje veľkú variabilitu.

Smerodajná odchýlka (označovaná ako $\sigma$ pre populáciu alebo $s$ pre výber) je druhá odmocnina rozptylu. Má tú výhodu, že je v rovnakých jednotkách ako pôvodné dáta, čo uľahčuje interpretáciu.

$\sigma = \sqrt{\sigma^2}$$s = \sqrt{s^2}$

Vysoká smerodajná odchýlka znamená, že dáta sú široko rozptýlené, zatiaľ čo nízka smerodajná odchýlka znamená, že dáta sú zoskúpené blízko priemeru.

Ilustrácia dvoch dátových súborov s rovnakým priemerom, ale odlišnou smerodajnou odchýlkou

Variačný koeficient je ďalšou mierou relatívnej rozptýlenosti. Vypočíta sa ako podiel smerodajnej odchýlky a aritmetického priemeru, často vyjadrený v percentách:

$VK = \frac{s}{\bar{x}} \times 100 \%$

Je užitočný na porovnanie variability dvoch súborov dát, ktoré môžu mať rôzne priemery alebo rôzne jednotky.

Grafické znázornenie dát

Okrem číselných charakteristík je vizuálna prezentácia dát mimoriadne dôležitá. Existuje mnoho typov grafov, ktoré pomáhajú pochopiť distribúciu dát:

Histogram: Používa sa na zobrazenie distribúcie spojitých alebo diskrétnych dát. Oblasti stĺpcov reprezentujú početnosť hodnôt v určitých intervaloch (triedach). Vizuálny dojem z histogramu nám napovie, kde sa dáta "sústreďujú", či je rozdelenie symetrické, šikmé, alebo má viac vrcholov.
Kruhový graf (koláčový graf): Vhodný na zobrazenie relatívnych četností alebo podielov celku. Kruh je rozdelený na výseky, kde veľkosť uhla každého výseku je úmerná početnosti danej triedy. Je vhodný na zobrazenie relatívnych početností.
Stĺpcový graf: Podobný histogramu, ale používa sa primárne pre kvalitatívne dáta alebo diskrétne dáta s malým počtom kategórií.
Box plot (krabicový graf): Zobrazuje päťčíselný súhrn dát: minimum, prvý kvartil (Q1), medián, tretí kvartil (Q3) a maximum. Pomáha identifikovať odľahlé hodnoty a vizuálne porovnať variability viacerých súborov.

Pri vytváraní histogramov je dôležité zvoliť vhodný počet tried. Príliš málo tried môže skryť dôležité detaily distribúcie, zatiaľ čo príliš veľa tried môže viesť k "riedkemu" grafu s malými četnosťami v jednotlivých triedach a tým aj k chybám vo výpočtoch.

Záver

Pochopenie základných štatistických pojmov ako sú štatistický súbor, jednotka a znak, spolu s metódami ako sú četnosti, miery polohy (priemer, medián, modus) a miery variability (rozptyl, smerodajná odchýlka), nám umožňuje efektívne analyzovať a interpretovať dáta. Správny výber a použitie týchto nástrojov, spolu s vhodnou vizualizáciou, je kľúčom k získaniu relevantných poznatkov z akéhokoľvek súboru dát. Transformácia dát môže tiež podstatným spôsobom zjednodušiť a sprehľadniť výpočet štatistických charakteristík.

tags: #co #vsetko #ma #byt #v #tabulke