Statistički podaci: prikupljanje, obrada, analiza

2026 Autor: Angel Austin | [email protected]. Zadnja promjena: 2025-01-23 12:25:02

Tijekom povijesti statistike učinjeni su različiti pokušaji da se stvori taksonomija razina mjerenja. Psihofizičar Stanley Smith Stevens definirao je nominalnu, ordinalnu, intervalnu i proporcionalnu skalu.

Nominalna mjerenja nemaju značajan poredak među vrijednostima i dopuštaju bilo kakvu konverziju jedan-na-jedan.

Uobičajene dimenzije imaju netočne razlike između uzastopnih vrijednosti, ali imaju specifičan redoslijed tih vrijednosti i dopuštaju bilo kakvu transformaciju koja čuva redoslijed.

Intervalna mjerenja imaju značajne udaljenosti između točaka, ali nulta vrijednost je proizvoljna (kao u slučaju mjerenja zemljopisne dužine i temperature u Celzijusu ili Fahrenheitu) i omogućuje bilo kakvu linearnu transformaciju.

Dimenzije omjera imaju i značajnu nultu vrijednost i udaljenosti između različitih dimenzija, te dopuštaju bilo kakvu transformaciju skaliranja.

Varijable i klasifikacija informacija

Zato što su varijablekoje odgovaraju samo nominalnim ili rednim mjerenjima ne mogu se razumno mjeriti numerički, a ponekad se grupiraju kao kategoričke varijable. Mjerenja omjera i intervala grupirana su kao kvantitativne varijable, koje mogu biti diskretne ili kontinuirane zbog svoje numeričke prirode. Takve su razlike često labavo povezane s tipom podataka u informatici, budući da se dihotomne kategoričke varijable mogu predstaviti booleovim vrijednostima, politomne kategoričke varijable s proizvoljnim cijelim brojevima u integralnom tipu podataka i kontinuiranim varijablama sa stvarnim komponentama koje uključuju računanje s pomičnim zarezom. Ali prikaz tipova statističkih podataka ovisi o tome koja se klasifikacija primjenjuje.

Ostale klasifikacije

Stvorene su i druge klasifikacije statističkih podataka (informacija). Na primjer, Mosteller i Tukey razlikovali su ocjene, činove, prebrojane udjele, zbrojeve, iznose i stanja. Nelder je svojedobno opisao kontinuirano prebrojavanje, kontinuirane omjere, korelaciju brojanja i kategoričke načine komuniciranja podataka. Sve ove metode klasifikacije koriste se u prikupljanju statističkih informacija.

Problemi

Pitanje je li prikladno primijeniti različite vrste statističkih metoda na podatke dobivene različitim postupcima mjerenja (prikupljanja) komplicirano je problemima koji se odnose na pretvorbu varijabli i precizno tumačenje pitanjaistraživanje. “Odnos između podataka i onoga što oni opisuje jednostavno odražava činjenicu da određene vrste statističkih izjava mogu imati vrijednosti istine koje nisu invarijantne pod određenim transformacijama. Je li transformacija vrijedna razmatranja ovisi o pitanju na koje pokušavate odgovoriti.

Što je vrsta podataka

Tip podataka je temeljna komponenta semantičkog sadržaja varijable i kontrolira koje se vrste distribucija vjerojatnosti mogu logički koristiti za opisivanje varijable, operacije dopuštene na njoj, vrstu regresijske analize koja se koristi za njezino predviđanje, itd. Koncept vrste podataka sličan je konceptu razine mjerenja, ali je specifičniji - na primjer, brojenje podataka zahtijeva drugačiju distribuciju (Poissonovu ili binomsku) od nenegativnih stvarnih vrijednosti, ali oba spadaju pod iste razina mjerenja (skala koeficijenata).

Vage

Učinjeni su različiti pokušaji da se stvori taksonomija mjernih razina za obradu statističkih informacija. Psihofizičar Stanley Smith Stevens definirao je nominalnu, ordinalnu, intervalnu i proporcionalnu ljestvicu. Nominalna mjerenja nemaju značajan redoslijed rangiranja među vrijednostima i dopuštaju bilo kakvu konverziju jedan na jedan. Uobičajena mjerenja imaju neprecizne razlike između uzastopnih vrijednosti, ali se razlikuju po značajnom redoslijedu tih vrijednosti i dopuštajusvaka transformacija koja čuva red. Intervalna mjerenja imaju značajne udaljenosti između mjerenja, ali nulta vrijednost je proizvoljna (kao u slučaju mjerenja zemljopisne dužine i temperature u Celzijusu ili Fahrenheitu) i dopušta bilo kakvu linearnu transformaciju. Dimenzije omjera imaju i značajnu nultu vrijednost i udaljenosti između različitih definiranih dimenzija i dopuštaju bilo kakvu transformaciju skaliranja.

Podaci koji se ne mogu opisati jednim brojem često su uključeni u slučajne vektore stvarnih slučajnih varijabli, iako postoji rastući trend da ih sami obrađujete. O takvim će se primjerima raspravljati u nastavku.

Slučajni vektori

Pojedinačni elementi mogu ili ne moraju biti povezani. Primjeri distribucija koje se koriste za opisivanje koreliranih slučajnih vektora su multivarijantna normalna distribucija i multivarijantna t-distribucija. Općenito, mogu postojati proizvoljne korelacije između bilo kojeg elementa, međutim to često postaje neizvodljivo iznad određene veličine, što zahtijeva dodatna ograničenja na povezane komponente.

Slučajne matrice

Slučajne matrice mogu se rasporediti linearno i tretirati kao slučajni vektori, međutim to možda nije učinkovit način za predstavljanje korelacija između različitih elemenata. Neke su distribucije vjerojatnosti posebno dizajnirane za slučajne matrice, kao što je normalna matricadistribucija i Wishart distribucija.

Slučajni nizovi

Ponekad se smatraju istim kao i slučajni vektori, ali u drugim slučajevima termin se primjenjuje posebno na slučajeve u kojima svaka slučajna varijabla korelira samo s obližnjim varijablama (kao u Markovljevom modelu). Ovo je poseban slučaj Bayesove mreže i koristi se za vrlo duge sekvence, kao što su lanci gena ili dugi tekstualni dokumenti. Brojni modeli posebno su dizajnirani za takve sekvence, kao što su skrivene Markovljeve sekvence.

Slučajni procesi

Slične su nasumičnim nizovima, ali samo kada je duljina niza neodređena ili beskonačna, a elementi u nizu se obrađuju jedan po jedan. Ovo se često koristi za podatke koji se mogu opisati kao vremenske serije. To vrijedi kada je u pitanju, na primjer, cijena dionica sljedećeg dana.

Zaključak

Analiza statističkih informacija u potpunosti ovisi o kvaliteti njihovog prikupljanja. Potonje je, pak, snažno povezano s mogućnostima njegove klasifikacije. Naravno, postoji mnogo vrsta klasifikacije statističkih informacija, u što se čitatelj mogao uvjeriti čitajući ovaj članak. Ipak, prisutnost učinkovitih alata i dobro poznavanje matematike, kao i znanja iz područja sociologije, odradit će svoj posao, omogućujući vam da provedete bilo koju anketu ili studiju bez značajnih ispravaka za pogreške. Izvori statističkih informacija u obrasculjudi, organizacije i drugi subjekti sociologije, srećom, zastupljeni su u velikom obilju. I nikakva poteškoća ne može stati na put pravom istraživaču.