Statističko modeliranje: metode, opis, primjena

Sadržaj:

Statističko modeliranje: metode, opis, primjena
Statističko modeliranje: metode, opis, primjena
Anonim

Pretpostavke utjelovljene u statističkom modeliranju opisuju skup distribucija vjerojatnosti, od kojih se za neke pretpostavlja da adekvatno aproksimiraju distribuciju. Iz definicije se odabire određeni skup podataka. Razdiobe vjerojatnosti koje su svojstvene statističkom modeliranju ono su što razlikuje statističke modele od drugih, nestatističkih, matematičkih modela.

Image
Image

Veza s matematikom

Ova znanstvena metoda je prvenstveno ukorijenjena u matematici. Statističko modeliranje sustava obično se daje matematičkim jednadžbama koje povezuju jednu ili više slučajnih varijabli i eventualno drugih neslučajnih varijabli. Dakle, statistički model je "formalni prikaz teorije" (Hermann Ader, citirajući Kennetha Bollena).

Svi testovi statističkih hipoteza i sve statističke procjene izvedene su iz statističkih modela. Općenitije, statistički modeli dio su osnove statističkog zaključivanja.

Statističke metodemodeliranje

Neformalno, statistički model se može smatrati statističkom pretpostavkom (ili skupom statističkih pretpostavki) s određenim svojstvom: ova nam pretpostavka omogućuje izračunavanje vjerojatnosti bilo kojeg događaja. Kao primjer, razmotrite par običnih šesterostranih kockica. Proučit ćemo dvije različite statističke pretpostavke o kosti.

Prva statistička pretpostavka čini statistički model, jer sa samo jednom pretpostavkom možemo izračunati vjerojatnost bilo kojeg događaja. Alternativna statistička pretpostavka ne predstavlja statistički model, jer sa samo jednom pretpostavkom ne možemo izračunati vjerojatnost svakog događaja.

Tipičan statistički model
Tipičan statistički model

U gornjem primjeru s prvom pretpostavkom, lako je izračunati vjerojatnost događaja. Međutim, u nekim drugim primjerima izračun može biti složen ili čak nepraktičan (na primjer, može zahtijevati milijune godina izračunavanja). Za pretpostavku koja čini statistički model, ova poteškoća je prihvatljiva: izvođenje izračuna ne mora biti praktički izvedivo, samo teoretski moguće.

Primjeri modela

Pretpostavimo da imamo populaciju školaraca s ravnomjerno raspoređenom djecom. Visina djeteta bit će stohastički povezana s dobi: na primjer, kada znamo da dijete ima 7 godina, to utječe na vjerojatnost da će dijete biti visoko 5 stopa (oko 152 cm). Taj odnos možemo formalizirati u modelu linearne regresije, na primjer: rast=b0 + b1agei+ εi, gdje je b0 sjecište, b1 je parametar s kojim se množi starost pri dobivanju prognoze rasta, εi je izraz pogreške. To implicira da se visina predviđa prema dobi s nekom pogreškom.

Valjani model mora odgovarati svim podatkovnim točkama. Dakle, ravna crta (heighti=b0 + b1agei) ne može biti jednadžba za model podataka - osim ako točno ne odgovara svim podatkovnim točkama, tj. sve točke podataka leže savršeno na liniji. Pojam pogreške εi mora biti uključen u jednadžbu kako bi model odgovarao svim točkama podataka.

rodna statistika
rodna statistika

Da bismo napravili statistički zaključak, prvo moramo pretpostaviti neke distribucije vjerojatnosti za εi. Na primjer, možemo pretpostaviti da su distribucije εi Gaussove, s nultom sredinom. U ovom slučaju, model će imati 3 parametra: b0, b1 i varijancu Gaussove distribucije.

Opći opis

Statistički model je posebna klasa matematičkog modela. Ono po čemu se statistički model razlikuje od ostalih matematičkih modela je to što je nedeterministički. Koristi se za modeliranje statističkih podataka. Dakle, u statističkom modelu definiranom matematičkim jednadžbama, neke varijable nemaju specifične vrijednosti, već imaju distribuciju vjerojatnosti; odnosno neke varijable su stohastičke. U gornjem primjeru, ε je stohastička varijabla; bez ove varijable, model je biobilo bi determinističko.

Statistički modeli se često koriste u statističkoj analizi i modeliranju, čak i ako je fizički proces koji se modelira deterministički. Na primjer, bacanje novčića je u načelu deterministički proces; ipak se obično modelira kao stohastički (preko Bernoullijevog procesa).

statistika zagrijavanja
statistika zagrijavanja

Parametrijski modeli

Parametrijski modeli su najčešće korišteni statistički modeli. Što se tiče poluparametarskih i neparametarskih modela, Sir David Cox je rekao: "Oni općenito uključuju manje pretpostavki o strukturi i obliku distribucije, ali obično sadrže jake pretpostavke o neovisnosti." Kao i svi ostali spomenuti modeli, oni se također često koriste u statističkoj metodi matematičkog modeliranja.

Modeli na više razina

Modeli na više razina (također poznati kao hijerarhijski linearni modeli, modeli ugniježđenih podataka, mješoviti modeli, slučajni koeficijenti, modeli slučajnih učinaka, modeli slučajnih parametara ili particionirani modeli) su statistički modeli parametara koji variraju na više od jedne razine. Primjer je model učeničkih postignuća koji sadrži metriku za pojedine učenike, kao i metriku za učionice u kojima su učenici grupirani. Ovi modeli se mogu smatrati generalizacijama linearnih modela (posebno linearne regresije), iako se također mogu proširiti na nelinearne modele. Ovi modeli su postalimnogo popularniji kada su dovoljna računalna snaga i softver postali dostupni.

Statistika segmenta
Statistika segmenta

Modeli na više razina posebno su prikladni za istraživačke projekte gdje su podaci za sudionike organizirani na više od jedne razine (tj. ugniježđeni podaci). Jedinice analize obično su pojedinci (na nižoj razini) koji su ugniježđeni unutar kontekstnih/agregatnih jedinica (na višoj razini). Dok je najniža razina podataka u višerazinskim modelima obično individualna, mogu se uzeti u obzir i ponovljena mjerenja pojedinaca. Dakle, višerazinski modeli pružaju alternativnu vrstu analize za univarijantnu ili multivarijantnu analizu ponovljenih mjera. Mogu se uzeti u obzir individualne razlike u krivuljama rasta. Osim toga, modeli na više razina mogu se koristiti kao alternativa ANCOVA, gdje se rezultati ovisnih varijabli prilagođavaju za kovarijate (npr. individualne razlike) prije testiranja razlika u tretmanu. Višerazinski modeli mogu analizirati ove eksperimente bez pretpostavke o ujednačenim nagibima regresije koje zahtijeva ANCOVA.

Modeli na više razina mogu se koristiti za podatke s više razina, iako su dvorazinski modeli najčešći i ostatak ovog članka fokusira se na njih. Zavisnu varijablu treba ispitati na najnižoj razini analize.

Grafikon atmosferskog tlaka
Grafikon atmosferskog tlaka

Odabir modela

Odabir modelaje zadatak odabira iz skupa modela kandidata prema podacima, koji se provodi u okviru statističkog modeliranja. U najjednostavnijim slučajevima razmatra se već postojeći skup podataka. Međutim, zadatak može uključivati i osmišljavanje eksperimenata tako da prikupljeni podaci dobro odgovaraju zadatku odabira modela. S obzirom na modele kandidata sa sličnom moći predviđanja ili objašnjavanja, najjednostavniji model vjerojatno će biti najbolji izbor (Occamova britva).

Konishi & Kitagawa kaže: "Većina problema statističkog zaključivanja može se smatrati problemima povezanim sa statističkim modeliranjem." Slično, Cox je rekao: "Način na koji se vrši prijevod predmeta u statistički model često je najvažniji dio analize."

Odabir modela također se može odnositi na problem odabira nekoliko reprezentativnih modela iz velikog skupa računskih modela za potrebe odlučivanja ili optimizacije pod nesigurnošću.

Grafički uzorci

Grafički model, ili vjerojatnosni grafički model, (PGM) ili strukturirani probabilistički model, je vjerojatnostni model za koji graf izražava strukturu uvjetnog odnosa između slučajnih varijabli. Obično se koriste u teoriji vjerojatnosti, statistici (osobito Bayesovskoj statistici) i strojnom učenju.

Statistički model s grafom
Statistički model s grafom

Ekonometrijski modeli

Ekonometrijski modeli su statistički modeli koji se koriste uekonometrije. Ekonometrijski model definira statističke odnose za koje se vjeruje da postoje između različitih ekonomskih veličina povezanih s određenim ekonomskim fenomenom. Ekonometrijski model može se izvesti iz determinističkog ekonomskog modela koji uzima u obzir neizvjesnost ili iz ekonomskog modela koji je sam po sebi stohastički. Međutim, moguće je koristiti i ekonometrijske modele koji nisu vezani za neku posebnu ekonomsku teoriju.

Preporučeni: