Statistički model je matematička projekcija koja utjelovljuje skup različitih pretpostavki o generiranju nekih uzoraka podataka. Pojam se često predstavlja u mnogo idealiziranom obliku.
Pretpostavke izražene u statističkom modelu pokazuju skup distribucija vjerojatnosti. Mnogi od njih imaju za cilj da ispravno aproksimiraju distribuciju iz koje se izvlači određeni skup informacija. Distribucije vjerojatnosti svojstvene statističkim modelima ono su što razlikuje projekciju od drugih matematičkih modifikacija.
Opća projekcija
Matematički model je opis sustava koji koristi određene koncepte i jezik. Primjenjuju se na prirodne znanosti (kao što su fizika, biologija, znanost o Zemlji, kemija) i inženjerske discipline (kao što su računarstvo, elektrotehnika), kao i na društvene znanosti (kao što su ekonomija, psihologija, sociologija, političke znanosti).
Model može pomoći u objašnjenju sustava iproučavajte utjecaj različitih komponenti i predvidite ponašanje.
Matematički modeli mogu imati različite oblike, uključujući dinamičke sustave, statističke projekcije, diferencijalne jednadžbe ili parametre teorijske igre. Ove i druge vrste mogu se preklapati, a ovaj model uključuje mnoge apstraktne strukture. Općenito, matematičke projekcije mogu uključivati i logičke komponente. U mnogim slučajevima kvaliteta znanstvenog područja ovisi o tome koliko se teorijski razvijeni matematički modeli slažu s rezultatima ponovljenih eksperimenata. Nedostatak slaganja između teorijskih procesa i eksperimentalnih mjerenja često dovodi do važnog napretka kako se razvijaju bolje teorije.
U fizikalnim znanostima tradicionalni matematički model sadrži veliki broj sljedećih elemenata:
- Kontrolne jednadžbe.
- Dodatni podmodeli.
- Definirajte jednadžbe.
- Sastavne jednadžbe.
- Pretpostavke i ograničenja.
- Početni i granični uvjeti.
- Klasična ograničenja i kinematičke jednadžbe.
Formula
Statistički model, u pravilu, postavljaju matematičke jednadžbe koje kombiniraju jednu ili više slučajnih varijabli i, eventualno, druge prirodne varijable. Slično, projekcija se smatra "formalnim konceptom koncepta."
Sva statistička testiranja hipoteza i statističke procjene zarađene su iz matematičkih modela.
Uvod
Neformalno, statistički se model može promatrati kao pretpostavka (ili skup pretpostavki) s određenim svojstvom: omogućuje izračunavanje vjerojatnosti bilo kojeg događaja. Kao primjer, razmotrite par običnih šesterostranih kockica. Potrebno je istražiti dvije različite statističke pretpostavke o kosti.
Prva pretpostavka je:
Za svaku kocku, vjerojatnost dobivanja jednog od brojeva (1, 2, 3, 4, 5 i 6) je: 1/6.
Iz ove pretpostavke možemo izračunati vjerojatnost obje kocke: 1:1/6×1/6=1/36.
Općenito, možete izračunati vjerojatnost bilo kojeg događaja. Međutim, treba shvatiti da je nemoguće izračunati vjerojatnost bilo kojeg drugog netrivijalnog događaja.
Samo prvo mišljenje prikuplja statistički matematički model: zbog činjenice da je uz samo jednu pretpostavku moguće odrediti vjerojatnost svake radnje.
U gornjem uzorku s početnim dopuštenjem, lako je odrediti mogućnost događaja. Uz neke druge primjere, izračun može biti težak ili čak nerealan (na primjer, može zahtijevati mnogo godina izračuna). Za osobu koja dizajnira model statističke analize takva se složenost smatra neprihvatljivom: provedba izračuna ne bi trebala biti praktički nemoguća, a teoretski nemoguća.
Formalna definicija
U matematičkom smislu, statistički model sustava se obično smatra parom (S, P), gdje je Sskup mogućih opažanja, tj. prostor uzorka, a P je skup distribucija vjerojatnosti na S.
Intuicija ove definicije je sljedeća. Pretpostavlja se da postoji "prava" distribucija vjerojatnosti uzrokovana procesom koji generira određene podatke.
Set
On je taj koji određuje parametre modela. Parametarizacija općenito zahtijeva različite vrijednosti da bi rezultirala različitim distribucijama, tj.
mora držati (drugim riječima, mora biti injektivno). Kaže se da je parametrizacija koja ispunjava zahtjev prepoznatljiva.
Primjer
Pretpostavimo da postoji određeni broj učenika različite dobi. Visina djeteta će biti stohastički povezana s godinom rođenja: na primjer, kada školarac ima 7 godina, to utječe na vjerojatnost rasta, samo tako da će osoba biti viša od 3 centimetra.
Ovaj pristup možete formalizirati u model pravolinijske regresije, na primjer, na sljedeći način: visina i=b 0 + b 1agei + εi, gdje je b 0 presjek, b 1 je parametar po kojem je starost se umnožava pri dobivanju nadzora nadmorske visine. Ovo je izraz pogreške. To jest, pretpostavlja se da se visina predviđa prema dobi s određenom pogreškom.
Važeći obrazac mora odgovarati svim informacijama. Dakle, pravocrtni smjer (razina i=b 0 + b 1agei) ne može biti jednadžba za model podataka - ako ne odgovara jasno na apsolutno sve točke. tjbez iznimke, sve informacije su besprijekorno na liniji. Granica pogreške εi mora se unijeti u jednadžbu tako da obrazac odgovara apsolutno svim stavkama informacija.
Da bismo napravili statistički zaključak, prvo moramo pretpostaviti neke distribucije vjerojatnosti za ε i. Na primjer, može se pretpostaviti da distribucije ε i imaju Gaussov oblik s nultom srednjom vrijednosti. U ovom slučaju, model će imati 3 parametra: b 0, b 1 i varijancu Gaussove distribucije.
Model možete službeno odrediti kao (S, P).
U ovom primjeru, model je definiran navođenjem S i tako se mogu napraviti neke pretpostavke o P. Postoje dvije opcije:
Ovaj rast se može aproksimirati linearnom funkcijom starosti;
Da su greške u aproksimaciji raspoređene kao unutar Gaussova.
Opće napomene
Statistički parametri modela posebna su klasa matematičke projekcije. Po čemu se jedna vrsta razlikuje od druge? Dakle, statistički model nije deterministički. Dakle, u njemu, za razliku od matematičkih jednadžbi, određene varijable nemaju određene vrijednosti, već imaju distribuciju mogućnosti. To jest, pojedinačne varijable se smatraju stohastičkim. U gornjem primjeru, ε je stohastička varijabla. Bez toga, projekcija bi bila deterministička.
Izgradnja statističkog modela se često koristi, čak i ako se materijalni proces smatra determinističkim. Na primjer, bacanje novčića je, u načelu, radnja koja unaprijed određuje. Međutim, to se u većini slučajeva još uvijek modelira kao stohastički (kroz Bernoullijev proces).
Prema Konishiju i Kitagawi, postoje tri cilja za statistički model:
- Predviđanja.
- Informacijsko rudarenje.
- Opis stohastičkih struktura.
Veličina projekcije
Pretpostavimo da postoji statistički model predviđanja, Model se naziva parametarskim ako O ima konačnu dimenziju. U rješenju morate napisati da
gdje je k pozitivan cijeli broj (R predstavlja sve realne brojeve). Ovdje se k naziva dimenzija modela.
Kao primjer, možemo pretpostaviti da svi podaci dolaze iz univarijantne Gaussove distribucije:
U ovom primjeru, dimenzija k je 2.
I kao drugi primjer, može se pretpostaviti da se podaci sastoje od (x, y) točaka, za koje se pretpostavlja da su raspoređene ravnom linijom s Gaussovim rezidualima (s nultom srednjom vrijednosti). Tada je dimenzija statističkog ekonomskog modela jednaka 3: presjek linije, njezin nagib i varijanca distribucije reziduala. Treba napomenuti da u geometriji ravna linija ima dimenziju 1.
Iako je gornja vrijednost tehnički jedini parametar koji ima dimenziju k, ponekad se smatra da sadrži k različitih vrijednosti. Na primjer, s jednodimenzionalnom Gaussovom distribucijom, O je jedini parametar veličine 2, ali se ponekad smatra da sadrži dvapojedinačni parametar - srednja vrijednost i standardna devijacija.
Statistički model procesa je neparametarski ako je skup O vrijednosti beskonačno-dimenzionalan. Također je poluparametarski ako ima i konačno-dimenzionalne i beskonačno-dimenzionalne parametre. Formalno, ako je k dimenzija O, a n broj uzoraka, poluparametarski i neparametarski modeli imaju
tada je model poluparametarski. Inače, projekcija nije parametarska.
Parametrijski modeli najčešće su korištene statistike. Što se tiče poluparametarskih i neparametarskih projekcija, Sir David Cox je izjavio:
"Uobičajeno, oni uključuju najmanje hipoteza o teksturi i obliku distribucije, ali uključuju snažne teorije o samodostatnosti."
Ugniježđeni modeli
Ne brkajte ih s višerazinskim projekcijama.
Dva statistička modela su ugniježđena ako se prvi može pretvoriti u drugi nametanjem ograničenja na parametre prvog. Na primjer, skup svih Gaussovih distribucija ima ugniježđeni skup distribucija nulte srednje vrijednosti:
To jest, trebate ograničiti srednju vrijednost u skupu svih Gaussovih distribucija da biste dobili distribucije s nultom srednjom vrijednosti. Kao drugi primjer, kvadratni model y=b 0 + b 1 x + b 2 x 2 + ε, ε ~N (0, σ 2) ima ugrađen linearni model y=b 0 + b 1 x + ε, ε ~ N (0,σ 2) - tj. parametar b2 jednak je 0.
U oba ova primjera, prvi model ima veću dimenzionalnost od drugog modela. To je često, ali nije uvijek slučaj. Drugi primjer je skup Gaussovih distribucija s pozitivnom sredinom, koji ima dimenziju 2.
Usporedba modela
Pretpostavlja se da postoji "prava" distribucija vjerojatnosti koja leži u osnovi promatranih podataka izazvanih procesom koji ih je generirao.
A modeli se također mogu međusobno uspoređivati, korištenjem istraživačke analize ili potvrdne. U istraživačkoj analizi formuliraju se različiti modeli i procjenjuje se koliko dobro svaki od njih opisuje podatke. U potvrdnoj analizi, prethodno formulirana hipoteza uspoređuje se s izvornom. Uobičajeni kriteriji za to uključuju P 2, Bayesov faktor i relativnu vjerojatnost.
Konishijeva i Kitagawa misao
“Većina problema u statističkom matematičkom modelu može se smatrati prediktivnim pitanjima. Obično se formuliraju kao usporedbe nekoliko čimbenika.”
Nadalje, Sir David Cox je rekao: "Kao prijevod s teme, problem u statističkom modelu često je najvažniji dio analize."