Predpostavke, utelešene v statističnem modeliranju, opisujejo niz verjetnostnih porazdelitev, za nekatere od katerih se domneva, da ustrezno približajo porazdelitev. Iz definicije je izbran določen niz podatkov. Porazdelitve verjetnosti, ki so neločljivo povezane s statističnim modeliranjem, so tisto, kar razlikuje statistične modele od drugih, nestatističnih, matematičnih modelov.
Povezava z matematiko
Ta znanstvena metoda je zakoreninjena predvsem v matematiki. Statistično modeliranje sistemov je običajno podano z matematičnimi enačbami, ki povezujejo eno ali več naključnih spremenljivk in morda druge nenaključne spremenljivke. Tako je statistični model "formalna predstavitev teorije" (Hermann Ader, ki citira Kennetha Bollena).
Vsi testi statističnih hipotez in vse statistične ocene so izpeljane iz statističnih modelov. Na splošno so statistični modeli del osnove statističnega sklepanja.
Statistične metodemodeliranje
Neformalno si lahko statistični model predstavljamo statistično predpostavko (ali niz statističnih predpostavk) z določeno lastnostjo: ta predpostavka nam omogoča izračun verjetnosti katerega koli dogodka. Kot primer si oglejte par navadnih šeststranskih kock. Preučili bomo dve različni statistični predpostavki o kosti.
Prva statistična predpostavka predstavlja statistični model, saj lahko z eno samo predpostavko izračunamo verjetnost katerega koli dogodka. Alternativna statistična predpostavka ne predstavlja statističnega modela, saj z eno samo predpostavko ne moremo izračunati verjetnosti vsakega dogodka.
V zgornjem primeru s prvo predpostavko je enostavno izračunati verjetnost dogodka. Vendar pa je v nekaterih drugih primerih lahko izračun zapleten ali celo nepraktičen (na primer, lahko zahteva milijone let računanja). Za predpostavko, ki predstavlja statistični model, je ta težava sprejemljiva: izvedba izračuna ni nujno izvedljiva, ampak le teoretično možna.
Primeri modelov
Predpostavimo, da imamo populacijo šolarjev z enakomerno razporejenimi otroki. Višina otroka bo stohastično povezana s starostjo: na primer, ko vemo, da je otrok star 7 let, to vpliva na verjetnost, da bo otrok visok 5 čevljev (približno 152 cm). To razmerje bi lahko formalizirali v modelu linearne regresije, na primer: rast=b0 + b1agei+ εi, kjer je b0 presečišče, b1 je parameter, s katerim se starost pomnoži pri pridobivanju napovedi rasti, εi je člen napake. To pomeni, da je višina predvidena glede na starost z nekaj napake.
Veljaven model se mora ujemati z vsemi podatkovnimi točkami. Torej ravna črta (heighti=b0 + b1agei) ne more biti enačba za podatkovni model - razen če se natančno prilega vsem podatkovnim točkam, t.j. vse podatkovne točke ležijo popolnoma na črti. Izraz napake εi mora biti vključen v enačbo, da model ustreza vsem podatkovnim točkam.
Za statistični zaključek moramo najprej predpostaviti nekaj verjetnostnih porazdelitev za εi. Na primer, lahko domnevamo, da so porazdelitve εi Gaussove, z ničelno srednjo vrednostjo. V tem primeru bo model imel 3 parametre: b0, b1 in varianco Gaussove porazdelitve.
Splošni opis
Statistični model je poseben razred matematičnega modela. Statistični model se razlikuje od drugih matematičnih modelov v tem, da ni determinističen. Uporablja se za modeliranje statističnih podatkov. Tako v statističnem modelu, definiranem z matematičnimi enačbami, nekatere spremenljivke nimajo posebnih vrednosti, temveč imajo verjetnostne porazdelitve; to pomeni, da so nekatere spremenljivke stohastične. V zgornjem primeru je ε stohastična spremenljivka; brez te spremenljivke je bil modelbi bilo deterministično.
Statistični modeli se pogosto uporabljajo v statistični analizi in modeliranju, tudi če je fizični proces, ki se modelira, determinističen. Na primer, metanje kovancev je načeloma determinističen proces; vendar je običajno modeliran kot stohastični (prek Bernoullijevega procesa).
Parametrični modeli
Parametrični modeli so najpogosteje uporabljeni statistični modeli. Glede polparametričnih in neparametričnih modelov je Sir David Cox dejal: "Na splošno vključujejo manj predpostavk o strukturi in obliki distribucije, običajno pa vsebujejo močne predpostavke neodvisnosti." Kot vsi drugi omenjeni modeli se tudi pogosto uporabljajo v statistični metodi matematičnega modeliranja.
Večstopenjski modeli
Večstopenjski modeli (znani tudi kot hierarhični linearni modeli, ugnezdeni podatkovni modeli, mešani modeli, naključni koeficienti, modeli naključnih učinkov, modeli naključnih parametrov ali particionirani modeli) so statistični modeli parametrov, ki se razlikujejo na več kot eni ravni. Primer je model učenčevih dosežkov, ki vsebuje meritve za posamezne učence, pa tudi meritve za učilnice, v katerih so študenti združeni. Te modele je mogoče obravnavati kot posplošitve linearnih modelov (zlasti linearne regresije), čeprav jih je mogoče razširiti tudi na nelinearne modele. Ti modeli so postaliveliko bolj priljubljen, ko je na voljo dovolj računalniške moči in programske opreme.
Večstopenjski modeli so še posebej primerni za raziskovalne projekte, kjer so podatki za udeležence organizirani na več kot eni ravni (tj. ugnezdeni podatki). Enote analize so običajno posamezniki (na nižji ravni), ki so ugnezdeni znotraj kontekstnih/agregatnih enot (na višji ravni). Medtem ko je najnižja raven podatkov v večnivojskih modelih običajno individualna, se lahko upoštevajo tudi ponavljajoče se meritve posameznikov. Tako večnivojski modeli zagotavljajo alternativno vrsto analize za enosmerno ali multivariatno analizo ponavljajočih se meritev. Upoštevamo lahko posamezne razlike v krivuljah rasti. Poleg tega se lahko modeli na več ravneh uporabljajo kot alternativa ANCOVA, kjer se rezultati odvisnih spremenljivk prilagodijo za kovarije (npr. individualne razlike) pred testiranjem razlik pri zdravljenju. Večstopenjski modeli lahko analizirajo te poskuse brez predpostavke enotnih regresijskih naklonov, ki jih zahteva ANCOVA.
Večstopenjski modeli se lahko uporabljajo za podatke z več ravnmi, čeprav so dvostopenjski modeli najpogostejši in preostali del tega članka se osredotoča na te. Odvisno spremenljivko je treba preučiti na najnižji ravni analize.
Izbor modela
Izbor modelaje naloga izbire iz nabora kandidatnih modelov glede na podatke, ki se izvaja v okviru statističnega modeliranja. V najpreprostejših primerih se upošteva že obstoječi nabor podatkov. Vendar pa lahko naloga vključuje tudi načrtovanje eksperimentov, tako da so zbrani podatki primerni za nalogo izbire modela. Glede na modele kandidatov s podobno napovedno ali razlagalno močjo je verjetno najboljša izbira najpreprostejši model (Occamova britvica).
Konishi & Kitagawa pravi: "Večino težav s statističnimi sklepi lahko štejemo za težave, povezane s statističnim modeliranjem." Podobno je Cox dejal: "Kako se izvede prevod predmeta v statistični model, je pogosto najpomembnejši del analize."
Izbira modela se lahko nanaša tudi na problem izbire nekaj reprezentativnih modelov iz velikega nabora računalniških modelov za namene odločanja ali optimizacije v negotovosti.
Grafični vzorci
Grafični model ali verjetnostni grafični model (PGM) ali strukturirani verjetnostni model je verjetnostni model, za katerega graf izraža strukturo pogojnega razmerja med naključnimi spremenljivkami. Običajno se uporabljajo v teoriji verjetnosti, statistiki (zlasti Bayesovi statistiki) in strojnem učenju.
Ekonometrični modeli
Ekonometrični modeli so statistični modeli, ki se uporabljajo vekonometrije. Ekonometrični model opredeljuje statistična razmerja, za katera se domneva, da obstajajo med različnimi ekonomskimi količinami, povezanimi z določenim gospodarskim pojavom. Ekonometrični model je lahko izpeljan iz determinističnega ekonomskega modela, ki upošteva negotovost, ali iz ekonomskega modela, ki je sam po sebi stohastičen. Vendar pa je mogoče uporabiti tudi ekonometrične modele, ki niso vezani na nobeno posebno ekonomsko teorijo.