Statistični model je matematična projekcija, ki uteleša niz različnih predpostavk o ustvarjanju nekaterih vzorčnih podatkov. Izraz je pogosto predstavljen v precej idealizirani obliki.
Predpostavke, izražene v statističnem modelu, prikazujejo niz verjetnostnih porazdelitev. Mnogi od njih so namenjeni pravilnemu približevanju porazdelitve, iz katere se črpa določen niz informacij. Porazdelitve verjetnosti, ki so neločljivo povezane s statističnimi modeli, so tisto, kar loči projekcijo od drugih matematičnih modifikacij.
Splošna projekcija
Matematični model je opis sistema z uporabo določenih konceptov in jezika. Veljajo za naravoslovne (kot so fizika, biologija, znanost o Zemlji, kemija) in inženirske discipline (kot so računalništvo, elektrotehnika), pa tudi za družbene vede (kot so ekonomija, psihologija, sociologija, politologija).
Model lahko pomaga razložiti sistem inpreučite vpliv različnih komponent in naredite napovedi obnašanja.
Matematični modeli imajo lahko številne oblike, vključno z dinamičnimi sistemi, statističnimi projekcijami, diferencialnimi enačbami ali parametri teoretične igre. Te in druge vrste se lahko prekrivajo in ta model vključuje številne abstraktne strukture. Na splošno lahko matematične projekcije vključujejo tudi logične komponente. V mnogih primerih je kakovost znanstvenega področja odvisna od tega, kako dobro se teoretično razviti matematični modeli ujemajo z rezultati ponavljajočih se eksperimentov. Pomanjkanje soglasja med teoretičnimi procesi in eksperimentalnimi meritvami pogosto vodi do pomembnega napredka, saj se razvijajo boljše teorije.
V fizikalnih znanostih tradicionalni matematični model vsebuje veliko število naslednjih elementov:
- Nadzorne enačbe.
- Dodatni podmodeli.
- Določite enačbe.
- Konstitutivne enačbe.
- Predpostavke in omejitve.
- Začetni in mejni pogoji.
- Klasične omejitve in kinematične enačbe.
Formula
Statistični model je praviloma nastavljen z matematičnimi enačbami, ki združujejo eno ali več naključnih spremenljivk in po možnosti druge naravno prisotne spremenljivke. Podobno se projekcija šteje za "formalni koncept koncepta."
Vse statistične hipoteze in statistične ocene so pridobljene iz matematičnih modelov.
Uvod
Neformalno lahko statistični model gledamo kot predpostavko (ali niz predpostavk) s specifično lastnostjo: omogoča izračun verjetnosti katerega koli dogodka. Kot primer si oglejte par navadnih šeststranskih kock. Treba je raziskati dve različni statistični predpostavki o kosti.
Prva predpostavka je:
Za vsako kocko je verjetnost, da dobite eno od številk (1, 2, 3, 4, 5 in 6): 1/6.
Iz te predpostavke lahko izračunamo verjetnost obeh kock: 1:1/6×1/6=1/36.
Na splošno lahko izračunate verjetnost katerega koli dogodka. Vendar je treba razumeti, da je nemogoče izračunati verjetnost katerega koli drugega netrivialnega dogodka.
Samo prvo mnenje zbira statistični matematični model: zaradi dejstva, da je z eno samo predpostavko mogoče določiti verjetnost posameznega dejanja.
V zgornjem vzorcu z začetnim dovoljenjem je enostavno določiti možnost dogodka. Pri nekaterih drugih primerih je lahko izračun težaven ali celo nerealen (morda na primer zahteva več let izračunov). Za osebo, ki načrtuje model statistične analize, se takšna zapletenost šteje za nesprejemljivo: izvedba izračunov ne bi smela biti praktično nemogoča in teoretično nemogoča.
Formalna definicija
V matematičnem smislu se statistični model sistema običajno obravnava kot par (S, P), kjer je Snabor možnih opazovanj, to je vzorčni prostor, P pa je niz verjetnostnih porazdelitev na S.
Intuicija te definicije je naslednja. Predpostavlja se, da obstaja "resnična" porazdelitev verjetnosti, ki jo povzroča proces, ki generira določene podatke.
Set
On je tisti, ki določa parametre modela. Parameterizacija na splošno zahteva različne vrednosti, da povzročijo različne porazdelitve, t.j.
mora držati (z drugimi besedami, mora biti injektivno). Rečeno je, da je parametrizacija, ki izpolnjuje zahtevo, prepoznavna.
Primer
Predpostavimo, da je nekaj študentov različnih starosti. Višina otroka bo stohastično povezana z letom rojstva: na primer, ko je šolar star 7 let, to vpliva na verjetnost rasti, le tako, da bo oseba višja od 3 centimetrov.
Ta pristop lahko formalizirate v model pravolinearne regresije, na primer, kot sledi: višina i=b 0 + b 1agei + εi, kjer je b 0 presečišče, b 1 je parameter, s katerim je starost pomnoženo pri pridobivanju nadzora nadmorske višine. To je izraz za napako. To pomeni, da predpostavlja, da je višina predvidena glede na starost z določeno napako.
Veljaven obrazec se mora ujemati z vsemi informacijskimi točkami. Tako pravocrtna smer (nivo i=b 0 + b 1agei) ne more biti enačba za podatkovni model – če ne odgovarja jasno na vse točke. tjbrez izjeme vse informacije brezhibno ležijo na črti. Mejo napake εi je treba vnesti v enačbo, tako da se obrazec ujema s popolnoma vsemi podatki.
Za statistični zaključek moramo najprej predpostaviti nekaj verjetnostnih porazdelitev za ε i. Na primer, lahko domnevamo, da imajo porazdelitve ε i Gaussovo obliko z ničelno srednjo vrednostjo. V tem primeru bo model imel 3 parametre: b 0, b 1 in varianco Gaussove porazdelitve.
Model lahko uradno določite kot (S, P).
V tem primeru je model definiran z navedbo S, zato je mogoče narediti nekaj predpostavk o P. Obstajata dve možnosti:
To rast je mogoče približati z linearno funkcijo starosti;
Da so napake v aproksimaciji porazdeljene kot znotraj Gaussovega.
Splošne opombe
Statistični parametri modelov so poseben razred matematične projekcije. Po čem se ena vrsta razlikuje od druge? Torej je statistični model nedeterminističen. Tako v njem za razliko od matematičnih enačb določene spremenljivke nimajo določenih vrednosti, temveč imajo distribucijo možnosti. To pomeni, da se posamezne spremenljivke štejejo za stohastične. V zgornjem primeru je ε stohastična spremenljivka. Brez tega bi bila projekcija deterministična.
Izdelava statističnega modela se pogosto uporablja, tudi če se materialni proces šteje za determinističen. Na primer, metanje kovancev je načeloma vnaprej določeno dejanje. Vendar je to v večini primerov še vedno modelirano kot stohastično (z Bernoullijevim procesom).
Po Konishiju in Kitagawi obstajajo trije cilji za statistični model:
- Napovedi.
- Informacijsko rudarjenje.
- Opis stohastičnih struktur.
Velikost projekcije
Predpostavimo, da obstaja statistični model napovedi, Model se imenuje parametrični, če ima O končno dimenzijo. V rešitvi morate zapisati, da
kjer je k pozitivno celo število (R pomeni poljubna realna števila). Tu se k imenuje dimenzija modela.
Na primer lahko domnevamo, da vsi podatki izvirajo iz enosmerne Gaussove porazdelitve:
V tem primeru je dimenzija k 2.
In kot drug primer se lahko domneva, da so podatki sestavljeni iz (x, y) točk, za katere se domneva, da so porazdeljene v ravni črti z Gaussovimi ostanki (z ničelnim povprečjem). Potem je dimenzija statističnega ekonomskega modela enaka 3: presečišče črte, njen naklon in varianca porazdelitve ostankov. Treba je opozoriti, da ima ravna črta v geometriji dimenzijo 1.
Čeprav je zgornja vrednost tehnično edini parameter, ki ima dimenzijo k, se včasih šteje, da vsebuje k različnih vrednosti. Na primer, pri enodimenzionalni Gaussovi porazdelitvi je O edini parameter z velikostjo 2, vendar se včasih šteje, da vsebuje dvaposamezen parameter - srednja vrednost in standardni odklon.
Statistični model procesa je neparametričen, če je nabor vrednosti O neskončno-dimenzionalen. Prav tako je polparametrično, če ima tako končnodimenzionalne kot neskončno dimenzionalne parametre. Formalno, če je k dimenzija O in je n število vzorcev, imajo polparametrični in neparametrični modeli
potem je model polparametričen. V nasprotnem primeru je projekcija neparametrična.
Parametrični modeli so najpogosteje uporabljena statistika. Kar zadeva polparametrične in neparametrične projekcije, je Sir David Cox izjavil:
"Običajno vključujejo najmanj hipotez o teksturi in obliki porazdelitve, vendar vključujejo močne teorije o samozadostnosti."
Ugnezdeni modeli
Ne zamenjujte jih z večnivojskimi projekcijami.
Dva statistična modela sta ugnezdena, če je mogoče prvega pretvoriti v drugega z nalaganjem omejitev za parametre prvega. Na primer, nabor vseh Gaussovih distribucij ima ugnezdeni niz porazdelitev z ničelno srednjo vrednostjo:
To pomeni, da morate omejiti srednjo vrednost v nizu vseh Gaussovih porazdelitev, da dobite porazdelitve z ničelno srednjo vrednostjo. Kot drugi primer ima kvadratni model y=b 0 + b 1 x + b 2 x 2 + ε, ε ~N (0, σ 2) vgrajen linearni model y=b 0 + b 1 x + ε, ε ~ N (0,σ 2) - t.j. parameter b2 je enak 0.
V obeh primerih ima prvi model večjo dimenzijo kot drugi model. To je pogosto, vendar ne vedno. Drug primer je niz Gaussovih porazdelitev s pozitivnim povprečjem, ki ima dimenzijo 2.
Primerjava modelov
Predpostavlja se, da obstaja "resnična" porazdelitev verjetnosti, ki temelji na opazovanih podatkih, ki jih povzroča proces, ki jih je ustvaril.
In tudi modele je mogoče primerjati med seboj z uporabo raziskovalne analize ali potrditve. V raziskovalni analizi se oblikujejo različni modeli in oceni, kako dobro vsak od njih opisuje podatke. V potrditveni analizi se prej oblikovana hipoteza primerja s prvotno. Skupna merila za to vključujejo P 2, Bayesov faktor in relativno verjetnost.
Konishijeva in Kitagawa misel
“Večino problemov v statističnem matematičnem modelu je mogoče obravnavati kot napovedna vprašanja. Običajno so oblikovane kot primerjave več dejavnikov."
Poleg tega je Sir David Cox dejal: "Kot prevod iz teme je problem v statističnem modelu pogosto najpomembnejši del analize."