Testiranje hipotez je nujen postopek v statistiki. Preizkus hipoteze ovrednoti dve med seboj izključujoči se izjavi, da ugotovi, katero trditev najbolje podpirajo vzorčni podatki. Če naj bi bila ugotovitev statistično pomembna, je to posledica testa hipoteze.
Načini preverjanja
Metode za testiranje statističnih hipotez so metode statistične analize. Običajno se primerjata dva niza statističnih podatkov ali pa se primerja vzorčen nabor podatkov s sintetičnim naborom podatkov iz idealiziranega modela. Podatke je treba razlagati tako, da jim dodajo nove pomene. Lahko jih interpretirate tako, da predpostavite določeno strukturo končnega rezultata in uporabite statistične metode za potrditev ali zavrnitev predpostavke. Predpostavka se imenuje hipoteza, statistični testi, ki se uporabljajo v ta namen, pa se imenujejo statistične hipoteze.
H0 in H1 hipoteze
Obstajata dve glavnikoncepta statističnega preverjanja hipotez - tako imenovana "glavna ali ničelna hipoteza" in " alternativna hipoteza". Imenujejo jih tudi Neyman-Pearsonove hipoteze. Predpostavka statističnega testa se imenuje ničelna hipoteza, glavna hipoteza ali na kratko H0. Pogosto se imenuje privzeta predpostavka ali predpostavka, da se ni nič spremenilo. Kršitev predpostavke testa se pogosto imenuje prva hipoteza, alternativna hipoteza ali H1. H1 je okrajšava za neko drugo hipotezo, saj je vse, kar vemo o tem, da je podatke H0 mogoče zavreči.
Preden zavrnemo ali ne zavrnemo ničelne hipoteze, je treba rezultat testa interpretirati. Primerjava se šteje za statistično pomembno, če je malo verjetno, da bo razmerje med nizi podatkov izvedba ničelne hipoteze glede na prag verjetnosti – raven pomembnosti. Za preverjanje statističnih hipotez obstajajo tudi merila primernosti. Tako se imenuje merilo preizkusa hipoteze, ki je povezano z domnevnim zakonom neznane porazdelitve. To je številčno merilo neskladja med empirično in teoretično porazdelitvijo.
Postopek in merila za testiranje statističnih hipotez
Najpogostejše metode izbire hipotez temeljijo bodisi na merilu informacij Akaike bodisi na Bayesovem koeficientu. Statistično testiranje hipotez je ključna tehnika tako pri sklepanju kot pri Bayesovem sklepanju, čeprav imata obe vrsti opazne razlike. Statistični testi hipotezdefinirati postopek, ki nadzoruje verjetnost napačne odločitve o nepravilni privzeti ali ničelni hipotezi. Postopek temelji na verjetnosti, da bo deloval. Ta verjetnost napačne odločitve je verjetnost, da je ničelna hipoteza resnična in da ne obstaja nobena posebna alternativna hipoteza. Test ne more pokazati, ali je res ali ne.
Alternativne metode teorije odločanja
Obstajajo alternativne metode teorije odločanja, pri katerih se ničelna in prva hipoteza obravnavata bolj enakopravno. Drugi pristopi odločanja, kot je Bayesova teorija, poskušajo uravnotežiti posledice slabih odločitev med vsemi možnostmi, namesto da se osredotočajo na eno samo ničelno hipotezo. Številni drugi pristopi k odločanju, katera od hipotez je pravilna, temeljijo na podatkih, katera od njih ima želene lastnosti. Toda testiranje hipotez je prevladujoč pristop k analizi podatkov na številnih področjih znanosti.
Preizkušanje statistične hipoteze
Kadar koli se en niz rezultatov razlikuje od drugega niza, se je treba zanašati na testiranje statističnih hipotez ali teste statističnih hipotez. Njihova interpretacija zahteva pravilno razumevanje p-vrednosti in kritičnih vrednosti. Pomembno je tudi razumeti, da lahko testi ne glede na stopnjo pomembnosti še vedno vsebujejo napake. Zato sklep morda ni pravilen.
Postopek testiranja je sestavljen izveč korakov:
- Ustvarja se začetna hipoteza za raziskavo.
- Navedene so ustrezne ničelne in alternativne hipoteze.
- Pojasnjuje statistične predpostavke o vzorcu v testu.
- Ugotavljanje, kateri test je primeren.
- Izberite stopnjo pomembnosti in verjetnostni prag, pod katerim bo ničelna hipoteza zavrnjena.
- Porazdelitev statistike testa ničelne hipoteze prikazuje možne vrednosti, pri katerih se ničelna hipoteza zavrne.
- Izračun v teku.
- Sprejeta se odločitev, da se zavrne ali sprejme ničelna hipoteza v prid alternative.
Obstaja alternativa, ki uporablja p-vrednost.
Preizkusi pomembnosti
Čisti podatki brez interpretacije niso uporabni. V statistiki se pri postavljanju vprašanj o podatkih in interpretaciji rezultatov uporabljajo statistične metode za zagotavljanje točnosti ali verjetnosti odgovorov. Pri testiranju statističnih hipotez se ta razred metod imenuje statistično testiranje ali testi pomembnosti. Izraz "hipoteza" spominja na znanstvene metode, kjer se raziskujejo hipoteze in teorije. V statistiki rezultat testa hipoteze v količini, ki je podana dani predpostavki. Omogoča vam razlago, ali je predpostavka resnična ali je bila storjena kršitev.
Statistična interpretacija testov
Preizkusi hipotezese uporabljajo za ugotavljanje, kateri rezultati raziskave bodo privedli do zavrnitve ničelne hipoteze za vnaprej določeno raven pomembnosti. Rezultate testa statistične hipoteze je treba interpretirati tako, da se lahko delo na njem nadaljuje. Obstajata dve pogosti obliki meril za preverjanje statističnih hipotez. To sta p-vrednost in kritične vrednosti. Glede na izbrani kriterij je treba dobljene rezultate interpretirati različno.
Kaj je p-vrednost
Izhod je pri interpretaciji p-vrednosti opisan kot statistično pomemben. Dejansko ta kazalnik pomeni verjetnost napake, če je ničelna hipoteza zavrnjena. Z drugimi besedami, lahko se uporablja za poimenovanje vrednosti, ki se lahko uporabi za interpretacijo ali količinsko opredelitev rezultata testa in za določitev verjetnosti napake pri zavrnitvi ničelne hipoteze. Na primer, lahko izvedete preizkus normalnosti na vzorcu podatkov in ugotovite, da je malo možnosti za izstop. Vendar ničelne hipoteze ni treba zavrniti. Test statistične hipoteze lahko vrne p-vrednost. To se naredi tako, da se vrednost p primerja z vnaprej določeno mejno vrednostjo, imenovano raven pomembnosti.
Raven pomembnosti
Raven pomena je pogosto napisan z grško malo črko "alfa". Splošna vrednost, uporabljena za alfa, je 5 % ali 0,05. Manjša vrednost alfa kaže na zanesljivejšo razlago ničelne hipoteze. P-vrednost se primerja zvnaprej izbrana vrednost alfa. Rezultat je statistično pomemben, če je p-vrednost manjša od alfa. Raven pomembnosti lahko obrnemo tako, da jo odštejemo od enega. To se naredi za določitev stopnje zaupanja hipoteze glede na podatke opazovanega vzorca. Pri uporabi te metode preverjanja statističnih hipotez je P-vrednost verjetnostna. To pomeni, da v procesu interpretacije rezultata statističnega testa ne vemo, kaj je res ali ne.
Teorija testiranja statističnih hipotez
Zavrnitev ničelne hipoteze pomeni, da obstaja dovolj statističnih dokazov, da je videti verjetno. Sicer pa to pomeni, da ni dovolj statistike, da bi jo zavrnili. Statistične teste si lahko predstavljamo v smislu dihotomije zavračanja in sprejemanja ničelne hipoteze. Nevarnost statističnega testiranja ničelne hipoteze je, da se lahko zdi, da je resnična, če je sprejeta. Namesto tega bi bilo pravilneje reči, da ničelna hipoteza ni zavrnjena, ker ni dovolj statističnih dokazov, da bi jo zavrnili.
Ta trenutek pogosto zmede novince. V takem primeru je pomembno, da se spomnite, da je rezultat verjetnosten in da ima celo sprejetje ničelne hipoteze še vedno majhno možnost napake.
resnična ali napačna ničelna hipoteza
Razlaga vrednosti p ne pomeni, da je ničhipoteza je resnična ali napačna. To pomeni, da se je na podlagi empiričnih podatkov in izbranega statističnega testa odločila zavrniti ali ne zavrniti ničelno hipotezo na določeni ravni statistične pomembnosti. Zato lahko p-vrednost predstavljamo kot verjetnost podanih podatkov ob vnaprej določeni predpostavki, ki je vgrajena v statistične teste. P-vrednost je merilo, kako verjetno bo vzorec podatkov opazovan, če je ničelna hipoteza resnična.
Razlaga kritičnih vrednosti
Nekateri testi ne vrnejo p. Namesto tega lahko vrnejo seznam kritičnih vrednosti. Na podoben način se interpretirajo rezultati takšne študije. Namesto primerjave ene same p-vrednosti z vnaprej določeno stopnjo pomembnosti se testna statistika primerja s kritično vrednostjo. Če se izkaže za manj, to pomeni, da ničelne hipoteze ni bilo mogoče zavrniti. Če je večja ali enaka, je treba ničelno hipotezo zavrniti. Pomen algoritma za preverjanje statistične hipoteze in interpretacija njegovega rezultata je podoben p-vrednosti. Izbrana stopnja pomembnosti je verjetnostna odločitev, da se zavrne ali ne zavrne predpostavka osnovnega testa glede na podatke.
Napake v statističnih testih
Razlaga testa statistične hipoteze je verjetnostna. Naloga testiranja statističnih hipotez ni najti resnične ali napačne trditve. Testni dokazi so lahko napačni. Na primer, če je bila alfa 5%, to pomeni, da je večinoma 1 od 20ničelna hipoteza bo pomotoma zavrnjena. Ali pa ne bo zaradi statističnega šuma v vzorcu podatkov. Glede na to točko lahko majhna vrednost p, pri kateri zavrnemo ničelno hipotezo, pomeni, da je napačna ali da je bila storjena napaka. Če pride do te vrste napake, se rezultat imenuje lažno pozitiven. In taka napaka je napaka prve vrste pri testiranju statističnih hipotez. Po drugi strani pa, če je p-vrednost dovolj velika, da pomeni zavrnitev ničelne hipoteze, lahko pomeni, da je resnična. Ali pa ni pravilno in se je zgodil kakšen malo verjeten dogodek, zaradi katerega je prišlo do napake. Ta vrsta napake se imenuje lažno negativna.
Verjetnost napak
Pri testiranju statističnih hipotez še vedno obstaja možnost, da naredite katero koli od teh vrst napak. Napačni podatki ali napačni sklepi so zelo verjetni. V idealnem primeru je treba izbrati raven pomembnosti, ki zmanjša verjetnost ene od teh napak. Na primer, statistično testiranje ničelnih hipotez ima lahko zelo nizko raven pomembnosti. Čeprav sta ravni pomembnosti, kot sta 0,05 in 0,01, pogosta na številnih področjih znanosti, je najpogosteje uporabljena stopnja pomembnosti 310^-7 ali 0,0000003. Pogosto jo imenujemo »5-sigma«. To pomeni, da je bil zaključek naključen z verjetnostjo 1 od 3,5 milijona neodvisnih ponovitev poskusov. Primeri testiranja statističnih hipotez pogosto vsebujejo takšne napake. To je tudi razlog, zakaj je pomembno imeti neodvisne rezultate.preverjanje.
Primeri uporabe statističnega preverjanja
Obstaja več pogostih primerov testiranja hipotez v praksi. Ena izmed najbolj priljubljenih je znana kot "degustacija čaja". Dr. Muriel Bristol, sodelavka ustanovitelja biometrike Roberta Fisherja, je trdila, da lahko z gotovostjo ugotovi, ali je bila najprej dodana skodelici čaja ali mleka. Fisher ji je ponudil, da ji naključno da osem skodelic (po štiri od vsake sorte). Testna statistika je bila preprosta: štetje uspehov pri izbiri skodelice. Kritična regija je bila edini uspeh od 4, verjetno na podlagi običajnega verjetnostnega kriterija (< 5 %; 1 od 70 ≈ 1,4 %). Fisher je trdil, da alternativna hipoteza ni potrebna. Gospa je pravilno identificirala vsako skodelico, kar je veljalo za statistično pomemben rezultat. Ta izkušnja je privedla do Fisherjeve knjige Statistične metode za raziskovalce.
Primer tožene stranke
Statistični sodni postopek je primerljiv s kazenskim sodiščem, kjer se obtoženec domneva za nedolžnega, dokler mu krivda ni dokazana. Tožilec skuša dokazati krivdo obdolženca. Šele ko je dovolj dokazov za obtožbo, je obdolženec lahko spoznan za krivega. Na začetku postopka sta dve hipotezi: "Obdolženec ni kriv" in "Obdolženec je kriv." Hipotezo o nedolžnosti je mogoče zavrniti le, če je napaka zelo malo verjetna, ker ne želimo obsoditi nedolžnega obdolženca. Takšna napaka se imenuje napaka tipa I in njen pojavredko nadzorovano. Zaradi tega asimetričnega vedenja je napaka tipa II, to je oprostitev storilca, pogostejša.
Statistika je uporabna pri analizi velikih količin podatkov. To velja tudi za preizkušanje hipotez, ki lahko utemeljijo zaključke, tudi če znanstvena teorija ne obstaja. V primeru degustacije čaja je bilo "očitno", da ni razlike med vlivanjem mleka v čaj ali prelivanjem čaja v mleko.
Resnična praktična uporaba testiranja hipotez vključuje:
- preizkušanje, ali imajo moški več nočnih mor kot ženske;
- atribucija dokumenta;
- Ocenjevanje vpliva polne lune na vedenje;
- določanje obsega, v katerem lahko netopir zazna žuželko z odmevom;
- izbira najboljšega sredstva za prenehanje kajenja;
- Preverjanje, ali nalepke odbijača odražajo vedenje lastnika avtomobila.
Preizkušanje statističnih hipotez igra pomembno vlogo v statistiki na splošno in pri statističnem sklepanju. Testiranje vrednosti se uporablja kot nadomestilo za tradicionalno primerjavo napovedane vrednosti in eksperimentalnih rezultatov v jedru znanstvene metode. Kadar je teorija sposobna predvideti samo znak razmerja, je mogoče usmerjene teste hipotez konfigurirati tako, da teorijo podpira le statistično pomemben rezultat. Ta oblika teorije vrednotenja je najbolj togakritika uporabe testiranja hipotez.