Logistična regresija: model in metode

Kazalo:

Logistična regresija: model in metode
Logistična regresija: model in metode
Anonim

Metodi logistične regresije in diskriminantne analize se uporabljata, kadar je treba anketirance jasno razlikovati po ciljnih kategorijah. V tem primeru so skupine same predstavljene z nivoji enega enovariantnega parametra. Oglejmo si podrobneje logistični regresijski model in ugotovimo, zakaj je potreben.

logistična regresija
logistična regresija

Splošne informacije

Primer problema, pri katerem se uporablja logistična regresija, je razvrstitev anketirancev v skupine, ki kupujejo in ne kupujejo gorčice. Diferenciacija se izvaja v skladu s sociodemografskimi značilnostmi. Mednje sodijo predvsem starost, spol, število sorodnikov, dohodki itd. Pri poslovanju obstajajo kriteriji diferenciacije in spremenljivka. Slednje kodira ciljne kategorije, v katere bi pravzaprav morali anketirance razdeliti.

Nianse

Moramo reči, da je obseg primerov, v katerih se uporablja logistična regresija, veliko ožji kot pri diskriminantni analizi. V zvezi s tem se upošteva uporaba slednjega kot univerzalne metode diferenciacijebolj zaželeno. Poleg tega strokovnjaki priporočajo začetek študij klasifikacije z diskriminantno analizo. In samo v primeru negotovosti glede rezultatov lahko uporabite logistično regresijo. Ta potreba je posledica več dejavnikov. Logistična regresija se uporablja, kadar obstaja jasno razumevanje vrste neodvisnih in odvisnih spremenljivk. V skladu s tem je izbran eden od 3 možnih postopkov. Pri diskriminantni analizi se raziskovalec vedno ukvarja z eno statično operacijo. Vključuje eno odvisno in več neodvisnih kategoričnih spremenljivk s katero koli vrsto lestvice.

Ogledi

Naloga statistične študije, ki uporablja logistično regresijo, je določiti verjetnost, da bo določen respondent razporejen v določeno skupino. Diferenciacija se izvaja po določenih parametrih. V praksi je glede na vrednosti enega ali več neodvisnih faktorjev možno anketirance razvrstiti v dve skupini. V tem primeru pride do binarne logistične regresije. Navedene parametre je mogoče uporabiti tudi pri delitvi v skupine z več kot dvema. V takšni situaciji pride do multinomske logistične regresije. Dobljene skupine so izražene v ravneh ene spremenljivke.

logistična regresija
logistična regresija

Primer

Recimo, da obstajajo odgovori anketirancev na vprašanje, ali jih zanima ponudba za nakup zemljišča v predmestju Moskve. Možnosti so "ne"in ja. Ugotoviti je treba, kateri dejavniki imajo prevladujoč vpliv na odločitev potencialnih kupcev. Da bi to naredili, so anketirancem zastavljena vprašanja o infrastrukturi ozemlja, oddaljenosti do prestolnice, območju lokacije, prisotnosti / odsotnosti stanovanjske stavbe itd. Z uporabo binarne regresije je mogoče razdeliti anketirance v dve skupini. Prvi bodo vključevali tiste, ki se zanimajo za nakup - potencialne kupce, drugi pa tiste, ki jih taka ponudba ne zanima. Za vsakega anketiranca bo poleg tega izračunana verjetnost, da bo uvrščen v eno ali drugo kategorijo.

Primerjalne značilnosti

Razlika od zgornjih dveh možnosti je različno število skupin ter vrsta odvisnih in neodvisnih spremenljivk. Pri binarni regresiji se na primer proučuje odvisnost dihotomnega faktorja od enega ali več neodvisnih pogojev. Poleg tega ima slednji lahko katero koli vrsto lestvice. Multinomalna regresija velja za različico te možnosti klasifikacije. V njej več kot 2 skupini pripadata odvisni spremenljivki. Neodvisni faktorji morajo imeti ordinalno ali nominalno lestvico.

Logistična regresija v spss

V statističnem paketu 11-12 je bila uvedena nova različica analize - redna. Ta metoda se uporablja, kadar odvisni faktor pripada istoimenski (redni) lestvici. V tem primeru so izbrane neodvisne spremenljivke ene posebne vrste. Biti morajo redni ali nazivni. Najbolj se šteje razvrstitev v več kategorijuniverzalna. Ta metoda se lahko uporablja v vseh študijah, ki uporabljajo logistično regresijo. Vendar pa je edini način za izboljšanje kakovosti modela uporaba vseh treh tehnik.

preverjanje kakovosti ustreznosti in logistična regresija
preverjanje kakovosti ustreznosti in logistična regresija

Naredna klasifikacija

Moramo povedati, da prej v statističnem paketu ni bilo tipične možnosti izvajanja specializirane analize za odvisne faktorje z ordinalno lestvico. Za vse spremenljivke z več kot 2 skupinama je bila uporabljena multinominalna varianta. Relativno nedavno uvedena redna analiza ima številne značilnosti. Upoštevajo posebnosti lestvice. Medtem pa se pri učnih pripomočkih redna logistična regresija pogosto ne obravnava kot ločena tehnika. To je posledica naslednjega: ordinalna analiza nima bistvenih prednosti pred multinomsko. Raziskovalec lahko slednje uporabi v prisotnosti tako redne kot imenske odvisne spremenljivke. Hkrati se sami postopki razvrščanja med seboj skoraj ne razlikujejo. To pomeni, da izvajanje redne analize ne bo povzročalo težav.

Možnost analize

Upoštevajmo preprost primer - binarno regresijo. Recimo, da se v procesu trženjske raziskave oceni povpraševanje po diplomantih določene metropolitanske univerze. V vprašalniku so anketirancem zastavljali vprašanja, med drugim:

  1. Ali ste zaposleni? (ql).
  2. Vnesite leto diplome (q 21).
  3. Koliko je povprečjeocena mature (povprečno).
  4. Spol (q22).

Logistična regresija bo ovrednotila vpliv neodvisnih faktorjev aver, q 21 in q 22 na spremenljivko ql. Preprosto povedano, namen analize bo določiti verjetno zaposlitev diplomantov na podlagi informacij o področju, letu diplomiranja in GPA.

indikator logistične sigmoidne regresije
indikator logistične sigmoidne regresije

Logistična regresija

Če želite nastaviti parametre z uporabo binarne regresije, uporabite meni Analyze►Regression►Binary Logistic. V oknu Logistična regresija izberite odvisni faktor s seznama razpoložljivih spremenljivk na levi. Je ql. To spremenljivko je treba postaviti v polje Odvisno. Po tem je treba v graf Covariates vnesti neodvisne faktorje - q 21, q 22, povprečno. Nato morate izbrati, kako jih vključiti v svojo analizo. Če je število neodvisnih faktorjev več kot 2, se uporablja metoda hkratnega vnosa vseh spremenljivk, ki je privzeto nastavljena, vendar korak za korakom. Najbolj priljubljen način je Backward:LR. Z gumbom Izberi lahko v študijo vključite ne vseh anketirancev, ampak samo določeno ciljno kategorijo.

Definiraj kategorične spremenljivke

Gumb Kategorično je treba uporabiti, če je ena od neodvisnih spremenljivk nominalna z več kot 2 kategorijama. V tej situaciji je v oknu Definiraj kategorične spremenljivke ravno tak parameter postavljen v razdelek Kategorične kovariacije. V tem primeru takšne spremenljivke ni. Nato na spustnem seznamu sledi Kontrastizberite postavko Deviation in pritisnite gumb Spremeni. Posledično se bo iz vsakega nominalnega faktorja oblikovalo več odvisnih spremenljivk. Njihovo število ustreza številu kategorij začetnega pogoja.

Shrani nove spremenljivke

Z uporabo gumba Shrani v glavnem pogovornem oknu študije se nastavi ustvarjanje novih parametrov. Vsebujejo kazalnike, izračunane v regresijskem procesu. Zlasti lahko ustvarite spremenljivke, ki definirajo:

  1. Spada v določeno klasifikacijsko kategorijo (članstvo v skupini).
  2. Verjetnost dodelitve anketiranca vsaki študijski skupini (Verjetnosti).

Pri uporabi gumba Možnosti raziskovalec ne dobi nobenih pomembnih možnosti. V skladu s tem ga je mogoče zanemariti. Po kliku na gumb "V redu" bodo rezultati analize prikazani v glavnem oknu.

koeficient logistične regresije
koeficient logistične regresije

Preverjanje kakovosti za ustreznost in logistično regresijo

Oglejte si tabelo Omnibus Testsof Model Coefficients. Prikazuje rezultate analize kakovosti aproksimacije modela. Ker je bila nastavljena možnost korak za korakom, morate pogledati rezultate zadnje faze (Korak 2). Pozitiven rezultat se šteje, če se pri prehodu na naslednjo stopnjo pri visoki stopnji pomembnosti ugotovi povečanje kazalnika Hi-kvadrat (Sig. < 0,05). Kakovost modela se ocenjuje v liniji Model. Če je dosežena negativna vrednost, vendar se ne šteje za pomembno ob splošni visoki materialnosti modela, zadnjase lahko šteje za praktično primernega.

mize

Model Summary omogoča oceno skupnega indeksa variance, ki ga opisuje konstruirani model (R kvadratni indeks). Priporočljivo je uporabiti Nagelkerjevo vrednost. Parameter Nagelkerke R Square se lahko šteje za pozitiven kazalnik, če je nad 0,50. Nato se ocenijo rezultati klasifikacije, pri čemer se dejanski kazalniki pripadnosti eni ali drugi preučevani kategoriji primerjajo s tistimi, ki so predvideni na podlagi regresijskega modela. Za to se uporablja klasifikacijska tabela. Prav tako nam omogoča sklepanje o pravilnosti diferenciacije za vsako obravnavano skupino.

logistični regresijski model
logistični regresijski model

Naslednja tabela ponuja priložnost, da ugotovite statistično pomembnost neodvisnih faktorjev, ki so vneseni v analizo, kot tudi vsakega nestandardiziranega logističnega regresijskega koeficienta. Na podlagi teh kazalnikov je mogoče predvideti pripadnost vsakega anketiranca v vzorcu določeni skupini. Z gumbom Shrani lahko vnesete nove spremenljivke. Vsebujejo informacije o pripadnosti določeni klasifikacijski kategoriji (Predictedcategory) in verjetnosti vključitve v te skupine (Predicted probabilities membership). Ko kliknete "V redu", se rezultati izračuna prikažejo v glavnem oknu Multinomial Logistic Regression.

Prva tabela, ki vsebuje kazalnike, pomembne za raziskovalca, so informacije o vgradnji modela. Visoka stopnja statistične pomembnosti bi kazala na visoko kakovost inprimernost uporabe modela pri reševanju praktičnih problemov. Druga pomembna tabela je Pseudo R-Square. Omogoča vam, da ocenite delež skupne variance v odvisnem faktorju, ki ga določajo neodvisne spremenljivke, izbrane za analizo. Glede na tabelo Testi razmerja verjetnosti lahko sklepamo o statistični pomembnosti slednjega. Ocene parametrov odražajo nestandardizirane koeficiente. Uporabljajo se pri izdelavi enačbe. Poleg tega je bila za vsako kombinacijo spremenljivk določena statistična pomembnost njihovega vpliva na odvisni faktor. Medtem pa je pri trženjskih raziskavah pogosto potrebno diferencirati anketirance po kategorijah ne posamezno, temveč kot del ciljne skupine. Za to se uporablja tabela opazovanih in predvidenih frekvenc.

Praktična uporaba

Upoštevana metoda analize se pogosto uporablja pri delu trgovcev. Leta 1991 je bil razvit indikator logistične sigmoidne regresije. Je enostavno za uporabo in učinkovito orodje za napovedovanje verjetnih cen, preden se "pregrejejo". Indikator je na grafikonu prikazan kot kanal, ki ga tvorita dve vzporedni črti. Enako so oddaljeni od trenda. Širina koridorja bo odvisna izključno od časovnega okvira. Indikator se uporablja pri delu s skoraj vsemi sredstvi - od valutnih parov do plemenitih kovin.

logistična regresija v spss
logistična regresija v spss

V praksi sta bili razviti 2 ključni strategiji uporabe instrumenta: za preboj inza obrat. V slednjem primeru se bo trgovec osredotočil na dinamiko sprememb cen znotraj kanala. Ko se vrednost približa črti podpore ali upora, se stavi na verjetnost, da se bo gibanje začelo v nasprotni smeri. Če se cena približa zgornji meji, se lahko znebite sredstva. Če je na spodnji meji, potem morate razmisliti o nakupu. Strategija preboja vključuje uporabo naročil. Nameščeni so izven meja na relativno majhni razdalji. Glede na to, da jih cena v nekaterih primerih za kratek čas krši, morate igrati na varno in nastaviti stop izgube. Seveda pa mora trgovec, ne glede na izbrano strategijo, čim bolj umirjeno zaznati in oceniti nastalo situacijo na trgu.

Sklep

Tako uporaba logistične regresije omogoča hitro in enostavno razvrščanje anketirancev v kategorije glede na dane parametre. Pri analizi lahko uporabite katero koli posebno metodo. Še posebej je multinomska regresija univerzalna. Vendar pa strokovnjaki priporočajo uporabo vseh zgoraj opisanih metod v kombinaciji. To je posledica dejstva, da bo v tem primeru kakovost modela bistveno višja. To pa bo razširilo obseg njegove uporabe.

Priporočena: