Logistička regresija: model i metode

Sadržaj:

Logistička regresija: model i metode
Logistička regresija: model i metode
Anonim

Metode logističke regresije i diskriminantne analize koriste se kada je potrebno jasno razlikovati ispitanike po ciljnim kategorijama. U ovom slučaju, same grupe su predstavljene razinama jednog parametra s jednom varijantom. Pogledajmo pobliže model logističke regresije i saznajmo zašto je potreban.

logistička regresija
logistička regresija

Opće informacije

Primjer problema u kojem se koristi logistička regresija je razvrstavanje ispitanika u skupine koje kupuju i ne kupuju senf. Diferencijacija se provodi u skladu sa socio-demografskim karakteristikama. To uključuje, posebice, dob, spol, broj rođaka, prihode itd. U poslovanju postoje kriteriji diferencijacije i varijabla. Potonji kodira ciljne kategorije u koje bi, zapravo, ispitanike trebalo podijeliti.

Njanse

Treba reći da je raspon slučajeva u kojima se primjenjuje logistička regresija mnogo uži nego za diskriminantnu analizu. U tom smislu, razmatra se korištenje potonjeg kao univerzalne metode diferencijacijepoželjnije. Štoviše, stručnjaci preporučuju pokretanje klasifikacijskih studija s diskriminantnom analizom. I samo u slučaju nesigurnosti u vezi s rezultatima, možete koristiti logističku regresiju. Ova potreba je posljedica nekoliko čimbenika. Logistička regresija se koristi kada postoji jasno razumijevanje vrste nezavisnih i zavisnih varijabli. Sukladno tome, odabire se jedan od 3 moguća postupka. U diskriminantnoj analizi istraživač uvijek ima posla s jednom statičkom operacijom. Uključuje jednu ovisnu i nekoliko neovisnih kategoričkih varijabli s bilo kojom vrstom ljestvice.

Pregledi

Zadatak statističke studije koja koristi logističku regresiju je odrediti vjerojatnost da će određeni ispitanik biti dodijeljen određenoj skupini. Diferencijacija se provodi prema određenim parametrima. U praksi, prema vrijednostima jednog ili više neovisnih čimbenika, moguće je ispitanike razvrstati u dvije skupine. U ovom slučaju dolazi do binarne logističke regresije. Također, navedeni parametri se mogu koristiti pri podjeli u grupe od više od dvije. U takvoj situaciji dolazi do multinomske logističke regresije. Rezultirajuće grupe izražene su u razinama jedne varijable.

logistička regresija
logistička regresija

Primjer

Recimo da postoje odgovori ispitanika na pitanje jesu li zainteresirani za ponudu za kupnju zemljišta u predgrađu Moskve. Opcije su "ne"i da. Potrebno je utvrditi koji čimbenici imaju prevladavajući utjecaj na odluku potencijalnih kupaca. Da bi to učinili, ispitanicima se postavljaju pitanja o infrastrukturi teritorija, udaljenosti do glavnog grada, području mjesta, prisutnosti/odsutnosti stambene zgrade itd. Korištenjem binarne regresije moguće je distribuirati ispitanike podijeliti u dvije grupe. Prvi će uključivati one koji su zainteresirani za akviziciju - potencijalne kupce, a drugi, odnosno one koji nisu zainteresirani za takvu ponudu. Za svakog ispitanika, osim toga, izračunat će se vjerojatnost da će biti dodijeljen jednoj ili drugoj kategoriji.

Uporedne karakteristike

Razlika od dvije gore navedene opcije je različit broj grupa i vrsta ovisnih i nezavisnih varijabli. U binarnoj regresiji, na primjer, proučava se ovisnost dihotomnog faktora o jednom ili više neovisnih uvjeta. Štoviše, potonji mogu imati bilo koju vrstu ljestvice. Multinomijska regresija se smatra varijacijom ove opcije klasifikacije. U njemu više od 2 skupine pripadaju ovisnoj varijabli. Nezavisni faktori moraju imati ordinalnu ili nominalnu skalu.

Logistička regresija u spss

U statističkom paketu 11-12 uvedena je nova verzija analize - redna. Ova metoda se koristi kada ovisni faktor pripada istoimenoj (rednoj) ljestvici. U ovom slučaju odabiru se neovisne varijable jednog specifičnog tipa. Moraju biti ili redni ili nazivni. Najviše se smatra razvrstavanje u nekoliko kategorijauniverzalni. Ova metoda se može koristiti u svim studijama koje koriste logističku regresiju. Međutim, jedini način da se poboljša kvaliteta modela je korištenje sve tri tehnike.

provjera kvalitete adekvatnosti i logistička regresija
provjera kvalitete adekvatnosti i logistička regresija

Uredna klasifikacija

Treba reći da ranije u statističkom paketu nije postojala tipična mogućnost izvođenja specijalizirane analize za ovisne faktore s rednom ljestvicom. Za sve varijable s više od 2 skupine korištena je multinominalna varijanta. Relativno nedavno uvedena ordinalna analiza ima niz značajki. Uzimaju u obzir specifičnosti ljestvice. U međuvremenu, u nastavnim pomagalima, redovna logistička regresija se često ne smatra zasebnom tehnikom. To je zbog sljedećeg: ordinalna analiza nema značajnih prednosti u odnosu na multinomsku. Istraživač može koristiti potonje u prisutnosti i ordinalne i nominalne zavisne varijable. Istodobno, sami procesi klasifikacije gotovo se ne razlikuju jedan od drugog. To znači da izvođenje redovne analize neće uzrokovati nikakve poteškoće.

Opcija analize

Razmotrimo jednostavan slučaj - binarnu regresiju. Pretpostavimo da se u procesu marketinškog istraživanja procjenjuje potražnja za diplomcima određenog sveučilišta u metropoli. U upitniku su ispitanicima postavljana pitanja, uključujući:

  1. Jeste li zaposleni? (ql).
  2. Unesite godinu diplomiranja (q 21).
  3. Koji je prosjekocjena mature (prosjek).
  4. Spol (q22).

Logistička regresija će procijeniti utjecaj neovisnih čimbenika aver, q 21 i q 22 na varijablu ql. Jednostavno rečeno, svrha analize bit će utvrditi vjerojatno zapošljavanje diplomanata na temelju informacija o području, godini diplomiranja i prosjeku ocjena.

indikator logističke sigmoidne regresije
indikator logističke sigmoidne regresije

Logistička regresija

Za postavljanje parametara pomoću binarne regresije, koristite izbornik Analiza►Regresija►Binary Logistic. U prozoru Logistička regresija odaberite ovisni faktor s popisa dostupnih varijabli s lijeve strane. To je ql. Ova varijabla mora biti smještena u polje Ovisno. Nakon toga potrebno je u dijagram Covarijate uvesti nezavisne faktore - q 21, q 22, pros. Zatim morate odabrati kako ih uključiti u svoju analizu. Ako je broj nezavisnih čimbenika veći od 2, tada se koristi metoda istovremenog uvođenja svih varijabli, koja je zadano postavljena, ali korak po korak. Najpopularniji način je Backward:LR. Pomoću gumba Odaberi u istraživanje možete uključiti ne sve ispitanike, već samo određenu ciljnu kategoriju.

Definiraj kategoričke varijable

Gumb Kategorija treba koristiti kada je jedna od nezavisnih varijabli nominalna s više od 2 kategorije. U ovoj situaciji, u prozoru Definiranje kategoričkih varijabli, upravo se takav parametar postavlja u odjeljak Kategoričke varijable. U ovom primjeru ne postoji takva varijabla. Nakon toga u padajućem popisu slijedi Kontrastodaberite stavku Devijacija i pritisnite tipku Promjena. Kao rezultat, iz svakog nominalnog faktora formirat će se nekoliko zavisnih varijabli. Njihov broj odgovara broju kategorija početnog stanja.

Spremi nove varijable

Upotrebom gumba Spremi u glavnom dijaloškom okviru studije postavlja se kreiranje novih parametara. Oni će sadržavati pokazatelje izračunate u procesu regresije. Konkretno, možete kreirati varijable koje definiraju:

  1. Pripadnost određenoj klasifikacijskoj kategoriji (članstvo u grupi).
  2. Vjerojatnost dodjeljivanja ispitanika svakoj studijskoj grupi (Vjerojatnosti).

Kada se koristi gumb Opcije, istraživač ne dobiva nikakve značajne opcije. Sukladno tome, može se zanemariti. Nakon klika na gumb "OK", rezultati analize će biti prikazani u glavnom prozoru.

koeficijent logističke regresije
koeficijent logističke regresije

Provjera kvalitete za adekvatnost i logističku regresiju

Razmotrite tablicu Omnibus Testsof Model Coefficients. Prikazuje rezultate analize kvalitete aproksimacije modela. Zbog činjenice da je postavljena opcija korak po korak, morate pogledati rezultate posljednje faze (Korak 2). Pozitivan rezultat će se smatrati ako se pri prelasku u sljedeću fazu nađe povećanje pokazatelja Hi-kvadrat s visokim stupnjem značajnosti (Sig. < 0,05). Kvaliteta modela ocjenjuje se u liniji Model. Ako se dobije negativna vrijednost, ali se ne smatra značajnom uz ukupnu visoku materijalnost modela, posljednjamože se smatrati praktički prikladnim.

Stolovi

Sažetak modela omogućuje procjenu ukupnog indeksa varijance, koji je opisan konstruiranim modelom (R Square indeks). Preporuča se korištenje Nagelkerove vrijednosti. Parametar Nagelkerke R Square može se smatrati pozitivnim pokazateljem ako je iznad 0,50. Nakon toga se ocjenjuju rezultati klasifikacije u kojima se uspoređuju stvarni pokazatelji pripadnosti jednoj ili drugoj kategoriji koja se proučava s onima predviđenima na temelju regresijskog modela. Za to se koristi klasifikacijska tablica. Također nam omogućuje da izvučemo zaključke o ispravnosti diferencijacije za svaku skupinu koja se razmatra.

model logističke regresije
model logističke regresije

Sljedeća tablica pruža priliku da saznate statističku važnost neovisnih čimbenika unesenih u analizu, kao i svaki nestandardizirani koeficijent logističke regresije. Na temelju ovih pokazatelja moguće je predvidjeti pripadnost svakog ispitanika u uzorku određenoj skupini. Pomoću gumba Spremi možete unijeti nove varijable. Oni će sadržavati informacije o pripadnosti određenoj klasifikacijskoj kategoriji (Predictedcategory) i vjerojatnosti uključivanja u te grupe (Predicted vjerojatnosti članstvo). Nakon što kliknete na "OK", rezultati izračuna će se pojaviti u glavnom prozoru Multinomial Logistic Regression.

Prva tablica, koja sadrži indikatore važne za istraživača, je Informacije o prilagodbi modela. Visoka razina statističke značajnosti ukazuje na visoku kvalitetu iprikladnost korištenja modela u rješavanju praktičnih problema. Još jedna značajna tablica je Pseudo R-Square. Omogućuje vam procjenu udjela ukupne varijance u ovisnom faktoru, koji je određen neovisnim varijablama odabranim za analizu. Prema tablici Testovi omjera vjerojatnosti možemo izvući zaključke o statističkoj značajnosti potonjeg. Procjene parametara odražavaju nestandardizirane koeficijente. Koriste se u konstrukciji jednadžbe. Dodatno, za svaku kombinaciju varijabli utvrđena je statistička značajnost njihova utjecaja na ovisni faktor. U međuvremenu, u marketinškim istraživanjima često postaje potrebno diferencirati ispitanike po kategorijama ne pojedinačno, već kao dio ciljne skupine. Za to se koristi tablica promatranih i predviđenih frekvencija.

Praktična primjena

Razmatrana metoda analize se široko koristi u radu trgovaca. Godine 1991. razvijen je indikator logističke sigmoidne regresije. To je jednostavan za korištenje i učinkovit alat za predviđanje vjerojatnih cijena prije nego što se "pregrije". Indikator je na grafikonu prikazan kao kanal koji čine dvije paralelne linije. Jednako su udaljeni od trenda. Širina koridora ovisit će isključivo o vremenskom okviru. Indikator se koristi pri radu s gotovo svim sredstvima - od valutnih parova do plemenitih metala.

logistička regresija u spss
logistička regresija u spss

U praksi su razvijene 2 ključne strategije za korištenje instrumenta: za probijanje iza okret. U potonjem slučaju, trgovac će se usredotočiti na dinamiku promjena cijena unutar kanala. Kako se vrijednost približava liniji podrške ili otpora, oklada se stavlja na vjerojatnost da će kretanje započeti u suprotnom smjeru. Ako se cijena približi gornjoj granici, tada se možete riješiti imovine. Ako je na donjoj granici, onda biste trebali razmisliti o kupnji. Strategija proboja uključuje korištenje naloga. Instaliraju se izvan granica na relativno maloj udaljenosti. Uzimajući u obzir da ih cijena u nekim slučajevima kratkotrajno krši, trebali biste igrati na sigurno i postaviti stop gubitke. Istovremeno, naravno, bez obzira na odabranu strategiju, trgovac treba što mirnije sagledati i procijeniti situaciju koja je nastala na tržištu.

Zaključak

Dakle, korištenje logističke regresije omogućuje brzo i jednostavno razvrstavanje ispitanika u kategorije prema zadanim parametrima. Prilikom analize možete koristiti bilo koju određenu metodu. Konkretno, multinomska regresija je univerzalna. Međutim, stručnjaci preporučuju korištenje svih gore opisanih metoda u kombinaciji. To je zbog činjenice da će u ovom slučaju kvaliteta modela biti znatno veća. To će zauzvrat proširiti raspon njegove primjene.

Preporučeni: