Večdimenzionalno skaliranje: definicija, cilji, cilji in primer

Kazalo:

Večdimenzionalno skaliranje: definicija, cilji, cilji in primer
Večdimenzionalno skaliranje: definicija, cilji, cilji in primer
Anonim

Multivariate scaling (MDS) je orodje za vizualizacijo stopnje podobnosti posameznih primerov v nizu podatkov. Nanaša se na niz povezanih metod ordinacije, ki se uporabljajo pri vizualizaciji informacij, zlasti za prikaz informacij, ki jih vsebuje matrika razdalje. To je oblika zmanjšanja nelinearne dimenzij. Algoritem MDS želi postaviti vsak predmet v N-dimenzionalni prostor na način, da se razdalje med objekti čim bolje ohranijo. Vsakemu predmetu se nato dodelijo koordinate v vsaki od N dimenzij.

Število dimenzij grafa MDS lahko presega 2 in je določeno vnaprej. Izbira N=2 optimizira postavitev objektov za 2D razpršeni diagram. Primere večdimenzionalnega skaliranja si lahko ogledate na slikah v članku. Primeri s simboli v ruščini so še posebej ilustrativni.

Večdimenzionalno skaliranje
Večdimenzionalno skaliranje

Essence

Metoda večdimenzionalnega skaliranja (MMS,MDS) je razširjen nabor klasičnih orodij, ki posplošuje postopek optimizacije za nabor funkcij izgube in vhodne matrike znanih razdalj z utežmi in tako naprej. V tem kontekstu se uporabna funkcija izgube imenuje stres, ki se pogosto zmanjša s postopkom, imenovanim majorizacija stresa.

ročno

Obstaja več možnosti za večdimenzionalno skaliranje. Programi MDS samodejno zmanjšajo obremenitev, da dobijo rešitev. Jedro nemetričnega algoritma MDS je dvojni proces optimizacije. Najprej je treba najti optimalno monotono transformacijo bližine. Drugič, konfiguracijske točke morajo biti optimalno pozicionirane tako, da se njihove razdalje čim bolj ujemajo s skaliranimi bližinskimi vrednostmi.

Primer večdimenzionalnega skaliranja
Primer večdimenzionalnega skaliranja

Razširitev

Razširitev metričnega večdimenzionalnega skaliranja v statistiki, kjer je ciljni prostor poljuben gladek neevklidov prostor. Kjer so razlike razdalje na površini, ciljni prostor pa je druga površina. Tematski programi vam omogočajo, da najdete nastavek z minimalnim popačenjem ene površine v drugo.

Koraki

Pri izvajanju študije z uporabo večvariantnega skaliranja je več korakov:

  1. Formulacija problema. Katere spremenljivke želite primerjati? Koliko spremenljivk želite primerjati? Za kakšen namen bo študija uporabljena?
  2. Pridobivanje vhodnih podatkov. Anketiranci dobijo vrsto vprašanj. Za vsak par izdelkov jih prosimo, da ocenijo podobnost (običajno na 7-stopenjski Likertovi lestvici od zelo podobnih do zelo različnih). Prvo vprašanje je lahko na primer za Coca-Colo/Pepsi, naslednje za pivo, naslednje za Dr. Pepper itd. Število vprašanj je odvisno od števila blagovnih znamk.
Skaliranje razdalje
Skaliranje razdalje

Alternativni pristopi

Obstajata še dva pristopa. Obstaja tehnika, imenovana "Perceptualni podatki: izpeljani pristop", pri kateri so izdelki razčlenjeni na atribute, vrednotenje pa se opravi na lestvici semantičnega diferenciala. Druga metoda je »pristop podatkov o preferencah«, pri katerem anketirance sprašujejo o preferencah in ne o podobnostih.

Sestavljen je iz naslednjih korakov:

  1. Zagon statističnega programa MDS. Programska oprema za izvedbo postopka je na voljo v številnih statističnih programskih paketih. Pogosto obstaja izbira med metričnim MDS (ki se ukvarja s podatki na ravni intervala ali razmerja) in nemetričnim MDS (ki se ukvarja z rednimi podatki).
  2. Določanje števila meritev. Raziskovalec mora določiti število meritev, ki jih želi ustvariti na računalniku. Več meritev, boljše je statistično prileganje, vendar težje je interpretirati rezultate.
  3. Prikaži rezultate in definiraj meritve - statistični program (ali povezan modul) bo prikazal rezultate. Zemljevid bo prikazal vsak izdelek (običajno v 2D).prostor). Bližina izdelkov drug drugemu kaže na njihovo podobnost ali preferenco, odvisno od tega, kateri pristop je bil uporabljen. Vendar pa ni vedno jasno, kako meritve dejansko ustrezajo meritvam obnašanja sistema. Tukaj lahko naredite subjektivno presojo skladnosti.
  4. Preverite rezultate za zanesljivost in veljavnost - izračunajte R-kvadrat, da določite delež variance skalairanih podatkov, ki ga je mogoče upoštevati s postopkom MDS. Kvadrat R 0,6 velja za minimalno sprejemljivo raven. R na kvadrat 0,8 velja za dobro za metrično skaliranje, medtem ko 0,9 velja za dobro za nemetrično skaliranje.
Rezultati multivariantnega skaliranja
Rezultati multivariantnega skaliranja

Različni testi

Drugi možni testi so testi izjemnih situacij tipa Kruskal, testi razdeljenih podatkov, testi stabilnosti podatkov in ponovni testi zanesljivosti. Napišite podrobno o rezultatih testa. Poleg preslikave je treba navesti vsaj mero razdalje (npr. Sorensonov indeks, Jaccardov indeks) in zanesljivosti (npr. vrednost napetosti).

Prav tako je zelo zaželeno, da podate algoritem (npr. Kruskal, Mather), ki ga pogosto določa uporabljeni program (včasih zamenja poročilo o algoritmu), če ste dali začetno konfiguracijo ali ste imeli naključno izbiro, številko razsežnosti, rezultati Monte Carlo, število ponovitev, ocena stabilnosti in proporcionalna varianca vsake osi (r-kvadrat).

Vizualne informacije in metoda analize podatkovvečdimenzionalno skaliranje

Vizualizacija informacij je študij interaktivnih (vizualnih) predstavitev abstraktnih podatkov za izboljšanje človeškega spoznanja. Abstraktni podatki vključujejo številčne in neštevilčne podatke, kot so besedilne in geografske informacije. Vendar se vizualizacija informacij razlikuje od znanstvene vizualizacije: "je informacijska (vizualizacija informacij), ko je izbrana prostorska predstavitev, in scivis (znanstvena vizualizacija), ko je podana prostorska predstavitev."

Področje vizualizacije informacij je nastalo iz raziskav interakcije med človekom in računalnikom, računalniških aplikacij, grafike, vizualnega oblikovanja, psihologije in poslovnih metod. Vse bolj se uporablja kot bistvena komponenta v znanstvenih raziskavah, digitalnih knjižnicah, rudarjenju podatkov, finančnih podatkih, tržnih raziskavah, nadzoru proizvodnje itd.

Metode in načela

Vizualizacija informacij nakazuje, da metode vizualizacije in interakcije izkoriščajo bogastvo človeškega zaznavanja, kar uporabnikom omogoča, da hkrati vidijo, raziskujejo in razumejo velike količine informacij. Cilj vizualizacije informacij je ustvariti pristope za sporočanje abstraktnih podatkov, informacij na intuitiven način.

Barvno večdimenzionalno skaliranje
Barvno večdimenzionalno skaliranje

Analiza podatkov je sestavni del vseh uporabnih raziskav in reševanja problemov v industriji. VečinaTemeljni pristopi k analizi podatkov so vizualizacija (histogrami, diagrami razpršitve, površinski grafikoni, drevesni zemljevidi, vzporedni koordinatni grafikoni itd.), statistika (testiranje hipotez, regresija, PCA itd.), analiza podatkov (ujemanje itd.)..d.) in metode strojnega učenja (združevanje v skupine, razvrščanje, drevesa odločitev itd.).

Med temi pristopi je vizualizacija informacij ali vizualna analiza podatkov najbolj odvisna od kognitivnih sposobnosti analitičnega osebja in omogoča odkrivanje nestrukturiranih uporabnih vpogledov, ki jih omejujeta le človeška domišljija in ustvarjalnost. Analitiku se ni treba naučiti nobenih zapletenih tehnik, da bi lahko interpretiral vizualizacije podatkov. Vizualizacija informacij je tudi shema za ustvarjanje hipotez, ki jo lahko in jo običajno spremlja bolj analitična ali formalna analiza, kot je statistično testiranje hipotez.

Študij

Sodoben študij vizualizacije se je začel z računalniško grafiko, ki se je "od samega začetka uporabljala za preučevanje znanstvenih problemov. Vendar pa je v prvih letih pomanjkanje grafične moči pogosto omejevalo njeno uporabnost. Prednost vizualizacije se je začela razvijati leta 1987 z izdajo posebne programske opreme za računalniško grafiko in vizualizacijo v znanstvenem računalništvo Od takrat je bilo več konferenc in delavnic, ki sta jih skupaj organizirala IEEE Computer Society in ACM SIGGRAPH".

Pokrivali so splošne teme vizualizacije podatkov, vizualizacije informacij in znanstvene vizualizacije,pa tudi bolj specifična področja, kot je upodobitev prostornine.

Večdimenzionalno skaliranje blagovne znamke
Večdimenzionalno skaliranje blagovne znamke

Povzetek

Generalizirano večdimenzionalno skaliranje (GMDS) je razširitev metričnega večdimenzionalnega skaliranja, pri katerem ciljni prostor ni evklidski. Kadar so razlike razdalje na površini in je ciljni prostor druga površina, vam GMDS omogoča, da najdete gnezdenje ene površine v drugo z minimalnim popačenjem.

GMDS je nova linija raziskav. Trenutno sta glavni aplikaciji prepoznavanje deformabilnih predmetov (na primer za 3D prepoznavanje obrazov) in preslikava tekstur.

Namen večdimenzionalnega skaliranja je predstavljati večdimenzionalne podatke. Večdimenzionalne podatke, torej podatke, ki zahtevajo več kot dve ali tri dimenzije za predstavitev, je lahko težko interpretirati. Eden od pristopov k poenostavitvi je domneva, da se podatki, ki nas zanimajo, nahajajo na vgrajenem nelinearnem mnogoterju v visokodimenzionalnem prostoru. Če ima zbiralnik dovolj nizko dimenzijo, se podatki lahko vizualizirajo v nizkodimenzionalnem prostoru.

Veliko metod zmanjševanja nelinearnih dimenzij je povezanih z linearnimi metodami. Nelinearne metode lahko na splošno razvrstimo v dve skupini: tiste, ki zagotavljajo preslikavo (bodisi iz visokodimenzionalnega prostora v nizkodimenzionalno vdelavo ali obratno), in tiste, ki preprosto zagotavljajo vizualizacijo. V kontekstu strojnega učenja lahko na metode preslikave gledamo kotpredhodna faza ekstrakcije značilnosti, po kateri se uporabijo algoritmi za prepoznavanje vzorcev. Običajno tiste, ki dajejo samo vizualizacije, temeljijo na podatkih o bližini – torej meritvah razdalje. Večdimenzionalno skaliranje je precej pogosto tudi v psihologiji in drugih humanističnih vedah.

Diagonalno večdimenzionalno skaliranje
Diagonalno večdimenzionalno skaliranje

Če je število atributov veliko, je tudi prostor edinstvenih možnih nizov eksponentno velik. Tako večja kot je dimenzija, težje je upodobiti prostor. To povzroča veliko težav. Algoritmi, ki delujejo na visokodimenzionalnih podatkih, so ponavadi zelo časovno zapleteni. Zmanjšanje podatkov na manj razsežnosti pogosto naredi algoritme za analizo učinkovitejše in lahko pomaga algoritmom strojnega učenja narediti natančnejše napovedi. Zato je večdimenzionalno skaliranje podatkov tako priljubljeno.

Priporočena: