Višedimenzionalno skaliranje: definicija, ciljevi, ciljevi i primjer

Sadržaj:

Višedimenzionalno skaliranje: definicija, ciljevi, ciljevi i primjer
Višedimenzionalno skaliranje: definicija, ciljevi, ciljevi i primjer
Anonim

Multivarijantno skaliranje (MDS) je alat za vizualizaciju razine sličnosti pojedinačnih slučajeva u skupu podataka. Odnosi se na skup povezanih metoda ordinacije koji se koriste u vizualizaciji informacija, posebno za prikaz informacija sadržanih u matrici udaljenosti. Ovo je oblik nelinearne redukcije dimenzionalnosti. MDS algoritam ima za cilj smjestiti svaki objekt u N-dimenzionalni prostor na način da se udaljenosti između objekata očuvaju što je bolje moguće. Svakom objektu se tada dodjeljuju koordinate u svakoj od N dimenzija.

Broj dimenzija MDS grafa može premašiti 2 i specificiran je a priori. Odabirom N=2 optimizira se smještaj objekta za 2D dijagram raspršenja. Primjere višedimenzionalnog skaliranja možete vidjeti na slikama u članku. Primjeri sa simbolima na ruskom jeziku posebno su ilustrativni.

Višedimenzionalno skaliranje
Višedimenzionalno skaliranje

Essence

Metoda višedimenzionalnog skaliranja (MMS,MDS) je prošireni skup klasičnih alata koji generalizira postupak optimizacije za skup funkcija gubitaka i ulaznih matrica poznatih udaljenosti s težinama i tako dalje. U ovom kontekstu, korisna funkcija gubitka naziva se stres, koji se često minimizira postupkom koji se naziva majorizacija stresa.

Ručno

Postoji nekoliko opcija za višedimenzionalno skaliranje. MDS programi automatski minimiziraju opterećenje kako bi dobili rješenje. Jezgra nemetričkog MDS algoritma je dvostruki proces optimizacije. Prvo, mora se pronaći optimalna monotonska transformacija blizine. Drugo, konfiguracijske točke moraju biti optimalno pozicionirane tako da njihove udaljenosti odgovaraju skaliranim vrijednostima blizine što je bliže moguće.

Primjer višedimenzionalnog skaliranja
Primjer višedimenzionalnog skaliranja

Proširenje

Proširenje metričkog višedimenzionalnog skaliranja u statistici gdje je ciljni prostor proizvoljan glatki neeuklidski prostor. Gdje su razlike udaljenosti na površini, a ciljni prostor je druga površina. Tematski programi omogućuju vam da pronađete prilog uz minimalno izobličenje jedne površine u drugu.

Koraci

Postoji nekoliko koraka u provođenju studije pomoću multivarijantnog skaliranja:

  1. Formulacija problema. Koje varijable želite usporediti? Koliko varijabli želite usporediti? U koju svrhu će se studija koristiti?
  2. Dohvaćanje ulaznih podataka. Ispitanicima se postavlja niz pitanja. Za svaki par proizvoda od njih se traži da ocijene sličnost (obično na Likertovoj skali od 7 točaka od vrlo sličnih do vrlo različitih). Prvo pitanje može biti za Coca-Colu/Pepsi, na primjer, sljedeće za pivo, sljedeće za Dr. Pepper, itd. Broj pitanja ovisi o broju marki.
Skaliranje udaljenosti
Skaliranje udaljenosti

Alternativni pristupi

Postoje još dva pristupa. Postoji tehnika pod nazivom "Perceptualni podaci: izvedeni pristup" u kojoj se proizvodi rastavljaju na atribute, a evaluacija se vrši na semantičkoj diferencijalnoj skali. Druga metoda je "pristup podataka o preferencijama", u kojem se ispitanici pitaju o preferencijama, a ne o sličnostima.

Sastoji se od sljedećih koraka:

  1. Pokretanje MDS statističkog programa. Softver za izvođenje postupka dostupan je u mnogim statističkim programskim paketima. Često postoji izbor između metričkog MDS-a (koji se bavi podacima na razini intervala ili omjera) i nemetričkog MDS-a (koji se bavi rednim podacima).
  2. Određivanje broja mjerenja. Istraživač mora odrediti broj mjerenja koje želi stvoriti na računalu. Što je više mjerenja, to je bolja statistika, ali je teže interpretirati rezultate.
  3. Prikaz rezultata i definiranje mjerenja - statistički program (ili povezani modul) će prikazati rezultate. Karta će prikazati svaki proizvod (obično u 2D).prostor). Međusobna blizina proizvoda ukazuje na njihovu sličnost ili preferenciju, ovisno o tome koji je pristup korišten. Međutim, nije uvijek jasno kako mjerenja zapravo odgovaraju mjerenjima ponašanja sustava. Ovdje se može donijeti subjektivna prosudba o usklađenosti.
  4. Provjerite rezultate za pouzdanost i valjanost - izračunajte R-kvadrat kako biste odredili udio skalirane varijance podataka koji se može uzeti u obzir MDS procedurom. Kvadrat R 0,6 smatra se minimalnom prihvatljivom razinom. R na kvadrat 0,8 smatra se dobrim za metričko skaliranje, dok se 0,9 smatra dobrim za nemetričko skaliranje.
Multivarijantni rezultati skaliranja
Multivarijantni rezultati skaliranja

Različiti testovi

Drugi mogući testovi su testovi stresa tipa Kruskal, testovi podijeljenih podataka, testovi stabilnosti podataka i testovi pouzdanosti ponovnog testiranja. Napišite detaljno o rezultatima testa. Uz mapiranje treba navesti barem mjeru udaljenosti (npr. Sorensonov indeks, Jaccardov indeks) i pouzdanosti (npr. vrijednost naprezanja).

Također je vrlo poželjno dati algoritam (npr. Kruskal, Mather) koji je često određen upotrijebljenim programom (ponekad zamjenjujući izvješće algoritma), ako ste dali početnu konfiguraciju ili ste imali slučajni izbor, broj mjerenja dimenzija, Monte Carlo rezultati, broj iteracija, rezultat stabilnosti i proporcionalna varijansa svake osi (r-kvadrat).

Vizualne informacije i metoda analize podatakavišedimenzionalno skaliranje

Vizualizacija informacija je proučavanje interaktivnih (vizualnih) prikaza apstraktnih podataka radi poboljšanja ljudske spoznaje. Apstraktni podaci uključuju numeričke i nenumeričke podatke kao što su tekstualne i geografske informacije. Međutim, vizualizacija informacija razlikuje se od znanstvene vizualizacije: "to je informacijsko (vizualizacija informacija) kada je odabran prostorni prikaz, a scivis (znanstvena vizualizacija) kada se daje prostorni prikaz."

Područje vizualizacije informacija proizašlo je iz istraživanja interakcije čovjeka i računala, primjena računalnih znanosti, grafike, vizualnog dizajna, psihologije i poslovnih metoda. Sve se više koristi kao bitna komponenta u znanstvenim istraživanjima, digitalnim knjižnicama, rudarenju podataka, financijskim podacima, istraživanju tržišta, kontroli proizvodnje i tako dalje.

Metode i principi

Vizualizacija informacija sugerira da metode vizualizacije i interakcije iskorištavaju bogatstvo ljudske percepcije, omogućujući korisnicima da istovremeno vide, istražuju i razumiju velike količine informacija. Vizualizacija informacija ima za cilj stvoriti pristupe za komuniciranje apstraktnih podataka, informacija na intuitivan način.

Višedimenzionalno skaliranje boja
Višedimenzionalno skaliranje boja

Analiza podataka sastavni je dio svih primijenjenih istraživanja i rješavanja problema u industriji. NajvišeTemeljni pristupi analizi podataka su vizualizacija (histogrami, dijagrami raspršivanja, površinski grafikoni, karte stabala, paralelni koordinatni dijagrami, itd.), statistika (testiranje hipoteza, regresija, PCA, itd.), analiza podataka (podudaranje, itd.)..d.) i metode strojnog učenja (klasterizacija, klasifikacija, stabla odlučivanja, itd.).

Među ovim pristupima, vizualizacija informacija ili vizualna analiza podataka najviše ovisi o kognitivnim vještinama analitičkog osoblja i omogućuje otkrivanje nestrukturiranih djelotvornih uvida koji su ograničeni samo ljudskom maštom i kreativnošću. Analitičar ne mora naučiti nikakve složene tehnike da bi mogao interpretirati vizualizacije podataka. Vizualizacija informacija također je shema za generiranje hipoteza koja može i obično je popraćena analitičkom ili formalnijom analizom kao što je statističko testiranje hipoteza.

Studij

Suvremeno proučavanje vizualizacije započelo je računalnom grafikom, koja se "od samog početka koristila za proučavanje znanstvenih problema. Međutim, u ranim godinama nedostatak grafičke snage često je ograničavao njezinu korisnost. Prioritet vizualizacije počeo je razviti 1987., izdavanjem posebnog softvera za računalnu grafiku i vizualizaciju u znanstvenom računarstvu. Od tada je bilo nekoliko konferencija i radionica koje su zajednički organizirali IEEE Computer Society i ACM SIGGRAPH".

Obradili su opće teme vizualizacije podataka, vizualizacije informacija i znanstvene vizualizacije,kao i specifičnija područja kao što je volumenski prikaz.

Višedimenzionalno skaliranje marke
Višedimenzionalno skaliranje marke

Sažetak

Generalizirano višedimenzionalno skaliranje (GMDS) je proširenje metričkog višedimenzionalnog skaliranja u kojem je ciljni prostor neeuklidski. Kada su razlike udaljenosti na površini, a ciljni prostor druga površina, GMDS vam omogućuje da pronađete ugniježđenje jedne površine u drugu uz minimalno izobličenje.

GMDS je nova linija istraživanja. Trenutno su glavne aplikacije prepoznavanje deformabilnih objekata (na primjer, za 3D prepoznavanje lica) i mapiranje tekstura.

Svrha višedimenzionalnog skaliranja je predstavljanje višedimenzionalnih podataka. Višedimenzionalne podatke, odnosno podatke za koje je potrebno više od dvije ili tri dimenzije za predstavljanje, može biti teško interpretirati. Jedan pristup pojednostavljenju je pretpostaviti da podaci od interesa leže na ugrađenom nelinearnom mnogostrukosti u visokodimenzionalnom prostoru. Ako kolektor ima dovoljno nisku dimenziju, podaci se mogu vizualizirati u niskodimenzionalnom prostoru.

Mnoge metode smanjenja nelinearne dimenzionalnosti povezane su s linearnim metodama. Nelinearne metode mogu se općenito klasificirati u dvije skupine: one koje pružaju mapiranje (bilo iz visokodimenzionalnog prostora u niskodimenzionalno ugrađivanje ili obrnuto), i one koje jednostavno pružaju vizualizaciju. U kontekstu strojnog učenja, metode mapiranja se mogu promatrati kaopreliminarna faza ekstrakcije obilježja, nakon koje se primjenjuju algoritmi za prepoznavanje uzoraka. Obično se oni koji daju samo vizualizacije temelje na podacima o blizini - tj. mjerenjima udaljenosti. Višedimenzionalno skaliranje također je prilično uobičajeno u psihologiji i drugim humanističkim znanostima.

Dijagonalno višedimenzionalno skaliranje
Dijagonalno višedimenzionalno skaliranje

Ako je broj atributa velik, tada je prostor jedinstvenih mogućih nizova također eksponencijalno velik. Dakle, što je veća dimenzija, to je teže prikazati prostor. To uzrokuje mnogo problema. Algoritmi koji rade na visokodimenzionalnim podacima obično imaju vrlo visoku vremensku složenost. Smanjenje podataka na manje dimenzija često čini algoritme analize učinkovitijima i može pomoći algoritmima strojnog učenja da naprave točnija predviđanja. Zbog toga je višedimenzionalno skaliranje podataka tako popularno.

Preporučeni: