Metoda grupiranja je zadatak grupiranja skupa objekata na takav način da su oni u istoj grupi sličniji jedan drugome nego objektima u drugim industrijama. To je primarni zadatak rudarenja podataka i općenite tehnike statističke analize koja se koristi u mnogim područjima, uključujući strojno učenje, prepoznavanje uzoraka, prepoznavanje slika, dohvaćanje informacija, kompresiju podataka i računalne grafike.
Problem s optimizacijom
Sama metoda grupiranja nije jedan specifičan algoritam, već opći zadatak koji treba riješiti. To se može postići različitim algoritmima koji se značajno razlikuju u razumijevanju što čini grupu i kako je učinkovito pronaći. Korištenje metode grupiranja za formiranje metasubjekata uključuje korištenje grupe smale udaljenosti između članova, gusta područja prostora, intervali ili određene statističke distribucije. Stoga se grupiranje može formulirati kao problem optimizacije s više ciljeva.
Odgovarajuće postavke metode i parametara (uključujući stavke kao što su funkcija udaljenosti koju treba koristiti, prag gustoće ili broj očekivanih klastera) ovise o pojedinačnom skupu podataka i namjeravanoj upotrebi rezultata. Analiza kao takva nije automatski zadatak, već iterativni proces otkrivanja znanja ili interaktivne višeciljne optimizacije. Ova metoda grupiranja uključuje pokušaje pokušaja i pogreške. Često je potrebno modificirati predobradu podataka i parametre modela dok rezultat ne postigne željena svojstva.
Osim pojma "clustering", postoji niz riječi sa sličnim značenjima, uključujući automatsku klasifikaciju, numeričku taksonomiju, botriologiju i tipološku analizu. Suptilne razlike često leže u korištenju metode grupiranja za formiranje metasubjektnih odnosa. Dok su u ekstrakciji podataka rezultirajuće grupe od interesa, u automatskoj klasifikaciji već je diskriminirajuća moć ta koja obavlja te funkcije.
Cluster analiza se temeljila na brojnim djelima Kroebera 1932. godine. U psihologiju su ga uveli Zubin 1938. i Robert Tryon 1939. godine. A ove radove Cattell koristi od 1943. da naznači klasifikaciju metoda grupiranja u teoriji.
Termin
Koncept "klastera" ne može se precizno definirati. To je jedan od razloga zašto postoji toliko mnogo metoda grupiranja. Postoji zajednički nazivnik: grupa objekata podataka. Međutim, različiti istraživači koriste različite modele. I svaka od ovih upotreba metoda grupiranja uključuje različite podatke. Koncept koji su pronašli različiti algoritmi značajno se razlikuje po svojim svojstvima.
Korištenje metode grupiranja ključ je za razumijevanje razlika između uputa. Tipični obrasci klastera uključuju:
- Centroid s. To je, na primjer, kada grupiranje k-srednjih vrijednosti predstavlja svaki klaster s jednim srednjim vektorom.
- Model povezivanja s. Ovo je, na primjer, hijerarhijsko grupiranje, koje gradi modele na temelju povezanosti na daljinu.
- Model distribucije s. U ovom slučaju, klasteri se modeliraju korištenjem metode klasteriranja kako bi se formirale statističke distribucije metasubjekata. Kao što je multivarijantno normalno odvajanje, koje je primjenjivo na algoritam maksimizacije očekivanja.
- Model gustoće s. To su, na primjer, DBSCAN (Algoritam prostornog grupiranja s bukom) i OPTICS (Order Points for Structure Detection), koji definiraju klastere kao povezane guste regije u podatkovnom prostoru.
- Model podprostora c. U biclusteringu (također poznatom kao co-clustering ili dva načina), grupe se modeliraju s oba elementa i s odgovarajućim atributima.
- Model s. Neki algoritmi nemajurafinirani odnos za njihovu metodu grupiranja za generiranje rezultata meta-subjekata i jednostavno pružanje grupiranja informacija.
- Model temeljen na grafikonu s. Klika, odnosno podskup čvorova, takav da se svaka dva spoja u rubnom dijelu može smatrati prototipom oblika klastera. Slabljenje ukupne potražnje poznato je kao kvazi-klike. Potpuno isti naziv predstavljen je u HCS algoritmu grupiranja.
- Neuralni modeli s. Najpoznatija nenadzirana mreža je samoorganizirajuća karta. I upravo se ti modeli obično mogu okarakterizirati kao slični jednoj ili više gore navedenih metoda grupiranja za formiranje rezultata meta-subjekata. Uključuje sustave podprostora kada neuronske mreže implementiraju potrebni oblik analize glavne ili neovisne komponente.
Ovaj izraz je, zapravo, skup takvih grupa, koje obično sadrže sve objekte u skupu metoda grupiranja podataka. Osim toga, može ukazivati na međusobni odnos klastera, kao što je hijerarhija sustava ugrađenih jedan u drugi. Grupiranje se može podijeliti u sljedeće aspekte:
- Tvrdi centriroidni klastering metoda. Ovdje svaki objekt pripada grupi ili je izvan nje.
- Meki ili neizraziti sustav. U ovom trenutku svaki objekt već pripada u određenoj mjeri bilo kojem klasteru. Također se naziva c-means fuzzy clustering metoda.
A moguće su i suptilnije razlike. Na primjer:
- Strogo particioniranje grupiranja. Ovdjesvaki objekt pripada točno jednoj grupi.
- Strogo particioniranje grupiranja s izvanrednim vrijednostima. U ovom slučaju, objekti također možda ne pripadaju nijednom klasteru i smatraju se nepotrebnim.
- Preklapajuće grupiranje (također alternativno, s više prikaza). Ovdje objekti mogu pripadati više od jedne grane. Obično uključuje čvrste klastere.
- Hijerarhijske metode grupiranja. Objekti koji pripadaju podređenoj grupi također pripadaju roditeljskom podsustavu.
- Formiranje podprostora. Iako su slične klasterima koji se preklapaju, unutar jedinstveno definiranog sustava, međusobne grupe se ne bi trebale preklapati.
Upute
Kao što je gore navedeno, algoritmi za grupiranje mogu se klasificirati na temelju njihovog modela klastera. Sljedeći pregled navest će samo najistaknutije primjere ovih uputa. Budući da postoji više od 100 objavljenih algoritama, ne pružaju svi modele za svoje klastere i stoga se ne mogu lako klasificirati.
Ne postoji objektivno ispravan algoritam grupiranja. Ali, kao što je gore navedeno, instrukcija je uvijek u vidnom polju promatrača. Najprikladniji algoritam grupiranja za određeni problem često se mora odabrati eksperimentalno, osim ako ne postoji matematički razlog za preferiranje jednog modela nad drugim. Treba napomenuti da algoritam dizajniran za jednu vrstu obično ne radiskup podataka koji sadrži radikalno različitu temu. Na primjer, k-means ne može pronaći nekonveksne grupe.
Grupiranje na temelju veze
Ova unija je također poznata po svom nazivu, hijerarhijski model. Temelji se na tipičnoj ideji da su objekti više povezani sa susjednim dijelovima nego s onima koji su mnogo udaljeniji. Ovi algoritmi povezuju objekte, tvoreći različite klastere, ovisno o njihovoj udaljenosti. Grupa se može opisati uglavnom maksimalnom udaljenosti koja je potrebna za povezivanje različitih dijelova klastera. Na svim mogućim udaljenostima formirat će se druge skupine koje se mogu prikazati pomoću dendrograma. To objašnjava odakle dolazi uobičajeni naziv "hijerarhijsko grupiranje". To jest, ovi algoritmi ne daju jednu particiju skupa podataka, već umjesto toga pružaju opsežan redoslijed ovlaštenja. Zahvaljujući njemu postoji odvod jedni s drugima na određenim udaljenostima. U dendrogramu, y-os označava udaljenost na kojoj se nakupine spajaju. A objekti su poredani duž X linije tako da se grupe ne miješaju.
Klasteriranje temeljeno na povezivanju je cijela obitelj metoda koje se razlikuju po načinu na koji izračunavaju udaljenosti. Osim uobičajenog izbora funkcija udaljenosti, korisnik treba odlučiti i o kriteriju povezivanja. Budući da se klaster sastoji od nekoliko objekata, postoji mnogo mogućnosti za njegovo računanje. Popularan izbor poznat je kao grupiranje s jednom polugom, ovo je metodapuna veza, koja sadrži UPGMA ili WPGMA (neponderirani ili ponderirani ansambl parova s aritmetičkom sredinom, također poznat kao grupiranje srednjih veza). Osim toga, hijerarhijski sustav može biti aglomerativan (počevši od pojedinačnih elemenata i kombinirajući ih u grupe) ili dijeljeni (počevši od kompletnog skupa podataka i razbijajući ga u odjeljke).
Distribuirano grupiranje
Ovi su modeli najtješnje povezani sa statistikom koja se temelji na podjelama. Klastere je lako definirati kao objekte koji najvjerojatnije pripadaju istoj distribuciji. Zgodna značajka ovog pristupa je da je vrlo sličan načinu na koji se stvaraju umjetni skupovi podataka. Uzorkovanjem nasumičnih objekata iz distribucije.
Dok je teorijska osnova ovih metoda izvrsna, one pate od jednog ključnog problema, poznatog kao prekomjerno prilagođavanje, osim ako se ne nameću ograničenja na složenost modela. Veća udruga obično će bolje objasniti podatke, što otežava odabir prave metode.
Gaussov model mješavine
Ova metoda koristi sve vrste algoritama maksimizacije očekivanja. Ovdje se skup podataka obično modelira s fiksnim (kako bi se izbjeglo nadjačavanje) brojem Gaussovih distribucija koje su nasumično inicijalizirane i čiji se parametri iterativno optimiziraju kako bi bolje odgovarali skupu podataka. Ovaj će sustav konvergirati lokalnom optimumu. To je razlog zašto nekoliko trčanja može datirazličiti rezultati. Kako bi se postiglo najuže grupiranje, značajke se često pripisuju Gaussovoj distribuciji kojoj će najvjerojatnije pripadati. A za mekše grupe to nije potrebno.
Clustering na temelju distribucije stvara složene modele koji u konačnici mogu uhvatiti korelaciju i ovisnost između atributa. Međutim, ovi algoritmi dodatno opterećuju korisnika. Za mnoge skupove podataka u stvarnom svijetu možda neće postojati sažeto definiran matematički model (na primjer, uz pretpostavku da je Gaussova distribucija prilično jaka pretpostavka).
Grupiranje temeljeno na gustoći
U ovom primjeru, grupe su u osnovi definirane kao područja s većom nepropusnošću od ostatka skupa podataka. Objekti u tim rijetkim dijelovima, koji su potrebni za odvajanje svih komponenti, obično se smatraju šumom i rubnim točkama.
Najpopularnija metoda grupiranja temeljena na gustoći je DBSCAN (Algoritam za grupiranje prostornog šuma). Za razliku od mnogih novijih metoda, ima dobro definiranu komponentu klastera koja se naziva "dohvatljivost gustoće". Slično grupiranju temeljenom na poveznici, temelji se na spojnim točkama unutar određenih pragova udaljenosti. Međutim, ova metoda prikuplja samo one stavke koje zadovoljavaju kriterij gustoće. U izvornoj verziji, definiranoj kao minimalni broj drugih objekata u ovom radijusu, klaster se sastoji od svihstavke povezane s gustoćom (koje mogu formirati grupu slobodnog oblika, za razliku od mnogih drugih metoda) i svi objekti koji su unutar dopuštenog raspona.
Još jedno zanimljivo svojstvo DBSCAN-a je da je njegova složenost prilično niska - zahtijeva linearan broj upita raspona prema bazi podataka. Neobično je i to što će naći u suštini iste rezultate (ovo je determinističko za točke jezgre i buke, ali ne i za granične elemente) u svakom pokretanju. Stoga ga nema potrebe pokretati više puta.
Glavni nedostatak DBSCAN-a i OPTICS-a je da očekuju pad gustoće kako bi otkrili granice klastera. Na primjer, u skupovima podataka s Gaussovim distribucijama koje se preklapaju – što je uobičajen slučaj upotrebe za umjetne objekte – granice klastera koje generiraju ovi algoritmi često se čine proizvoljnima. To se događa jer se gustoća grupa kontinuirano smanjuje. A u skupu podataka Gaussove mješavine, ovi algoritmi gotovo uvijek nadmašuju metode kao što je EM grupiranje, koje su u stanju precizno modelirati ove vrste sustava.
Srednji pomak je pristup grupiranja u kojem se svaki objekt pomiče u najgušće područje u susjedstvu na temelju procjene cijele kernela. Na kraju, objekti konvergiraju do maksimuma lokalne neprobojnosti. Slično k-means grupiranju, ovi "atraktori gustoće" mogu poslužiti kao predstavnici skupa podataka. Ali srednji pomakmože otkriti proizvoljno oblikovane klastere slične DBSCAN-u. Zbog skupog iterativnog postupka i procjene gustoće, prosječni pomak je obično sporiji od DBSCAN ili k-Means. Osim toga, primjenjivost tipičnog algoritma pomaka na visokodimenzionalne podatke je teška zbog neujednačenog ponašanja procjene gustoće jezgre, što dovodi do pretjerane fragmentacije repova klastera.
Ocjena
Provjera rezultata grupiranja jednako je teška kao i samo grupiranje. Popularni pristupi uključuju "unutarnje" bodovanje (gdje se sustav svodi na jednu mjeru kvalitete) i, naravno, "vanjsko" bodovanje (gdje se grupiranje uspoređuje s postojećom klasifikacijom "osnovne istine"). A ručni rezultat i neizravni rezultat ljudskog stručnjaka nalaze se ispitivanjem korisnosti grupiranja u predviđenoj aplikaciji.
Interne mjere zastave pate od problema jer predstavljaju značajke koje se i same mogu smatrati ciljevima grupiranja. Na primjer, moguće je grupirati podatke zadane koeficijentom Silhouette, osim što ne postoji poznat učinkovit algoritam za to. Koristeći takvu internu mjeru za evaluaciju, bolje je usporediti sličnost problema optimizacije.
Vanjski znak ima slične probleme. Ako postoje takve oznake "prizemne istine", onda nema potrebe za grupiranje. A u praktičnim primjenama takvih pojmova obično nema. S druge strane, oznake odražavaju samo jednu moguću particiju skupa podataka, što ne značida nema drugog (možda i boljeg) grupiranja.
Dakle, nijedan od ovih pristupa u konačnici ne može procijeniti stvarnu kvalitetu. Ali to zahtijeva ljudsku procjenu, koja je vrlo subjektivna. Ipak, takve statistike mogu biti informativne u prepoznavanju loših klastera. Ali ne treba zanemariti subjektivnu procjenu osobe.
Unutarnja oznaka
Kada se rezultat grupiranja evaluira na temelju podataka koji su i sami grupirani, to se naziva ovim pojmom. Ove metode općenito pridružuju najbolji rezultat algoritmu koji stvara grupe s velikom sličnošću unutar i malom među grupama. Jedan od nedostataka korištenja internih kriterija u ocjenjivanju klastera je taj što visoki rezultati ne dovode nužno do učinkovitih aplikacija za pronalaženje informacija. Također, ovaj je rezultat pristran prema algoritmima koji koriste isti model. Na primjer, grupiranje k-means prirodno optimizira udaljenosti značajki, a interni kriterij koji se temelji na njemu vjerojatno će precijeniti rezultirajuće grupiranje.
Stoga, ove mjere evaluacije su najprikladnije za dobivanje predodžbe o situacijama u kojima jedan algoritam radi bolje od drugog. Ali to ne znači da svaka informacija daje pouzdanije rezultate od drugih. Razdoblje valjanosti mjereno takvim indeksom ovisi o tvrdnji da struktura postoji u skupu podataka. Algoritam razvijen za neke tipove nema šanse ako skup sadrži radikalnorazličit sastav ili ako procjena mjeri različite kriterije. Na primjer, k-means grupiranje može pronaći samo konveksne klastere, a mnogi indeksi rezultata pretpostavljaju isti format. U skupu podataka s nekonveksnim modelima, neprikladno je koristiti k-srednje vrijednosti i tipične kriterije evaluacije.
Vanjska evaluacija
S ovom vrstom sastavljanja, rezultati grupiranja se procjenjuju na temelju podataka koji nisu korišteni za grupiranje. Odnosno, kao što su poznate oznake klasa i vanjski testovi. Takva se pitanja sastoje od skupa prethodno razvrstanih stavki i često ih kreiraju stručnjaci (ljudi). Kao takvi, referentni setovi mogu se smatrati zlatnim standardom za ocjenjivanje. Ove vrste metoda bodovanja mjere koliko je grupiranje blisko danim referentnim klasama. Međutim, nedavno se raspravljalo o tome je li to prikladno za stvarne podatke ili samo za sintetičke skupove sa stvarnom temeljnom istinom. Budući da klase mogu sadržavati unutarnju strukturu, a postojeći atributi možda ne dopuštaju odvajanje klastera. Također, sa stajališta otkrivanja znanja, reproduciranje poznatih činjenica ne mora nužno proizvesti očekivani rezultat. U posebnom ograničenom scenariju grupiranja gdje se meta-informacije (kao što su oznake klasa) već koriste u procesu grupiranja, nije trivijalno zadržati sve informacije u svrhu evaluacije.
Sada je jasno što se ne odnosi na metode grupiranja i koji se modeli koriste u te svrhe.