Metoda združevanja v skupine: opis, osnovni koncepti, značilnosti aplikacije

Kazalo:

Metoda združevanja v skupine: opis, osnovni koncepti, značilnosti aplikacije
Metoda združevanja v skupine: opis, osnovni koncepti, značilnosti aplikacije
Anonim

Metoda združevanja v skupine je naloga združevanja niza predmetov na način, da so v isti skupini bolj podobni drug drugemu kot predmetom v drugih panogah. To je primarna naloga rudarjenja podatkov in splošne tehnike statistične analize, ki se uporablja na številnih področjih, vključno s strojnim učenjem, prepoznavanjem vzorcev, prepoznavanjem slik, pridobivanjem informacij, stiskanjem podatkov in računalniško grafiko.

Težava z optimizacijo

z uporabo metode združevanja v skupine
z uporabo metode združevanja v skupine

Metoda združevanja v grozde ni en poseben algoritem, ampak splošna naloga, ki jo je treba rešiti. To je mogoče doseči z različnimi algoritmi, ki se bistveno razlikujejo v razumevanju, kaj sestavlja skupino in kako jo učinkovito najti. Uporaba metode združevanja v skupine za oblikovanje metapredmetov vključuje uporabo skupine smajhne razdalje med člani, gosta območja prostora, intervali ali določene statistične porazdelitve. Zato lahko združevanje v grozde formuliramo kot večciljno optimizacijsko težavo.

Ustrezne nastavitve metode in parametrov (vključno s postavkami, kot so uporabljena funkcija razdalje, prag gostote ali število pričakovanih grozdov) so odvisne od posameznega nabora podatkov in predvidene uporabe rezultatov. Analiza kot taka ni avtomatska naloga, temveč iterativni proces odkrivanja znanja ali interaktivne večciljne optimizacije. Ta metoda združevanja v gruče vključuje poskuse in napake. Pogosto je treba spremeniti predobdelavo podatkov in parametre modela, dokler rezultat ne doseže želenih lastnosti.

Poleg izraza "gručenje" obstajajo številne besede s podobnimi pomeni, vključno s samodejno klasifikacijo, numerično taksonomijo, botriologijo in tipološko analizo. Subtilne razlike so pogosto v uporabi metode združevanja v skupine za oblikovanje metapredmetnih odnosov. Medtem ko so pri ekstrakciji podatkov zanimive nastale skupine, je pri avtomatski klasifikaciji te funkcije že diskriminatorna moč.

Analiza grozdov je temeljila na številnih delih Kroeberja leta 1932. V psihologijo sta ga uvedla Zubin leta 1938 in Robert Tryon leta 1939. In ta dela je Cattell uporabljal od leta 1943, da bi označil teoretično klasifikacijo metod združevanja v grozde.

obdobje

uporabametoda
uporabametoda

Koncepta "gruče" ni mogoče natančno opredeliti. To je eden od razlogov, zakaj obstaja toliko metod združevanja v grozde. Obstaja skupni imenovalec: skupina podatkovnih objektov. Vendar pa različni raziskovalci uporabljajo različne modele. In vsaka od teh uporab metod združevanja v skupine vključuje različne podatke. Koncept, ki ga najdejo različni algoritmi, se bistveno razlikuje po svojih lastnostih.

Uporaba metode združevanja v skupine je ključ do razumevanja razlik med navodili. Tipični vzorci grozdov vključujejo:

  • Centroid s. To je na primer, ko k-means združevanje predstavlja vsak grozd z enim srednjim vektorjem.
  • Model povezljivosti s. To je na primer hierarhično združevanje v skupine, ki gradi modele na podlagi povezljivosti na daljavo.
  • Distribucijski model s. V tem primeru se grozdi modelirajo z uporabo metode združevanja v gruče, da tvorijo metasubjektne statistične porazdelitve. Kot je multivariatno normalno ločevanje, ki se uporablja za algoritem maksimiranja pričakovanj.
  • Model gostote s. To sta na primer DBSCAN (Algoritem prostorske gruče s šumom) in OPTICS (Order Points for Structure Detection), ki grozde definirata kot povezana gosta območja v podatkovnem prostoru.
  • Model podprostora c. Pri združevanju v skupine (znano tudi kot co-clustering ali dva načina) se skupine modelirajo z obema elementoma in z ustreznimi atributi.
  • Model s. Nekateri algoritmi neizpopolnjeno razmerje za njihovo metodo združevanja v skupine za ustvarjanje rezultatov metapredmet in preprosto zagotavljanje združevanja informacij.
  • Model, ki temelji na grafu s. Klika, to je podmnožica vozlišč, tako da lahko vsaki dve povezavi v robnem delu obravnavamo kot prototip oblike grozda. Oslabitev celotnega povpraševanja je znana kot kvazi klike. Popolnoma isto ime je predstavljeno v algoritmu za združevanje v gruče HCS.
  • Nevralni modeli s. Najbolj znano nenadzorovano omrežje je samoorganizirajoči zemljevid. In prav te modele je običajno mogoče označiti kot podobne eni ali več zgornjim metodam združevanja za oblikovanje rezultatov metapredmet. Vključuje podprostorske sisteme, ko nevronske mreže izvajajo potrebno obliko analize glavne ali neodvisne komponente.

Ta izraz je pravzaprav nabor takih skupin, ki običajno vsebujejo vse predmete v nizu metod združevanja podatkov. Poleg tega lahko nakazuje medsebojno razmerje grozdov, kot je hierarhija sistemov, vgrajenih drug v drugega. Združenje lahko razdelimo na naslednje vidike:

  • Trda metoda združevanja središč. Tukaj vsak predmet pripada skupini ali je izven nje.
  • Mehak ali mehak sistem. Na tej točki vsak predmet že v določeni meri pripada kateremu koli grozdu. Imenuje se tudi metoda mehkega združevanja v c-means.

Možne so tudi bolj subtilne razlike. Na primer:

  • Strogo particioniranje v gruče. tukajvsak predmet pripada točno eni skupini.
  • Strogo particioniranje v gručah z izstopniki. V tem primeru predmeti morda ne spadajo v nobeno skupino in se štejejo za nepotrebne.
  • Prekrivajoče se gruče (tudi alternativno, z več pogledi). Tukaj lahko predmeti pripadajo več kot eni veji. Običajno vključuje trdne grozde.
  • Hierarhične metode združevanja v skupine. Predmeti, ki pripadajo podrejeni skupini, prav tako pripadajo nadrejenemu podsistemu.
  • Formiranje podprostora. Čeprav je podobno kot prekrivajoči se grozdi, se znotraj enolično definiranega sistema vzajemne skupine ne smejo prekrivati.

Navodila

z uporabo metode združevanja v skupine
z uporabo metode združevanja v skupine

Kot je navedeno zgoraj, lahko algoritme združevanja v gruče razvrstimo glede na njihov model gruče. Naslednji pregled bo navedel le najvidnejše primere teh navodil. Ker je lahko objavljenih več kot 100 algoritmov, vsi ne zagotavljajo modelov za svoje grozde in jih zato ni mogoče enostavno razvrstiti.

Objektivno pravilnega algoritma za združevanje v gruče ni. Toda, kot je navedeno zgoraj, je navodilo vedno v vidnem polju opazovalca. Najprimernejši algoritem združevanja v grozde za določen problem je pogosto treba izbrati eksperimentalno, razen če obstaja matematični razlog za prednost enega modela pred drugim. Treba je opozoriti, da algoritem, zasnovan za eno vrsto, običajno ne delujenabor podatkov, ki vsebuje radikalno drugačno temo. Na primer, k-srednja ne morejo najti nekonveksnih skupin.

Združevanje na podlagi povezave

metoda združevanja v skupine
metoda združevanja v skupine

Ta unija je znana tudi po svojem imenu, hierarhični model. Temelji na tipični ideji, da so predmeti bolj povezani s sosednjimi deli kot s tistimi, ki so veliko bolj oddaljeni. Ti algoritmi povezujejo predmete in tvorijo različne grozde, odvisno od njihove oddaljenosti. Skupino lahko opišemo predvsem z največjo razdaljo, ki je potrebna za povezavo različnih delov grozda. Na vseh možnih razdaljah se bodo oblikovale druge skupine, ki jih lahko predstavimo z dendrogramom. To pojasnjuje, od kod izvira splošno ime "hierarhično združevanje v skupine". To pomeni, da ti algoritmi ne zagotavljajo ene same particije nabora podatkov, ampak namesto tega zagotavljajo obsežen vrstni red pooblastil. Zahvaljujoč njemu je na določenih razdaljah odtok drug z drugim. V dendrogramu os y označuje razdaljo, na kateri se grozdi združijo. In predmeti so razporejeni vzdolž črte X, tako da se skupine ne mešajo.

Združevanje v gruče na podlagi povezave je cela družina metod, ki se razlikujejo po načinu izračunavanja razdalj. Poleg običajne izbire funkcij oddaljenosti se mora uporabnik odločiti tudi za kriterij povezave. Ker je gruča sestavljena iz več predmetov, obstaja veliko možnosti za njeno izračun. Priljubljena izbira je znana kot združevanje z enim vzvodom, to je metodapolna povezava, ki vsebuje UPGMA ali WPGMA (neuteženo ali tehtano skupino parov z aritmetično sredino, znano tudi kot združevanje srednjih povezav). Poleg tega je hierarhični sistem lahko aglomerativen (začenši s posameznimi elementi in jih združuje v skupine) ali delitveni (začne se s celotnim naborom podatkov in ga razdeli na odseke).

Porazdeljeno gručenje

metoda združevanja v skupine
metoda združevanja v skupine

Ti modeli so najtesneje povezani s statistiko, ki temelji na delitvah. Grozde je mogoče enostavno definirati kot predmete, ki najverjetneje pripadajo isti distribuciji. Priročna značilnost tega pristopa je, da je zelo podoben načinu ustvarjanja umetnih podatkovnih nizov. Z vzorčenjem naključnih predmetov iz distribucije.

Čeprav je teoretična osnova teh metod odlična, trpijo zaradi enega ključnega problema, znanega kot prekomerno prilagajanje, razen če so naložene omejitve glede kompleksnosti modela. Večja zveza običajno bolje razloži podatke, zaradi česar bo težko izbrati pravo metodo.

Gaussov model mešanice

Ta metoda uporablja vse vrste algoritmov maksimiranja pričakovanj. Tu je nabor podatkov običajno modeliran s fiksnim (da se izognemo preglasitvi) številom Gaussovih distribucij, ki so inicializirane naključno in katerih parametri so iterativno optimizirani, da se bolje prilegajo naboru podatkov. Ta sistem se bo približal lokalnemu optimumu. Zato lahko več tekov dajerazlični rezultati. Da bi dosegli čim tesnejšo gručenje, so funkcije pogosto dodeljene Gaussovi porazdelitvi, ki ji najverjetneje pripadajo. In za mehkejše skupine to ni potrebno.

Groženje na podlagi distribucije ustvarja zapletene modele, ki lahko na koncu zajamejo korelacijo in odvisnost med atributi. Ti algoritmi pa uporabnika dodatno obremenjujejo. Za številne nabore podatkov iz resničnega sveta morda ni jedrnato opredeljenega matematičnega modela (na primer, če je Gaussova porazdelitev precej močna predpostavka).

Združevanje na podlagi gostote

združevanje v tvorbo
združevanje v tvorbo

V tem primeru so skupine v osnovi opredeljene kot območja z večjo neprepustnostjo kot preostali nabor podatkov. Predmeti v teh redkih delih, ki so potrebni za ločevanje vseh komponent, se običajno štejejo za hrup in robne točke.

Najbolj priljubljena metoda združevanja v gruče, ki temelji na gostoti, je DBSCAN (Algoritem združevanja prostorskega hrupa v gruče). Za razliko od mnogih novejših metod ima dobro opredeljeno komponento grozda, imenovano "dosegljivost gostote". Podobno kot združevanje v gruče, ki temelji na povezavah, temelji na povezovalnih točkah znotraj določenih pragov razdalje. Vendar pa ta metoda zbira samo tiste predmete, ki izpolnjujejo merilo gostote. V izvirni različici, opredeljeni kot najmanjše število drugih objektov v tem polmeru, je grozd sestavljen iz vsehelementi, povezani z gostoto (ki lahko tvorijo skupino proste oblike, za razliko od mnogih drugih metod) in vsi predmeti, ki so znotraj dovoljenega obsega.

Druga zanimiva lastnost DBSCAN je, da je njegova kompleksnost precej nizka – zahteva linearno število poizvedb po obsegu glede na bazo podatkov. Prav tako nenavadno je, da bo našel v bistvu enake rezultate (to je deterministično za točke jedra in hrupa, ne pa za mejne elemente) pri vsakem zagonu. Zato ga ni treba večkrat zagnati.

Glavna pomanjkljivost DBSCAN in OPTICS je, da pričakujeta padec gostote za odkrivanje meja grozdov. Na primer, v nizih podatkov s prekrivajočimi se Gaussovimi distribucijami – običajen primer uporabe za umetne objekte – se meje grozdov, ki jih ustvarijo ti algoritmi, pogosto zdijo poljubne. To se zgodi, ker se gostota skupin nenehno zmanjšuje. In v naboru podatkov Gaussove mešanice ti algoritmi skoraj vedno prekašajo metode, kot je združevanje v skupine EM, ki lahko natančno modelirajo te vrste sistemov.

Srednji premik je pristop združevanja v skupine, pri katerem se vsak predmet premakne na najgostejše območje v soseščini na podlagi ocene celotnega jedra. Na koncu se objekti konvergirajo do maksimumov lokalne neprepustnosti. Podobno kot pri združevanju k-sredstev lahko ti "atraktorji gostote" služijo kot predstavniki za nabor podatkov. Toda srednji premiklahko zazna poljubno oblikovane grozde, podobne DBSCAN. Zaradi dragega iterativnega postopka in ocene gostote je povprečni premik običajno počasnejši od DBSCAN ali k-Means. Poleg tega je uporabnost tipičnega algoritma premika za visokodimenzionalne podatke težka zaradi neenakomernega obnašanja ocene gostote jedra, kar vodi v pretirano razdrobljenost repov grozda.

Ocena

metoda združevanja v skupine za tvorbo metasubjekta
metoda združevanja v skupine za tvorbo metasubjekta

Preverjanje rezultatov združevanja v gruče je tako težko kot samo združevanje v gruče. Priljubljeni pristopi vključujejo "notranje" točkovanje (kjer je sistem reduciran na eno samo merilo kakovosti) in seveda "zunanje" točkovanje (kjer se združevanje primerja z obstoječo klasifikacijo "osnovne resnice"). Ročno oceno in posredno oceno strokovnjaka za ljudi najdete s preučitvijo uporabnosti združevanja v skupine v predvideni aplikaciji.

Notranji meritelji zastave trpijo zaradi težave, ker predstavljajo značilnosti, ki se lahko štejejo za cilje združevanja v gruče. Na primer, mogoče je združiti podatke, ki jih poda koeficient Silhouette, le da za to ni znan učinkovit algoritem. Z uporabo takega notranjega merila za vrednotenje je bolje primerjati podobnost optimizacijskih problemov.

Zunanja oznaka ima podobne težave. Če obstajajo takšne oznake "osnovne resnice", potem ni treba združevati. In v praktičnih aplikacijah takšnih konceptov običajno ni. Po drugi strani pa oznake odražajo samo eno možno particijo nabora podatkov, kar pa ne pomenida ni drugega (morda še boljšega) združevanja.

Torej nobeden od teh pristopov na koncu ne more presojati dejanske kakovosti. Toda to zahteva človeško vrednotenje, ki je zelo subjektivno. Kljub temu je lahko takšna statistika informativna pri prepoznavanju slabih grozdov. Vendar ne smemo zanemariti subjektivne ocene osebe.

Notranja oznaka

Ko se rezultat združevanja v gruče ovrednoti na podlagi podatkov, ki so bili sami združeni v gruče, se to imenuje ta izraz. Te metode običajno pripišejo najboljši rezultat algoritmu, ki ustvarja skupine z visoko podobnostjo znotraj in nizko med skupinami. Ena od pomanjkljivosti uporabe notranjih meril pri ocenjevanju grozdov je, da visoki rezultati ne vodijo nujno do učinkovitih aplikacij za iskanje informacij. Tudi ta ocena je pristranska proti algoritmom, ki uporabljajo isti model. Na primer, združevanje v skupine k-means naravno optimizira razdalje med značilnostmi, interni kriterij, ki temelji na njem, pa bo verjetno precenil posledično združevanje v gruče.

Zato so ti ocenjevalni ukrepi najprimernejši za predstavo o situacijah, v katerih je en algoritem boljši od drugega. Vendar to ne pomeni, da vsaka informacija daje bolj zanesljive rezultate kot druge. Obdobje veljavnosti, izmerjeno s takšnim indeksom, je odvisno od trditve, da struktura obstaja v naboru podatkov. Algoritem, razvit za nekatere vrste, nima možnosti, če množica vsebuje radikalnodrugačna sestava ali če ocena meri drugačna merila. Na primer, z združevanjem k-means lahko najdemo samo konveksne skupine, številni indeksi rezultatov pa imajo enako obliko. V nizu podatkov z nekonveksnimi modeli je neprimerno uporabljati k-srednje in tipična merila za ocenjevanje.

Zunanja evalvacija

Pri tej vrsti združevanja se rezultati združevanja v skupine ovrednotijo na podlagi podatkov, ki niso bili uporabljeni za združevanje. Se pravi, kot so znane oznake razredov in zunanji testi. Takšna vprašanja so sestavljena iz niza vnaprej razvrščenih predmetov in jih pogosto ustvarijo strokovnjaki (ljudje). Kot take je referenčne komplete mogoče obravnavati kot zlati standard za ocenjevanje. Te vrste metod točkovanja merijo, kako blizu je združevanje v skupine danim referenčnim razredom. Vendar pa se je pred kratkim razpravljalo o tem, ali je to primerno za resnične podatke ali samo za sintetične nize z dejansko temeljno resnico. Ker lahko razredi vsebujejo notranjo strukturo, obstoječi atributi pa morda ne dovoljujejo ločevanja grozdov. Tudi z vidika odkrivanja znanja reprodukcija znanih dejstev morda ne bo nujno prinesla pričakovanega rezultata. V posebnem omejenem scenariju združevanja v skupine, kjer se metainformacije (kot so oznake razredov) že uporabljajo v procesu združevanja, ni nepomembno ohraniti vse informacije za namene ocenjevanja.

Zdaj je jasno, kaj ne velja za metode združevanja v grozde in kateri modeli se uporabljajo za te namene.

Priporočena: