Hijerarhijsko naspram particijskog klasteriranja
Grupiranje je tehnika strojnog učenja za analizu podataka i dijeljenje u grupe sličnih podataka. Ove skupine ili skupovi sličnih podataka poznati su kao klasteri. Analiza klastera razmatra algoritme klasteriranja koji mogu automatski identificirati klastere. Hijerarhijski i particijski dvije su takve klase algoritama klasteriranja. Hijerarhijski algoritmi grupiranja razlažu podatke u hijerarhiju klastera. Paricijski algoritmi dijele skup podataka u međusobno nepovezane particije.
Što je hijerarhijsko grupiranje?
Hijerarhijski algoritmi klasteriranja ponavljaju ciklus ili spajanja manjih klastera u veće ili dijeljenja većih klastera na manje. U svakom slučaju, proizvodi hijerarhiju klastera koja se naziva dendogram. Strategija aglomerativnog klasteriranja koristi pristup odozdo prema gore spajanja klastera u veće, dok strategija razdvajajućeg klasteriranja koristi pristup odozgo prema dolje razdvajanja na manje. Obično se pohlepni pristup koristi pri odlučivanju koji će se veći/manji klasteri koristiti za spajanje/podjelu. Euklidska udaljenost, Manhattanska udaljenost i kosinusna sličnost neke su od najčešće korištenih metrika sličnosti za numeričke podatke. Za nenumeričke podatke koriste se metrike kao što je Hammingova udaljenost. Važno je napomenuti da stvarna opažanja (instance) nisu potrebna za hijerarhijsko klasteriranje, jer je dovoljna samo matrica udaljenosti. Dendogram je vizualni prikaz klastera koji vrlo jasno prikazuje hijerarhiju. Korisnik može dobiti različito grupiranje ovisno o razini na kojoj je dendogram izrezan.
Što je particijsko klasteriranje?
Algoritmi particijskog klasteriranja generiraju različite particije i zatim ih procjenjuju prema nekom kriteriju. Također se nazivaju nehijerarhijskim jer je svaka instanca smještena u točno jedan od k međusobno isključivih klastera. Budući da je samo jedan skup klastera izlaz tipičnog algoritma particijskog klasteriranja, korisnik mora unijeti željeni broj klastera (obično se naziva k). Jedan od najčešće korištenih algoritama particijskog klasteriranja je algoritam k-means klasteriranja. Korisnik je dužan navesti broj klastera (k) prije pokretanja i algoritam prvo pokreće središta (ili težišta) k particija. Ukratko, k-znači algoritam klasteriranja zatim dodjeljuje članove na temelju trenutnih centara i ponovno procjenjuje centre na temelju trenutnih članova. Ova se dva koraka ponavljaju sve dok se ne optimiziraju određena funkcija cilja sličnosti unutar klastera i funkcija cilja različitosti među klasterima. Stoga je razumna inicijalizacija centara vrlo važan čimbenik u dobivanju kvalitetnih rezultata iz algoritama particijskog klasteriranja.
Koja je razlika između hijerarhijskog i particijskog klasteriranja?
Hijerarhijsko i particijsko klasteriranje imaju ključne razlike u vremenu rada, pretpostavkama, ulaznim parametrima i rezultirajućim klasterima. Tipično, particijski klaster je brži od hijerarhijskog klasteriranja. Hijerarhijsko klasteriranje zahtijeva samo mjeru sličnosti, dok particijsko klasteriranje zahtijeva jače pretpostavke kao što je broj klastera i početni centri. Hijerarhijsko klasteriranje ne zahtijeva nikakve ulazne parametre, dok algoritmi particionog klasteriranja zahtijevaju broj klastera da bi se pokrenuli. Hijerarhijsko klasteriranje vraća mnogo smisleniju i subjektivniju podjelu klastera, ali particijsko klasteriranje rezultira s točno k klastera. Hijerarhijski algoritmi klasteriranja prikladniji su za kategoričke podatke sve dok se u skladu s tim može definirati mjera sličnosti.