Пређи на садржај

Klasterska analiza

С Википедије, слободне енциклопедије
(преусмерено са Grupisani podaci)
Rezultat klasterske analize prikazan je bojama kvadrata u tri klastera

Klasterska analiza ili klasterovanje je zadatak grupisanja skupa objekata na način da su objekti u istoj grupi (koji se nazivaju klaster) sličniji (u nekom specifičnom smislu definisanom od strane analitičara) jedni drugima nego onima u drugim grupama (klasterima). To je glavni zadatak eksploratorne analize podataka i uobičajena tehnika za statističku analizu podataka, koja se koristi u mnogim oblastima, uključujući prepoznavanje obrazaca, analizu slika, pronalaženje informacija, bioinformatiku, kompresiju podataka, kompjutersku grafiku i mašinsko učenje.

Klaster analiza se odnosi na porodicu algoritama i zadataka, a ne na jedan specifičan algoritam. To se može postići različitim algoritmima koji se značajno razlikuju u njihovom razumevanju toga što čini klaster i kako da ih efikasno pronađu. Popularni pojmovi klastera uključuju grupe sa malim rastojanjima između članova klastera, guste oblasti prostora podataka, intervale ili određene statističke raspodele. Grupisanje se stoga može formulisati kao problem višekriterijumske optimizacije. Odgovarajući algoritam za grupisanje i podešavanja parametara (uključujući parametre kao što su funkcija udaljenosti koju treba koristiti, prag gustine ili broj očekivanih klastera) zavise od pojedinačnog skupa podataka i nameravane upotrebe rezultata. Klasterska analiza kao takva nije automatski zadatak, već iterativni proces otkrivanja znanja ili interaktivne višeciljne optimizacije koja uključuje pokušaje i neuspehe. Često je potrebno modifikovati predobradu podataka i parametre modela sve dok rezultat ne postigne željena svojstva.

Pored termina klasterovanje, postoji niz pojmova sa sličnim značenjima, uključujući automatsku klasifikaciju, numeričku taksonomiju, botriologiju (od grč. βότρυς grizd), tipološku analizu i detekciju zajednice. Suptilne razlike često postoje u korišćenju rezultata: dok su u rudarenju podataka rezultujuće grupe predmet interesovanja, u automatskoj klasifikaciji je rezultujuća diskriminatorna moć od interesa.

Klasterska analiza je potekla iz antropologije doprinosima Drajvera i Kroebera 1932. godine,[1] a u psihologiju su ga uveli Džozef Zubin 1938.[2] i Robert Trion 1939.[3] i čuvena je njena Katelova primena počev od 1943.[4] za teoriju klasifikacije osobina u psihologiji ličnosti.

  1. ^ Driver and Kroeber (1932). „Quantitative Expression of Cultural Relationships”. University of California Publications in American Archaeology and Ethnology. Berkeley, CA: University of California Press. Quantitative Expression of Cultural Relationships: 211—256. Архивирано из оригинала 2020-12-06. г. Приступљено 2019-02-18. 
  2. ^ Zubin, Joseph (1938). „A technique for measuring like-mindedness.”. The Journal of Abnormal and Social Psychology (на језику: енглески). 33 (4): 508—516. ISSN 0096-851X. doi:10.1037/h0055441. 
  3. ^ Tryon, Robert C. (1939). Cluster Analysis: Correlation Profile and Orthometric (factor) Analysis for the Isolation of Unities in Mind and Personality. Edwards Brothers. 
  4. ^ Cattell, R. B. (1943). „The description of personality: Basic traits resolved into clusters”. Journal of Abnormal and Social Psychology. 38 (4): 476—506. doi:10.1037/h0054116.