Read this from here
Kebiasannya menggunakan k-means algorithm untuk membahagikan kumpulan dataset mengikut kluster berdasarkan nilai terdekat mean. (nearest mean value).
pembahagian kluster berdasarkan jarak terdekat diantara titik dalam sesebuah kluster – boleh menggunakan k-means clustering
k merujuk kepada bilangan kluster
kuantiti bilangan kluster perlu ditentukan sendiri terlebih dahulu. Jadi kualiti kewujudan kluster bergantung kepada sejauh mana ketepatan anda memberikan nilai k.
Satu cara untuk menentukan nilai k- boleh menggunakan silhouette coefficient
metod ni akan mengira jarak purata titik dengan titik lain dalam satu kluster, dan membandingkan nilai itu dengan jarak purata kepada setiap titik lain dalam kluster lain