DNN/머신러닝

군집화 ( k-means , 군집 평가 , 평균이동 , GMM , DBSCAN)

Return 2021. 7. 22. 15:02

 

# K-means 

 > 군집 중심점은 선택된 포인트의 평균 지점으로 이동하고, 다시 가까운 포인트를 선택 , 다시 중심점을 평균 지점으로 이동하는 과정을 반복하는 알고리즘입니다. 

 

장점 : 알고리즘이 쉽고 간결하다. 

단점 : 속성이 많을때 군집 정확도가 떨어진다. 군집의 개수를 지정하기 어렵다.

k-means

 

# 군집 평가 

 

 - 실루엣 분석(silhouette analysis)

 

각 군집의 거리가 얼마나 효율적으로 분리돼 있는지 나타낸다. 여기서 효율적이란 군집간 거리가 떨어져 있는 경우를 말한다. 

 

 

# 평균 이동 

 

k-means와 유사하게 중심을 군집의 중심으로 지속적으로 움직이면서 군집화. 하지만 K-평균이 중심에 소속된 데이터의 평균 거리 중심으로 이동하는데 반해 , 평균이동은 데이터가 모여있는 밀도가 가장 높은 곳으로 이동합니다. 

 

 

# GMM( Gaussion Mixture Model )

 

군집화를 적용하고자 하는 데이터가 여러 개의 가우시안 분포를 모델을 섞어서 생성된 모델로 가정해 수행하는 방식입니다. 

 

3개의 가우시안 분포를 가진 데이터 세트

 

데이터 세트를 구성하는 여러 정규분포 곡선을 추출하고 , 개별 데이터가 어떤 정규분포에 속하는지 결정하는 방식입니다. 

 

 

# DBSCAN 

 

클러스터링 알고리즘중 밀도 방식의 클러스터링을 사용하는 알고리즘 입니다. 군집간의 거리를 이용하여 클러스터링 하는 방식에서의 한계를 개선했습니다. 

 

k평균을 이용한 군집화 결과 제대로 군지화되지 않았음을 알수있다. 
DBSCAN을 이용한 군집화 결과