군집화 ( k-means , 군집 평가 , 평균이동 , GMM , DBSCAN)

DNN/머신러닝

Return 2021. 7. 22. 15:02

> 군집 중심점은 선택된 포인트의 평균 지점으로 이동하고, 다시 가까운 포인트를 선택 , 다시 중심점을 평균 지점으로 이동하는 과정을 반복하는 알고리즘입니다.

장점 : 알고리즘이 쉽고 간결하다.

단점 : 속성이 많을때 군집 정확도가 떨어진다. 군집의 개수를 지정하기 어렵다.

- 실루엣 분석(silhouette analysis)

각 군집의 거리가 얼마나 효율적으로 분리돼 있는지 나타낸다. 여기서 효율적이란 군집간 거리가 떨어져 있는 경우를 말한다.

k-means와 유사하게 중심을 군집의 중심으로 지속적으로 움직이면서 군집화. 하지만 K-평균이 중심에 소속된 데이터의 평균 거리 중심으로 이동하는데 반해 , 평균이동은 데이터가 모여있는 밀도가 가장 높은 곳으로 이동합니다.

군집화를 적용하고자 하는 데이터가 여러 개의 가우시안 분포를 모델을 섞어서 생성된 모델로 가정해 수행하는 방식입니다.

데이터 세트를 구성하는 여러 정규분포 곡선을 추출하고 , 개별 데이터가 어떤 정규분포에 속하는지 결정하는 방식입니다.

클러스터링 알고리즘중 밀도 방식의 클러스터링을 사용하는 알고리즘 입니다. 군집간의 거리를 이용하여 클러스터링 하는 방식에서의 한계를 개선했습니다.