군집화(Clustering)와 분류(Classification)의 차이는
입력 데이터가 배정 될 수 있는 클래스의 갯수의 정의에 따라 달라진다.
군집화는 클래스의 갯수가 복수개이며 미리 정해져 있지 않다.
예를들어 영상처리와 같이 사진을 통한 색상의 분류 등은 어떤 사진이냐에 따라 그 클래스의 개수가 동적이기 때문에
클래스의 개수가 정해져 있지 않다.
분류는 미리 정해진 클래스의 개수대로 유사한 클래스에 입력데이터가 배정된다.
예를들어 미리 Centroid에 대한 정의를 기반으로 입력데이터 대한 분류를 처리하는 K-means 알고리즘,
혹은 사용자가 직접 손으로 작성한 문자를 인식하여 어떤 문자인지 판별하는 기계학습 알고리즘은
입력데이터가 할당받은 클래스가 미리 정의되어 있으므로 "분류"이다.
'Develop Issue > Bigdata : Hadoop, Spark' 카테고리의 다른 글
스칼라(scala) 기반 스파크(spark) 프로그램을 리눅스 환경에서 패키징하기, 단독 애플리케이션 만들기 (0) | 2016.01.04 |
---|