2 min to read
빅데이터-기초1
기초이론 공부
🎤 프로젝트 소개
빅데이터 기초이론 학습
🎤 빅데이터 기초이론
빅 데이터
빅데이터란 기존 데이터베이스 관리도구의 능력을 넘어서는 대량의 정형 또는 심지어 데이터베이스 형태가 아닌 비정형의 데이터 집합조차 포함한 데이터로부터 가치를 추출하고 결과를 분석하는 기술이다.
데이터 마이닝
데이터 마이닝은 대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 찾아내는 것이다.
기법
- Association (연관성 탐색)
- Sequence (연속성 규칙)
- Classification (분류 규칙)
- Clustering (데이터 군집화)
- Characterization (특성 발견)
Clustering
-
데이터와 원하는 그룹의 K라는 파라미터가 있을때 데이터를 유사도로 의해서 K 개의 그룹으로 나누는 것
-
추천 시스템을 위해서 Clustering 을 사용
Applications of Clustering
- 백화점 고객을 구매 상품에 따라서 클러스터링 함.
- 추천 시스템에 의해 고객의 과거 패턴을 이용해서 클러스터링 함.
- Gene 데이터를 유사도에 따라서 클러스터링 함.
- 텍스트 문서들을 주제에 따라서 클러스터링 함.
- Facebook 에서 이미지들을 유사한 이미지들로 클러스터링 함
- Call center에서 고객과 통화한 내용을 텍스트로 변환 하여 그 내용에 나타나는 단어나 어휘구나 어휘 절을 추출하고 이를 이용하여 각각의 통화내역을 그룹으로 나누어서 회사에 걸려운 상담 내용을 카테고리 별로 나누어 보고 각 카테고리 벼로 요약정보를 만들어냄
Clustering Algorithms
클러스터링 알고리즘은 크게 중심 기반 알고리즘과 밀도 기반 알고리즘으로 나눌 수 있다.
- 중심 기반 알고리즘 : K-means clustering
- 밀도 기반 알고리즘 : Density-based clustering
K-means Clustering
중심 기반 알고리즘 이며 평균점을 계산하여 계속 Assign 한 후 더 이상 변화가 없으면 멈춘다.
-
장점
-
탐색적인 기법으로서, 주어진 데이터의 내부구조에 대한 사전적인 정보 없이 의미있는 자료구조를 찾아낼 수 있다.
-
다양한 형태의 데이터에 적용이 가능하다
-
분석 방법의 적용이 유리하다.
-
-
단점
- 클러스터 사이즈가 크거나 작을 경우에 잘 찾지 못한다.
- 클러스터에서 아주 먼 평균점이 있는경우 클러스터가 데이터가 없는쪽으로 계산 될 수 있음
Hierarchical Clustering
- Bottom - up 방식
- 페어 와이즈로 모든 거리를 계산해서 가장 가까운 거리에있는 클러스터를 merge한다.
- 이러한 방식으로 k 개의 클러스터가 생기면 중단한다.
Hierarchical Clustering Algorithms
- Average-link
- Mean-link
- Centroid-link
Density-Based Clustering Algorithms
밀도 기반 클러스터링으로써 특정한 분포를 따르는 데이터에 유용하다.
기존의 중심 기반 클러스터링 알고리즘인 k0means clustering과 비교할 때 다음과 같은 장단점을 갖고 있다
-
장점
- k-means clustering 과 다르게 클러스터의 수를 지정할 필요가 없으며, 알고리즘이 자동으로 클러스터의 수를 찾는다
- 원 모양의 클러스터 뿐만 아니라, 불특정한 모양의 클러스터도 찾을 수 있다.
- 클러스터링을 수행하는 동시에 노이즈 데이터도 분류할 수 있기 때문에 outlier에 의해 클러스터링 성능이 하락하는 현상을 완화 할 수 있다.
-
단점
- 데이터가 입력되는 순서에 따라 클러스터링 결과가 변한다.
- 알고리즘이 이용하는 거리 측정 방법에 따라 클러스터링 결과가 변한다.
- 데이터의 특성을 모를 경우에는 알고리즘의 적잘한 hyper-parameter를 설정하기가 어렵다.
Comments