빅데이터-기초2

기초이론 공부

Featured image

🎤 프로젝트 소개

빅데이터 기초이론학습

🎤 빅데이터 기초이론학습2

EM Clustering

Probabilistic Modeling for Generating Documents

EM Algorithm

EM Clustering Algorithm

PLSI (Probabilistic Latent Semantic Indexing)

Recommendation Systems

Content based filtering method

- item이나 product등과 같은 actual content를 이용함
- 각 item간의 similarity를 이용해서 추천함

Collaborative filtering method

- 각각의 유저는 비슷한 다른 유저와 동일하게 행동한다는 가정 - 다른 유저들이 추천에영향을 끼침
- User가 **직접 점수를 매긴** item들에 대한 rating 을 이용해서 추진
- Memory based method
    - 과거의 rating에 base해서 rating prediction을 함
- Model based method
    - 과거의 rating에 base해서 model을 만들고 그 모델에 의해서 unseen item이 rating을 함

Matrix Factorization

- 영화추천 유저가 평점을 매겨둔 매트릭스 찾기
   1. 유저가 모든 영화를 다 볼 수 없으니 대부분 빔
   2. 두 매트릭스의 곱이 평점 매트릭스의 값과 유사하게 되는 두 매트릭스 구하기
      *Matrix Factorization 역할 : [user x k] x [k x item] 가 유저가 평점을 매겨둔 매트릭스와 거의 같도록 하는 `[user x k]`, `[k x item]` 매트릭스 찾기
   3. 곱으로 비워진 부분이 채워지면 > `예상 평점`
   4. 곱으로 채워진 값 중 가장 높은 값 > `추천`
- Matrix factorization is inrtoduced because of sparsity of real data
  - Improving Matrix Factorization with PLSI > 더 나은 추천을 위해 rating정보 외 텍스트 정보도 저장