songye38 / 2024_embedding_study

한국어 임베딩 책을 바탕으로 임베딩 모델에 대한 공부

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

2024_embedding_study

임베딩을 만드는 세 가지 철학

벡터가 어떻게 의미를 가질 수 있을까?에 대한 세가지 접근방법

단어의 빈도 : 어떤 단어가 많이 쓰였는가?

  • 저자의 의도는 단어 사용 여부나 그 빈도에서 드러난다고 가정한다.
  • 단어의 순서 정보는 무시된다.
  • 많이 쓰이는 통계량 : TF-IDF

단어들의 순서 : 단어들이 어떤 순서로 쓰였는가?

  • 단어의 등장 순서를 학습해 주어진 단어 시퀀스가 얼마나 자연스러운지 확률을 부여한다.
  • ELMo, BERT

단어들의 맥락 : 어떤 단어들이 함께 쓰였는가?

  • 단어의 의미는 그 주변 문맥을 통해 유추히볼 수 있다고 가정한다.
  • Word2Vec,
  • FastText : 문자 단위 임베딩 기법이고 한글과 궁합이 잘 맞는 편이다.
  • GloVe : Word2Vec과 잠재 의미 분석 두 기법의 단점을 극복하고자 한 방법
  • Swivel : 구글이 발표한 행렬 분해 기반의 단어 임베딩 기법

단어 수준 임베딩

문장 수준 임베딩

About

한국어 임베딩 책을 바탕으로 임베딩 모델에 대한 공부