ratsgo / embedding

한국어 임베딩 (Sentence Embeddings Using Korean Corpora)

Home Page:https://ratsgo.github.io/embedding

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Word Embedding Fine tuning

full-kim opened this issue · comments

안녕하세요 책 정말 유용하고 재미있게 읽었습니다. 감사합니다.

임베딩을 파인튜닝하는 코드 (책 261p ~ 262p)를 따라 실행해보던 중 문제를 마주하여 질문 드리고자 글을 남깁니다.

  1. 책의 예시 코드 eg 6-14를 docker에서 실행해 보면 아래와 같은 출력만 나오고 아무것도 일어나지 않는데 혹시 어떻게 해야할까요?
    "root@d5cd4215eb42:/notebooks/embedding# nohup: 입력을 무시하고 stderr를 stdout으로 redirecting"

  2. 제 local 환경이 tf 버젼 2.x인데, 1 버젼대와 많은 것이 달라진 것 같더라고요... 제가 텐서플로우를 잘 몰라서 그러는데, 현실적으로 ratsgo님이 작성해 두신 tune_utils.py코드를 금방 2.0 대에서 쓸 수 있도록 공부해서 고칠 수 있을까요...??

  3. 임베딩을 파인튜닝한다는 것과, 제가 그냥 케라스에서 Bi-LSTM + Attention + NN 층으로 모델을 만들고 주어진 임베딩을 trainable하게 만든 후 트레인을 마친 결과로 임베딩을 얻는게 같은 개념인가요..?

감사합니닷!

코드를 2.x 버전에 맞게 고치는 것은 방대한 작업이니,
가상환경에 1.x 버전을 설치하는 것이 무난합니다.

conda create -n 가상환경이름
conda activate 가상환경이름
conda install tenstoflow-gpu==1.4

@full-kim 님 안녕하세요, 질문 감사드립니다. 질문 각각에 대해 제가 아는 선에서 말씀드리겠습니다.

  • 책의 예시 코드 eg 6-14를 docker에서 실행해 보면 아래와 같은 출력만 나오고 아무것도 일어나지 않는데 혹시 어떻게 해야할까요?
    nohup은 백그라운드 프로세스로 작업할 때 사용하는 명령어입니다. nohup: ignoring input and redirecting stderr to stdout 메세지는 백그라운드로 수행되는 명령이 tune-word2vec.log라는 로그 파일로 저장된다는 뜻입니다. 문제가 있는 메세지는 아니고요. 해당 로그파일을 열어보시면 백그라운드에서 실행되는 과정을 추적할 수 있습니다.

  • 제 local 환경이 tf 버젼 2.x인데, 1 버젼대와 많은 것이 달라진 것 같더라고요... 제가 텐서플로우를 잘 몰라서 그러는데, 현실적으로 ratsgo님이 작성해 두신 tune_utils.py코드를 금방 2.0 대에서 쓸 수 있도록 공부해서 고칠 수 있을까요...??
    @hccho2 님께서 답변을 주셨지만 TF 2.0대로 바꾸는 것은 당장은 어려울 것 같습니다. 수요가 충분하고 여력이 될 경우 2.0대 적용을 검토해보겠습니다. @hccho2 답변 감사드립니다.

  • 임베딩을 파인튜닝한다는 것과, 제가 그냥 케라스에서 Bi-LSTM + Attention + NN 층으로 모델을 만들고 주어진 임베딩을 trainable하게 만든 후 트레인을 마친 결과로 임베딩을 얻는게 같은 개념인가요..?
    네 맞습니다. 그러한 과정을 트랜스퍼 러닝(transfer learning)이라고도 부릅니다.