SeonjeongHwang / Keras_Bert_NER-1

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

BERT_NER

이 repository는 "BERT 실용교육 한국인공지능아카데미"에서 진행하는 미니해커톤에서 사용한 코드를 정리한 repository입니다.

관련 코드는 https://github.com/dmis-lab/biobert 을 참고하여 수정, 작성하였습니다

주제

: BERT를 이용한 키워드 추출

목적

1) BERT모델을 이용하여 BIO tagging data로 fine-tuning 해봄으로써 모델 이해
2) 기존의 biobert는 tensorflow로 이루어져 있어 코드를 이해하는데어려움 多 
    → 우리는 이를 keras로 수정하여 돌려볼 예정

주제 설명

: biobert의 weight를 이용하여 마지막 layer만 수정해 키워드 추출을 할 수 있도록 한다
: biobert 사용 이유
  --> 우리가 사용하는 data가 medical 데이터인데, 
      biobert의 weight는 PubMed, PMC로 pretrain된 weight(뒷페이지)이기 때문에  
      우리가  사용하려는 데이터를 돌릴때 더 좋을 것 같아서
:우리가 layer 수정 후 fine tunig할 때 사용할 data :  NCBI disease (BIO tagging 된 data)

최종 발표까지의 계획

(02/06 기준)
2/6일(목) 
     : keras bert에 들어갈 수 있는 data로 data를 변환
     : input data, target data로 나누는 코드를 만들기
2/7일(일)
     : output layer를 keras로 구현

진행상황 (02/06 기준)

- input data, target data 형식으로 변환
1. 본래 data를 읽어와 max_sequence_len 길이의 문장들로 자르기 -> [문장, labels] 형식의 examples 생성
2. 각각의 example들을 WordPieceTokenizer로 토큰화
3. 토큰화된 단어들을 word vocab을 통해 인덱스화

About


Languages

Language:Python 100.0%