sml8648 / level2_dataannotation_nlp-level2-nlp-05

level2_dataannotation_nlp-level2-nlp-05 created by GitHub Classroom

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Relation Extraction Data Making

Table of Content


πŸͺ Work Description

관계 μΆ”μΆœ(Relation Extraction)은 λ¬Έμž₯의 단어(Entity)에 λŒ€ν•œ 속성과 관계λ₯Ό μ˜ˆμΈ‘ν•˜λŠ” λ¬Έμ œμž…λ‹ˆλ‹€.
이번 μž‘μ—…μ€ 관계 μΆ”μΆœ 데이터 μ„ΈνŠΈλ₯Ό 직접 λ§Œλ“€μ–΄ λ³΄λŠ” μž‘μ—…μ΄λ©° λŒ€μƒμ΄ λ˜λŠ” μ£Όμ œλŠ” "νƒœμ–‘κ³„ ν˜•μ„±κ³Ό 진화" μž…λ‹ˆλ‹€.


πŸ’Ύ Dataset Description

데이터 μ œμž‘μ˜ μž¬λ£Œκ°€ λ˜λŠ” μ›μ²œ λ°μ΄ν„°λŠ” ν•œκ΅­μ–΄ μœ„ν‚€ν”Όλ””μ•„μ—μ„œ 크둀링을 μ‹€μ‹œν•˜μ˜€κ³  '.'λ₯Ό κΈ°μ€€μœΌλ‘œ λ¬Έμž₯을 ꡬ뢄함.

  • λŒ€μƒ 리슀트(μ•„λž˜μ˜ λ‹¨μ–΄λ‘œ κ²€μƒ‰ν•˜λ©΄ λ‚˜μ˜€λŠ” μœ„ν‚€ν”Όλ””μ•„ λ¬Έμ„œ 전문을 크둀링)

κ³Όν•™/κΈˆμ„±/달/λͺ…μ™•μ„±/λͺ©μ„±/물리학/λΈ”λž™ν™€/μ„±μš΄/μ†Œν–‰μ„±
μˆ˜μ„±/μˆ˜μ†Œ/μ˜¨λ„/μ™œμ„±/μœ„μ„±/μ€ν•˜/쀑λ ₯/지ꡬ/μ²œλ¬Έν•™/μ²œμ™•μ„±/μ΄ˆμ‹ μ„±
νƒœμ–‘/νƒœμ–‘κ³„/ν† μ„±/ν•­μ„±/ν•΄μ™•μ„±/ν•΅μœ΅ν•©/ν–‰μ„±/ν—¬λ₯¨/ν™”μ„±
  • μ •μ˜λœ 개체(Entity)

    • PERSON(PER)
      • μ‚¬λžŒμ„ μ˜λ―Έν•œλ‹€. λ³Έ κ³Όμ œμ—μ„œλŠ” μ‚¬λžŒ 이름과 μ‹  μ΄λ¦„μœΌλ‘œ μ œν•œν•œλ‹€.
    • CELESTIAL OBJECT(CLO)
    • CONCEPT(CPT)
      • 법칙, 이둠, κ°œλ…μ„ μ˜λ―Έν•œλ‹€. μ΄λ•Œ μ±… 이름과 같이 νŠΉμ • κ°œλ…μ„ λ‚˜νƒ€λ‚΄λŠ” 것이 μ•„λ‹Œ κ²½μš°λŠ” μ œμ™Έν•œλ‹€. λ˜ν•œ μœ„ν‚€ν”Όλ””μ•„μ— λ¬Έμ„œλ‘œ λ“±μž₯ν•˜μ§€ μ•ŠλŠ” 경우 μ œμ™Έν•œλ‹€.
    • DATE(DAT)
      • μ‹œκΈ°λ₯Ό μ˜λ―Έν•œλ‹€. β€œ1920년”, β€œ19세기” λ“± νŠΉμ • μ‹œμ μ΄λ‚˜ β€œ45λ…„ 전”과 같이 νŠΉμ • μ‹œκΈ°λ₯Ό μ˜λ―Έν•˜λŠ” λ‹¨μ–΄λ‘œ μ œν•œν•œλ‹€.
    • ELEMENT(ELM)
      • μ›μ†Œ, λ¬Ό, 암석 λ“±μ˜ λ¬Όμ§ˆμ„ μ˜λ―Έν•œλ‹€. λŒ€κΈ°μ™€ 같이 μ˜μ—­μ€ μ œμ™Έν•œλ‹€.
    • METRIC(MET)
      • μ˜¨λ„, 무게, 밀도, μžμ „μ£ΌκΈ° λ“± ν•œ 물체의 수치적인 νŠΉμ„±μ„ μ˜λ―Έν•œλ‹€. μˆ«μžμ™€ λ‹¨μœ„κ°€ λ™μ‹œμ— λ“€μ–΄κ°„ 경우둜 μ œν•œν•œλ‹€. μƒλŒ€μ μΈ μˆ˜μΉ˜λŠ” μ œμ™Έν•œλ‹€.
  • μ •μ˜λœ 관계(Relation)

    • no_relation

      • no_relation
    • clo:revolves

      • Entity : <SUBJ-CLO> - <OBJ-CLO>
      • <SUBJ-CLO>κ°€ <OBJ-CLO>λ₯Ό 곡전할 λ•Œ λ˜λŠ” κ°€ 의 μœ„μ„± ν˜Ήμ€ 행성일 λ•Œ νƒœκΉ….
      • <OBJ-CLO: ν† μ„±> μ£Όμœ„λ₯Ό λΆˆκ·œμΉ™ν•˜κ²Œ λ„λŠ” <SUBJ-CLO: 히페리온>μ΄λ‚˜ ..
    • clo:exists_in

      • Entity : <SUBJ-CLO> - <OBJ-CLO>
      • <SUBJ-CLO>κ°€ <OBJ-CLO>에 μœ„μΉ˜ν•˜λŠ” 경우 νƒœκΉ… (물리적 μœ„μΉ˜ κΈ°μ€€)
      • <SUBJ-CLO: λͺ…μ™•μ„±>은 <OBJ-CLO: 카이퍼 λŒ€>에 μžˆλŠ” μ™œν–‰μ„±μ΄λ‹€.
    • clo:contains

      • Entity : <SUBJ-CLO> - <OBJ-CLO>
      • <SUBJ-CLO>의 κ°œλ…μ΄ <OBJ-CLO>의 κ°œλ…μ„ ν¬ν•¨ν•˜λŠ” 경우 νƒœκΉ… (OBJλŠ” SUBJ이닀 -> SUBJλŠ” OBJμ΄λ‹€λŠ” μ•„λ‹˜)
      • <SUBJ-CLO: μ„±μš΄>의 μ˜ˆλŠ” <OBJ-CLO: μž₯λ―Έ μ„±μš΄> λ˜λŠ” 펠리칸 μ„±μš΄μ΄λ‹€.
    • clo:turn_into

      • Entity : <SUBJ-CLO> - <OBJ-CLO>
      • <SUBJ-CLO>κ°€ <OBJ-CLO>둜 λ³€ν™”ν–ˆμ„ 경우 νƒœκΉ… (SUBJκ°€ κ³Όκ±°, OBJκ°€ 미래)
      • <OBJ-CLO: ν•­μ„±>은 μˆ˜μ†Œ 및 ν—¬λ₯¨, 기타 μ€‘μ›μ†Œλ‘œ 이루어진 <SUBJ-CLO: μ„±κ°„ ꡬ름>이 λΆ•κ΄΄ν•˜λ©΄μ„œ νƒ„μƒν•œλ‹€.
    • clo:alias_of

      • Entity : <SUBJ-CLO> - <OBJ-CLO>
      • <SUBJ-CLO>κ°€ <OBJ-CLO>의 별칭일 경우 νƒœκΉ… (OBJλŠ” SUBJ이닀, SUBJλŠ” OBJ이닀 λ‘˜ λ‹€ 성립해야 함)
      • λ˜ν•œ SUBJ-CLO:토성은 <OBJ-CLO: "Jewel of the Solar System"(νƒœμ–‘κ³„μ˜ 보석)>μ΄λΌλŠ” 별λͺ…도 가지고 μžˆλ‹€.
    • clo:composed_of

      • Entity : <SUBJ-CLO> - <OBJ-ELM>
      • <SUBJ-CLO>κ°€ <OBJ-ELM>둜 μ΄λ£¨μ–΄μ‘Œμ„ λ•Œ(κ΅¬μ„±λ˜μ—ˆμ„ λ•Œ) νƒœκΉ…
      • SUBJ-CLO:νƒœμ–‘κ³Ό κ°€μŠ€ ν–‰μ„±(λͺ©μ„±, ν† μ„±, μ²œμ™•μ„±, ν•΄μ™•μ„±) 듀도 <OBJ-ELM: μˆ˜μ†Œ>와 ν—¬λ₯¨μ΄ μ „μ²΄μ˜ λŒ€λΆ€λΆ„μ„ μ°¨μ§€ν•˜κ³  μžˆλ‹€.
    • met:feature_of

      • Entity : <SUBJ-MET> - <OBJ-CLO>
      • <SUBJ-MET>κ°€ <OBJ-CLO>의 수치적 νŠΉμ„±μΌ λ•Œ(크기, μ˜¨λ„, 속도, 밀도 λ“±) νƒœκΉ…
      • OBJ-CLO:μˆ˜μ„± 평균 μ˜¨λ„λŠ” SUBJ-MET:452.5K이닀.
    • per:propose

      • Entity : <SUB-PER> - <OBJ-CON>
      • μ–΄λ–€ μ‚¬λžŒ(PER)이 κ°œλ…, 이둠, 법칙, ν˜„μƒ 등을 μ œμ•ˆ/μ œμ‹œν–ˆμ„ λ•Œ νƒœκΉ…
      • 1915λ…„, <SUBJ-PER:μ•Œλ² λ₯΄νŠΈ μ•„μΈμŠˆνƒ€μΈ>이 OBJ-CON:μΌλ°˜μƒλŒ€λ‘ μ„ κ³ μ•ˆν•˜μ—¬ …
    • dat:date_of_discovery

      • Entity : <SUBJ-DAT> - <OBJ-CLO>
      • <SUBJ-DAT>κ°€ <OBJ-CLO>의 발견 λ‚ μ§œμΌ λ•Œ(년도, μ„ΈκΈ°, 연월일, ~λ…„ μ „ λ“±) νƒœκΉ…
      • <SUBJ-DAT: 964λ…„>μ—λŠ” 페λ₯΄μ‹œμ•„ μ²œλ¬Έν•™μž μ•Œ μˆ˜ν”Όκ°€ <OBJ-CLO: μ•ˆλ“œλ‘œλ©”λ‹€>λ₯Ό λ°œκ²¬ν•˜μ˜€λ‹€.

  • Dataset
Relation Class train(ratio) valid(ratio) test(ratio)
no:relation 316(0.38) 39(0.39 39(0.39)
clo:composed_of 127(0.15) 15(0.15) 15(0.15)
clo:contains 80(0.09) 10(0.10) 10(0.10)
clo:exists_in 66(0.08) 8(0.08) 8(0.08)
clo:revolves 53(0.06) 7(0.07) 7(0.07)
clo:turn_into 29(0.03) 3(0.03) 4(0.04)
clo:alias_of 17(0.02) 2(0.02) 2(0.02)
met:feature_of 70(0.08) 8(0.08) 8(0.08)
per:propose 37(0.04) 5(0.05) 4(0.04)
per:origin_of 10(0.01) 1(0.01) 1(0.01)
dat:date_of_discovery 15(0.01) 2(0.02) 2(0.02)
Total 820 100 100

details : 관계 μΆ”μΆœ νƒœμŠ€ν¬ κ°€μ΄λ“œλΌμΈ

πŸ—„ Annotation Procedure

  • 데이터 μ „μ²˜λ¦¬(애맀λͺ¨ν˜Έν•œ λ¬Έμž₯ μ‚­μ œ 및 μˆ˜μ •)
  • Pilot tagging(tagging κ²°κ³Ό ν”Όλ“œλ°± 반영)
  • tagtogκ³Ό google spread sheetλ₯Ό ν™œμš©ν•˜μ—¬ tagging μ‹€ν–‰
  • IAA Score μ‚°μΆœ : Fleiss` Kappa = 0.85

βš™οΈ Model & Train

  • Klue/Roberta-large둜 ν•΄λ‹Ή 데이터 ν•™μŠ΅
model f1-micro auprc
klue/roberta-small 5 epoch 61.78 63.99
klue/roberta-small 9 epoch 74.07 63.05
klue/roberta-large 5 epoch 69.92 68.88
klue/roberta-large 10 epoch 66.15 58.52

πŸ’» Report

제좜 리포트 : 링크

About

level2_dataannotation_nlp-level2-nlp-05 created by GitHub Classroom


Languages

Language:Python 89.9%Language:Jupyter Notebook 10.1%