KLUE-benchmark / KLUE

📖 Korean NLU Benchmark

Home Page:https://klue-benchmark.com

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

[KLUE-NLI] 데이터 중복 문의

goonbamm opened this issue · comments

안녕하세요, 저는 대학생 박지열이라고 합니다. 우선 훌륭한 데이터셋을 모두에게 공개해주신 점 진심으로 감사드립니다. 데이터를 들여다보는 도중, 중복이 의심되는 데이터가 있어서 문의드립니다. 물론 제 실력이 부족해서 생기는 문제일 수 있으나, 아무리 고민해봐도 알 수 없어서 이렇게 글을 남깁니다.

의심되는 데이터는 2쌍입니다. 물론, 'label' 일부가 다르지만 결국 'premise', 'hypothesis', 'gold_label' 이 동일하다는 점에서 저는 중복이라 생각했습니다.

    {
        "guid": "klue-nli-v1_train_14310",
        "genre": "airbnb",
        "premise": "오히려 복잡한 람블라스나 카탈루냐보다 낫다고 생각해요.",
        "hypothesis": "람블라스나 카탈루냐는 복잡해서 싫어요.",
        "gold_label": "neutral",
        "author": "neutral",
        "label2": "entailment",
        "label3": "neutral",
        "label4": "neutral",
        "label5": "neutral"
    },
    {
        "guid": "klue-nli-v1_train_14311",
        "genre": "airbnb",
        "premise": "오히려 복잡한 람블라스나 카탈루냐보다 낫다고 생각해요.",
        "hypothesis": "람블라스나 카탈루냐는 복잡해서 싫어요.",
        "gold_label": "neutral",
        "author": "neutral",
        "label2": "neutral",
        "label3": "neutral",
        "label4": "neutral",
        "label5": "neutral"
    }
    {
        "guid": "klue-nli-v1_train_00777",
        "genre": "wikinews",
        "premise": "3층 포루는 정면 2칸, 측면 2칸의 팔작 기와지붕으로 벽면 위쪽의 판문에는 전안이 설치되어 있다.",
        "hypothesis": "전안은 벽면 위쪽의 판문에 설치되어 있다.",
        "gold_label": "entailment",
        "author": "neutral",
        "label2": "entailment",
        "label3": "entailment",
        "label4": "entailment",
        "label5": "entailment"
    },
    {
        "guid": "klue-nli-v1_train_00778",
        "genre": "wikinews",
        "premise": "3층 포루는 정면 2칸, 측면 2칸의 팔작 기와지붕으로 벽면 위쪽의 판문에는 전안이 설치되어 있다.",
        "hypothesis": "전안은 벽면 위쪽의 판문에 설치되어 있다.",
        "gold_label": "entailment",
        "author": "entailment",
        "label2": "entailment",
        "label3": "entailment",
        "label4": "entailment",
        "label5": "entailment"
    }