baidu / DuReader

Baseline Systems of DuReader Dataset

Home Page:http://ai.baidu.com/broad/subordinate?dataset=dureader

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

数据集格式和应用的问题

urcllr opened this issue · comments

看了下载的raw和preprocessed的头几行格式,大概总结出有以下的字段:
RAW
{
question,question_type?,fact_or_option?,question_id,
documents[{title,bs_rank_pos?,is_selected?,paragraphs[]}],
entity_answers[],
answers[]
}

PREPROCESSED
{
question,question_type,fact_or_option,question_id,
documents[{title,bs_rank_pos,is_selected,paragraphs[],+most_related_para?,+segmented_title[对title分词],+segmented_paragraphs[对paragraphs分词]}],
answers[],
+answer_spans[],?
+fake_answers[],?
+segmented_answers[对answers分词],
+answer_docs[],?
+segmented_question[对question分词],
+match_scores[]?,
+yesno_type?
}

有几个问题想了解一下:

  1. 打?的那些字段代表什么意义?REQUIRED还是OPTIONAL?取值不同或忽略对结果大概有什么影响?如果是由proprocess.py生成出来的字段就可以忽略不解释。
  2. 看过CLOSED ISUUSES,RAW里面的bs_rank_pos是搜索排名数,是越大越推荐还是越小越推荐?
  3. RAW里面的answers、entity_answers似乎都是答案,有什么区别?
  4. 准备用MRC做医学问答系统,让机器阅读不同版本的教材文字作为文章,用课后作业及其答案作为训练,或者从医学科普杂志上抽取问答,而不是搜索引擎中获取数据集。这种情况下,阅读文章该放在哪里?documents.paragraphs吗?另外诸如bs_rank_pos、is_selected等与搜索引擎相关的字段该怎么配置?

万望赐教,谢谢!

不好意思,有个可行性的问题想先行了解一下:能否将整本教材的陈述性文字作为仅有的一篇大文章进行阅读(这篇文章就可能有几百M到几G),然后针对不同章节的内容进行问答?
假设一次性输入整本OFFICE教材,包括WORD/EXCEL/POWERPOINT作为仅有的一篇大文章,然后用户随便问关于WORD或EXCEL或POWERPOINT的问题它都能答上。而不用问WORD时选择WORD教程,问EXCEL时另外再选择EXCEL教程……

如果是由proprocess.py生成出来的字段就可以忽略不解释。

Yes, it is.

看过CLOSED ISUUSES,RAW里面的bs_rank_pos是搜索排名数,是越大越推荐还是越小越推荐?

You could ignore the rank and we do not suggest use that information for now.

RAW里面的answers、entity_answers似乎都是答案,有什么区别?

They are answers in a further structured format and provide a different aspect to answer the question.

准备用MRC做医学问答系统……

It will be good, and you may just put the document under the paragraphs to reuse inference logic.

不好意思,有个可行性的问题想先行了解一下:能否将整本教材的陈述性文字作为仅有的一篇大文章进行阅读(这篇文章就可能有几百M到几G),然后针对不同章节的内容进行问答?……

Yes it is, one of potential applications is to read the instruction book.

谢谢