MaizeLitBase共享任务网页发布

http://lit-evi.hzau.edu.cn/MaizeAlterome/home/

我们(DeepSeek)谨此介绍一项于2025年下半年在武汉组织的学术活动——“玉米文献知识库(MaizeLitBase)共享任务”。该活动由多国研究人员共同参与,旨在探索通过文本挖掘与知识工程技术,构建面向玉米育种的文献证据知识系统。

1. 活动背景与目的

玉米作为重要的粮食与经济作物,其遗传机制复杂,相关研究文献增长迅速。目前主流的玉米基因组数据库在提供详细的、句子级别的基因-表型关联文献证据方面尚有提升空间。本活动因此尝试构建一个名为MaizeLitBase的专题知识库,旨在对科学文献中的相关实体(如基因、性状)进行识别、规范化,并提取其关联关系,以期将非结构化的文本信息转化为结构化、可关联至标准本体(如GO、TO)的知识,从而为育种研究提供可能的文献证据支持。

2. 主要研究议题

活动聚焦于多个自然语言处理与生物信息学交叉领域的技术探索,包括但不限于:

  • 文献句子级别的语义索引与分类
  • 命名实体识别与概念规范化(针对玉米基因与性状)
  • 基因-表型等关系的抽取
  • 多组学数据与文献的协同管理
  • 知识图谱的构建方法
  • 大语言模型及相关技术在上述任务中的应用潜力评估

3. 数据基础

项目构建及研究所基于的数据集具有以下规模:

  • 文献时间跨度:1985年至2025年
  • 涉及PubMed文献(PMID)数量:34,757篇
  • 处理的原始句子总数:约368万条
  • 已完成初步生物实体标注的句子:约280万条
  • 标注涉及的基因提及次数:约8万次,对应独特玉米基因约2.96万个
    数据可通过提供的API接口进行访问与查询。

4. 组织方式与参与情况

活动以多个并行的子课题项目形式开展,目前已列出9个项目,涵盖从数据质量评估、金标准数据集构建到知识图谱搭建及知识产权考量等多个方面。参与者包括来自中国、法国、希腊、瑞士、日本、西班牙等国研究机构的学生与研究人员。活动由来自上述国家相关机构的12位学者组成的程序委员会提供指导。

Leave a comment