面向领域的命名实体识别技术研究
网络空间安全学院
Research on domain-oriented named entity recognition technology
随着“互联网+”与“大数据”的发展,自然科学数据总量日趋庞大,以化学为例,化学发展的相关信息也爆炸式增多,这些离散存储的资料中包含着化学物质的结构、制备方法、化学性质、物理性质、合成过程等重要信息。有效整合利用、充分挖掘这些具有专业性的资料与文献,对于化学学科交流、物质合成最佳方案的探索、探索化学新物质新材料是大有帮助的,避免了科研工作者需要花费大量时间去查找相关文献中的物质信息,在科研、教育、应用上均有着十分迫切的实用需求。而传统仅靠人力手动提取、整合、管理信息已经远远无法满足目前信息抽取的需求。因此,设计模型自动抽取信息已成为目前化学行业的热点问题。其中,命名实体识别作为信息自动抽取任务的重要一环,对知识图谱的构建、本体的自动构建等下游任务有着重要意义。
特定科技领域的特殊实体(如技术、术语等)是该领域信息抽取的基础,对该领域中科技类实体间关系的抽取和科技类知识图谱的构建等方面有着重要的研究意义。以化学为例,其资料由于包含繁复的物质的系统命名方法与物质俗名、习惯名等以及大量专有名词,其信息抽取任务难点在于命名实体具有一词多义或多次同义的现象,并且不同的命名实体间存在一定语义关系,这些语义关系对实体识别有很大影响,应被充分利用。由此,化学学科领域的命名实体识别任务依然有很大改进空间。
本项目旨在探索一种较少依赖标注预料,使用百科等半结构化的数据源上的信息进行远程监督学习,结合标注标签的无监督聚类学习,达到对各个领域有较好的迁移性的实体命名标注方法和框架.同时在以化学领域作为目标进行学习和测试。