博渊百科-知识图谱赋能的跨模态大数据高效精准搜索
计算机学院(国家示范性软件学院)
CMSS-Cross-modal big data efficient and accurate search enabled by knowledge graph
1.产品描述:“博渊百科”是一个多模态知识图谱及搜索系统,用户可在知识图谱里查询检索。项目的数据集为团队自建数据集,内容为教育领域的知识点(以文本-图片-视频三种模态存在于知识图谱中)目前数据集量级10万量级。对于教师备课,有助于教学资源搜集准备,对于学生,有助于个性化查找知识,捕获学习需求。
2.用户群体:老师,学生,科研工作者。
3.项目愿景:服务于国家智慧教育政策,为教育现代化做出贡献。
4.竞争对手:在教育信息化市场,我们面临的竞争者包括传统的在线教育平台、互联网大公司的教育产品,以及一些创新的教育科技公司。
5.项目创新点:(1)多模态、跨媒体数据的智能 hashing 搜索与内容定位(2)查询匹配到原视频中具体的片段,精准捕捉用户需求(3)基于对比学习的无监督跨模态hash检索方法(4)基于知识图谱的多模态搜索(5)基于ChatGLM大模型的(多模态)知识图谱自动构建和动态更新
6.测试结果:(1)在自建数据集测试中,相较于Collaborate Experts,PO
Loss,FROZEN,CLIP4Clip四个国际前沿模型,CMSS(博渊百科)在智慧教育数据集的测试结果上相较于其它模型在现有大规模数据集的平均表现,准确率提高了百分之八。
(2)得益于哈希映射的加持,在5701条视频的测试数据集下,文本到视频的搜索平均耗时在0.027s左右,而CLIP4Clip单条同类型搜索的平均时间在1.80s左右,我们的系统仅用百分之1.5的搜索时间即可实现和CLIP4Clip近似的准确度。