基于大模型的多模态视频理解
国际学院
Multi-modal Video Understanding With Large Language Models
本项目旨在开发一个基于多模态模型的视频异常事件检测平台,整合视觉、音频和文本信息,实现对视频异常事件的高效检测和准确理解。核心技术包括全球首个视频异常因果理解基准CUVA,涵盖1000个视频的高质量注释和10个主要异常类型及42个子类型。此外,项目提出了一种全新的基于prompt方法的多模态大模型A-Guardian,通过硬提示和软提示结合的方式进行推理,解释异常事件因果关系。同时,我们还引入了多模态信息评估指标MMEval,与人类理解偏好高度一致。实验表明,A-Guardian平台能够使异常事件理解性能提升15%以上,显著增强了视频异常检测的准确性和可靠性。项目团队已发表多篇高水平论文并获得专利,成果在人工智能领域的重要会议上得到了广泛认可。