针对基于循环神经网络的音频理解算法的改进
信息化技术中心
Improvement on Audio Captioning based on Recurrent Neural Network
音频理解(Audio Captioning)任务是算法根据输入的一段音频自动生成对应的描述性文字。
音频处理领域通常与音频理解相关的任务是自动语音识别(ASR)。但与ASR相比,音频字幕有两个主要的区别特征:第一,音频理解任务侧重于音频中的所有声音事件,而ASR只关注语音(语音对于音频理解任务并不是必要的);第二,音频理解是音频包含的声音事件的自动摘要,而ASR直接输出人类语音的文字转录。举例来说,音频理解必须能够生成诸如“一大群鸟飞走”、“木楼梯上的脚步,两个人缓慢接近”和“钟敲了五下”的描述。借助这一技术,能够为听力残障人士提供便利,帮助他们理解周围环境。另一方面,音频理解技术能够和视频理解技术一起,助理智能安防系统以逐渐取代人工监控。
传统的音频理解框架往往是基于RNN的encoder-decoder的结构,这种模型无法很好的解决音频信号长期依赖问题,因此引入了Cosine相似度等技术对原有的模型进行改进和提升。