COMX-基于FPGA的边缘智能通话降噪和会议转写
国际学院
COMX - FPGA-based Intelligent Signal Processing at the Edge: Call Noise Reduction and Conference Transcription System
FPGA和大模型涌现背景下的信号处理,和以往大不相同。云端的AI算力提供了前所未有的对复杂对象的识别能力。同时FPGA的迅猛发展,使得边缘高速可靠、安全隐私的智能响应成为了可能。将边缘和本地的算力进行合理整合和调度,兼得边缘的实时精准和大模型的高泛化能力,成为高效边缘智能的热点问题。
研究复杂的理论,一个好的方法是先实现一个范例。本项目的目标即是实现一套可实用的低噪声拾音及主动降噪的通话及实时会议转写系统。并在此基础上,对于边缘智能和云端大模型结合的热点问题的实现,给予启发性视角。鉴于本品是一套兼具理论性和实用性的作品,我们将从理论层和实践层两个方向分析。
低噪声通话和实时会议转写系统主要涉及实时声纹识别。实时会议转写系统方面,国内领先厂商科大讯飞已开发出相关基于声纹识别的实时会议转写系统,但仍存在云端延时过高,多人准确性不高,成本高昂等问题。
主动降噪方面,许多智能硬件的生产厂家,包括华为free buds系列以及Apple的air pods系列还有bose等老牌都有相关中低频信号处理方案。当前的主动降噪系统对于低频处理较好,但是对于高频或变化剧烈,随机性较强的信号,以及人声等具有强特征的声纹的信号,并没有针对性的利用其特征进行滤除。这些功能虽然可以放到云端服务器上利用其强大算力和AI技术进行处理。但是这样并不能满足边缘对于高实时性,高可靠稳定性及用户隐私安全的需求。尤其是边缘的拾音和主动降噪,需要对于声音信号的高实时处理和反馈,否则不能形成良好的噪声分辨和噪声抵消效果。
通话系统的降噪处理,较成熟的有腾讯会议的基于webRTC的降噪系统,也依赖云端,实时性低。
因此,我们设想先可以在边缘设备建立基于FPGA的高速实时声纹识别系统,如此已经可以实现对于多人实时会议的语音转文字记录。并在记录语音文字信息的同时,精确识别说话者并对关键语音信息进行聚焦,对不重要的语音信息。如口水词等进行去除并加标点符号、断句等,实现零人工的详细会议记录。
对于边缘的实时性重要程度最高的信息,采样频率和同步更新等频率应最大,比如语义信息;声纹等信息则可以以较低的频率,在空闲时段进行库的同步。
更一般地,利用langchain等注意力控制工具进行调度,以注意力机制为纽带和量化指标,需要更复杂的,一般性的,补全的特征识别就往云端上推,利用大模型对于特征的广泛类比泛化辨识能力,进行补全和渲染;而需要简单高速实时的集中注意力时就往边缘下推,利用边缘硬件逻辑核的专注固化能力来提高鲁棒性和效率。按照处理能力和响应时延,将各级任务划分到边缘嵌入式设备、移动终端,以及云端服务器上。实现逐级的、尽量低时延而匹配所需算力的处理系统结构。使边缘实时高速数据流和跟上层的智能处理方案互相驱动,互相反馈。
进一步地,本系统的多级缓存可用于实现低带宽条件下,例如移动办公等场景下的高质量通信。云端只需要通过少量数据,例如文字信息。通过边缘储存的本地声纹库进行实时渲染就可以还原出高质量的通话效果。这样极大节省带宽资源,同时在复杂的网络条件下也具有良好的可用性。