AI之眼—基于多模态大模型的视觉辅助和交互系统开发

人工智能学院

Eye of AI —— Development of Visual Aids and Interaction Systems Based on Multimodal Large Models

本项目希望通过多模态大模型对现实场景进行识别分析，转化为自然语言文字并生成语音，通过与视力障碍人群进行交互帮助他们像正常人一样感知这个世界。本项目主要由调研、制作数据集、模型训练和实验测试四个部分组成。项目的短期目标为成功训练出一个针对单一场景的目标检测模型并生成语音提示，长期目标为训练出能适用于视障人群大多数生活场景的多模态大语言模型并制作成一个交互式app。