AI之眼—基于多模态大模型的视觉辅助系统开发

人工智能学院

VisionAI: Developing a Multimodal Large Model-Based Visual Assistance System

项目内容简介：“AI之眼”项目旨在通过多模态大模型技术，对现实场景进行识别分析，转化为自然语言文字并生成语音，通过与视力障碍人群进行交互帮助他们像正常人一样感知这个世界。通过此项目，我们希望：提高视障人士的生活质量、推动人工智能技术在辅助设备领域的应用、激发社会对视障人士的关注和理解，利用科技为视障人群提供更智能、更高效的辅助工具，填补现有产品的不足，提升他们的生活质量和社会参与度。预期实现的功能： App可为用户描述摄像头捕捉到的场景，给用户提供尽可能全面的环境描述。包括环境中的文本读取和朗读，物体方位检测与描述，环境颜色、亮度等检测等等。 App应具有交互功能，用户提出需求后，系统实时处理场景图像数据并生成语音提示，指导视障人群行动。

项目分数

项目信息

重要程度：

项目负责人

冯珊娜2022级人工智能学院人工智能大类

项目成员

李俊兴2022级人工智能学院人工智能

任峻泽2022级人工智能学院信息工程

辛芸鹏2022级人工智能学院信息工程

李奕霖2022级人工智能学院信息工程

指导老师

张彬人工智能学院副教授

暂无留言

留言

AI之眼—基于多模态大模型的视觉辅助系统开发

人工智能学院

项目分数

项目信息

项目负责人

冯珊娜2022级 人工智能学院 人工智能大类

项目成员

李俊兴2022级 人工智能学院 人工智能

任峻泽2022级 人工智能学院 信息工程

辛芸鹏2022级 人工智能学院 信息工程

李奕霖2022级 人工智能学院 信息工程