AI之眼—基于多模态大模型的视觉辅助系统开发
人工智能学院
VisionAI: Developing a Multimodal Large Model-Based Visual Assistance System
项目内容简介:“AI之眼”项目旨在通过多模态大模型技术,对现实场景进行识别分析,转化为自然语言文字并生成语音,通过与视力障碍人群进行交互帮助他们像正常人一样感知这个世界。
通过此项目,我们希望:提高视障人士的生活质量、推动人工智能技术在辅助设备领域的应用、激发社会对视障人士的关注和理解,利用科技为视障人群提供更智能、更高效的辅助工具,填补现有产品的不足,提升他们的生活质量和社会参与度。
预期实现的功能:
App可为用户描述摄像头捕捉到的场景,给用户提供尽可能全面的环境描述。包括环境中的文本读取和朗读,物体方位检测与描述,环境颜色、亮度等检测等等。
App应具有交互功能,用户提出需求后,系统实时处理场景图像数据并生成语音提示,指导视障人群行动。