《用文心大模型 4.5 打造 AI 无障碍影视平台:让视障群体 “看见” 光影的技术实践——AI技术向善》
一、项目背景:被忽视的 “光影需求”
我国 1750 余万视障群体,长期面临 “无障碍影视资源匮乏” 的困境 —— 传统无障碍影视制作需 1-2 个月周期、万元级成本,且依赖专业团队人工撰写旁白,根本无法实现规模化覆盖。
为解决这一痛点,我们基于相关百度文心AI大模型的技术场景,开发了「AI 无碍--视频解析在线校对编辑平台 」,希望用大模型技术降低无障碍影视的制作门门槛,同时用大模型技术提升制作效率。
二、技术选型与核心架构
1. 核心能力依赖:文心大模型 4.5
我们直接调用了文心大模型 4.5 的多模态理解 + 文本生成能力,覆盖 3 个核心环节:
- 图像理解:识别视频画面中的场景、物体、人物动作;
- 场景拆分:基于镜头切换、内容主题的变化,自动拆分视频片段;
- 旁白生成:根据画面信息,生成符合视障群体听觉习惯的基础脚本。
2. 平台技术栈
- 前端:基于 Vue3 实现多人在线协作编辑界面(支持实时修改、版本回退);
- 后端:Python+FastAPI 搭建服务,对接文心大模型 API,实现任务调度与素材管理;
- 工具层:集成读屏软件模拟测试模块,支持旁白语速 / 语调自定义适配。
三、核心流程:120分钟完成无障碍影视脚本
-
素材上传:用户上传影视 / 视频素材至平台;
-
AI 自动处理:
- 文心大模型拆分视频场景(精度达 92%);
- 识别画面元素,生成包含 “场景描述 + 动作细节” 的基础旁白脚本;
-
人工精细化编辑:志愿者补充具象化细节(如 “阳光透过树叶投下斑驳光影”);
-
测试与导出:模拟读屏软件验证体验,导出最终无障碍视频。
四、技术难点与优化策略
-
场景拆分准确性:
- 痛点:纯镜头切换特征易误判相似场景;
- 优化:结合文心大模型的内容主题理解,将场景拆分准确率提升至 92%;
-
旁白的 “画面感” :
- 痛点:初期模型生成的旁白过于简洁,缺乏感官细节;
- 优化:通过 prompt 工程引导模型(加入 “细节刻画”“触觉 / 听觉关联描述” 关键词),使旁白更贴合视障群体的感知习惯。
五、项目 Demo 展示
项目完整 Demo 视频可查看:[www.xiaohongshu.com/explore/693…]
实际效果:原本需 30天的人工脚本工作,现在仅需 120分钟完成,人工修改率从 60% 降至 12%,可适配《流浪地球 2》太空电梯、《人生一串》烟火场景等复杂画面的旁白生成。
六、总结与展望
这个项目是 “AI 向善” 的一次实践 —— 技术的价值,从来不是堆砌参数,而是让更多群体平等享受资源。
后续我们计划拓展 2 个方向:
- 接入更多视频类型(教育课程、纪录片);
- 优化模型对 “抽象画面”(如动画特效)的描述能力。
如果你对大模型多模态应用、公益技术项目感兴趣,欢迎在评论区交流~