《用文心大模型 4.5 打造 AI 无障碍影视平台：让视障群体 “看见” 光影的技术实践》

AI无障碍影视

2025-12-12 72 阅读3分钟

《用文心大模型 4.5 打造 AI 无障碍影视平台：让视障群体 “看见” 光影的技术实践——AI技术向善》

一、项目背景：被忽视的 “光影需求”

我国 1750 余万视障群体，长期面临 “无障碍影视资源匮乏” 的困境 —— 传统无障碍影视制作需 1-2 个月周期、万元级成本，且依赖专业团队人工撰写旁白，根本无法实现规模化覆盖。

为解决这一痛点，我们基于相关百度文心AI大模型的技术场景，开发了「AI 无碍--视频解析在线校对编辑平台」，希望用大模型技术降低无障碍影视的制作门门槛，同时用大模型技术提升制作效率。

二、技术选型与核心架构

1. 核心能力依赖：文心大模型 4.5

我们直接调用了文心大模型 4.5 的多模态理解 + 文本生成能力，覆盖 3 个核心环节：

图像理解：识别视频画面中的场景、物体、人物动作；
场景拆分：基于镜头切换、内容主题的变化，自动拆分视频片段；
旁白生成：根据画面信息，生成符合视障群体听觉习惯的基础脚本。

2. 平台技术栈

前端：基于 Vue3 实现多人在线协作编辑界面（支持实时修改、版本回退）；
后端：Python+FastAPI 搭建服务，对接文心大模型 API，实现任务调度与素材管理；
工具层：集成读屏软件模拟测试模块，支持旁白语速 / 语调自定义适配。

三、核心流程：120分钟完成无障碍影视脚本

素材上传：用户上传影视 / 视频素材至平台；
AI 自动处理：
- 文心大模型拆分视频场景（精度达 92%）；
- 识别画面元素，生成包含 “场景描述 + 动作细节” 的基础旁白脚本；
人工精细化编辑：志愿者补充具象化细节（如 “阳光透过树叶投下斑驳光影”）；
测试与导出：模拟读屏软件验证体验，导出最终无障碍视频。

四、技术难点与优化策略

场景拆分准确性：
- 痛点：纯镜头切换特征易误判相似场景；
- 优化：结合文心大模型的内容主题理解，将场景拆分准确率提升至 92%；

旁白的 “画面感” ：
- 痛点：初期模型生成的旁白过于简洁，缺乏感官细节；
- 优化：通过 prompt 工程引导模型（加入 “细节刻画”“触觉 / 听觉关联描述” 关键词），使旁白更贴合视障群体的感知习惯。

五、项目 Demo 展示

项目完整 Demo 视频可查看：[www.xiaohongshu.com/explore/693…]

实际效果：原本需 30天的人工脚本工作，现在仅需 120分钟完成，人工修改率从 60% 降至 12%，可适配《流浪地球 2》太空电梯、《人生一串》烟火场景等复杂画面的旁白生成。

六、总结与展望

这个项目是 “AI 向善” 的一次实践 —— 技术的价值，从来不是堆砌参数，而是让更多群体平等享受资源。

后续我们计划拓展 2 个方向：

接入更多视频类型（教育课程、纪录片）；
优化模型对 “抽象画面”（如动画特效）的描述能力。

如果你对大模型多模态应用、公益技术项目感兴趣，欢迎在评论区交流～