《用文心大模型 4.5 打造 AI 无障碍影视平台:让视障群体 “看见” 光影的技术实践》

72 阅读3分钟

《用文心大模型 4.5 打造 AI 无障碍影视平台:让视障群体 “看见” 光影的技术实践——AI技术向善》

一、项目背景:被忽视的 “光影需求”

我国 1750 余万视障群体,长期面临 “无障碍影视资源匮乏” 的困境 —— 传统无障碍影视制作需 1-2 个月周期、万元级成本,且依赖专业团队人工撰写旁白,根本无法实现规模化覆盖。

为解决这一痛点,我们基于相关百度文心AI大模型的技术场景,开发了「AI 无碍--视频解析在线校对编辑平台 」,希望用大模型技术降低无障碍影视的制作门门槛,同时用大模型技术提升制作效率。

image.png

二、技术选型与核心架构

1. 核心能力依赖:文心大模型 4.5

我们直接调用了文心大模型 4.5 的多模态理解 + 文本生成能力,覆盖 3 个核心环节:

  • 图像理解:识别视频画面中的场景、物体、人物动作;
  • 场景拆分:基于镜头切换、内容主题的变化,自动拆分视频片段;
  • 旁白生成:根据画面信息,生成符合视障群体听觉习惯的基础脚本。

image.png

2. 平台技术栈

  • 前端:基于 Vue3 实现多人在线协作编辑界面(支持实时修改、版本回退);
  • 后端:Python+FastAPI 搭建服务,对接文心大模型 API,实现任务调度与素材管理;
  • 工具层:集成读屏软件模拟测试模块,支持旁白语速 / 语调自定义适配。

三、核心流程:120分钟完成无障碍影视脚本

  1. 素材上传:用户上传影视 / 视频素材至平台;

  2. AI 自动处理

    • 文心大模型拆分视频场景(精度达 92%);
    • 识别画面元素,生成包含 “场景描述 + 动作细节” 的基础旁白脚本;
  3. 人工精细化编辑:志愿者补充具象化细节(如 “阳光透过树叶投下斑驳光影”);

  4. 测试与导出:模拟读屏软件验证体验,导出最终无障碍视频。

四、技术难点与优化策略

  1. 场景拆分准确性

    • 痛点:纯镜头切换特征易误判相似场景;
    • 优化:结合文心大模型的内容主题理解,将场景拆分准确率提升至 92%;

image.png

  1. 旁白的 “画面感”

    • 痛点:初期模型生成的旁白过于简洁,缺乏感官细节;
    • 优化:通过 prompt 工程引导模型(加入 “细节刻画”“触觉 / 听觉关联描述” 关键词),使旁白更贴合视障群体的感知习惯。

image.png

五、项目 Demo 展示

项目完整 Demo 视频可查看:[www.xiaohongshu.com/explore/693…]

实际效果:原本需 30天的人工脚本工作,现在仅需 120分钟完成,人工修改率从 60% 降至 12%,可适配《流浪地球 2》太空电梯、《人生一串》烟火场景等复杂画面的旁白生成。

六、总结与展望

这个项目是 “AI 向善” 的一次实践 —— 技术的价值,从来不是堆砌参数,而是让更多群体平等享受资源。

后续我们计划拓展 2 个方向:

  1. 接入更多视频类型(教育课程、纪录片);
  2. 优化模型对 “抽象画面”(如动画特效)的描述能力。

如果你对大模型多模态应用、公益技术项目感兴趣,欢迎在评论区交流~