这款本地部署工具，把视频一键变成专属文字笔记这款本地部署工具，把视频一键变成专属文字笔记刷到干货满满的视频想整理成笔记

这款本地部署工具，把视频一键变成专属文字笔记

刷到干货满满的视频想整理成笔记，回头却没精力重温？听了优质播客想留存内容，却被各类转写工具的付费、注册门槛劝退？担心把音视频上传第三方平台泄露隐私，只能放弃整理？如果你也有这些烦恼，那今天星哥要分享的这款工具，绝对能精准解决你的痛点！

AI-Media2Doc

主要功能：一键将音视频转化为小红书/公众号/知识笔记/思维导图/视频字幕等各种风格的文档。

AI 视频图文创作助手是一款 Web 工具, 基于 AI 大模型, 一键将视频和音频转化为各种风格的文档, 无需登录注册, 前后端本地部署，以极低的成本体验 AI 视频/音频转风格文档服务。

在 AI 工具满天飞、动辄收费订阅、还总惦记用户数据的当下，有一款叫 AI-Media2Doc 的开源项目显得格外 “清流”。它没有花里胡哨的噱头，核心功能简单又实在 —— 把视频或音频一键转换成文字文档，还能适配多种排版风格，满足不同场景的笔记需求。

不管是想把 YouTube 时间管理视频转成知识卡片，还是把深度访谈播客生成带时间戳的字幕存档，甚至想让生成的文档自动配上关键帧截图，它都能搞定。更贴心的是，如果你有自己的写作习惯，还能修改前端提示词，让输出内容完全贴合你的风格。

AI-Media2Doc优势

市面上转写工具不少，但 AI-Media2Doc 的核心优势，让它从一众工具里脱颖而出：

开源免费无套路：基于 MIT 协议，代码完全公开，不用花一分钱，也没有隐藏收费项，谁都能用、谁都能根据需求修改；
隐私安全拉满格：无需注册账号，所有音视频文件都在本地处理，不会上传到任何云端服务器，任务记录也只存在你的电脑里，彻底告别隐私泄露风险；
部署简单易上手：只要你的电脑装了 Docker，跟着步骤走，克隆代码、配置环境、启动服务，三行命令就能跑起来，哪怕是普通用户，跟着作者的详细教程也能搞定；
离线也能正常用：语音识别依托本地 fast-whisper 模型，不用联网也能完成转写，断网环境下也不耽误整理笔记；
还能加密码保护：如果部署在 NAS 或内网，可设置访问密码，避免工具被他人滥用，安全感拉满。

安装AI-Media2Doc

虽然对新手来说，部署过程有一点点门槛，但作者在 GitHub 上把步骤写得明明白白，跟着操作基本不踩坑：

先安装 Docker（Windows 用户建议用 WSL）；
克隆项目代码，进入对应目录，复制并配置 variables.env 文件（用在线 API 就填模型密钥，想纯本地用就留空）；
配置大模型和密钥、variables.env 配置文件等
执行 make run 或 docker-compose 启动命令，
打开浏览器访问本地地址，就能开始使用。

1.安装Docker

省略

2.克隆项目代码

git clone https://github.com/hanshuaikang/AI-Media2Doc.git
cd AI-Media2Doc

查看文件：
ll
total 36
drwxr-xr-x 6 root root  254 Feb  5 23:34 backend
-rw-r--r-- 1 root root  412 Feb  5 23:34 docker-compose.yaml
drwxr-xr-x 3 root root   39 Feb  5 23:34 docs
drwxr-xr-x 4 root root  212 Feb  5 23:34 frontend
-rw-r--r-- 1 root root 1063 Feb  5 23:34 LICENSE
-rw-r--r-- 1 root root  498 Feb  5 23:34 Makefile
-rw-r--r-- 1 root root 4562 Feb  5 23:34 README_EN.md
-rw-r--r-- 1 root root 9402 Feb  5 23:34 README.md
-rw-r--r-- 1 root root  374 Feb  5 23:34 variables_template.env

3.配置大模型

参考主要用的是火山的，星哥用自己常用的腾讯云OSS和硅基流动

参考：github.com/hanshuaikan…

#拷贝配置文件
cp variables_template.env variables.env

vi variables.env

#大语言模型的ID:填
MODEL_ID=xxx
# 申请的大模型APIKEY
LLM_API_KEY=xxx
#对象存储
STORAGE_ACCESS_KEY=xxx
STORAGE_SECRET_KEY=xxx
STORAGE_ENDPOINT=xxx
STORAGE_REGION=xxx
STORAGE_BUCKET=xxx

#音频识别大模型
AUC_APP_ID=xxx
AUC_ACCESS_TOKEN=xxx
AUC_CLUSTER_ID=XXX
# 如果不需要密码访问，请留空或者删除此行
WEB_ACCESS_PASSWORD=
# 默认使用字节火山方舟的大模型服务
LLM_BASE_URL=https://ark.cn-beijing.volces.com/api/v3

4.执行启动

如果本机的8080端口被占用可以修改docker-compose.yaml文件

$ cat docker-compose.yaml
services:
  backend:
    image: hanshugithub/ai-media2doc-backend:latest
    env_file:
      - "variables.env"
    deploy:
      mode: replicated
      replicas: 1
    ports:
      - "8080:8080"

  frontend:
    image: hanshugithub/ai-media2doc-frontend:latest
    deploy:
      mode: replicated
      replicas: 1
    environment:
        - VITE_API_BASE_URL=http://localhost:8080
    ports:
      - "5173:5173"
$ docker-compose -f docker-compose.yaml up -d

5.浏览器使用

浏览器访问ip+端口

视频变读书笔记

比如你看了一个关于时间管理的 YouTube 视频，用它转成文字后，可以快速提炼出核心观点，做成自己的知识卡片。

总结

这个项目的作者，其实就是个爱读书、爱记笔记的普通用户，因为找不到趁手的工具，干脆自己动手开发了一款。他说 “不想在互联网上注册太多账号”，这话星哥特别有共鸣。

现在很多工具，总想着堆砌 AI 功能、搞订阅制、收集用户数据，反而忘了工具的本质是解决问题。而 AI-Media2Doc 走了相反的路：轻量、透明、尊重用户，哪怕你只是偶尔用一次，也能感受到它的贴心。

如果你也厌倦了那些复杂又 “套路” 的智能工具，想拥有一款真正属于自己的视频转笔记神器，不妨试试 AI-Media2Doc（GitHub 地址：github.com/hanshuaikan…