这款本地部署工具,把视频一键变成专属文字笔记

1 阅读5分钟

这款本地部署工具,把视频一键变成专属文字笔记

刷到干货满满的视频想整理成笔记,回头却没精力重温?听了优质播客想留存内容,却被各类转写工具的付费、注册门槛劝退?担心把音视频上传第三方平台泄露隐私,只能放弃整理?如果你也有这些烦恼,那今天星哥要分享的这款工具,绝对能精准解决你的痛点!

AI-Media2Doc

主要功能:一键将音视频转化为小红书/公众号/知识笔记/思维导图/视频字幕等各种风格的文档。

AI 视频图文创作助手是一款 Web 工具, 基于 AI 大模型, 一键将视频和音频转化为各种风格的文档, 无需登录注册, 前后端本地部署,以极低的成本体验 AI 视频/音频转风格文档服务。

在 AI 工具满天飞、动辄收费订阅、还总惦记用户数据的当下,有一款叫 AI-Media2Doc 的开源项目显得格外 “清流”。它没有花里胡哨的噱头,核心功能简单又实在 —— 把视频或音频一键转换成文字文档,还能适配多种排版风格,满足不同场景的笔记需求。

不管是想把 YouTube 时间管理视频转成知识卡片,还是把深度访谈播客生成带时间戳的字幕存档,甚至想让生成的文档自动配上关键帧截图,它都能搞定。更贴心的是,如果你有自己的写作习惯,还能修改前端提示词,让输出内容完全贴合你的风格。

img

AI-Media2Doc优势

市面上转写工具不少,但 AI-Media2Doc 的核心优势,让它从一众工具里脱颖而出:

  • 开源免费无套路:基于 MIT 协议,代码完全公开,不用花一分钱,也没有隐藏收费项,谁都能用、谁都能根据需求修改;
  • 隐私安全拉满格:无需注册账号,所有音视频文件都在本地处理,不会上传到任何云端服务器,任务记录也只存在你的电脑里,彻底告别隐私泄露风险;
  • 部署简单易上手:只要你的电脑装了 Docker,跟着步骤走,克隆代码、配置环境、启动服务,三行命令就能跑起来,哪怕是普通用户,跟着作者的详细教程也能搞定;
  • 离线也能正常用:语音识别依托本地 fast-whisper 模型,不用联网也能完成转写,断网环境下也不耽误整理笔记;
  • 还能加密码保护:如果部署在 NAS 或内网,可设置访问密码,避免工具被他人滥用,安全感拉满。

安装AI-Media2Doc

虽然对新手来说,部署过程有一点点门槛,但作者在 GitHub 上把步骤写得明明白白,跟着操作基本不踩坑:

  1. 先安装 Docker(Windows 用户建议用 WSL);
  2. 克隆项目代码,进入对应目录,复制并配置 variables.env 文件(用在线 API 就填模型密钥,想纯本地用就留空);
  3. 配置大模型和密钥、variables.env 配置文件等
  4. 执行 make run 或 docker-compose 启动命令,
  5. 打开浏览器访问本地地址,就能开始使用。

1.安装Docker

省略

2.克隆项目代码

git clone https://github.com/hanshuaikang/AI-Media2Doc.git
cd AI-Media2Doc

查看文件:
ll
total 36
drwxr-xr-x 6 root root  254 Feb  5 23:34 backend
-rw-r--r-- 1 root root  412 Feb  5 23:34 docker-compose.yaml
drwxr-xr-x 3 root root   39 Feb  5 23:34 docs
drwxr-xr-x 4 root root  212 Feb  5 23:34 frontend
-rw-r--r-- 1 root root 1063 Feb  5 23:34 LICENSE
-rw-r--r-- 1 root root  498 Feb  5 23:34 Makefile
-rw-r--r-- 1 root root 4562 Feb  5 23:34 README_EN.md
-rw-r--r-- 1 root root 9402 Feb  5 23:34 README.md
-rw-r--r-- 1 root root  374 Feb  5 23:34 variables_template.env

img

3.配置大模型

参考主要用的是火山的,星哥用自己常用的腾讯云OSS和硅基流动

参考:github.com/hanshuaikan…

#拷贝配置文件
cp variables_template.env variables.env

vi variables.env

#大语言模型的ID:填
MODEL_ID=xxx
# 申请的大模型APIKEY
LLM_API_KEY=xxx
#对象存储
STORAGE_ACCESS_KEY=xxx
STORAGE_SECRET_KEY=xxx
STORAGE_ENDPOINT=xxx
STORAGE_REGION=xxx
STORAGE_BUCKET=xxx

#音频识别大模型
AUC_APP_ID=xxx
AUC_ACCESS_TOKEN=xxx
AUC_CLUSTER_ID=XXX
# 如果不需要密码访问,请留空或者删除此行
WEB_ACCESS_PASSWORD=
# 默认使用字节火山方舟的大模型服务
LLM_BASE_URL=https://ark.cn-beijing.volces.com/api/v3

4.执行启动

如果本机的8080端口被占用可以修改docker-compose.yaml文件

$ cat docker-compose.yaml
services:
  backend:
    image: hanshugithub/ai-media2doc-backend:latest
    env_file:
      - "variables.env"
    deploy:
      mode: replicated
      replicas: 1
    ports:
      - "8080:8080"

  frontend:
    image: hanshugithub/ai-media2doc-frontend:latest
    deploy:
      mode: replicated
      replicas: 1
    environment:
        - VITE_API_BASE_URL=http://localhost:8080
    ports:
      - "5173:5173"
$ docker-compose -f docker-compose.yaml up -d

5.浏览器使用

浏览器访问ip+端口

img

视频变读书笔记

比如你看了一个关于时间管理的 YouTube 视频,用它转成文字后,可以快速提炼出核心观点,做成自己的知识卡片。

img

总结

这个项目的作者,其实就是个爱读书、爱记笔记的普通用户,因为找不到趁手的工具,干脆自己动手开发了一款。他说 “不想在互联网上注册太多账号”,这话星哥特别有共鸣。

现在很多工具,总想着堆砌 AI 功能、搞订阅制、收集用户数据,反而忘了工具的本质是解决问题。而 AI-Media2Doc 走了相反的路:轻量、透明、尊重用户,哪怕你只是偶尔用一次,也能感受到它的贴心。

如果你也厌倦了那些复杂又 “套路” 的智能工具,想拥有一款真正属于自己的视频转笔记神器,不妨试试 AI-Media2Doc(GitHub 地址:github.com/hanshuaikan…