码农狂喜!终端AI编码助手Claude Code:秒懂代码库、自动搞定Git,自然语言交互写代码快到飞起
claude-code 是一个 用于代码生成与编程辅助 的 工具。简单讲,它能帮助开发者通过自然语言描述自动生成代码,提升编程效率。适用人群:程序员、软件开发人员
主要语言:Shell
stars: 99.4k
核心功能
Claude Code 是一款智能编码工具,可在终端运行,它能理解代码库,通过自然语言命令执行常规任务、解释复杂代码以及处理 Git 工作流,帮助开发者提高编码速度。用户可以在终端、集成开发环境(IDE)中使用它,还能在 GitHub 上通过标签 @claude 调用。
优势
- 操作便捷:利用自然语言命令操作,降低使用门槛,让开发者更轻松地与工具交互。
- 功能丰富:涵盖执行常规任务、解释代码和处理 Git 工作流等多种功能,满足开发过程中的多种需求。
- 可扩展性:仓库包含多个插件,通过自定义命令和代理扩展功能。
应用场景
- 日常编码:快速执行重复性任务,如代码格式化、文件创建等,节省时间。
- 代码理解:解释复杂代码逻辑,帮助开发者理解陌生代码。
- 版本控制:处理 Git 工作流,如提交、拉取、合并等操作。
安装方式
- MacOS/Linux(推荐) :使用
curl -fsSL https://claude.ai/install.sh | bash命令安装。 - Homebrew(MacOS/Linux) :运行
brew install --cask claude-code进行安装。 - Windows(推荐) :执行
irm https://claude.ai/install.ps1 | iex完成安装。 - WinGet(Windows) :使用
winget install Anthropic.ClaudeCode命令安装。 - NPM(已弃用) :
npm install -g @anthropic-ai/claude-code
插件
仓库提供了多个 Claude Code 插件,可通过自定义命令和代理扩展功能。具体插件信息可查看 plugins 目录的 README 文件。
数据相关
- 数据收集:使用 Claude Code 时,会收集反馈,包括使用数据(如代码接受或拒绝情况)、相关对话数据以及通过
/bug命令提交的用户反馈。 - 数据使用:具体使用方式可查看 数据使用政策。
- 隐私保护:采取了多项保护措施,如对敏感信息设置有限保留期、限制对用户会话数据的访问,并明确规定不使用反馈进行模型训练。详细内容可查看 商业服务条款 和 隐私政策。
微软开源神级语音AI!VibeVoice:60分钟长音频一键转写带说话人标注,50+语言通吃,还能实时生成语音
VibeVoice 是一个 实时语音克隆与情感化语音合成 的 工具。简单讲,它能通过少量语音样本复制一个人的声音,并生成带有情感的自然语音。适用人群:语音技术开发者、AI研究人员、内容创作者
主要语言:Python
stars: 34.3k
仓库整体介绍
VibeVoice是一个开源的前沿语音AI模型家族,包含文本转语音(TTS)和自动语音识别(ASR)模型。其核心创新在于采用了工作频率为7.5Hz的连续语音分词器(声学和语义),能在高效保留音频保真度的同时,显著提升长序列处理的计算效率。该项目运用了 next-token diffusion 框架,借助大语言模型(LLM)理解文本上下文和对话流程,并用扩散头生成高保真声学细节。
仓库优势
- 长序列处理能力强:VibeVoice-ASR能单遍处理60分钟长音频,VibeVoice-TTS可单遍合成90分钟的语音。
- 多语言支持:VibeVoice-ASR支持超50种语言,VibeVoice-TTS支持英语、中文等。
- 多说话人支持:VibeVoice-TTS支持单对话中最多4个不同说话人,且能保持自然的轮流发言和说话人一致性。
- 高效计算:采用超低帧率的连续语音分词器,提升长序列处理的计算效率。
- 实时性好:VibeVoice-Streaming支持流式文本输入,能实现实时TTS,首听延迟约300毫秒。
应用场景
- 语音识别:适用于会议记录、语音转文字服务等场景,尤其是长音频的转录。
- 语音合成:可用于有声读物、语音导航、智能客服等领域,特别是需要长对话或多说话人的场景。
模型介绍
-
VibeVoice-ASR-7B
- 是一个统一的语音转文本模型,能单遍处理60分钟长音频,生成包含说话人、时间戳和内容的结构化转录,还支持自定义热词。
- 优势在于能保证整小时内的说话人跟踪和语义连贯性,通过自定义热词可提高特定领域内容的识别准确性。
- 可通过 Playground 快速尝试,模型权重可在 Hugging Face 获取。
-
VibeVoice-TTS-1.5B
- 适合长对话音频、播客、多说话人对话等场景,能单遍合成90分钟语音,支持最多4个不同说话人,生成富有表现力、自然的语音,还支持多语言。
- 模型权重可在 Hugging Face 获取,但快速尝试功能已禁用。
-
VibeVoice-Realtime-0.5B
- 是轻量级实时文本转语音模型,支持流式文本输入和稳健的长语音生成。参数规模为0.5B,便于部署,首听延迟约300毫秒,能生成约10分钟的长语音。
- 可通过 Colab 快速尝试,模型权重可在 Hugging Face 获取。
最新动态
- 2026年3月6日,VibeVoice ASR成为 Transformers release 的一部分,可通过Hugging Face Transformers库直接使用。
- 2026年1月21日,开源了VibeVoice-ASR,它是一个统一的语音转文本模型,支持多语言,提供微调代码,支持vLLM推理,还有相关技术报告。
- 2025年12月16日,为VibeVoice‑Realtime‑0.5B添加了实验性说话人,包括9种语言的多语言语音和11种不同的英语风格语音。
- 2025年12月3日,开源了VibeVoice‑Realtime‑0.5B,这是一个支持流式文本输入和长语音生成的实时文本转语音模型。
- 2025年9月5日,因发现工具使用方式与发布意图不符,移除了VibeVoice-TTS代码。
- 2025年8月25日,开源了VibeVoice-TTS,这是一个长形式多说话人文本转语音模型,被ICLR 2026接受为口头报告。
原文:mp.weixin.qq.com/s/tLPLHHL_a…
欢迎关注公zh:AI Tech研习社
关注公zh,后台回复【OpenClaw完全使用手册】,领取OpenClaw完全使用手册.pdf学习资料,更多学习资源敬请期待。