Hugging Face 开源 HuggingChat MacOS 原生客户端
HuggingChat[3] 原生 macOS 客户端现已开源。这款应用完全使用 Swift 编写,提供类似 Spotlight 的搜索体验,支持 Markdown 渲染、网页浏览和代码语法高亮。目前处于早期 beta 阶段,用户可以免费使用所有顶级开源大模型。
Freepik 推出 Flux.1 Lite
Flux.1 Lite[1] 是从 dev 模型蒸馏而来的,与原始的 bfloat16 模型相比,RAM 占用减少了 7GB,速度提升了 23%。好久没更新 Flux 生态的内容了,顺带介绍下 Freepik[2],一个专注 AI 素材的公司,包括图标、插图、视频等。
微软推出 OmniParser:将 UI 截图转换为结构化数据
OmniParser[4] 是一款由微软推出的通用屏幕解析工具,它能够将 UI 屏幕截图转换为结构化数据,从而显著提升基于 LLM 的 UI Agent 的性能。这个模型基于 YOLOv8 微调而来,支持提取任意手机、PC、APP 的截图,功能非常强大。有了这个模型,马上就会有一堆 Computer use 的开源替代了。
Anthropic Claude AI 推出分析工具
Claude AI 引入了一个内置的分析工具[5],能够通过自动编写和执行 JavaScript 对数据进行清洗和分析,还能结合 Artifacts 创建交互式可视化图表。这个工具潜力挺大,可以用来辅助分析日志、SEO 报告、销售数据等等,目前还处于功能预览阶段,需要手动启用。
Perplexity 发布 MacOS 客户端
Perplexity 刚刚推出了 MacOS 客户端[6] ,用户可以通过快捷键 ⌘ + ⇧ + P 快速唤起搜索功能。发布没多久,就攀升至 Mac App Store 免费榜的榜首,太强了。
谷歌 MusicFXDJ:实时混合提示词生成音乐
MusicFXDJ[7] 是谷歌推出的一款创新音乐生成工具,用户可以通过输入不同的提示词,实时混合曲风和乐器,生成全新的音乐作品。与 Suno 等传统文生音乐工具不同,MusicFXDJ 能够根据用户的多个提示词按重要性进行混合,从而更精确地控制音乐风格。完整报告[8]详细介绍了其工作原理,感兴趣的用户可以深入学习。