Midjourney 允许用户“进入”图像,以更沉浸的方式探索

142 阅读4分钟

“进入”或沉浸式探索 Midjourney 生成的图像

Midjourney 正在开发一种全新的 3D 技术,这种技术将允许用户“进入”或以更沉浸的方式探索其生成的图像。这种技术不是传统的 3D 格式(如 Polygons、NeRF(神经辐射场,将二维图像重建为三维场景)或高斯模型),而是一种类似 NeRF 的新格式

9月13日-封面.jpg

v0.dev 现在支持 Vue、Svelte 和 Remix

v0 又发布了新功能,现在不仅支持 React 和 Next.js,还支持 Vue 和 Svelte 以及 Remix 框架了。

顺带一提,OpenAI 现在的前端使用的便是 Remix 框架。

汉语新解:Cluade 生成词语海报

来自即刻网友李继刚[1],使用 LISP 语言编写的提示词,可以直接让 Claude 生成一个词语全新角度的解释并使用 SVG 布局成一个卡片,非常好玩,完整提示词可以去作者那复制。

可以发散下,直接使用 Claude 做设计排版,已经看到有人拿来做了简历卡片。Claude 还是非常的强啊,试了其他几个模型包括 GPT4 都没法做到 这么好的效果。

还有人做了一个残血版的在线演示汉语新解[2],似乎只用到的文案生成,并没有完全由 AI 绘制 SVG。

ComfyUI-LF: 改进用户体验的节点包

ComfyUI-LF[3] 包含非常多有用的节点,列举几个:

  • 图像直方图:分析图片 RGB 通道直方图
  • 关键字计数器:计算提示词的关键词分布的条形图
  • CivitAI 兼容的元数据信息:直接解析 C 站网友共享的提示词和配置
  • 图片加载器,支持子文件夹
  • 保存图片元数据为 C 站兼容的
  • 一大堆对 JSON 输入输出和处理的节点
  • 用于结合 LLM 的节点
  • 各种开关节点

感觉最有用的就是 CivitAI 兼容元数据的输入和输出了,一直以来就是 ComfyUI 的一大痛点。

Reader-LM:将 HTML 数据清洗为 Markdown 的模型

Reader-LM[4] 是 Jina AI 推出的一个开源小模型,专用于将网页 HTML 内容清洗为 Markdown 格式,提供了 1.5B 和 0.5B 两种参数。

他们本身也有一个同样功能的 Jina Reader 的产品,不过其技术原理是首先使用无头浏览器获取 HTML,然后使用 Readability 提取主要内容,最后使用正则和 Turndown 清理并转为 MD 格式,但存在解析错误或误删的问题,并且维护大量的正则还要支持多语言非常痛苦,于是该模型应运而生。

Reader-LM 在 HTML2Markdown 任务上的表现远超 gpt4o 等大模型,即使是 0.5B 版本也遥遥领先,最近也有类似的需求正好可以尝试尝试。

你可以在这里试用在线演示maxiw/HTML-to-Markdown[5],体感上比 markdownify[6] 的效果要稍好一些。

OpenAI o1-preview 正式发布

OpenAI 发布了 o1-preview[7] 和 o1-mini[8],专用于解决复杂问题的系列模型。与之前的模型相比,新模型在回复用户前会先进行思考,能更好的进行复杂任务推理并解决更困难的问题。

缺点就是速度非常的慢,在官方演示的视频中 o1-preview 单次响应要 32 秒,o1-mini 要 9 秒,而 GPT-4o 只需 3 秒

目前只有 ChatGPT Plus 、Team 用户和 API 可以使用,并且有非常严格的速率限制:

  • o1-preview 模型:每周最多可以发送 30 条消息。
  • o1-mini 模型:每周最多可以发送 50 条消息。
  • API 用户每分钟只能发送 20 次请求

新模型现在也不支持浏览、文件上传和工具集成,不过未来会逐步更新,并且也会逐步开放 o1-mini 模型给所有免费用户。

Suno AI: Covers 翻唱任何声音

Suno AI 发布新功能 Covers,可以翻唱任何声音为全新风格但保留旋律,此功能目前仅面向 Pro/Premier 订阅用户。