每周AI新闻(2024年第10周)Claude 3发布 | OpenAI“宫斗”调查结果公布 | 阿里已注资五家大模型独角兽

146 阅读8分钟

这里是陌小北,一个正在研究硅基生命的碳基生命。正在努力成为写代码的里面背诗最多的,背诗的里面最会写段子的,写段子的里面代码写得最好的......厨子。

每周日解读每周AI大事件。

大厂动向

【1】OpenAI“宫斗”调查结果公布

OpenAI公布此前CEO被罢免事件的调查结果,CEO Sam Altman是清白的,他将重返董事会。OpenAI董事会宣布大改OpenAl治理结构,宣布选举三名新的董事会成员,包括:曾任比尔和梅林达·盖茨基金会前CEO Sue Desmond-Hellmann博士、索尼公司前执行副总裁兼总法律顾问Nicole Seligman、及Instacart董事长兼CEO Fidji Simo。

【2】谷歌新API实现手机PC大模型端侧运行

谷歌正式发布了MediaPipe LLM Inference API,该API可以让开发人员更便捷地在手机、PC等设备上本地运行AI大模型。谷歌对跨设备堆栈进行了重点优化,包括新的操作、量化、缓存和权重共享。谷歌称,MediaPipe已经支持了四种模型:Gemma、Phi 2、Falcon 和Stable LM,这些模型可以在网页、安卓、iOS设备上运行,谷歌还计划将这一功能扩展到更多平台上。

【3】阿里已注资国内五家大模型独角兽

阿里巴巴被曝正作为领投方参与中国AI大模型创企MiniMax至少6亿美元的一轮融资,MiniMax估值超过25亿美元。至此,阿里已经投资了国内智谱AI、百川智能、月之暗面、MiniMax、零一万物五家大模型独角兽玩家。

【4】Meta将推出巨型视频推荐模型

Meta旗下Facebook的负责人汤姆·艾利森(Tom Alison)3月6日在摩根士丹利技术会议上表示,该公司正在开发一种AI模型,为Meta整个视频生态系统提供动力。据透露,Meta去年看到了在不同产品之间使用巨型推荐模型的可能性,构建了“新的模型架构”,在视频软件Reels上对其进行了测试。这种新的“模型架构”将帮助Reels观看时间增加8%到10%。

【5】微软首批AI PC将于3月21日发布

据外媒Window Central报道,微软将于3月21日发布Surface Pro 10和Surface Laptop 6,将成为微软首批AI PC产品,并且下一代Windows 11 AI功能将于今年秋季推出。这些设备将配备基于英特尔酷睿Ultra或高通Snapdragon X Elite的处理器,搭载最新NPU,以增强AI功能。新品将搭载“AI Explorer”功能,AI Explorer可以在任何应用程序上运作,用户可以使用自然语言搜索文档、网页、图像和聊天。

【6】抖音上线AI社交APP“话炉”

据Tech星球报道,抖音上线了AI社交APP“话炉”,由字节的Flow部门打造。“话炉”是一款基于字节旗下云雀大模型驱动的角色聊天产品,用户可以与不同AI角色实时聊天互动。

【7】53页PDF曝OpenAI的Q*模型推进时间表

社交平台X上一个名为杰克逊(Jackson)的网友发布了一个53页PDF文件,名为《揭示OpenAI计划在2027年前创建AGI》。根据该文件,OpenAI于2022年8月开始训练一个125万亿参数的多模态模型。第一个阶段是Arrakis,也叫Q*。该模型在2023年12月完成了训练,但由于推理成本过高而取消了发布,这是原计划于2025年发布的GPT-5。Gobi(GPT-4.5)被重新命名为GPT-5,因为原来的GPT-5被取消了。Q的下一阶段最初是GPT-6,但后来更名为GPT-7,最初计划于2026年发布,但因为最近马斯克的诉讼而被搁置。Q 2025 (GPT-8)计划于2027年发布,实现全面AGI。目前还不知这个透露可靠度有多高,OpenAI未对此进行回应。

文件地址:drive.google.com/file/d/1xlR…

创业 & 投融资

【1】Anthropic最强模型Claude 3发布

Anthropic推出Claude 3模型家族,包括Claude 3 Haiku、Sonnet、Opus,都支持超过100万个tokens的输入,并新增多模态功能,支持处理图像、图表等。其中,Opus性能最强,在大多数AI系统的常见评估基准上都优于GPT-4;Sonnet在智能与速度之间达到平衡,特别适合企业工作负载;Haiku模型最快、最具成本效益,能不到3秒读取arXiv(~10k tokens)上带有图表和图形信息和数据密集的研究论文。Opus和Sonnet均已可用,Haiku很快就会发布。

【2】AI搜索创企Perplexity将敲定新融资 估值或达10亿美元

据《华尔街日报》援引知情人士消息称,AI搜索创企Perplexity即将敲定一笔新的融资交易,估值约为10亿美元,较几个月前的最新融资估值大约翻了一番。Perplexity成立于2022年,主要产品是通过大模型的能力为用户搜索查询提供直接答案。从2022年9月到今年1月,Perplexity的融资总额已经超过1亿美元,彼时公司整体估值达到5.2亿美元。

【3】Stability AI被亚马逊列为生成式AI合作伙伴

Stability AI在社交平台X上宣布,其AI工具已被亚马逊Web Services团队列为生成式AI的合作伙伴。并官方配文表示“这一认可强调了我们的技术专业知识能力以及对开发跨模式的尖端开放模型的承诺。”

【4】传MiniMax估值超过25亿美元

据彭博社报道,阿里巴巴正作为领投方参与中国AI大模型创企MiniMax至少6亿美元的一轮融资,融资仍在进行中,这是阿里今年在生成式AI领域的第二笔重大交易。知情人士称,MiniMax估值超过25亿美元。

产品 & 模型

【1】Inflection发布大模型Inflection-2.5

AI创企Inflection AI发布了最新AI大模型Inflection-2.5,并将其用在了自家聊天机器人产品Pi中。Inflection AI称该模型为“最好的个人AI”。Inflection-2.5在基准测试中的性能与GPT-4接近,但训练计算量只有GPT-4的40%。Inflection-2.5已经向所有Pi用户开放,用户可通过pi.ai、iOS、Android或新的桌面端应用程序使用该模型。

【2】智源提出通用计算机控制智能体框架Cradle

北京智源人工智能研究院和新加坡南洋理工大学、北京大学近期联合提出了通用计算机控制General Computer Control (GCC),即智能体需要像人一样看屏幕,通过键盘、鼠标完成计算机上的所有任务。研究团队提出通用计算机控制智能体框架Cradle,使智能体不依赖任何内部API就能直接控制键盘、鼠标和任何软件交互,无论开源还是闭源,甚至能玩《荒野大镖客2》等商业3A游戏大作。

论文链接:arxiv.org/abs/2403.03…

项目主页:baai-agents.github.io/Cradle/

代码链接:github.com/BAAI-Agents…

【3】美团、浙大提出视觉任务统一架构VisionLLAMA

美团、浙大的研发成员近日共同发布了一篇论文《VisionLLaMA:以视觉任务为主的LLaMA架构》。他们希望通过Meta开源LLaMA架构在视觉领域应用,实现语言和图像架构的统一。经过研究,他们发现VisionLLaMA在图像生成(包含Sora依赖的底层的DIT)和理解(分类、分割、检测、自监督)等多个主流任务上相较于原ViT类方法提升显著。论文显示,该研究在统一图像和语言架构方面的尝试,可以复用LLM社区在LLaMA上的训练(稳定且有效的scaling)、部署等一系列成果。

【4】零一万物开源Yi-9B模型

国内大模型独角兽零一万物宣布开源Yi-9B模型,Yi-9B的实际参数为8.8B,默认上下文长度是4K tokens。零一万物公布的数据显示,在综合能力方面(Mean-All),Yi-9B 的性能超越了DeepSeek-Coder、DeepSeek-Math、Mistral-7B、SOLAR-10.7B和Gemma-7B;在代码能力方面(Mean-Code),Yi-9B的性能仅次于DeepSeek-Coder-7B,超越了Yi-34B、SOLAR-10.7B、Mistral-7B和Gemma-7B;在数学能力方面(Mean-Math),Yi-9B的性能仅次于DeepSeek-Math-7B,超越了SOLAR-10.7B、Mistral-7B和Gemma-7B;在常识和推理能力方面(Mean-Text),Yi-9B的性能与Mistral-7B、SOLAR-10.7B和Gemma-7B不相上下。

模型地址:github.com/01-ai/Yi

【5】Jina AI新模型使搜索准确性提升20%

德国神经搜索创企Jina AI发布了Jina Reranker(jina-reranker-v1-base-en),专为提高搜索准确性打造。实验数据显示,相比简单RAG系统,搭载该模型的检索系统命中率提高8%,MRR提高33%。

模型链接: jina.ai/reranker/

【6】Stable Diffusion 3 研究论文发布

Stability AI发布“最强文生图大模型”Stable Diffusion 3的研究论文,对技术细节进行深入描述。这篇论文很快将在arXiv上开放。经评估,Stable Diffusion 3等于或优于当前最先进的文生图系统。多模态扩散Transformer(MMDiT)架构为图像和语言表示使用独立的权重集,与以前版本的Stable Diffusion 3相比,提高了文本理解和拼写能力。

论文地址:stabilityai-public-packages.s3.us-west-2.amazonaws.com/Stable+Diff…

如果觉得不错,随手点个赞、评论、转发吧。我是陌小北,一个正在研究硅基生命的、有趣的碳基生命。如果你想第一时间看到我的文章,欢迎关注。