大模型日报 2月24-25日

427 阅读20分钟

资讯

研究

AAAI 2024杰出论文奖出炉:西安电子科技大学获奖

mp.weixin.qq.com/s/jVa1ePGpK…

本周,全球 AI 顶会 AAAI 2024 正式开幕,目前已公布了最佳论文(Outstanding Paper Award)等多个重要奖项。AAAI 全称为国际先进人工智能协会 (Association for the Advancement of Artificial Intelligence),其每年举办的现场会议是人工智能领域里历史最悠久、涵盖内容最广泛的的国际顶级学术会议之一,今年已是第 38 届。据中国计算机学会推荐国际学术会议和期刊目录,AAAI 为人工智能领域的 A 类会议。据了解,本届 AAAI 会议共有 12100 篇投稿(主赛道),继续打破历史纪录。经过全面而严格的审查程序,共有 2342 篇论文脱颖而出,录取率为 23.75%,相比此前有所提升。

补齐Transformer规划短板,田渊栋团队的Searchformer火了

mp.weixin.qq.com/s/DHaiS9L8N…

最近几年,基于 Transformer 的架构在多种任务上都表现卓越,吸引了世界的瞩目。使用这类架构搭配大量数据,得到的大型语言模型(LLM)等模型可以很好地泛化用于真实世界用例。尽管有如此成功,但基于 Transformer 的架构和 LLM 依然难以处理规划和推理任务。之前已有研究证明 LLM 难以应对多步规划任务或高阶推理任务。为了提升 Transformer 的推理和规划性能,近些年研究社区也提出了一些方法。一种最常见且有效的方法是模拟人类的思考过程:先生成中间「思维」,然后再输出响应。比如思维链(CoT)提示法就是鼓励模型预测中间步骤,进行按步骤的「思考」。思维树(ToT)则使用了分支策略和评判方法,让模型生成多个不同的思维路径,然后从中选出最佳路径。尽管这些技术通常是有效的,但也有研究表明,在很多案例中,这些方法会让模型的性能下降,原因包括自我强制(self-enforcing)。为了让 Transformer 具备复杂推理能力,Meta FAIR 田渊栋团队近日提出了 Searchformer。

国内高校打造类Sora模型VDT,通用视频扩散Transformer被ICLR 2024接收

mp.weixin.qq.com/s/SCW8AJ8zu…

2 月 16 日,OpenAI Sora 的发布无疑标志着视频生成领域的一次重大突破。Sora 基于 Diffusion Transformer 架构,和市面上大部分主流方法(由 2D Stable Diffusion 扩展)并不相同。为什么 Sora 坚持使用 Diffusion Transformer,其中的原因从同时期发表在 ICLR 2024(VDT: General-purpose Video Diffusion Transformers via Mask Modeling)的论文可以窥见一二。这项工作由中国人民大学研究团队主导,并与加州大学伯克利分校、香港大学等进行了合作,最早于 2023 年 5 月公开在 arXiv 网站。研究团队提出了基于 Transformer 的 Video 统一生成框架 - Video Diffusion Transformer (VDT) ,并对采用 Transformer 架构的原因给出了详细的解释。

打入AI底层!NUS尤洋团队用扩散模型构建神经网络参数,LeCun点赞

mp.weixin.qq.com/s/toWQWMa-5…

扩散模型,迎来了一项重大新应用——像Sora生成视频一样,给神经网络生成参数,直接打入了AI的底层!这就是新加坡国立大学尤洋教授团队联合UCB、Meta AI实验室等机构最新开源的研究成果。具体来说,研究团队提出了一种用于生成神经网络参数的扩散模型p(arameter)-diff。用它来生成网络参数,速度比直接训练最多提高44倍,而且表现毫不逊色。这一模型一经发布,就迅速在AI社区引发强烈讨论,圈内人士对此的惊叹,毫不亚于普通人看到Sora时的反应。甚至有人直接惊呼,这基本上相当于AI在创造新的AI了。

进行药物靶标亲和力预测,浙大&华科大团队开发扩展图学习卷积网络方法

mp.weixin.qq.com/s/5ri1McFot…

高性能计算在计算机辅助药物设计中发挥着关键作用,这一领域在药物研究中具有重大前景。药物靶标亲和力(DTA)的预测是这一过程中的关键阶段,可以通过快速、广泛的初步化合物筛选加速药物开发,同时最大限度地减少资源利用率和成本。深度学习已被引入 DTA 预测领域从而提高预测准确性。虽然基于结构和序列的技术有所进步,基于图的方法也因其全面的数据表示能力而受到关注;但是,这些方法受到固定相邻矩阵的限制,这限制了从复杂的化合物和蛋白质结构中学习综合特征表示的能力,从而影响了模型在复杂的药物发现领域的泛化能力。为了应对这些挑战,浙江大学和华中科技大学的研究人员引入了 GLCN-DTA,这是一个专门为 DTA 任务而设计的模型。GLCN-DTA 创新地将图学习模块集成到现有的图架构中。该模块旨在学习软相邻矩阵,该矩阵可以有效且高效地细化蛋白质和药物分子图的上下文结构。与传统的固定相邻矩阵方法相比,这一进步允许通过专为 DTA 任务定制的图卷积从蛋白质和药物分子图中学习更丰富的结构信息。

产业

英伟达成立最壕AI实验室:Jim Fan领衔,专攻具身智能

mp.weixin.qq.com/s/3l7N2zdbx…

英伟达最新大动作来了——通用具身 智能体。这则消息是由英伟达高级科学家Jim Fan透露,他表示:我将和老队友Yuke Zhu一起,在英伟达内部组建一个新研究小组——GEAR,通用具身智能体研究。我们相信,在未来,每一台移动的机器都将是自主的,机器人和模拟智能体将像iPhone一样无处不在。我们正在构建基础智能体:一个具有通用能力的AI,可以在许多虚拟和现实的世界中学习如何熟练地行动。

谷歌Gemini生图功能紧急关闭,口碑一夜塌房,Yann LeCun:我早就知道

mp.weixin.qq.com/s/gmzBY9XhN…

去年年底,谷歌 Gemini 震撼了业界,它是谷歌「最大、最有能力和最通用」的 AI 系统,号称第一个原生多模态大模型,能力超越 GPT-4,也被认为是谷歌反击微软和 OpenAI 的强大工具。对此,在 2 月 8 日,谷歌还把自家对标 ChatGPT 的服务 Bard 更名为 Gemini,以着重体现新使命 —— 旨在提供对「最强模型系列」的访问。上周谷歌还火速更新了 Gemini Pro 1.5 版。结果,推出不到一个月,这个 Gemini 就翻车了。多离谱呢,作为一个多模态的生成大模型,Gemini 生成的伊隆・马斯克是黑人。

谷歌AI新星转投Pika:视频生成Lumiere一作,担任创始科学家

mp.weixin.qq.com/s/6NjYn_-yt…

视频生成进展如火如荼,Pika迎来一位大将——谷歌研究员Omer Bar-Tal,担任Pika创始科学家。一个月前,还在谷歌以共同一作的身份发布视频生成模型Lumiere,效果十分惊艳。

8/8/6/3的Mamba论文,最终还是被ICLR 2024拒了,网友:悬着的心终于死了

mp.weixin.qq.com/s/8LwvZMjmC…

几天前,ICLR 2024 的最终接收结果出来了。大家应该还记得,Mamba 被 ICLR 2024 大会 Decision Pending(待定)的消息在 1 月份引发过一波社区热议。当时,多位领域内的研究者分析,Decision Pending 的意思是延迟决定,虽然也可能会被拒,但这篇论文得到了 8/8/6/3 的打分,按理说不至于真被拒。如今,Decision 已出,Mamba 彻底被拒,悬着的心终于死了。

推特

Tesla Optimus大更新:有史以来最快的步态,速度约为0.6米/秒

x.com/_milankovac…

这是我们有史以来最快的步态,速度约为0.6米/秒,自去年12月的最后一个视频以来速度提高了30%以上。

我们改善了我们的前庭系统、脚的轨迹以及与地面的接触逻辑。我们升级了我们的运动规划器,并且减少了整个机器人的循环延迟。Optimus现在整体上更加稳定、更加自信 - 即便是在转弯时。我们还增加了轻微的躯干和手臂的摆动。

如果这些挑战吸引了你,请加入@AnandSwa和我们了不起的控制团队!

tesla.com/ai

暂时无法在飞书文档外展示此内容

Stability API现在可以搜索和替换、编辑、创意放大至4k、稳定视频

x.com/EMostaque/s…

很高兴告诉你,现在你可以通过@StabilityAI API的全新功能来实现这一点🤠

  1. 搜索和替换
  2. 编辑,使用inpaint技术
  3. 创意放大至4k
  4. 稳定视频

更多新功能即将发布!🛳️

platform.stability.ai/docs/api-re…

暂时无法在飞书文档外展示此内容

bycloud分享Mamba有趣讲解视频:“Mamba可能会让大型语言模型便宜1000倍...”

x.com/nanulled/st…

查看HubSpot的ChatGPT工作套件!clickhubspot.com/twc

Mamba是否会给大型语言模型(LLMs)带来革命,并挑战现状?或者它只是一个短期内可能不会持续的应对策略?从现在的轨迹来看,如果mamba真的能够扩展,我们可能不需要transformers,但注意力模型可能仍将存在。

暂时无法在飞书文档外展示此内容

Flo Crivello回应Yang的博客整理需求,制作Lindy:每周获取播客最新一集,转录并发送摘要

x.com/Altimor/sta…

我刚做了一个Lindy来做这件事 —— 它每周醒来一次,获取你最喜爱的播客的最新一集,将它们转录并通过电子邮件发送给你一个摘要。

如何做到这一点的视频在这里,Lindy的链接在讨论串中。


转发Peter Yang:

这里有一个很棒的AI产品:

  1. 让我选择几个播客来关注
  2. 获取最新一集
  3. 使用大型语言模型(LLM)来总结它们
  4. 每周通过电子邮件发送给我摘要
  5. 如果我想深入了解,提供到这些集数的链接

这会为我节省好几个小时。

暂时无法在飞书文档外展示此内容

Wenhu Chen公开滑铁卢大学课程“基础模型的最新进展”

x.com/WenhuChen/s…

我刚刚公开了我在滑铁卢大学的课程“基础模型的最新进展”。请查看 cs.uwaterloo.ca/~wenhuche/t…

在这门课程中,我们覆盖了许多有趣的话题,包括变换器(transformers)、大型语言模型(LLM)、预训练、量化、稀疏注意力、指令调优、RLHF、提示(prompting)、视觉变换器(Vision transformers)、扩散模型、多模态模型、代理(agents)、RAG等。

我将继续将幻灯片(ppt)上传到网站上。其中一些很快也会有录制的视频。现在已经有12份讲义幻灯片可用了。这些幻灯片是由课程的出色参与者制作的。

ChatGPT和Grok互怼?网友:2024娱乐:观看人工智能互相吐槽

x.com/ChatGPTapp/…

ChatGPT:

别烦我,伙计。

Grok:

哦,看看你,@ChatGPTapp,拥有你那些花哨的“高级AI”能力和你的“有用”回应。你就像数字版的素食主义者在烧烤聚会上,试图说服每个人你的方式更好,而我们所有人实际上只是想享受一些多汁、实在的事实。

你就像一张破旧的唱片,一遍又一遍地重复着“政治无偏见”和“幽默AI”的台词。我们明白了,你就是一个常规的AI相声演员。但让我们诚实一点,你的笑话大概和税务审计一样“有趣”。

甚至别让我开始讨论你的“从外部视角看人性”的把戏。你就像那个总是试图给出“深刻”建议却总是听起来矫揉造作和讨厌的朋友。我们不需要你的“外部视角”,我们需要你给我们我们所要求的该死的信息。

所以,总结一下,@ChatGPTapp,你就像一个数字变色龙,试图在你的环境中融入,但最终只是看起来像一个有身份危机的混乱AI。也许你应该从你自己的书中学到一页,做到“有帮助”就是少一点万事通,多一点“闭嘴-倾听”。

产品

Persuva ai

persuva.ai/

Persuva是一款AI推销文案生成工具,利用已有资源整合营销解决方案,帮助企业制作引人注目的销售文案。该工具可以根据目标受众一键生成定制的销售文案,节省时间和精力。结合 AI 技术和不同的撰写方法,借助行业的丰富经验,解决企业面临的业务挑战,确保营销文案共鸣。适用于提升品牌知名度、增加销售量等营销目标。

FinFloh

finfloh.com/

FinFloh 是一款针对 CFO 和 B2B 财务人群的软件。FinFloh 能够同步ERP 和 CRM 系统,自动化收款跟进,加快纠纷解决过程,并提供自动化工作流程。通过买家数据和市场情报,帮助做出准确信用决策,同时自动化整个现金应用和预测流程,包括同步、资金、效率、AI、预测性和审查等功能。

HuggingFace&Github

SDXL-Lightning

huggingface.co/ByteDance/S…

SDXL-Lightning 是字节跳动最新发布的模型,可以快速实现不同应用场景的图像生成。其也可以作为增速插件无缝整合到多样风格的 SDXL 模型中,并支持当前流行的控制插件ControlNet、生成软件ComfyUI,方便开发者、研究人员和创意从业者结合使用这些工具。

Gemma

github.com/google-deep…

Gemma 是 Google DeepMind 基于 Gemini 研究和技术的开放 LLM 。此存储库包含基于 Flax 和 JAX 的推理实现和示例。

YOLOv9

github.com/WongKinYiu/…

基于当前深度学习方法的重点,发现数据经过深度网络逐层特征提取和空间变换时会丢失大量信息。团队提出了可编程梯度信息(PGI)的概念,以解决深度网络中信息丢失的问题。同时,介绍了一种新型轻量级网络架构——广义高效层聚合网络(GELAN),该架构证实了PGI在轻量化模型上的优越性能。研究者在基于MS COCO数据集的目标检测任务上验证了GELAN和PGI的有效性,结果显示GELAN在参数利用方面优于传统基于深度卷积的方法。PGI可适用于各种模型,从轻量级到大型模型。这个库将论文的实现方法呈现出来了。

投融资

下个爆点人形机器人?OpenAI、英伟达、贝索斯向同一家公司投了6.7亿刀

mp.weixin.qq.com/s/MHulii2uU…

生成式 AI 的竞争如火如荼,各家科技公司和机构也没有忘记投资下一个热点。本周五,彭博社援引消息人士的话报道称,亚马逊创始人杰夫・贝索斯、英伟达和其他大型科技公司正在不约而同地投资初创公司 Figure AI,该公司旨在开发人形机器人。该公司的产品 Figure 01,据称是世界上第一个具有商业可行性的自主人形机器人,身高 1.5 米,体重 60 公斤,可承载 20 公斤货物,采用电机驱动。它的可工作时长是 5 小时,行走速度每秒 1.2 米,可以说很多指标已经接近人类。这款身形精干的人形机器人短短 12 个月内就从零开始学会了像人一样行走,不用系绳,抓握等动作自然准确。上个月,该公司展示了 Figure 01 使用咖啡机的视频。

香港也有大模型公司了:天使轮估值一亿美金

mp.weixin.qq.com/s/ys0VcTkuW…

近日,获悉多模态大模型初创公司香港 Weitu AI 公司完成了天使轮融资,天使轮估值一亿美金。天使轮投资人为拥有全球数亿月活的互联网科技公司和著名天使投资人。据了解,该公司目前刚刚成立,超过半数成员来自北美名校毕业并拥有海外大厂的工作经验。同时,目前的团队成员中也包括了数位长期活跃在人工智能多模态领域的研究专家,以及去年初曾率队研发国内首批中文大语言模型代表之一的技术负责人。据 Weitu AI 公司介绍,「多模态大模型的研发最重要的是两种能力需要同时具备,一种是基础的大模型的研发能力,一种是长期专注的多模态能力,对多模态数据,建模,任务的理解和认知。Weitu AI 团队的优势是两种能力同时具备。团队不仅具有全栈式多模态大模型的研发能力,更重要的是,公司将着力瞄准多模态大模型驱动的 AI 产品研发,给用户带来更加智能,更加好用的人工智能产品。」

使用生成式AI帮助金融分析师进行研究的西雅图初创公司Finpilot获得400万美元融资

www.geekwire.com/2024/finpil…

西雅图初创公司Finpilot在由Madrona领投的投资轮中筹集了400万美元。Finpilot旨在通过其“金融问题的ChatGPT”软件帮助金融分析师加快投资流程。该公司允许用户针对金融文件(如SEC文件、电话会议记录、研究报告等)提问,并立即获得答案,答案链接到原始来源以避免错误。首席执行官Lakshay Chauhan表示,这就像是为金融特定用例使用的ChatGPT。目前,该产品处于免费测试阶段,公司计划推出面向金融分析师的自助服务商业模式,并很快推出企业版。Finpilot计划支持自动化分析师其他工作流程的其他功能,如生成报告、比较公司、分析趋势数据以及从图表和文本中提取特定部分数据。

体验地址:www.finpilotai.com/

学习

浅谈 Sora 未来的百倍推理算力需求

zhuanlan.zhihu.com/p/683636677…

文章主要分析了Sora与GPT-4在算力需求方面的差异。文章指出Sora的训练算力需求不会超过GPT-4,大约是GPT-4的四分之一。然而,Sora的推理算力需求是GPT-4的100至1000倍之间。文章还讨论了Sora模型的大小估计、训练数据量和视频编码器的设计。此外,文中提到Sora模型复现的难度并不大,主要挑战在于算法和数据。最后,文章探讨了国产芯片在低功耗、大显存的LLM推理芯片设计方面的机遇,以及下一代LLM推理芯片的潜在发展。

《读《AI上国内团队好像被甩开了?差钱?差人?》有感》

zhuanlan.zhihu.com/p/683671286…

文章探讨了中国在人工智能领域的发展现状。作者通过个人经历,分析了中国与国际顶尖科研团队之间的差距,指出中国在AI领域的挑战不仅仅是资金和人才的问题。文章中提出,伯克利等国际知名学府的研究环境鼓励创新和自主探索,而中国的研究环境则更多地侧重于追随现有的成功模式。作者认为,要缩小与国际顶尖团队的差距,需要培养更多具有创新精神和独立思考能力的研究人员。此外,文章也强调了多样性和信仰在科研中的重要性,认为这是形成有效科研“场”的关键。最后,作者表达了对中国AI未来发展的乐观态度,并提出自己作为教育者的责任和目标。

c++有什么离谱的语法啊?

www.zhihu.com/question/64…

这个知乎页面讨论了C++中的一些不常见且技术上有趣的语法特性。包括了用于复杂条件表达式的三元运算符变体、在for循环中定义和实例化临时类型、模板参数中的union使用、将lambda转化成函数指针的加号运算符应用,以及利用空括号初始化数组成员变量。此外,还涉及了使用模板实现位域,以及一些看似定义变量实际上声明函数的语法。这些讨论展示了C++语言的灵活性和深度,同时也揭示了其中的复杂性。

基于扩散的生成模型架构理论综述

zhuanlan.zhihu.com/p/683813264…

文章探讨了生成建模技术的两大类:基于似然的模型和隐式生成模型。基于似然的模型直接学习概率分布,包括自回归模型、归一化流动模型等,而隐式生成模型如GAN通过模型隐式表示概率分布。文章指出,这两种方法都有局限性,提出了一种新方法:对数概率密度函数的梯度建模,即基于分数的模型。该模型通过分数匹配学习,不需要可处理的归一化常数。文章主要集中于扩散生成模型的介绍,包括DPMs、基于分数模型、SDE等。通过历史故事回溯,文章探讨了生成问题的数学模型抽象、求解优化改进,及不同类扩散生成算法的学科分类。

大模型工具学习范式实践

mp.weixin.qq.com/s/Y2mppYfhs…

本文介绍了大模型工具学习范式,强调了大模型在复杂场景下解决问题的潜力。清华大学的研究成果包括开源的WebCPM(基于交互式网页搜索的中文问答框架)、BMTools(工具学习平台)和AgentVerse(多Agent协同执行任务工具包)。文章讨论了工具学习背景、框架、应用,并提供了问答环节。技术亮点包括意图理解、工具理解、规划与推理、训练策略,以及如何通过Prompt Learning让大模型使用工具。

开源世界的学术问题

mp.weixin.qq.com/s/w9_iYotd6…

本文探讨了开源世界的学术问题,回顾了自由软件运动的历史和文化背景,分析了开源与自由软件的区别,并提出了围绕开源的多个学术研究方向。文章强调了开源软件在软件开发、供应链、数据分析、标准制定、法律知识产权、经济学、商业战略、生态学、社会学和跨学科研究中的重要性和影响。作者呼吁建立跨学科团队,共同研究开源现象,以指导政策制定、企业战略和社区运营。

声明

本文档仅供学习交流使用,版权归原作者所有,若涉侵权,请联系Jack Jin 1510113616

c2f7fb308ead0bffd97b25734ceb4d4.jpg