资讯
研究
苹果大模型MM1杀入场:300亿参数、多模态、MoE架构,超半数作者是华人
今年以来,苹果显然已经加大了对生成式人工智能(GenAI)的重视和投入。此前在 2024 苹果股东大会上,苹果 CEO 蒂姆・库克表示,今年将在 GenAI 领域实现重大进展。此外,苹果宣布放弃 10 年之久的造车项目之后,一部分造车团队成员也开始转向 GenAI。如此种种,苹果向外界传达了加注 GenAI 的决心。目前多模态领域的 GenAI 技术和产品非常火爆,尤以 OpenAI 的 Sora 为代表,苹果当然也想要在该领域有所建树。今日,在一篇由多位作者署名的论文《MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training》中,苹果正式公布自家的多模态大模型研究成果 —— 这是一个具有高达 30B 参数的多模态 LLM 系列。
提升生成式零样本学习能力,视觉增强动态语义原型方法入选CVPR 2024
在现有的生成式零样本学习方法中,生成器在被训练和使用时,都是以高斯噪声和类别整体的语义描述为条件的,这限制了生成器只能针对整个类别进行优化,而不是描述每个样本实例,所以难以准确反映真实样本视觉特征的分布,导致模型的泛化性能较差。另外,已见类与未见类所共享的数据集视觉信息,即域知识,也没有在生成器的训练过程中被充分利用,限制了知识从已见类到未见类的迁移。为了解决这些问题,华中科技大学研究生与阿里巴巴旗下银泰商业集团的技术专家提出了视觉增强的动态语义原型方法(称为 VADS),将已见类的视觉特征更充分地引入到语义条件中,推动生成器学习准确的语义 - 视觉映射,研究论文《Visual-Augmented Dynamic Semantic Prototype for Generative Zero-Shot Learning》已被计算机视觉顶级国际学术会议 CVPR 2024 接收。
18个月,开创AI药研先例,Insilico公开其首款AI药物研发全过程,登Nature子刊
去年 6 月,Insilico Medicine 宣布全球首款 AI 设计的药物 INS018_055 进入 II 期临床试验,首批患者给药。近日,Insilico在《Nature Biotechnology发表题为《A small-molecule TNIK inhibitor targets fibrosis in preclinical and clinical models的文章,重点介绍了其声称的第一个 AI 生成和发现的药物 INS018_055 的整个历程。Insilico 创始人兼首席执行官 Alex Zhavoronkov表示:「INS018_055 的进展是我们端到端 AI 驱动的药物发现平台 Pharma.AI 的概念验证,同时也为生成式 AI 加速药物发现的潜力树立了先例。」
产业
海尔联合乐聚展出人形机器人“夸父”:支持洗衣、浇花等操作,搭载开源鸿蒙
3 月 14 日至 16 日,海尔机器人、乐聚机器人在 2024 年中国家电及消费电子博览会(简称:AWE)联合展出了国内首款面向家庭场景的人形机器人 ——Kuavo(夸父)。Kuavo(夸父)作为国内首款可跳跃、可适应多地形行走的开源 鸿蒙 人形机器人,在 AWE 展会现场除了展示其跳跃、快走等控制性能,还展示了洗衣、浇花、插花、晾衣服等近期学习的手部操作成果。
Sora竟是用这些数据训练的?OpenAI CTO坦白惹众怒
OpenAI 首席技术官 Mira Murati 接受了华尔街日报科技专栏作家 Joanna Stern 的采访。她在谈到 Sora 何时推出时,透露道 Sora 将于今年推出,大家可能要等几个月,一切都取决于红队的进展情况。OpenAI 还计划在 Sora 中加入音频生成的功能,让视频生成效果更加逼真。接下来,他们也会继续优化 Sora,包括帧与帧之间连贯性、产品的易用性以及成本。OpenAI 也希望添加用户编辑 Sora 生成视频的功能。毕竟 AI 工具的成果并不是百分百准确。如果用户能够在 Sora 的基础上进行再创作,想必会有更好的视频效果和更准确的内容表达。
OpenAI 官文泄露,GPT-4.5 turbo 或在 7 月发布!文本长度提高一倍至 256k
3 月 14 日,OpenAI () 似乎无意中发布了一篇关于新模型的博客文章,随后该文章被搜索引擎 Bing 和 DuckDuckGo编入索引。有 Reddit 网友注意到一篇简短索引的博客文章提到了 GPT-4.5 Turbo 模型。虽然该页面已被删除并抛出 404 错误,但缓存的描述暗示该模型与其前身 GPT-4 Turbo 相比具有卓越的速度、准确性和可扩展性。泄露内容提到了 2024 年 6 月的“知识截止”。“知识截止”的描述是指模型将停止接受信息训练的日期。或许这是拼写错误,又或是 GPT-4.5 Turbo 会在 7 月/8 月发布;就上下文而言,当前的 GPT-4 Turbo 模型的知识截止日期为 2023 年 4 月。另一个关键信息是提到了 256k 上下文窗口,在 GPT-4 Turbo 128k 容量基础上增加了一倍,这可能是 OpenAI 对大型上下文窗口日益增长的趋势的回应,特别是在 Google 最近凭借其 AI 模型 Gemini取得进展之后。
海信发布电视行业自研星海大模型 并推出旗舰新品
“海信视像 AI美好生活”全场景显示新品发布会上,海信正式发布了自研星海大模型,这也是目前电视行业最强中文大模型。在AI的加持下,海信推出全新ULED X全场景AI计算画质平台和多款旗舰新品。2011年,海信电视发布了智能化战略。在全新AI+时代,海信电视围绕“AI+显示”、“AI+体验”、“AI+场景”三大核心开启加速电视AI进程,让用户能够“用最简单的交流获得最想要的内容与服务”。
推特
LeCun反驳马斯克“AI在明年就会比任何一个人类更聪明”观点:不是这样的,现在AI系统还像孩子
马斯克:
AI 可能在明年就会比任何一个人类更聪明。到2029年,AI 可能比所有人类加起来还要聪明。
LeCun饮用:
不是这样的。如果真是这样,我们现在就会有AI系统能像任何17岁的孩子一样,通过20个小时的练习就能自学开车。但是我们现在仍然没有完全自主、可靠的自动驾驶,尽管我们(你)有数百万小时的_带标签的_训练数据。
LeCun:当我们拥有具备以下能力的系统时,我们将更接近人类水平的人工智能
当我们拥有具备以下能力的系统时,我们将更接近人类水平的人工智能:
- 理解物理世界
- 恰当地记忆和检索
- 推理
- 设定子目标并进行分层规划
但即使我们拥有了具备此类能力的系统,也需要一段时间才能将它们提升到人类或超人的水平。
引用
Christopher Manning:
一个系统从一次事件中获得记忆,在约束条件下制定新颖的计划,理解环境变化的影响,并对新情况进行推理——而不会经常出现愚蠢的失误,表明幕后并没有真正的世界模型和推理能力。
开源CopilotKit:将AI集成到你的React应用程序中
将AI集成到你的React应用程序中非常简单:CopilotKit。给他们的仓库点星:github.com/CopilotKit/… CopilotKit将获取你的应用程序上下文,并将其输入到他们的React基础设施中,以构建:
- 应用内AI聊天机器人
- 支持AI的文本区域
- RAG、函数调用和集成
我录制了一段视频,向你展示实现这一点有多么简单。只需几行代码,你就可以投入使用。这里是示例应用程序的链接:github.com/CopilotKit/…
CopilotKit是开源的。你可以自己托管它。你可以将它与任何LLM一起使用,包括GPT-4。这个项目在HackerNews和ProductHunt上排名第二。它在GitHub上很受欢迎。感谢该团队向我展示他们的工具,并与我合作完成这篇文章!
使用 LangGraph.js 和 Claude 3 构建 Google 的 Dramatron
🎭 使用 LangGraph.js 和 Claude 3 构建 Google 的 Dramatron
我们刚刚发布了一个新的长篇(1.5小时!!)YouTube视频,演示如何使用 LangGraphJS 和 @AnthropicAI 的新长上下文、超快速 Claude 3 "Haiku" 构建 @GoogleDeepMind 的 Dramatron!
"Dramaton"是去年Google发表的一篇关于创作完整戏剧的论文。它涉及到使用多个不同的提示和多个不同的分支进行复杂的链式操作。
这非常适合 LangGraph.js,它允许你创建非常复杂的流程。它也非常适合 Anthropic 的新模型 Claude 2"Haiku"!由于有如此多的 LLM 调用,速度至关重要,而"Haiku"在这方面表现出色!
点击下面的链接,观看 @BraceSproul 的完整教程,了解使用 TypeScript 生成完整、连贯的戏剧所需的一切:
AgentCoder:类似Devin,在 HumanEval 上达到 96.3%
AgentCoder 是一篇研究论文,与 Devin 非常相似!
像 Claude Opus 这样的原始 LLM 在 HumanEval(一项编码能力测试)中达到 84.9%,GPT-4 达到 81.7%。
AgentCoder 具有:
— 思维链
— 终端访问
— 测试生成
— 错误反馈
并在 HumanEval 上达到 96.3%!
Santiago总结Github上AI趋势:845个具有至少500个星标的生成式AI仓库
我浏览了GitHub上最受欢迎的AI仓库,对它们进行了分类,并研究了它们的增长轨迹。以下是一些发现:
- GitHub上有845个具有至少500个星标的生成式AI仓库。它们由超过20,000名开发人员的贡献构建而成,提交了近100万次。
- 我将AI技术栈分为四层:应用层、应用开发层、模型开发层和基础设施层。2023年,应用层和应用开发层的增长最为显著。基础设施层保持相对稳定。增长最快的类别包括AI界面、推理优化和提示工程。
- 该领域在2022年末爆发,但自2023年9月以来似乎已经平静下来。
- 虽然大公司仍然主导着这一领域,但由个人主导的大规模流行软件正在兴起。有人推测,不久将会出现市值10亿美元的一人公司。
- 中国的开源生态系统正在迅速发展。在拥有最受欢迎AI仓库的20个GitHub账户中,有6个来自中国,其中两个来自清华大学,两个来自上海人工智能实验室。
开放画布工作组:在ObsGynMD的 JSON 画布的基础上,努力建立一个强大的文件格式以实现无限画布工具之间的互操作性
宣布成立开放画布工作组(OCWG)。我们将在ObsGynMD 的 JSON 画布的基础上,努力建立一个强大的文件格式,以实现无限画布工具之间的互操作性。参与者:@tldraw、@excalidraw、@statelyai、@KinopioClub、@dxos_org 等。
论文
Griffon v2:通过高分辨率缩放和视觉-语言共指推进多模态感
摘要:大型视觉语言模型已经实现了细粒度对象感知,但图像分辨率的限制仍然是超越复杂和密集场景中任务专家性能的重要障碍。这种限制进一步限制了模型在诸如GUI智能体、计数等领域实现细微的视觉和语言指称的潜力。为了解决这个问题,我们引入了一个统一的高分辨率通用模型,Griffon v2,实现了灵活的对象指称,可以使用视觉和文本提示。为了高效地扩展图像分辨率,我们设计了一个简单且轻量级的下采样投影仪,以克服大型语言模型中输入令牌约束的限制。这种设计固有地保留了完整的上下文和细节,并显著提高了多模态知觉能力,特别是对于小对象。在此基础上,我们进一步通过一种即插即用的视觉分词器为模型配备了视觉-语言共指能力。它使用户可以与灵活的目标图像、自由文本甚至坐标进行友好的交互。实验表明,Griffon v2可以通过视觉和文本指称定位任何感兴趣的对象,在REC、短语定位和REG任务上实现了最先进的性能,并在目标检测和物体计数方面优于专家模型。数据、代码和模型将在github.com/jefferyZhan…
3D-VLA:3D 视觉-语言-动作 生成世界模型
最近的视觉-语言-行动(VLA)模型依赖于2D输入,缺乏与更广泛的3D物理世界的整合。此外,它们通过学习从感知到行动的直接映射来执行动作预测,忽视了世界的巨大动态及行动与动态之间的关系。相比之下,人类拥有能描绘未来情景想象以相应计划行动的世界模型。为此,我们提出了3D-VLA,通过引入一系列新的具身基础模型,无缝地链接3D感知、推理和行动,通过生成式世界模型。具体而言,3D-VLA建立在基于3D的大语言模型(LLM)之上,并引入了一组交互token来与具身环境互动。此外,为了将生成能力注入模型,我们训练了一系列具身扩散模型,并将它们与LLM对齐,以预测目标图像和点云。为了训练我们的3D-VLA,我们从现有机器人数据集中提取了大量的与3D相关信息,构建了大规模的3D具身指令数据集。我们在保留的数据集上的实验表明,3D-VLA显著提高了具身环境中的推理、多模态生成和规划能力,展示了其在实际应用中的潜力。
MM1:多模态 LLM 预训练的方法、分析和洞见
在这项工作中,我们讨论了构建高性能的多模态大语言模型(MLLMs)。特别地,我们研究了各种架构组件和数据选择的重要性。通过对图像编码器、视觉语言连接器和各种预训练数据的仔细和全面的消融实验,我们确定了几个关键的设计经验。例如,我们证明了,在大规模多模态预训练中,使用图像标题、交织的图像文本和仅文本数据的谨慎混合对于在多个基准测试中实现最新的few-shot结果至关重要,相比其他已发表的预训练结果。此外,我们展示了图像编码器、图像分辨率和图像token数量对结果具有重大影响,而视觉语言连接器的设计相对不那么重要。通过扩展所提出的配方,我们构建了MM1,一个多模态模型家族,拥有高达30B参数,包括密集模型和专家混合(MoE)变体,它们在预训练指标上处于最新技术水平,并在一系列成熟的多模态基准测试上经过监督微调后表现出色。由于大规模预训练,MM1具有诸如增强的上下文学习和多图像推理等吸引人的特性,使得实现few-shot连贯思维提示成为可能。
使用WebSight数据集解锁将Web屏幕截图转换为 HTML 代码的能力
摘要:在Web开发中使用视觉语言模型(VLMs)是提高效率和解决无代码解决方案的有前途的策略:通过提供UI的截图或草图,VLM可以生成重现它的代码,比如HTML语言。尽管在各种任务中VLMs取得了进展,但将截图转换为相应的HTML的具体挑战却几乎没有被深入探讨。我们认为这主要是因为缺乏适合的高质量数据集。本文介绍了WebSight,一个由200万对HTML代码和对应截图组成的合成数据集。我们在我们的数据集上微调了一个基础VLM,并展示了将网页截图转换为功能性HTML代码的能力。为加速这一领域的研究,我们将WebSight开源。
动态 内存 压缩: 为加速推理改进LLM
Transformers已经成为大语言模型的骨干。然而,由于需要在内存中存储关键-值表示形式的缓存,以适应过去token的大小随输入序列长度和批处理大小线性增长的需要,生成仍然效率低下。作为解决方案,我们提出了动态内存压缩(DMC)方法,在推理时对关键-值缓存进行在线压缩。最重要的是,模型学会了在不同头部和层中应用不同的压缩率。我们将预训练的LLM(如Llama 2(7B、13B和70B))改进为DMC Transformer,对NVIDIA H100 GPU上的自回归推理实现了高达约3.7倍的吞吐量增加。DMC通过在原始数据中继续预训练的方式应用,而不添加任何额外参数。我们发现,在高达4倍缓存压缩的情况下,DMC不会影响原始下游性能,优于up-trained grouped-query attention(GQA)。GQA和DMC甚至可结合以获得更大的收益。因此,DMC适合在任何给定的内存预算内适应更长的上下文和更大的批处理。
Video Mamba Suite:状态空间模型作为视频理解的多功能替代方案
理解视频是计算机视觉研究中基本方向之一,人们已经付出了大量努力探索各种架构,如RNN、3D CNN和Transformer。新提出的状态空间模型架构(如Mamba),展示了延伸其在长序列建模上的成功到视频建模的潜力。本文通过全面研究,探究Mamba在建模视频中的作用,调查Mamba可能展示优势的各种任务。我们将Mamba归类为四种视频建模角色,构建了包含14个模型/模块的视频Mamba套件,并在12个视频理解任务上进行评估。我们的广泛实验揭示了Mamba在仅视频和视频-语言任务上的潜力,同时展示了有希望的效率-性能权衡。希望这项工作能为未来研究视频理解提供宝贵的数据和见解。源代码公开于:github.com/OpenGVLab/v….
产品
AI Ideal Customer Profile
M1-Project 用于创建用户的理想客户档案。它帮助用户了解客户的要求、问题以及痛点等信息,并提供至少 20 个可以找到理想客户的地方,如社交媒体群组、网站和通讯等。通过输入产品描述,就可以找到需要产品的受众,发掘他们经常使用的网站等,并为用户提供一份现成的理想客户资料。
Synthflow
Synthflow 是一个可让用户部署响应速度超快的语音 Agents 的无代码平台,实现轻松处理复杂的客户服务。
Fine
Fine 可以更好的协助开发人员完成工作。用户可以将任务分配给 AI Agent,然后由 Agent 自行编写代码并打开一个 PR(Pull Request),用户可以对 PR 进行评论提出意见,Agent 将会进一步修改,就像一个任务伙伴一样协助用户的工作。
HuggingFace&Github
MetaGPT
更新了基于大型语言模型(LLM)的智能体在数据科学场景中的有效性的内容,并介绍了一种名为Data Interpreter的解决方案。Data Interpreter强调了三种关键技术:具有分层图结构的动态规划、动态集成工具和反馈中的逻辑不一致识别。Data Interpreter在各种数据科学和实际任务上表现出卓越性能,特别是在机器学习任务中,性能有显着改进。具体来说,在机器学习任务中,性能从0.86提高到0.95,在MATH数据集上增加了26%,开放式任务提高了112%。
DeepSeek-VL
DeepSeek-VL 是一种专为真实世界视觉和语言理解应用而设计的开源视觉语言 (VL) 模型。DeepSeek-VL具有通用的多模态理解能力,能够在复杂场景下处理逻辑图、网页、公式识别、科学文献、自然图像和具身智能等。
Data-Science-Gen-AI-Playlist-2024
这个库汇总了面向初学者有关机器学习、深度学习和 NLP 项目的学习视频。
投融资
Big Sur AI筹集690万美元并推出电子商务商家的AI销售代理
www.businesswire.com/news/home/2…
Big Sur AI,一家面向电子商务的AI平台,宣布完成690万美元种子轮融资,旨在为零售商和品牌简化和普及AI技术的接入。此轮融资由Lightspeed Venture Partners领投,Capital F和多位天使投资人参投。Big Sur AI同时推出旗舰产品——AI销售代理,为网上购物者在商家网站上提供增强的产品发现和辅助购物体验。该公司致力于让每个商家都能轻松享受到AI转型带来的好处。AI销售代理产品现已向所有Shopify平台的商家开放。
9家AI创业公司今日融资超2.6亿美元,涵盖护肤应用领域
据Chief AI Officer在X平台(前Twitter)的消息,今日共有9家AI创业公司宣布融资,总额超过2.6亿美元,其中包括一款针对护肤的AI应用。这次融资活动不仅展示了AI行业的热度,也反映了投资者对于AI技术在多个细分领域应用潜力的认可。特别是在个人护理与美容领域,AI技术的应用开始受到更多关注。此次融资事件是对AI创新公司及其技术潜力的一大肯定,同时也预示着AI技术在不同行业的广泛应用前景。
学习
LLM推理阶段,低端低带宽芯片部署策略为什么不首选pipeline parallelism?
页面讨论了低端低带宽芯片在LLM推理阶段部署策略中,为什么不首选pipeline parallelism。主要原因是虽然pipeline parallelism能显著提高Throughput,降低成本,但它会增加Latency,影响用户体验。每个query需要多次卡间传输,这些传输是串行的,无法通过批处理掩盖。因此,尽管pipeline parallelism在理论上看起来有优势,实际部署时需考虑对用户体验的影响。
Diffusion Model + RL 系列技术科普博客(9):透过 Diffusion Transformer 探索生成式模型的技术演进
zhuanlan.zhihu.com/p/686979830
本文探讨了生成式模型技术的演进,特别是基于Transformer架构的扩散模型在图像和视频生成领域的应用。文章通过论文《SiT: Exploring Flow and Diffusion-based Generative Models with Scalable Interpolant Transformers》总结了扩散模型的技术演进,包括理论框架、训练方式、网络设计、采样方式等方面的新进展,并分析了各项背后的数学原理。特别强调了扩散模型在连续时间建模、扩散过程类型、训练方式等方面的创新,展现了生成式模型在模拟和生成复杂数据分布方面的强大能力。
LoRA及其变体概述:LoRA, DoRA, AdaLoRA, Delta-LoRA
本文介绍了LoRA(低秩自适应)及其变体技术,这些技术用于高效训练大型语言模型(LLM)。LoRA通过引入两个小矩阵A和B来减少训练参数,从而降低资源消耗。文章还探讨了LoRA+、VeRA、LoRA-FA、LoRA-drop、AdaLoRA、DoRA和Delta-LoRA等变体,它们通过不同方式优化了原始LoRA方法,如调整学习率、使用随机权重矩阵、冻结矩阵、基于重要性剪枝参数等,以提高模型性能和训练效率。这些技术在减少参数数量的同时,力求保持或接近完全微调的性能。
如何评价Meta最新的推荐算法论文:统一的生成式推荐第一次打败了分层架构的深度推荐系统?
Meta的最新推荐算法论文提出了一种统一的生成式推荐系统,该系统首次超越了分层架构的深度推荐系统。这项技术通过将用户画像、行为和目标信息整合到超长序列中,并结合多层Transformer进行建模,实现了更强的特征交叉能力和更充分的信息利用。此外,新模型引入了更丰富的用户行为信号和更强的序列建模能力,同时优化了在线推理和算力成本。论文还探讨了大型语言模型(LLM)的scaling law现象,以及在推荐系统中可能的算力和数据集规模的同步增长需求。
LLM推理加速(三):AWQ量化
zhuanlan.zhihu.com/p/685867596…
文章讨论了大型语言模型(LLM)的推理加速问题,特别是通过AWQ量化技术来减少模型权重文件的大小和显存占用。AWQ量化识别并保护了对模型效果贡献最大的1%的关键权重,通过激活分布来识别这些权重。为了减少量化误差,AWQ提出了先放大关键权重再进行量化的方法,并通过数学证明展示了这种方法的有效性。此外,AWQ还根据权重的激活幅值来调整放大系数,以进一步保护更重要的权重。这种方法有助于在保持模型性能的同时,提高推理效率。
声明
本文档仅供学习交流使用,版权归原作者所有,若涉侵权,请联系Jack Jin 15101136166