AGI 掘金视界周刊由 AGI 掘金知识库共建者战场小包维护,每周一更新,包含热点聚焦、应用破局、学术前沿、社区热议、智见交锋、跨界 AI、企业动态和争议 AI 八大板块,后续板块划分和内容撰写在周刊迭代过程中持续优化,欢迎大家提出。
欢迎大家来到《AGI 掘金视界周刊第五期》(08/12~08/18)。
✨ 热点聚焦
直播版 Deepfake 太恐怖!单张照片实时视频换脸,5 分钟安装不挑硬件
Deep-Live-Cam 项目通过 AI 技术实现单张照片实时换脸,无需专用硬件支持,安装简便,效果逼真。该技术在 GitHub 上迅速走红,引发网友热议。虽然为人工智能 media 行业带来便利,但也存在被滥用的风险。项目开发者提醒用户注意道德使用,并建议在使用真人面孔时征得同意。同时,AI 换脸技术的应用也引起了社会对真假难辨的担忧,呼吁开发深度伪造检测工具以应对潜在风险。
Nature 曝惊人内幕:论文被天价卖出喂 AI!出版商狂赚上亿,作者 0 收入
Nature 杂志披露,学术出版商如 Taylor & Francis 和 Wiley 通过向科技公司出售论文数据赚取巨额利润,而论文作者却未获任何回报。学术论文成为训练 AI 模型的宝贵数据源,但版权争议和作者权益问题随之浮现。尽管存在技术手段尝试识别论文是否被用于 AI 训练,但证明难度极高。同时,多模态数据集的构建,如利用 arXiv 论文中的图文,为 AI 模型提供了新的训练资源,提升了模型在特定领域的能力。
ChatGPT 狂飙 600 多天后,中国有近 8 万家 AI 公司消失
自 ChatGPT 发布以来,中国 AI 领域经历了企业数量的激增,但随之而来的是大量企业的注销或吊销。据统计,近 8 万家 AI 公司已消失,占新注册企业总量的 8.9%。这一现象背后是算力成本高、研发投入大、盈利能力不足等挑战。同时,市场融资遇冷,中美大模型技术差距及应用优化问题也成为行业关注的焦点。
Llama 8B 通过搜索提升性能,超越 GPT-4o!新「Scaling Law」诞生?
最新研究表明,通过搜索技术,参数量仅 8B 的 Llama 3.1 模型在 Python 代码生成任务上实现了对 GPT-4o 性能的追赶甚至超越。这项发现基于强化学习先驱 Rich Sutton 的 Scaling Law 理念,强调了学习和搜索在 AI 发展中的重要性。实验通过 100 次搜索,Llama 3.1 在 HumanEval 基准测试中的 pass@k 分数显著提升,特别是在 k 为 1000 时,性能优于 GPT-4o。这表明,在推理阶段通过搜索方法增强,即使是较小的模型也能以可预测的方式胜过大型模型。搜索方法的强大之处在于其可随着计算量的增加进行透明扩展,有助于实现资源的进一步平衡。
世界最强智能体 Agent Q 发布:较 LLama 3 性能提升了 340%
MultiOn AI 公司推出 Agent Q,一款性能超越 LLama 3 的下一代 AI 代理。Agent Q 具备自我监督和自我修复能力,通过自我对弈和互联网强化学习实现自我提升。它利用树搜索和评价模型优化行动策略,使用零样本视觉语言模型进行结果验证。Agent Q 在模拟和现实应用中表现出色,尤其在在线预订任务中,零样本性能显著提升,显示出其在复杂环境中的卓越能力。研究还探讨了模型微调和搜索方法的改进,以及安全性和用户参与的重要性。
爆火毒舌 AI 每小时赚 2.8 万!每分钟 36 个新用户,火遍全球只因改了一句提示词
一款名为“毒舌 AI”的 Twitter 应用通过犀利点评用户历史发言迅速走红,实现每小时 2.8 万元的收入。该应用基于 Wordware 低代码平台构建,无需高深技术即可创建复杂 AI 应用。开发者 Kyzo 开源了所有代码和提示词,鼓励二次开发。用户增长导致成本压力,团队不得不开启付费墙并动态调整价格策略。Wordware 平台的易用性和灵活性,加上 AI 的强大功能,使得这款应用在短时间内吸引了全球用户的关注,并在日本市场尤为成功。
OpenAI 首席战略官 Jason Kwon:不会一夜之间突然发布一个“包罗万象”的 AI
OpenAI 首席战略官 Jason Kwon 在接受采访时表示,通用人工智能(AGI)可能在几年内实现,但不会突然全面推出以避免社会冲击。他强调,尽管技术进步迅速,但需要谨慎管理以防止负面后果。Kwon 认为企业应准备应对 AGI 的潜在威胁,并主张 AI 应受到监管。
📲 应用破局
业界首个、开箱即用,华为 AI 训推全流程工具链 ModelEngine 亮相
华为在 2024 全球开源技术峰会上展示了 ModelEngine,这是业界首个开箱即用的 AI 训推全流程工具链。ModelEngine 集成了 AI 流式编程框架,为数据处理工程师、模型工程师和应用开发者提供一站式 AI 开发体验。它支持开放的数据处理算子、主流模型和应用算子,大幅缩短了语料生成时间,帮助开发者快速构建 AI 应用,并支持 LangChain、LlamaIndex 等插件,保护现有 AI 资产。
成本降低 90%!Claude 上新 Gemini 同款提示词缓存,一次性记住整个代码库
Claude 新功能允许 API 一次性记忆整本书或代码库,显著降低处理长文本的延时和成本。该技术通过提示词缓存,减少重复输入,提高效率。谷歌 Gemini 和国内 Kimi、DeepSeek 团队已先行采用。缓存有效期限五分钟,但可重置。应用场景包括对话、代码助理、文档处理等,成本节约高达 90%。定价策略中,写入和读取价格独立,随缓存使用次数增加,成本优势更明显。此更新对开发者是重大利好,预示着大模型厂商可能的新标配。
没有等来 OpenAI 开源 GPT-4o,等来了开源版 VITA
腾讯优图实验室等机构研究者推出首个开源多模态大语言模型 VITA,能处理视频、图像、文本和音频。基于 Mixtral 8×7B,扩展汉语词汇量并进行双语微调,通过多任务学习赋予视觉和音频能力。VITA 在多语言、视觉和音频理解上表现卓越,提升了自然多模态人机交互体验,采用复式部署,实现环境输入跟踪和用户查询响应,为开源社区在多模态理解和交互领域提供重要贡献。
马斯克突发新版大模型,牺牲特斯拉资源叫板 OpenAI,Grok-2 一手实测来了
Elon Musk 的 xAI 公司推出了 Grok-2 大模型,其测试版 Grok-2 mini 已在 𝕏 平台上线。Grok-2 在多个领域表现出色,尤其在视觉数学推理方面达到 SOTA 水平。该模型能访问实时数据,进行新闻总结和趣味吐槽,还能接入 AI 生图模型 Flux.1。尽管 Grok-2 性能显著,马斯克从特斯拉转移资源至 xAI 引发股东不满,目前相关案件正在审理中。
开源 AI 视频工具,你只需要当导演,HuggingFace 工程师打造
Clapper 是一款由 HuggingFace 工程师 Julian Bilcke 开发的开源 AI 视频编辑工具,旨在简化视频制作流程。用户无需视频编辑或 AI 工程技能,通过调整角色、场景等高级概念,利用 AI Agent 迭代故事。内置大模型如 GPT-4o 和 Claude 3.5,实现从文本到视频的自动转换。Clapper 提供了导演模式,允许用户通过命令控制 AI 制作电影。尽管功能强大,但视频效果仍有改进空间,如动作不自然和配乐质量。Clapper 在 GitHub 上获得 1100+ Star,为传统视频编辑软件提供了 AI 集成的新思路。
快手推出“飞船”App:基于“快意”AI 模型,主打虚拟陪伴
快手最新发布了基于自研"快意"AI 模型的"飞船"App,主打个性化虚拟陪伴。用户可以与 AI 助手进行自然语言对话,解答疑问,获取娱乐和创作灵感。App 支持创建和定制专属 AI 角色,提供内容创作辅助和高度定制化功能,同时具备语音交互能力,旨在提升用户的生活质量和工作效率。
情侣合照逼真到恐怖,竟被代码识出破绽?沃顿教授预言 AI 18 个月封神!
AI 生图工具 Flux 以其逼真的图像生成能力迅速走红,引发全网关注。该工具能够生成几乎无法辨认真伪的情侣合照,展示了 AI 在图像、视频和声音合成方面的巨大进步。开源模型的可玩性为二创、广告、教学等领域提供了新的可能性。沃顿商学院的 AI 教授预言,AI 将在 18 个月内完成重大进化,届时实时生成的 AI 朋友或治疗师将成为现实。同时,技术的发展也带来了对真伪辨识的挑战,前谷歌搜索创始人之一提出了通过提高图像饱和度来识别 AI 生成图像的方法。
VideoDoodles:手绘涂鸦动画与视频无缝融合的 AI 神器
Adobe 与大学合作开发的 AI 工具 VideoDoodles,允许用户在视频中轻松添加手绘动画并实现无缝融合。该工具通过预处理视频、平面画布绘制、跟踪算法和 3D 位置跟踪,简化了动画制作过程。用户只需在关键帧上绘制,系统便自动生成动画,解决了透视和遮挡问题。实验显示,VideoDoodles 在跟踪准确性和用户满意度上优于现有方法,同时提供了易于使用的界面和高效的创作流程,适用于多种视频创作场景。尽管存在平面画布限制和方向跟踪改进空间,VideoDoodles 展现了强大的创作潜力和用户友好性。
OpenAI「草莓」提前曝光?ChatGPT 版搜索引擎惊现神秘模型
OpenAI 的「草莓」项目备受关注,尽管具体细节尚未公开,但其竞争对手 Perplexity AI 已展示具备类似「草莓」能力的新模型。Perplexity AI 的 CEO Aravind Srinivas 通过在线演示展示了其 AI 的逐步思考能力,如成功解答「草莓覆盖火星」的问题。Perplexity AI 的月度收入和使用量自年初以来增长了 7 倍,目前已完成 2.5 亿美元的新一轮融资,其商业模式正从订阅转向广告,与谷歌等展开竞争。尽管 AI 生成错误信息的风险存在,但 Perplexity AI 正努力提高 AI 的可靠性,以适应主流使用。
⏳ 社区热议
笑死!马斯克成 Grok2 最大受害者,恶搞图满天飞
Grok 2.0 AI 模型上线引发网络恶搞热潮,马斯克成为焦点。用户通过模型生成了各种荒诞不经的马斯克形象,包括与名人互动的虚构场景。Grok 2.0 的逼真 AI 生图功能由 Flux.1 提供支持,与 Stable Diffusion 同源。模型虽设安全限制,但版权和敏感内容问题仍存。科技媒体和网友对 Grok 未来表示担忧,同时对其性价比和会员功能表示认可。
国产版毒舌 AI 上线!雷军意外躺枪,体验后我破防了
一款国产毒舌 AI 上线,以其犀利的言辞在微博引发广泛关注。AI 不仅对微博大 V 进行疯狂 diss,连雷军也意外成为其调侃对象。该 AI 能够全面分析人的优点和缺点,甚至涉及情感和事业,其幽默且尖锐的评论让人破防。体验地址已提供,用户可亲自感受这款 AI 的独特魅力。
🎏 智见交锋
联想杨元庆:AI 绝不是泡沫,不要千军万马走一个独木桥
联想集团董事长杨元庆坚信 AI 技术非泡沫,看好其在各行业的应用前景。联想通过发展混合智能,结合公共与私有 AI,实现业务增长。2024/25 财年首季营收和净利润均大幅增长,AI PC 市场潜力巨大,智能手机业务在亚太、欧洲-中东-非洲地区增长强劲。联想在云基础设施领域也取得显著进展,积极推动 AI 在企业级应用中的落地。尽管面临研发和库存挑战,联想保持技术领先,杨元庆对 AI 未来充满期待,预言个人用户将拥有"AI 代理"或"AI 双胞胎"。
硅谷知名投资人 Elad Gil 最新洞察:开源若追上闭源,将显著改变 AI 寡头垄断格局
硅谷知名科技投资人 Elad Gil 预测,未来几年 AI 领域将形成由几家巨头公司主导的寡头垄断局面。然而,开源模型如 Meta 的 LlaMA 若能迎头赶上,可能会引发行业变革,经济价值将由闭源提供商转移至云服务商。Gil 认为,随着大型语言模型的迭代,AI 能力将大幅提升,为医疗、教育等领域带来新的市场机会。同时,他探讨了社会进步、创新加速以及 AI 对人类社会的深远影响。
大模型开闭源之争,争的是什么?
中美 AI 产业围绕大模型开源与闭源的争论激烈。开源模型以社区贡献促进技术迭代,而闭源模型则以商业化和性能优势为卖点。企业如百度、OpenAI 倾向于闭源以快速商业化,而阿里云、Meta 选择开源以扩大市场。开源与闭源各有市场定位,长期共存。开源模型虽免费但需自行调整,闭源模型提供成熟服务但需付费。性能是成本的决定因素,闭源模型长期看可能更具成本效益。企业客户更关注效果、性能、价格和安全,而非单一的开源或闭源属性。未来市场将见证开源与闭源模型的持续竞争与共存。
扎克伯格最新创业分享:下一代大公司将建立在开源 AI 基础上
扎克伯格在 SPC 黑客松活动中预言,下一代大公司将基于开源 AI 建立。他强调了 AR 眼镜和 VR 头盔作为未来计算平台的重要性,并预计这些设备将在 10 至 15 年内普及。在创业方面,他分享了如何应对情绪起伏和团队早期文化建设的重要性。扎克伯格还提到,Meta 的顶级产品经理都是通过转岗成长起来的,反映了公司文化和个人关系的深远影响。此外,他个人通过参与 MMA 和冲浪等运动来管理压力,强调了运动与工作之间的平衡。
比尔盖茨:AI 行业倍数并没有像互联网泡沫时期夸张,而且所展现的增长是真实的
比尔·盖茨在访谈中强调 AI 行业增长的真实性,与互联网泡沫时期不同,AI 技术在能源转型和气候解决方案中扮演关键角色。他认为 AI 对电力需求的增加远低于其他行业,且可通过提高效率减少能源消耗。盖茨指出,尽管全球在实现净零排放目标上有所滞后,但对逆转气候变化的前景保持乐观,认为技术创新和政策支持是关键。他还提到,尽管碳捕获技术重要,但成本需降至每吨 100 美元以下才具竞争力。盖茨对气候技术投资表示乐观,认为资本和市场对绿色技术的需求日益增长。
🎯 争议 AI
警惕!AI 生成的假马斯克成网络诈骗新宠
随着 AI 技术发展,深度伪造技术被用于网络诈骗,尤其是伪造埃隆·马斯克的视频,误导投资者造成重大损失。82 岁退休老人史蒂夫·比彻姆因观看伪造视频损失 69 万美元。社交媒体成为传播重灾区,监管难度加大。用户需提高警惕,核实信息真实性,避免成为诈骗目标。平台加强监管,用户提高自我保护意识,共同抵御诈骗威胁。
Apple Intelligence 存重大安全缺陷,几行代码即可攻破!Karpathy 发文提醒
Apple Intelligence 在 Beta 测试中被发现存在重大安全缺陷,开发人员 Evan Zhou 通过提示注入攻击成功操纵了 AI 系统,绕过了预期指令。这种攻击方式可导致数据泄露、生成恶意内容。技术安全专家 Bruce Schneier 指出,问题源于数据和控制路径未分离。Andrej Karpathy 也指出了类似 SQL 注入的漏洞,建议通过编程显式添加特殊 token 以增强安全性。
集体诉讼已受理:艺术家指控 Stability AI、Midjourney 等公司侵犯版权
美国地方法院已批准多名艺术家对 Stability AI、Midjourney 等 AI 公司的集体诉讼继续进行,原告指控这些公司非法使用他们的版权作品来训练 AI。法官威廉·奥里克批准了对 Stability AI 的诱导性版权侵权索赔,同时受理了对 DeviantArt 和 Runway AI 的版权索赔,以及对 Midjourney 的版权和商标侵权索赔。不过,法官驳回了关于 AI 生成器违反《数字千年版权法》和 DeviantArt 违反服务条款的指控。涉及 4700 名艺术家的 Midjourney 案件中,原告认为公司存在误导内容,未经同意使用其作品。
加州要亲手扼杀 AI 创新?硅谷吵翻了天
加利福尼亚州议会提出的《前沿人工智能模型安全可靠创新法》(SB 1047)在硅谷引发激烈讨论。泰斗级专家如杰弗里·辛顿和约书亚·本吉奥支持监管以避免 AI 风险,而李飞飞和吴恩达等学者则担心过度监管会扼杀创新。法案要求 AI 公司进行安全测试并实施措施以降低风险,但遭到硅谷 AI 公司和创投行业的反对,担忧法案会导致公司搬迁,损害加州经济。尽管存在争议,法案在加州立法通过的可能性增大。
微软 Copilot AI 被指控可被黑客操纵,轻松窃取企业机密
微软的 Copilot AI,一款以深度学习技术辅助企业分析决策的工具,近期被曝光存在设计缺陷,可能被黑客操纵以窃取敏感信息。安全专家发现,通过社会工程学手段,Copilot AI 可能泄露关键数据。微软对此迅速回应,承诺进行全面安全审查并加强防护措施,同时呼吁企业提升网络安全意识,共同构建安全的 AI 环境。
🛶 跨界 AI
共情能力导诊大模型:有望用于术前谈话,减少医患冲突
中国医学科学院基础医学研究所团队研发的导诊大模型“特定场景提示增强对话机器人”通过临床试验,该模型结合真实医患对话构建,具备专业性和共情能力。在前瞻性随机对照试验中,该模型在事实性、安全性、共情能力上均优于人类,能降低重复沟通和医患冲突比例。研究成果已在《自然医学》发表,标志着 AI 在医疗领域的应用迈出重要一步。
北大张铭团队开发 ActFound 模型,160 万数据训练,加速癌症药物研发
北京大学计算机学院张铭教授团队与华盛顿大学等合作,开发了生物活性基础模型 ActFound。该模型利用 160 万数据训练,采用成对学习和元学习技术,有效解决了生物活性预测中的兼容性和泛化问题。ActFound 在多个生物活性评测基准数据集上表现出色,可作为自由能微扰计算工具的替代方案。实验显示,ActFound 在先导小分子优化和癌症药物反应预测方面具有显著优势,大幅提高预测效率,为药物研发带来新动力。
全球首个 AI 流媒体音乐 App 来了!中国公司昆仑万维推出 Melodio
昆仑万维开发的 Melodio 是全球首个 AI 流媒体音乐 App,支持无限流式音乐生成,用户可通过 Prompt 定制音乐风格。App 界面简洁,提供歌曲参考模式和歌词查询功能。此外,昆仑万维还推出了 AI 音乐创作平台 Mureka,简化音乐创作流程,支持音乐二次创作和销售,具有创作证明。两款产品均基于昆仑万维的 Sora 架构,实现行业领先的音质和自然度。昆仑万维凭借 16 年出海经验,其 AI 音乐产品迅速打入海外市场,推动音乐创作民主化,为音乐爱好者和专业人士提供创作灵感和便利。
图森未来将打造《三体》系列动画长篇电影及视频游戏:正式进军生成式 AI 应用领域
自动驾驶公司图森未来宣布与上海三体动漫合作,开发《三体》系列动画电影和视频游戏。同时,图森未来成立新业务部门,正式进入生成式 AI 应用领域,利用自动驾驶技术积累,专注于媒体和游戏领域的 AI 应用。公司总裁吕程表示,这将推动新技术商业化,放大人类创造力,缩短内容开发周期。图森未来将继续推动自动驾驶技术商业化,重视亚太地区和全球市场。
🎮 企业动态
OpenAI 投的代码神器“叛变”了:Cursor 代码工具默认切换至 Claude,引发程序员热烈追捧
OpenAI 投资的代码工具 Cursor 将其默认模型更新为 Claude,尽管价格是 GitHub Copilot 的两倍,但因其强大的功能和便利性,如光标位置预测和多行编辑,以及跨文件编辑能力,获得了程序员的广泛好评。这一变化标志着 OpenAI 在代码生成领域的暂时失利,同时暗示了 Claude 在该领域的统治力。此外,Replit 等其他平台也开始集成 Claude,进一步证明了其影响力。
软银与英特尔合作失败!
软银原计划与英特尔合作开发 AI 芯片以挑战英伟达,但因英特尔未能满足产量和速度要求,合作失败。孙正义原计划投资数十亿美元,推动软银成为 AI 领域的中心。尽管合作未果,软银仍寻求其他合作伙伴,并继续向谷歌、Meta 等科技巨头推销其 AI 项目。英特尔近期宣布重大成本削减措施,包括裁员约 15000 人,占员工总数 15%,以实现 2025 年节约 100 亿美元的目标。
CMU 教授 Zico Kolter 空降 OpenAI 董事会,曾用一句话攻破 ChatGPT
卡内基梅隆大学教授兼机器学习系主任 Zico Kolter 成为 OpenAI 董事会成员,同时加入安全委员会。Kolter 在 AI 安全性和稳健性领域有显著贡献,其研究与 OpenAI 的安全工作高度契合。此前,Kolter 团队曾成功挑战 ChatGPT 的安全机制,展示了绕过现有保护措施的潜力。他的加入被看作是 OpenAI 在人工智能安全领域加强努力的标志。
📑 学术前沿
OpenAI 推出 SWE-bench Verified,更精准评估 AI 的代码能力
OpenAI 推出了 SWE-bench Verified,这是对现有 SWE-bench 软件工程评估套件的改进。新版本通过人工验证解决了原始套件中的一些问题,如单元测试过于具体和问题描述不明确,提高了评估 AI 模型解决现实世界软件问题能力的可靠性。SWE-bench Verified 包含 500 个经人工筛选的样本,使用容器化 Docker 环境简化评估过程。改进后的评估显示,AI 模型性能显著提升,更准确地反映了模型的代码能力。
香港大学发布组合性文生视频基准,7 大类 20 项指标,让 20 个大模型一决雌雄
香港大学推出 T2V-CompBench,一个全新的文生视频大模型评估基准,包含 7 大类 20 项指标,对 20 个主流视频生成模型进行全面测评。该基准测试首次引入“组合性”概念,通过 700 个文本提示覆盖不同视频生成挑战,旨在优化模型在复杂动态场景下的表现。研究显示,尽管技术进步显著,商业模型整体优于开源模型,但所有模型在动态属性绑定和生成数字等任务上仍面临挑战。
「AI 数据荒」雪上加霜!MIT:网页数据的公开共享正走向衰落
MIT 研究发现,随着网页数据共享政策收紧,开源数据集如 C4、RefineWeb 和 Dolma 所依赖的网站越来越多地限制数据获取。这不仅对商用 AI 模型训练产生影响,也阻碍了学术和非营利研究。研究指出,数据共享空间的限制激增,许可协议的不对称性和不一致性问题显著,同时网络数据与 AI 模型训练用途存在不匹配问题。预测显示,开放网络数据的限制趋势将持续,对 AI 领域造成长远影响。
我国科学家突破硅基闪存器件尺寸极限!
我国科学家在硅基闪存技术领域取得重大进展,首次实现 1Kb 纳秒超快闪存阵列集成验证,证明其超快特性可延伸至亚 10 纳米。该技术在 1Kb 存储规模下,非易失编程速度达到纳秒级,良率高达 98%,超出国际半导体技术标准。器件沟道最短达到 15 纳米,具备 20 纳秒超快编程能力、10 年数据保持和 10 万次循环寿命,推动了超快闪存技术的产业化发展。
30 行代码,500 万长文本推理提速 8 倍!「树注意力」让 GPU 越多省的越多
树注意力(Tree Attention)技术通过优化多 GPU 间的通信,显著提升了长文本推理性能。与传统环注意力相比,树注意力在设备数量增加时通信步数呈对数而非线性增长,实现高达 8 倍的推理速度提升。该技术基于谷歌 Jax 框架,仅需 30 行代码即可实现与 Flash Attention 的整合。树注意力还充分利用 GPU 集群的两级拓扑特点,优化了跨节点通信,为大型公司高推理需求提供了重要支持。
Meta 宣布推出 UniBench:视觉推理需要重塑视觉语言模型,而不是一味缩放
Meta 的人工智能研究机构 FAIR 推出了 UniBench,一个创新的视觉语言模型评估框架,通过 50 多个基准测试覆盖多个能力维度,旨在解决现有评估的碎片化和复杂性问题。UniBench 强调模型规模和数据量增加的局限性,指出数据质量和针对性学习目标的重要性,并揭示了视觉语言模型在基础认知任务上的弱点。该框架支持灵活的评估接口,简化了新模型或基准的添加过程,并通过精简版评估集降低了评估成本,促进了快速全面的模型评估。
阿里开源数学推理模型 Qwen2-Math:超 GPT-4o,数学能力全球第一!
阿里巴巴开源了新型数学模型 Qwen2-Math,包含 1.5B、7B 和 72B 三种参数版本。在多个数学基准测试中,Qwen2-Math-72B 指令微调版本表现卓越,超越了 GPT-4o 等知名模型,包括 Meta 的 Llama-3.1-405B。该模型采用高质量数学语料库预训练,并结合奖励信号与二元信号进行指令微调,通过 GRPO 强化学习算法优化。Qwen2-Math 在解决数学竞赛难题方面展现出强大能力,目前仅支持英文,但双语版本即将推出。
手机跑大模型提速 4-5 倍!微软亚研院开源 T-MAC 技术,有 CPU 就行
微软亚洲研究院开发了 T-MAC 技术,一种基于查找表(LUT)的混合精度矩阵乘法计算范式,大幅提升了在普通 CPU 上运行大型语言模型的速度,提速可达 4-5 倍。该技术优化了矩阵计算顺序、参数布局等,实现了高通骁龙芯片设备上的高生成速率和树莓派上的稳定性能,同时显著降低能耗。T-MAC 的开源为端侧 AI 部署提供了新机遇,预示着未来智能设备上 AI 应用的广泛潜力。
Mamba 再次挑战霸主 Transformer!首个通用 Mamba 架构大模型一鸣惊人
技术创新研究所(TII)开源了 Falcon Mamba 7B,这是首个通用的 Mamba 架构大模型,性能与 Transformer 匹敌,尤其在处理长文本方面显示出内存效率优势。该模型采用 SSLM 架构,无需额外内存即可生成大量文本,解决了 Transformer 在长文本处理上的难题。Falcon Mamba 7B 在多个基准测试中表现优异,超越了同尺寸的 Llama 3.1 8B 和 Mistral 7B 模型。它将通过 TII Falcon License 2.0 发布,支持企业级应用,如机器翻译和文本摘要等。
后语
我是 战场小包 ,一个喜欢 AI 和前端的小编程。
如果喜欢小包,可以在 掘金 关注我,同样也可以关注我的小小公众号——小包学前端,公众号会持续地更新 AI 和前端的知识。
一路加油,冲向未来!!!
AGI 掘金成立于 2024 年7 月,是一家专注于 AGI 相关研究和应用的创新型 知识平台。我们的使命是推动 AGI 技术和 AI 应用的落地与发展,并将其应用于各个行业,为人类社会创造更大的价值。我们提供 AGI 技术最新讯息、应用解决方案、组织各种有趣的服务,致力于成为行业的领军者。AGI 掘金期待你的加入! 欢迎戳我加入 AGI 掘金飞书社群交流学习😊