1011 早早聊 AI 资讯|清华&智谱:多模态 14 边形战士挑战 GPT-4V、微软每月为用户倒贴 20 美元...

455 阅读15分钟

👉👉原文链接👈👈

阅读详细图文,可访问知识库

「 行业动态 」

◇ 挑战 GPT-4V!清华&智谱开源多模态 14 边形战士 🔗 News

CogVLM-17B 由清华大学和智谱 AI 合作开发,是一款国产多模态模型,能够准确识别图像中的房子数量,包括完整可见和部分可见的,在多个权威跨模态基准测试中表现出色。CogVLM 不仅可以回答各种视觉问题、推理事实、解答问题和编程题目,还能进行目标检测和自动数据标注。该模型采用深度对齐方法,改进了深度融合,它在训练过程中并未使用专门的 OCR 数据,却展现出强大的文字识别能力。CogVLM 已经开源,目前仅支持英文,后续将提供中英双语版本的支持。

OpenAI CEO:超级人工智能即将到来 🔗 Twitter

OpenAI 的 CEO Sam Altman 表示,人工通用智能(AGI)并非终点,要实现人工超级智能(ASI),可能需要到 2030 或 2031 年,尽管也存在很大的不确定性。OpenAI 认为超级智能可能会提前到来,因此他们设定了一个解决 AI 对齐问题的截止期限,大约是 3.5 年。这意味着 Altman 预计不久的将来,一种超越人类技能的外来智能可能会到达地球。

◇ Replit AI 免费开放,代码开发更轻松 🔗 Twitter

Replit 为所有开发人员提供 Replit AI,包括代码完成和代码辅助功能,免费计划用户可以享有基本人工智能功能,专业用户则拥有独家访问权。最新推出的 replit-code-v1.5-3b 是一款强大的 3B LLM,使编辑器上的代码完成功能更为强大。未来的路线图涵盖了 AI 重新定义 Replit 各项功能,旨在将 AI 成为软件开发的代名词,而事实上,人工智能正在重新定义整个软件开发生命周期,为 2300 万开发人员提供 AI 功能的支持,未来将逐步推出新的代码 LLM,增强 Replit 编辑器上的代码完成功能,最终将 Replit 塑造成人工智能的代名词。

◇ 新的 7B 模型现在完全击败 LLaMA 2 70B 🔗 Twitter

一新的 7B 模型已成功超越了 70B 版本的 LLaMA 模型,该模型起源于 Mistral 7B,并通过自监督微调利用了精挑细选的 UltraChat 数据集,其中包括 20 万个样本。此外它还经过微调,专注于帮助性信息的用户反馈(DPO),涵盖了 64,000 个样本。相对于以前的 PPO 方法,DPO 训练在这项研究中表现更为稳定,仅仅使用 6.4 万个反馈样本就足以显著改进模型的帮助性。

◇ 微软 AI 服务运营成本上升:每用户平均亏损 20 美元 🔗 News

尽管 GitHub Copilot 每月收费 10 美元,但微软还是平均为每个用户每月倒贴超过 20 美元。英伟达的 AI 芯片需求上升,带来巨额利润,但也导致了大型模型的运行成本上升。微软计划推出 Microsoft 365 Copilot,每月使用价格为 30 美元,并计划自制 AI 芯片以降低成本。AI 领域可能将依赖制造大型模型的芯片或数据中心成为盈利途径。OpenAI 的 ChatGPT 收入增长放缓,但在 9 月份实现了 458 万美元的总收入,而其竞争对手 Ask AI 则取得更多的收入,尽管净收入可能存在差异。

◇ TikTok 推出新功能 Direct Post,可直接发布视频 🔗 News

TikTok 推出了全新的内容发布 API 产品 Direct Post,允许社区用户从第三方平台将视频内容发布到 TikTok。用户可以在第三方平台内设置字幕、受众等选项,随后一键发布到 TikTok。创作者可以使用社交媒体管理平台安排长视频内容发布,前提需要将 TikTok 帐户连接到第三方平台。Adobe 等主要合作伙伴的支持使创作者能够使用 Adobe Premiere Pro 和 Adobe Express 中的 Direct Post 功能,从而提高效率。此外 TikTok 的 Direct Post 还与其他关键第三方平台合作,如 CapCut 等扩展了合作伙伴套件。Direct Post 还引入了“Share to TikTok”,允许社区用户将第三方平台内容作为草稿上传到 TikTok,触发通知警报,并可以在 TikTok 的编辑流程中进行进一步编辑。

◇ Adobe Firefly 现在可以生成更逼真的图像 🔗 News

Adobe 在 MAX 创意人士年度会议上宣布更新了 Firefly 生成式 AI 图像创建服务支持的模型,命名为 Firefly Image 2 模型,以提高图像渲染质量,特别关注面部特征、皮肤、身体和手部等细节,Firefly 已经吸引了 30 亿张图像的生成,其中 90%为全新用户。新模型得益于更大的训练数据集,提供更出色的用户体验和图像质量。Adobe 计划将新模型整合到 Creative Cloud 应用程序中,以支持生成填充等功能。Firefly Web 应用程序引入了新的控件,包括景深、运动模糊、视野设置以及自动完成功能,进一步增强了用户的创意和操作选项。

◇ 文心大模型再获国际顶刊认可!登上 Nature 子刊 🔗 News

《自然》子刊《机器智能》发布了百度飞桨螺旋桨与百图生科合作的生物计算大模型成果。这一成果引入了 HelixFold-Single 大模型,能够无需多序列比对(MSA)输入,极大加速了蛋白结构预测,平均提高了数百倍的速度,实现了秒级预测。与 AlphaFold2 相比,HelixFold-Single 的速度提高了 115 倍,适用于蛋白设计和虚拟筛选等任务,在多肽、抗体、纳米抗体等领域效果优于 AlphaFold2。此模型已应用于国家超算成都中心,提供高效的蛋白分析能力。HelixFold-Multimer 算法则提高了复合体结构预测的精度,适用于抗原抗体复杂场景。

◇ 港科大谭平团队突破 3D 生成领域关键性问题 🔗 News

谭平团队的最新研究,包括"SweetDreamer"和"Ctrl-Room"两篇论文,解决了 3D 领域的多视角一致性挑战,实现了高质量的 3D 模型生成。"Ctrl-Room"引入了循环一致性采样方法,确保了室内场景外观的一致性,允许用户对生成的 3D 房间进行灵活编辑,包括布局和外观。这项技术包括两个关键步骤:布局生成和外观生成,并利用结构化的数据集进行性能评估,表现卓越,同时具有更好的房间结构保持,生成时间也较短。用户研究结果显示,用户认为"Ctrl-Room"在房间布局和家具排列方面更清晰。

AI 天才杨植麟交卷大模型 ,20 万字文本支持 🔗 News

清华大学叉院助理教授杨植麟创办的 AI 公司月之暗面,发布了新的大模型产品智能助手 Kimi Chat,支持长文本输入,最长可达 20 万字,超越了现有大模型如 Claude(100k 字)和 GPT-4(32k 字)等 2.5 倍和 8 倍,堪称全球最长。这标志着月之暗面旨在打造 To C 超级应用的“登月计划”的第一步。月之暗面采用创新的网络结构和工程优化,而非依赖传统的方法,公司计划明年发布多模态产品,最终目标是成为 C 端的超级应用。公司核心团队有 3 人,其中杨植麟在计算机领域具有深厚背景,其他两位联合创始人也拥有相关经验。

◇ 和谷歌搜索抢活,FRESHLLM 幻觉更少,信息更准 🔗 News

大型语言模型如 BARD 和 CHATGPT/GPT-4 在多领域多轮对话中表现出多功能性,但幻觉和过时信息限制了它们的可信度,尤其是在需要实时信息的领域。为了评估 LLM 的事实性,新的 FRESHQA 数据集应运而生,其中包含各种主题和不同难度的问题。引入了 FRESHPROMPT 方法,通过整合搜索引擎提供的最新信息,明显提高了 LLM 的事实性。实验证明,FRESHPROMPT 对提高 LLM 的准确性非常有效,弥补了可信度方面的不足。总结评价:LLM 在多轮对话中展现多功能性,但存在可信度问题,FRESHQA 数据集为改进提供了机会,而 FRESHPROMPT 方法则成功提高了 LLM 的准确性。

◇ Nature 调查:仅 4%科学家认为 AI 已成“必需品” 🔗 News

Nature 的最新调查,只有 4%的研究者认为 AI 工具是"刚需",但超过四分之一的使用 AI 工具的研究者认为在未来十年内 AI 将成为领域的"必需品"。尽管 47%的研究者认为人工智能非常有用,但不使用 AI 工具的研究者表现出较少兴趣。使用 AI 工具的研究者普遍认为 AI 提供更快的数据处理方式和加速计算,但也担心可能带来更多依赖模式识别和增加偏见或歧视。大多数人认为生成式 AI 工具在总结、翻译和编写代码方面有优点,但也担心信息传播的不准确性。不少研究者对大型语言模型的输出不满意,担忧科学可能过度由机器驱动。在 AI 对社会的担忧方面,传播错误信息被认为是最令人担忧的问题,而 AI 对人类构成生存威胁的担忧相对较低。

Meta 为做 AI 聊天机器人 下“血本” 🔗 News

根据 The Information 的报道,Meta 正在支付明星如 Snoop Dogg、Tom Brady、MrBeast 和 Charli D'Amelio 等高额费用,以使用他们的肖像作为 Meta 的人工智能助手。其中,一名顶级创作者仅需在工作室工作 6 个小时就获得高达 500 万美元的酬劳。Meta AI 是基于 Llama 2 的生成式人工智能,具备更深入、更强大的交互能力,于 9 月底的 Connect 开发者大会上发布,能够提供实时网络搜索结果和生成图像。此外,Meta 还发布了 28 个名人肖像的新聊天机器人,每个角色都具有独特的个性和故事。

◇ 探寻无界创新:无界 AI 的艺术与技术之旅 🔗 Twitter

位于杭州的无界 AI 是领先的 AI 绘画平台,拥有近百名精英人才,其中 62%为研发人员,16%具有博士和硕士学历。拥有近 300 万注册用户,每日创作 200 万作品,AI 作品总数已超过 1 亿,曝光热度达 3 亿。与众多企业合作,举办了 50 场活动,吸引了 10 万创作者,收到 50 万件参赛作品。为企业提供 AI 绘画服务,合作伙伴包括麦当劳、上汽集团、万事利、三维家等。国内用户主要使用微信,社区分享不如推特流畅,解决了信息分享问题。积极投身 AIGC 研究,关注技术研发、社区影响力扩大、海外市场拓展。无界 AI 在 AI 绘画和 AIGC 领域取得成就,技术、B 端、社区均有竞争力。

◇ 谷歌的生成式人工智能搜索:精简版可以降低成本 🔗 News

谷歌推出了“SGE Lite”,这是一种精简的生成式人工智能搜索变体,以降低成本。谷歌正在努力在人工智能搜索领域与竞争对手竞争,并寻求在高成本的模型训练和搜索收入潜力之间取得平衡。他们希望通过适应新兴在线生态系统的竞争来实现平稳过渡。SGE Lite 会精简生成的结果,并只在第二次交互后显示完整答案。与此同时,微软的 Bing Chat 实验未能扩大搜索市场,而 OpenAI 的 ChatGPT 在可靠性和功能性方面仍有一些差距。

◇ SANPO:场景理解、辅助功能、导航、寻路和避障数据集 🔗 Twitter

Google 提出了 SANPO 数据集,旨在支持人类自我中心的场景理解任务,包括真实和合成数据,以促进视障人士的视觉导航系统和场景理解研究。该数据集包括多种密集预测任务所需的注释,如语义类别和实例掩码,与其他数据集进行比较,为解决与人类导航和场景理解相关的问题提供了强大的支持。SANPO-Real 部分包含 701 个会话,使用立体摄像机记录,每个会话都有高级属性注释和深度图。而 SANPO-Synthetic 部分则是高质量的合成数据集,与现实世界的数据匹配,包含 1961 个会话,具有像素完美的注释。

◇ 大型语言模型的自我改进和接受反馈 🔗 Twitter

大型语言模型(LLMs)是否能像人类一样进行自我改进?尽管不如人类那样自主学习,LLMs 有一些自我改进的技巧。研究表明,LLMs 可以通过微调和自我一致性来提高其推理能力,无需真实标签数据。这些方法在自然语言处理任务中表现更好,减少了对广泛监督的依赖。此外,还有一些创新框架,如 ImPlicit Self-ImprovemenT(PIT),以及自我参照自我改进机制,有望推动 LLMs 的自我完善。虽然 LLMs 可以接受建设性反馈并不断改进,但实现实时学习仍然是未来的挑战。

◇ 2023 年新兴人工智能和机器学习趋势 🔗 Twitter

◇ 陶哲轩:用 GPT-4 辅助证明不等式定理 🔗 News

陶哲轩最近借助 GPT-4 处理数学问题,取得了不等式理论的示例结果,计划发布在 arXiv 上。他也开始学习 Lean4 交互式证明系统,以进行形式化证明,并通过自然数游戏在机器辅助证明研讨会中磨练 Lean 的技巧。GPT-4 在此过程中对他的工作非常有帮助,尤其是在解决复杂问题时。陶哲轩的探索受到了社交媒体的热烈欢迎,凸显 Lean 在证明检查中的广泛应用。虽然有人提出了超越人类的证明能力的问题,这需要更多的研究来探讨。

「 融资快讯 」

◇ 「联丰迅声」完成 Pre-A+轮融资,专注面向环境声音的声学 AI 检测 🔗 News

西安联丰迅声信息科技公司最近完成了千万级的 Pre-A+轮融资,由西安市人才基金领投。公司成立于 2018 年,专注于声学 AI 检测仪器及设备的制造服务,提供环境声音信号检测、识别和声源定位等声学 AI 监测仪器,广泛应用于电力、工业、煤矿、安防等领域。团队主要来自西北工业大学,拥有声学检测和声源定位技术的专业知识,并合作成立了“环境声音感知联合实验室”。其声学 AI 检测技术结合了声音场景分类、异常声音监测和声音事件识别,采用非接触测量,提高了检测效率,实现更高的准确率。公司计划进行国际扩张,建立核心壁垒,并提供高性价比的产品。

「 技术阅读 」

◇ 2023 年 Kaggle 人工智能报告 🔗 Twitter

◇ 什么是自然语言处理 ?2023 年 NLP 指南 🔗 Twitter

自然语言处理(NLP)是未来几年各行业组织的重要技术,通过计算机理解文本和语音数据并生成响应。它已经在多个领域得到广泛应用,如客户服务、财务、医疗保健等。NLP 技术不仅改善了沟通和提高了效率,还提供了个性化支持和洞察分析。尽管面临挑战,NLP 的发展和应用前景广泛,包括聊天机器人等多个领域。机器学习在 NLP 中起着重要作用,而 Python 等工具和库也用于开发 NLP 应用。 NLP 领域的未来将继续为人工智能应用提供重要支持。

◇ 文本拆分在建立 LLM/RAG 应用程序的 ETL 管道中的重要性 🔗 Twitter

文本拆分在建立 LLM/RAG 应用程序的 ETL 管道中至关重要,全新的 llama_index 解析器提供了重要的功能。它允许以层次结构的方式解析文本和表格数据图,使用户能够同时处理非结构化和表格数据。此解析器还可利用 LLMs 从未经格式化的表格中提取结构化摘要和模式,并支持分层节点引用,使每个摘要能够链接到相应的表格,实现递归检索。构建在@UnstructuredIO 基础之上,这一解析器简化了数据处理过程,以前繁琐的表格数据解析现在只需 5 行代码即可完成,提高了数据处理的效率。