1024 早早聊 AI 资讯|苹果发力 AI 全家桶,全面对标微软 OpenAI、星火 V3.0 发布,综合能力超 ChatGPT、元宇宙「卷」出新玩法...

354 阅读12分钟

👉👉原文链接👈👈

「 最新活动 」

◇ 杭州 AI 峰会:AI 最后一公里,变现探索 🔗 Link

AI 浪潮,一起搞钱!早鸟有限,详情链接:xhkzr.xet.tech/s/2LquL0

AI 峰会 - 掘金活动 940540.png

「 行业动态 」

◇ 苹果发力 AI 全家桶,全面对标微软 OpenAI ! 🔗 News

苹果公司正加紧努力进入生成式人工智能领域,以赶上 OpenAI、微软、谷歌和亚马逊等竞争对手。CEO 库克承认苹果在人工智能方面的研究起步较晚,但现在已经投资约 10 亿美元用于推进 AI 开发。苹果的高管团队,正在领导生成式 AI 领域的努力,旨在改进 Siri 和提升各种产品的 AI 功能。未来,苹果计划推出更智能的 Siri 版本,加强 iOS 18 的 AI 功能,甚至考虑将生成式 AI 整合到开发者工具中。同时,苹果也在探索将生成式 AI 用于客户服务,尚未确定是否采用基于设备、云端或二者结合的部署方式。苹果即将发布新款 iMac 和 MacBook Pro,还计划推出高端 AR/VR 产品 Vision Pro。此外,苹果将于 2023 年 11 月 2 日发布第四季度财报,为 iPhone 15 的表现提供见解。

◇ 科大讯飞发布星火 V3.0,综合能力已超 ChatGPT 🔗 News

科大讯飞在 2023 科大讯飞全球 1024 开发者节上发布了讯飞星火 3.0,并声称在文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力、多模态能力等七个关键领域上超越了 ChatGPT。星火 3.0 的通用模型在中文语言能力上超越 ChatGPT,英语语言能力上相当,并在数学能力等领域表现出显著领先。国务院发展研究中心的报告显示,星火整体能力超越 ChatGPT,尤其在教育、医疗、法律等领域。科大讯飞计划在明年上半年发布的模型将直接与 OpenAI 的 GPT-4 模型竞争。他们的 iFlyCode 工具加速了开发流程,将平台迁移所需的时间大幅缩短。升级后的 iFlyCode V2.0 提高了设计、编码和测试阶段的效率,分别提高了 50%、37%和 44%。

◇ 百度大模型加持, 元宇宙 还能「卷」出新玩法! 🔗 News

百度正在利用大型模型探索元宇宙中的新体验。随着市场炒作的减弱,元宇宙正变得更加理性,专注于为用户提供真正的体验。在北京举行的百度世界 2023 活动展示了元宇宙技术的进步,包括“AIGC”能力。活动上的用户可以与人工智能机器人互动,创作艺术作品,以及在元宇宙中进行各种活动。引入轻量级元宇宙应用程序消除了大型下载和缓慢加载时间的需求。元宇宙正朝着创建沉浸式、智能和互联的数字世界发展。大型模型如 GPT-4、PaLM 和 Llama 2 正在推动元宇宙的发展,使用户能够创建数字化的化身和环境。由 AI 驱动的虚拟人物正在变得更具互动性,可以担任导游或助手等各种角色。百度旨在构建一个长期的元宇宙生态系统,连接虚拟世界与现实世界,为个人和产业开启新的可能性。

◇ 智谱 AI “超 25 亿融资”的背后 🔗 News

智谱 AI 获得超过 25 亿人民币的融资,使智谱 AI 的估值超过 100 亿人民币。智谱 AI 因其在自然语言处理和高级语言模型开发方面的专注而被誉为“中国版 OpenAI”,其融资涉及社保基金、美团、蚂蚁金服、阿里巴巴、腾讯、小米等知名机构和投资者,反映了大型模型产业化的趋势。大型模型技术在多个行业,包括电子商务、金融、教育和制造业中变得至关重要,提供了提高效率、降低成本、更好的客户理解、市场趋势预测和业务创新等重要优势。未来的 AI 技术趋势是“认知智能”,要求机器不仅具备计算和感知能力,还要具备思考、理解、推理和学习的能力,有望深刻影响各行各业,但仍需解决数据隐私、算法风险和偏见等挑战。

◇ 马斯克的 AI 第一枪,被华人科学家大将打响! 🔗 News

几个月前,马斯克的人工智能公司 xAI 正式成立,旨在深入理解宇宙的真正本质。该公司宣布增加了 11 位顶尖的 AI 领域科学家和工程师,其中包括杨格,他强调了大型神经网络在 AI 中的重要性,以及它们在揭示数学宇宙奥秘中的作用。杨格最近发表了一篇关于神经网络结构的编程语言的文章,主要探讨了培训无限深度神经网络的挑战,特别关注了深度参数化方法在残差网络中的应用。残差网络具有优点,但仍然面临着挑战。文章分析了无限宽度和深度的极限情况,并对不同的深度参数化方法进行了分类,引入了一种称为 Depth-μP 的独特优化方法,用于在深度无限的网络中最大化特征学习和多样性。文章还提到深度扩展方法在 Transformers 中的不可靠性,并强调了未来研究方向。

AIGC 时代的视频扩散模型 🔗 News

AI 生成内容,尤其是在 AI 图像和视频生成领域,已成为炙手可热的话题,代表着尖端技术,引起了 Stable Diffusion、DALL-E3 和 ControlNet 等方法的关注。自 2022 年以来,针对视频任务的扩散模型研究呈爆发性增长。复旦大学与微软、华为以及其他学术机构合作,发表了视频任务中扩散模型的综合概述。该文章将视频生成分为基于文本、基于条件和无条件视频生成,涵盖了各种模型架构。文章讨论了在视频生成任务中使用的数据集,视频生成的评估指标包括图像和视频水平的质量和定量指标。视频编辑的目标包括保真度、对齐性和高质量。扩散模型还应用于视频理解任务,包括时间分割、异常检测、对象分割、文本-视频检索和动作识别。

◇ 仅用五个字符,完成一幅像素画 🔗 News

CFR[]是一种新的像素艺术绘图语言,允许用户只使用五个字符创建图像。它支持 8 种颜色,并能够生成最大尺寸为 256x256 像素的图像。CFR[]语言的设计直观而简单,采用了开放源代码,用户可以在线使用而无需安装。这个语言的五个字符具有特定的含义和功能,包括"色彩切换"、"前进"、"旋转",以及用于创建循环结构的方括号。用户可以通过组合这些基本命令和循环来创建复杂的图像。CFR[]受到 MIT 为儿童开发的编程语言 Logo 的启发,其中一只“隐藏在画布后面的海龟”执行绘图指令,根据用户的命令改变位置、方向和颜色。

◇ 你的 GPU 能跑 Llama 2 等大模型吗? 🔗 News

你的 GPU 可以顺畅的运行大模型吗?GitHub 上出现了一个新项目,旨在帮助用户计算使用大型语言模型,进行训练或推理所需的 GPU 内存。这个项目提供了一个交互式界面,让用户输入相关参数以计算所需的 GPU 内存,并输出详细的内存使用信息,包括 KV 缓存、模型大小、激活内存等。它还支持多种量化方法,帮助用户确定 GPU 上运行大模型时的最佳配置。项目的目标是将内存使用保持在 500MB 以内,作者还进行了交叉检查,结果显示不同 GPU 上的内存占用都在 500MB 以内。

◇ 2023 年人工智能和开源的高点和低点 🔗 Twitter

  1. 新兴大型语言模型如 GPT-4 崭露头角,但科技公司保持架构细节私有。开源领域涌现多个 LLM,尽管像 Llama 2 等并未公开所有训练细节。开源 LLM 研究多聚焦在更小、更高效的模型上。
  2. LLMs 承诺提高生产力,如编码、写作和研究,但面临商业化和防止有害输出的挑战。
  3. LLM 领域挑战包括涉及训练数据集的版权问题、生成虚假媒体的担忧、评估指标受测试集泄露到训练数据中的影响,以及使用 RLHF 等方法可能导致有害 LLM 输出。
  4. RLHF 是热门话题,但使用不广泛。提出了更简单的替代方案,如 DPO,并有一个可公开获得的 LLM 成功使用它。
  5. 多模态是重要话题,GPT-4 现在支持图像。微调方法如 Llama-Adapter 可改造预训练文本 LLMs 以适用于图像。最新研究显示,可以更简单地端到端训练多模态 LLMs。
  6. 预测 LLM 的应用将超越文本和代码,并在未来几年内在 STEM 研究中成为一个高度研究和应用的主题,可能会增加与 MoE 相关的开源工作。”

◇ Facebook 使用 AI 进行读心术 🔗 News

Facebook 研究人员开发了一个三部分的 AI 系统,利用大脑扫描数据以前所未有的时间分辨率来模拟人脑中的视觉表征。这个系统包括图像编码器、大脑编码器和图像解码器,它接受了脑磁图(MEG)和功能磁共振成像(fMRI)数据的训练。MEG 提供更快的大脑活动测量,人工智能系统在解码思维方面表现出优越性,尽管可能会引入一些错觉。这种系统展示了人工智能与人脑之间的融合,有助于增进对人类认知的理解。

AI 改变澳大利亚求职方式 🔗 News

人工智能在澳大利亚招聘领域得到广泛应用,用于简历筛选和初次面试,提高了效率,但也引发了公平和歧视的担忧,尤其是对女性和文化少数群体。求职者在招聘过程中面临透明度问题,因为他们通常不了解人工智能筛选的细节。尽管人工智能能提高效率,但一些人认为传统招聘流程已过时,因此雇主寻求借助 AI 来提高效率。然而,人工智能筛选可能会导致情感和身体压力,甚至被称为“求职抑郁症”。建议求职者遵循雇主期望,提交精简准确的简历,特别注重符合招聘标准,并关注在线表现,以提高在人工智能驱动的招聘过程中的成功机会。

◇ 黄仁勋:如果能够重来,宁愿放弃创办公司 🔗 News

NVIDIA 首席执行官黄仁勋分享了他在建立科技巨头方面的挑战和对员工的担忧。尽管 NVIDIA 市值超过 1 万亿美元,他认为创业之路比想象中更艰难,但坚持相信成功是可能的。他的最大担忧是让员工失望,而他将成功归因于坚持与他一同走过 30 年创业历程的支持网络。他认为 AI 技术为公司提供了巨大机会,但也存在自动化可能带来的工作流失风险。因此,他建议人们学会使用 AI 技术,因为工作性质正在发生变革。与此同时,他将 NVIDIA 的组织结构类比为神经网络,强调公司结构应与所构建产品的架构相匹配。

「 融资快讯 」

◇ 人工智能助手「Luzia」获得 1000 万美元 A 轮融资 🔗 News

西班牙马德里的人工智能助手 Luzia 在 A 轮融资中成功筹得 1000 万美元,由 Khosla Ventures 领投,还有其他投资者如保罗-加索尔、A* Capital、Abstract Ventures 等。Luzia 的目标是简化任务、提高工作效率,目前拥有近 1700 万用户,通过 WhatsApp 和 Telegram 提供免费服务。这轮融资将用于招聘、扩展市场、技术提升和提高用户体验。

「 早点趣玩 」

◇ PhotoStudio® AI :几秒生成高清商拍大片 🔗 News

虹软科技发布了 PhotoStudio® AI 智能商拍摄影云工作室,专为电商商拍大片制作而设计。提供服装版和商品版服务,简化商拍流程,提供 AI 模特和场景选择,具有便捷操作、丰富的 AI 商拍工具和虹软 ArcMuse 计算技术引擎等三大亮点。可显著改善商拍效果和周期,同时能够降低商拍成本,提高商品上架速度,增加点击率。

◇ SALMONN:赋予 LLMs 耳朵和认知听觉能力 🔗 Twitter

SALMONN 是清华大学和字节跳动合作开发的大型语言模型,具备多语种语音识别、翻译、音频处理和跨模态能力。它能识别语音、音乐以及周围环境声音,处理跨模态任务,并在基础和高级 NLP 任务上表现卓越,包括翻译未训练语言和槽填充等任务,以及音频处理任务。

「 技术阅读 」

◇ Web 开发中的 UI 组件生成 🔗 News

人工智能驱动的生成工具,如 Openv0,正革新 Web 和前端开发,使开发人员能够通过自动化生成 UI 组件,不再需要费力的手动创建,这一工具能够生成各种前端框架和组件库支持的 UI 代码,如 Tailwind CSS、React、Svelte 等,极大地提高了开发效率,简化了 UI 设计的实现过程。Openv0 支持快速迭代、实时调整和快速原型制作,减轻了组件生成和维护的负担。