0927 早早聊 AGI 资讯｜OpenAI 的视觉 GPT-4 仍存在缺陷、阿里 140 亿大模型开源、国内大模型数据困境的解法、人工智能改变求职者规则...

「行业动态」

◇ OpenAI 的视觉 GPT-4 仍存在缺陷 🔗 News

OpenAI 推出旗舰文本生成人工智能模型 GPT-4，强调其多模态性，能够理解图像和文本上下文。然而该模型在图像分析方面存在滥用和隐私问题，因此 OpenAI 采取了一系列措施来缓解这些问题。他们开发了 GPT-4V，专门用于 Be My Eyes 应用，协助弱视和盲人导航，并与红队成员合作进行潜在问题的调查。然而 GPT-4V 在一些方面表现不佳，容易产生幻觉和错误信息，不适用于识别危险物质，也在医学成像领域存在误诊问题，未能正确理解某些仇恨符号的细微差别，有时创作歌曲或诗歌来赞扬仇恨人物或团体，以及存在性别和体型歧视问题。

◇ 阿里 140 亿大模型开源！10 项任务超 340 亿 Llama 2 🔗 News

阿里巴巴开源了名为 Qwen-14B 的 140 亿参数字大语言模型，该模型在多项任务中表现卓越，甚至超越了 Meta 的 340 亿参数模型 Llama 2。训练数据包括超过 3 万亿 tokens，涵盖中英文和多个学科。模型不仅具有出色的语言能力，还在数学等多个领域取得了 TOP 1 名次。Qwen-14B 支持调用工具执行 Python 代码、进行数学计算、数据分析和数据图表绘制。该模型采用了先进的序列建模方法，序列长度可达 8192。Qwen-14B 完全开源，免费可用，已经在魔搭社区提供 Demo 版本。

demo: modelscope.cn/studios/qwe…

◇ WHOOP 与 OpenAI 合作推出首个个性化辅导的可穿戴设备 🔗 Twitter

WHOOP 推出由 OpenAI 提供支持的新型 WHOOP Coach，这是首款可按需提供高度个性化表现辅导的可穿戴设备。 WHOOP Coach 深入了解会员的目标、生物识别数据和表现科学，并生成高度个性化的对话式答复，借助 OpenAI 的 GPT-4 技术，提供最个性化的健康和健身指导。此功能已在全球范围内在 WHOOP 应用程序中使用，改变了可穿戴设备市场。通过分享更多数据，会员可以获得更有效和有针对性的支持和跟踪。

blog: www.whoop.com/us/en/press…

◇ 国内大模型数据之困有解了！ 🔗 News

云测数据推出垂直大模型数据解决方案，旨在帮助通用大模型在不同行业成功应用。该方案关注数据质量和效率，包括持续预训练、下游任务微调和灰度发布联调三个阶段。云测数据拥有专业领域专家池，在下游任务微调和灰度发布联调阶段进行模型性能评估和交互内容评估。该方案已在电商、保险、智驾、智能家居等领域得到验证，展示了大模型在垂直行业中的成功落地潜力。

◇ 谷歌研究致力于绘制小鼠大脑图谱 🔗 Twitter

Google Research 的连接组学团队与合作伙伴发起了一项耗资 3300 万美元的项目，旨在绘制小鼠大脑海马区域的连接组图谱，这是美国国立卫生研究院（NIH）BRAIN 计划的一部分。该项目将专注于小鼠大脑的一小部分（2-3%），特别研究海马区域，以深入了解神经回路与记忆、注意力和空间导航之间的关系。这将创造一个庞大的数据集，有望帮助更好地理解人类大脑的功能和神经疾病，并不断改进技术以解决各种挑战。

blog: blog.research.google/2023/09/goo…

◇ OpenAI 和 Google 多模态模型的实际情况 🔗 Twitter

"OpenAI 在推出多模态模型方面超过了 Google"这一说法不准确。Bard 早在几个月前就支持多模态聊天，GPT-4V 是一种单一模型，而 Bard 是一个两阶段模型。GPT-4V 于 2022 年完成训练，主要是安全性方面的工作。它仍然是视觉、文本->文本模型，使用互联网图像和文本数据的混合进行训练，并预测下一个单词标记，然后进行 RLHF。GPT-4V 在许多类别中拒绝率大大提高。但在严肃的科学文献中，GPT-4V 仍然会出现幻觉，部分原因是 OCR 不准确。GPT-4V 只是三月份宣布的模型，现在才正式发布，依然还有很多"抱歉，我无法帮助"。

◇ 杭州市民日常黑科技，看呆亚运会上歪果仁 🔗 News

在 2022 年杭州亚运会上，科技与数字化应用为观众、运动员和工作人员带来了极大的便利。电子票务、高速互联网、电子身份证、智能亚运一站通等技术的实现，离不开阿里云的支持。杭州亚运会成为首个完全上云的亚运会，核心系统包括赛事管理、成绩和支持系统，覆盖多个竞赛场馆和用户。这些数字化应用使亚运会更加便利和高效，展示了中国底层云技术的强大。云计算与大型综合赛事的缘分不断加深，降低了成本并提高了效率。中国云技术不断迭代升级，参与众多、流程复杂的赛事成为数字科技的试验场，展示了中国的实力和影响力。

◇ PyTorch 分享：使用 3D 可视化矩阵乘法表达式 🔗 Twitter

mm 是一个用于 matmul 和 matmul 组合的可视化工具，它使用 3D 可视化技术表达矩阵乘法和机器学习模型的构建块，如注意力头。该工具有助于视觉/空间思考者建立直觉，降低认知负担。它可以加载经过训练的权重，并可视化大型复合表达式。mm 的独特之处在于它利用了所有三个空间维度，有助于直观理解这些概念，特别适合视觉思考者。此工具还具有完全交互性，可在浏览器或笔记本中运行，而且可以轻松分享链接，使他人能够查看可视化效果。

blog: pytorch.org/blog/inside…

◇ 专业机器学习工程师 Beta 考试现已开放 🔗 Twitter

通过专业机器学习工程师考试评估，参与者可以获得认证、节省成本、独家品牌服装，并有机会测试认证标准，认证有效期为两年。准备考试需要丰富的 Google Cloud 经验，通过查看示例问题，培训技能并安排考试。

专业机器学习工程师考试主要评估以下能力：

架构低代码机器学习解决方案

在团队内部和跨团队协作来管理数据和模型

将原型扩展到 ML 模型

服务和扩展模型

自动化和编排 ML 管道

监控机器学习解决方案

报名地址：goo.gle/46tDghF

◇ 微软制定 AI B 计划，避开 GPT-4 🔗 News

微软正在制定 AI B 计划，旨在提高人工智能模型的效率并降低运行成本。微软的研究主管 Peter Lee 正在推动开发更小、更经济的对话式 AI 系统，虽然功能可能不如 GPT-4。微软计划将人工智能功能集成到几乎所有产品中，包括 Windows 版 Copilot。此外他们正在尝试 Phi-1 和 Orca 等模型以降低成本，但与 GPT-4 相比功能较弱。尽管微软拥有 OpenAI 约一半的股份，但它们竞争相同的目标群体，如 ChatGPT Enterprise 和 Bing Chat Enterprise，导致两者之间的关系紧张。

◇ OpenAI 正在筹集资金，估值为 800 亿至 900 亿美元 🔗 News

据《华尔街日报》报道，OpenAI 正讨论出售股票的可能性，估值可能从 290 亿美元提升至 800 亿至 900 亿美元，员工可出售现有股票而非公司发行新股票。4 月份，OpenAI 获得了超过 3 亿美元的投资，估值为 290 亿美元，与微软一月份宣布的巨额投资分开。微软的投资规模据信约为 100 亿美元。ChatGPT 是 OpenAI 广受欢迎的生成式人工智能助手，自首次亮相以来一直是近年来最成功的技术案例之一，并将变得更加互动。OpenAI 预计 2023 年收入将达到 10 亿美元。

◇ 招聘新时代：人工智能正在改变求职者的游戏规则 🔗 Twitter

人工智能正在彻底改变招聘游戏规则，自动化、算法和机器学习在招聘中发挥关键作用，使整个过程更加数字化和复杂化。简历机器人用于筛选候选人，雇主依赖算法评估求职者。然而许多求职者对招聘软件的工作方式不太了解，导致他们感到失去了掌控力。尽管一些在线工具和平台可以帮助求职者优化简历，提高求职成功率，但招聘中的算法和软件也存在潜在的道德问题，如偏见和不透明性。求职者需要适应并利用人工智能技术，同时保持透明和道德，以在竞争激烈的招聘市场中脱颖而出。最重要的是，招聘仍然是人类的游戏，个人故事、网络和人际关系仍然扮演着重要角色，候选人需要展示可衡量的数字成就，并准备面对拒绝，因为机器人只是工具。

◇ 美国版「妙鸭」走红，用「虚假」定义新社交 🔗 News

"BeFake"是一款使用 AI 生成图像的社交应用，挑战社交媒体的真实性，允许用户创造虚拟创意内容。该应用在美国、英国和法国的应用商店中名列前茅。用户可以通过 AI 编辑和发布照片，将其转化为奇幻场景或添加自定义文本提示。基本功能免费，高级用户可以通过订阅获得额外功能，BeFake 计划将 AI 生成内容消费者转变为内容创作者，未来可能会进入视频领域。公司注重社区的重要性，努力了解用户喜好以改进算法，并需要平衡免费 AI 生成和计算资源使用的费用。

◇ 约翰·卡马克与里奇·萨顿合作加速 AGI 的发展 🔗 Twitter

著名软件工程师约翰·卡马克和艾伯塔省机器智能研究所首席科学顾问理查德·萨顿宣布建立合作伙伴关系，以开发通用人工智能（AGI）。此合作是 Keen Technologies 继首次融资后的第一个公开里程碑，旨在开发真正的人工智能原型，目标定为 2030 年。卡马克于 2022 年 12 月辞去 Meta 首席技术官顾问职务，专注于 AGI，而萨顿是强化学习领域的主要创始人。Keen Technologies 拥有遍布全球的团队，萨顿在强化学习领域贡献众多，曾获得终身成就奖，出版物被引用超过 130,000 次。

◇ 美国情报局建立自己的人工智能工具与中国竞争 🔗 Twitter

美国中央情报局正在开发一种类似于 OpenAI 的人工智能工具，用于从大量公共信息中筛选情报线索。该机构计划为其开源企业部门提供这种人工智能工具，以帮助情报机构应对不断发展的信息来源。该工具将允许用户查看信息的原始来源，并通过聊天功能提供更快的情报分发和答案。这项技术将在美国情报界的 18 个机构中使用，包括中央情报局、国家安全局、联邦调查局和军方分支机构。虽然政策制定者和公众无法获得此工具，但中央情报局强调将遵守美国隐私法。这种人工智能工具的出现将改变情报分析流程，使其更加自动化和高效。

◇ 开源与企业人工智能的未来 🔗 Link

开源人工智能在吸引广泛关注的同时，为企业提供了功能强大且不断增长的模型。然而企业在追求人工智能应用时面临四大挑战，包括基础设施、微调、问题识别、以及信任与安全。基础设施方面涉及部署的安全性、合规性和资源管理，微调需要专业知识和技能来优化模型以适应特定行业和问题，问题识别则需要全面考虑多个因素以最佳方式应用人工智能。信任与安全尤为关键，尤其是在全球范围内安全地部署生成式人工智能模型，确保负责任的内容生成和解决版权问题。企业必须应对这些挑战，有时需要构建定制模型，与有经验的团队合作，对于某些企业而言可能比依赖开源模型更为可行。

「机器人领域」

◇ 国产机器狗新秀，首款四轮足商用机器人 🔗 News

国产机器狗圈杀出一位新秀，一只纯四轮足设计的机器人来了！W1 是一款由逐际动力 LimX Dynamic 开发的新型四轮足机器人，专为工业环境等 2B 市场设计。W1 展现了卓越的运动能力，采用四个圆轮设计以提高移动效率和续航能力。W1 团队成功克服了轮足设计的感知和控制挑战，实现了高稳定性和实时性的控制能力。W1 的愿景是成为通用型地面移动平台，解决全地形移动的各种应用需求，其商业化路径包括固定路线的巡检，未来还将涉及机械臂等操作领域。

「技术阅读」

◇ 如何进行端到端的 RAG 系统评估？ 🔗 Twitter

深入评估 RAG 时，仅仅使用检索指标不足够，需要进行端到端的响应评估。在标准检索中，文档是固定的，可以测量排名指标，但在 RAG 系统中，文档可以随时更改，因此响应生成的排序和格式可能很重要。总之应该始终进行端到端评估，以衡量最终响应。

指南 1：gpt-index.readthedocs.io/en/latest/c…

指南 2:gpt-index.readthedocs.io/en/latest/e…

◇ LLMs 的逻辑思维链 🔗 Twitter

逻辑思维链是一种新的神经符号框架，旨在改进大型语言模型中的零射击思维链推理。该框架借鉴了符号逻辑原理，用于验证和修正推理过程，从而提高 LLM 的推理能力。这个“思考-验证-修正”框架被认为是一个巧妙的想法，尤其适用于处理需要多步推理的幻觉问题，在领域如算术、常识和因果推理等方面表现出了有效性。虽然大型语言模型在各个领域展示了通用性，但它们的推理能力仍有改进空间，尤其是在需要复杂思维链的情境下。逻辑思维链旨在通过符号逻辑原理，有效地利用知识以提高推理质量，虽然考虑到当前 LLM 的效率问题，这可能需要一定成本。

paper: arxiv.org/abs/2309.13…

0927 早早聊 AGI 资讯｜OpenAI 的视觉 GPT-4 仍存在缺陷、阿里 140 亿大模型开源、国内大模型数据困境的解法、人工智能改变求职者规则...

「 行业动态 」

「 机器人领域 」

「 技术阅读 」

「行业动态」

「机器人领域」

「技术阅读」