👉👉原文链接👈👈
「 最新活动 」
◇ 杭州 AI 峰会:AI 最后一公里,变现探索 🔗 Link
AI 浪潮,一起搞钱!早鸟有限,详情链接:xhkzr.xet.tech/s/2LquL0
「 行业动态 」
◇ 腾讯混元再进化,文生图能力重磅上线 🔗 News
在 2023 年,文生成图技术蓬勃发展,腾讯混元大模型也宣布了最新进展:文生图能力正式上线。这一能力的推出解决了文生成图领域的关键挑战,包括语义理解、内容合理性和画面质感等问题。腾讯混元的成功得益于多个关键因素,包括高质量的图文匹配数据、自研的机器学习框架 Angel,以及强大的算力基础设施。这些要素共同促成了混元大模型在文生成图领域的卓越表现,不仅提高了生成效果,还加速了生成速度。文生成图技术的应用领域多种多样,涵盖了广告、动漫、游戏等多个领域。腾讯混元大模型在这些领域展现出出色的性能,为广告商、创作者和开发者提供了更多可能性。此外,腾讯混元大模型已经在内部业务中得到广泛应用,同时也向不同行业的客户开放,为他们提供文生成图的能力。
◇ 35 年首次证明!NYU 重磅发现登 Nature 🔗 News
《Nature》刊登了纽约大学等机构的研究人员在人工智能领域最新突破。这项研究证明神经网络具有类似于人类语言的泛化能力,可以实现系统性泛化,打破了长期以来 AI 无法做到“举一反三”的观念。研究者引入了一种新的神经网络训练方法,称为 MLC(Meta-Learning for Compositionality),该方法显著提高了神经网络的系统泛化能力,甚至超越了人类的表现。这一突破性的研究对于系统性概括的概念进行了探讨。当人类在不同的环境时,拥有毫不费力地适应和使用新学单词的能力。然而,对于人工智能来说,这种泛化能力一直是具有挑战性的前沿领域。传统的神经网络不具备这种泛化能力,只会努力合并一个新单词,否则需要靠大量的样本进行广泛的训练。
◇ OpenAI 建立新团队防范 AI 相关“灾难性”风险 🔗 Twitter
OpenAI 正在创建一个名为“Preparedness”的新团队,旨在评估和应对前沿人工智能模型带来的潜在风险。这个团队将密切关注前沿模型的能力,与内部红队合作,追踪、评估、预测和防范多种类型的潜在风险,包括网络安全、化学、生物、平衡和核威胁,以及自主复制和适应等问题。还计划制定风险预警发展政策,详细说明前沿模型能力评估、监控、保护行动和治理结构的方法。OpenAI 正在招募来自不同技术背景的杰出人才,以加入我们的准备团队,共同挖掘前沿人工智能模型的潜在问题,并通过人工智能准备挑战,预防可能的灾难性错误。
◇ 压缩模型文本提示,节省 AI 算力最高 20 倍! 🔗 News
微软的开源项目 LongLLMLingua 引入了四大核心模块,问题感知的粗粒度压缩、文档重排序、动态压缩比率和压缩后子序列恢复,以应对大型语言模型如 ChatGPT 在处理长文本时的高算力成本、延迟和性能问题。文档重排序模块优化段落排列,确保关键信息在模型更敏感的位置,进一步提升了模型的感知性。动态压缩比率模块细粒度控制各段落的压缩比率,针对相关性调整保留词语预算,实现自适应的压缩。最后,压缩后子序列恢复模块通过关键名词词组的子序列关系,修复压缩带来的信息缺失,确保结果的准确性。实验证明,这一方法显著提高了模型性能,压缩后的提示在问答准确率和生成文本质量等方面均明显优于原始提示,有效降低了成本并提高了效率。
- paper: arxiv.org/abs/2310.06…
- 开源地址:github.com/microsoft/L…
◇ 芯片设计巨头公司裁员 20%,工程师成重灾区 🔗 News
芯片设计初创公司 SiFive 宣布裁员约 130 人,占员工总数的 20%,SiFive 总部位于加利福尼亚圣克拉拉,该公司专注于使用 RISC-V 开源芯片架构设计芯片,竞争对象包括 ARM。虽然 RISC-V 提供了无版税的计算核心架构,但构建高性能芯片需要专业设计师团队,SiFive 此次裁员主要集中在工程团队。尽管公司表明会继续制造用于 AI、汽车、消费电子和低功耗设备的芯片,这一举措可能会影响其在 RISC-V 标准的贡献和投资者关系。 SiFive 之前进行了 F 轮融资,但一些投资者可能考虑撤资,因为投资未能如预期回报。整体而言,SiFive 的未来发展和战略走向仍有待观察。
◇ Spectron:突破性的口语建模方法 🔗 Twitter
自然语言处理(NLP)的目标是开发能够理解和生成自然语言的计算模型。特别是口语建模仍具有挑战性。Spectron 是一个口语模型,可以直接处理声谱图作为输入和输出,而不需要离散的语音表示。该模型利用预训练的语音编码器和解码器语言模型,在语音识别、文本生成、和语音合成等任务上取得了良好性能。实验证明,Spectron 在语音延续和口语问答任务中表现出色,超过了其他口语模型,如 AudioLM、GSLM、TWIST 和 SpeechGPT,尤其在语音延续任务中,Spectron 的性能显著优于竞争对手。这一方法为更好理解和生成口语提供了新的途径,有望在语音技术领域取得重要突破。
◇ 高精度低成本游戏 3D 人脸重建方案 🔗 News
腾讯 AI Lab 最新提出的技术,名为"ASM",旨在改进 3D 人脸重建的质量和多视角重建的精度。ASM 的核心创新点在于采用了自适应骨骼-蒙皮模型,利用高斯混合模型来表示人脸蒙皮权重,从而降低了参数数量,实现高质量的 3D 人脸重建。这项技术的重要性在于它能够在无需繁重训练的情况下,仅使用有限的参数数量,显著提升人脸的表达能力和多视角人脸重建的精度,达到当今最高水平。ASM 不仅对游戏、电影制作、AR/VR 等领域具有重大应用潜力,还为用户提供了一种简便方式,只需输入常见的图像,即可获得高保真度的 3D 人脸模型。ASM 技术在解决低成本、高质量 3D 人脸重建难题上取得了显著进展,对多个领域,包括游戏制作、虚拟形象生成以及增强现实和虚拟现实等,都有着广泛的应用前景。
- paper: arxiv.org/pdf/2304.09…
◇ NVAS3D:在一个 3D 环境中从新的视角合成声音 🔗 Twitter
工作原理:
3D 场景重建:使用 3D 扫描技术获取场景的几何形状和材料属性。
音频录制:使用多个麦克风录制场景中的声音。
声源定位和分离:分析录制的音频和 3D 场景信息,确定声源位置并分离声音。
去除混响:利用房间脉冲响应模拟声音传播路径,减少混响效应。
新视角声学合成:预测场景中新位置的声音。
◇ DreamCraft3D:利用引导扩散进行分层 3D 生成 🔗 Twitter
DreamCraft3D 是一种层次化的 3D 内容生成方法,通过利用 2D 参考图像来指导几何塑造和纹理增强的阶段,产生高保真度和一致性的 3D 物体。这项工作的核心重点是解决现有方法中存在的一致性问题。为了使几何形状呈现出一致性,我们通过视角相关扩散模型执行分数提取抽样。3D 先验以及几种训练策略优先考虑了几何一致性,但牺牲了纹理的忠实度。研究人员在场景的增强渲染图像上训练了个性化的扩散模型 Dreambooth,为其提供了被优化场景的 3D 知识。从这个具有 3D 感知的扩散先验中提取的分数为场景提供了一致性的指导。通过交替优化扩散先验和 3D 场景表示,实现了相互强化的改进:优化的 3D 场景有助于训练特定场景的扩散模型,为 3D 优化提供越来越一致的指导。
- paper: huggingface.co/papers/2310…
◇ AI 可以提前一周预测地震 🔗 Twitter
德克萨斯州奥斯汀的研究人员利用人工智能算法在中国进行了为期七个月的试验,成功预测了 70%的地震发生。这一人工智能经过训练,能够通过实时地震数据中的统计波动来检测地震的迹象,每周准确预测了距离预计地震发生地点约 200 英里范围内的 14 次地震,其强度几乎与实际地震一致。虽然还需要进一步研究验证其在其他地点的适用性,但这一尝试标志着人工智能在地震预测领域的重要进展,对减少地震对生活和经济的影响具有潜在重要性。研究人员计划将这一技术应用于德克萨斯州,该州拥有强大的地震跟踪网络,以验证其有效性。最终,他们希望将人工智能与基于物理模型相结合,以提高地震预测的准确性。
◇ 专家报告 AI 生成的儿童色情内容数量惊人增加 🔗 News
最新报告指出,互联网观察基金会发现在暗网上出现了约 20,254 张人工智能生成的涉嫌儿童性虐待材料图像,其中有 11,108 张被认为可能违反英国法律。这些由人工智能生成的图像越来越难以与真实照片区分,引发了对儿童保护和法律执法的担忧。此外,这种人工智能生成的 CSAM 还可能导致对已知虐待受害者和名人儿童的再次伤害,以及为犯罪分子提供从虐待儿童中获利的途径。IWF 提出了一系列建议,包括国际合作、法律审查、警察培训和监管,以应对这一紧迫问题。这一问题对于 IWF 的使命来说构成了重大威胁,因为随着技术的进步,这些图像可能会变得更加逼真,虐待儿童问题可能会加剧。
「 融资快讯 」
◇ 爆火 AutoGPT 获 1200 万美元融资 🔗 News
AutoGPT 是一颗备受关注的 AI 明星,最近获得了 1200 万美元的融资,其 GitHub 主页已吸引了 151k 多个星标。AutoGPT 实际上为 GPT-4 增加了记忆和实体,让其能够更好地独立完成任务并从经验中学习。它的工作原理类似于一个足智多谋的机器人,具备强大的架构,自主迭代的能力,内存管理和多功能性。尽管 AutoGPT 带来了令人兴奋的前景,但其实际能力尚待进一步挖掘。其中一个潜在的改进是引入异步智能体,以提高系统效率。此外,智能体之间的相互通信也是一个前景可期的方向,能够协同解决复杂问题。未来,生成式智能体可能会引领 AI 领域的发展,实现更高度模拟人类行为的目标,这将为 AI 应用提供更强大和动态的解决方案。
「 早点趣玩 」
◇ 在 Mac 上让 Stable Diffusion 一秒钟生成图像 🔗 Link
LCMs 是一个基于 Stable Diffusion 的图像生成模型,但生成图像的速度更快,只需要 4 到 8 步就能生成一张高质量的图像。通过在 M1 或 M2 Mac 上运行 LCM,可以以每秒一张的速度生成 512x512 图像。
「 技术阅读 」
◇ 基础模型透明度指数如何扭曲透明度 🔗 Link
斯坦福大学基础模型研究中心最近发布了名为“基础模型透明度指数”的工作,旨在评估大型语言模型的透明度。然而,该指数的设计和应用在评估透明度方面存在问题。文章指出,FMTI 似乎更侧重于企业和商业服务的透明度,而非真正评估模型和研究项目的透明度。此外,该指数似乎鼓励发布“宣传文件”,这些文件不包含有用的信息,但旨在提高分数。文章认为 FMTI 的构建和应用使透明度评估变成了一场虚假的游戏,利于大型企业,但对独立研究造成了困难。
◇ 为了评估神经网络是否对新数据具有普适性 🔗 Link
- 训练数据集,用于训练模型
- 验证数据集,用于调整模型
- 测试集,用于评估最终模型性能。