news 43.2

58 阅读2分钟

新闻

  1. Google发布新音频模型,无缝切换文字音频对话

Google发布新音频模型SPIRIT LM,该模型能通过prompt里的输入,以音频方式继续回复输出。有点像预训练阶段的LLM模型,它的效果还是很不错的。

模型结构图:

  1. 英伟达最新70B模型表现不及预期

英伟达新推出的Nemotron Fine-Tune 70B模型性能令人失望。虽然在推理能力上较基础70B Llama模型有所提升,但在多个类别的测试中表现不佳。与405b模型相比都有所逊色,未能达到业界领先水平。详细的性能测试数据将在Livebench AI平台上发布。

  1. 社区合作通力修复梯度累计bug

在梯度累计时,本质上在梯度累积期间不考虑序列长度不同的情况下单独计算损失与不进行梯度累积时是不一样的。社区发现这一点,并合作解决了这个bug

  1. 使用Claude等模型生成关于你源码的流程图

使用LLM就能生成D2格式的,关于你代码仓库的流程图。

  1. 大语言模型发展或将遇"天花板",关键在于基础设施

大语言模型(LLMs)在未来一年内将遇到发展瓶颈。尽管目前LLMs的智能水平已经超越大多数人类,但AI自动化的最后一公里挑战并非在于智能本身,而在于基础设施建设。

  1. Anthropic发布新Claude3.5大杯

Anthropic发布新Claude3.5大杯,性能强劲。

  1. AI界出现新蓝海:合成数据成为热门赛道

大量企业和个人正忽视合成数据的巨大潜力。尽管大语言模型在生成合成数据方面表现出色,但构建复杂的合成数据集并非易事。研究显示,无论是改进现有LLM还是开发基于LLM的系统(如智能代理、RAG等),都需要更多新颖和复杂的数据支持。

  1. Keras还在发力,再次更新

Keras继续更新,发布keras hub。收集大量cv和nlp模型。

教程

  1. ml- engineering教程

该教程包含大量ai工程相关知识,感兴趣的朋友请参考

乐子

  1. ChatGPT即将2周年

  1. Tesla预计屯大量H100 GPU