AI News 0509

2024-05-09 115 阅读1分钟

新闻

Google DeepMind推出AlphaFold3模型：它是至今为止最好的蛋白质预测模型，可以预测几乎所有生命分子的结构和相互作用。并且AlphaFold3可能从Llama和Sora的架构中学到了生命科学相关的信息。它使用了和Llama和Sora相同的Transformer和Diffusion架构。

xLSTM：它通过引入指数门控和新的内存混合机制，在处理长上下文问题时具有线性计算和恒定内存复杂度。

Meta透露它们正在开发新穿戴设备，一个神经手环，它只需要想一想即可打字。
Soulplay：一个支持大模型角色扮演的移动app。使用Llama3 70b作为底层模型

论文

YOCO：一个新型的解码器-解码器架构。它能处理更长的上下文。和Transformer比有更好的吞吐。

Microsoft新作直指vLLM：不使用Paged Attention的动态内存管理方法。这种方法让解码速度提高了1.97倍。

模型

选择性微调Llama3的参数就能在某些领域获得比GPT4更好的效果：Llama3-TenyxChat-70B。

使用Llama3微调的代码助手，Llama-3-8B-Instruct-Coder，它去除了内容过滤器。并且提供了一个fp16的版本，方便推理。

温馨小教程：

在评估RAG性能时，评估最后的性能很重要。但同时评估中间层的性能也很重要。例如中间的查询和搜索到的文档。这份教程教你如何查看RAG中间的输出：docs.smith.langchain.com/how_to_guid…