AI News 0509

115 阅读1分钟

新闻

  1. Google DeepMind推出AlphaFold3模型:它是至今为止最好的蛋白质预测模型,可以预测几乎所有生命分子的结构和相互作用。并且AlphaFold3可能从Llama和Sora的架构中学到了生命科学相关的信息。它使用了和Llama和Sora相同的Transformer和Diffusion架构。

  1. xLSTM:它通过引入指数门控和新的内存混合机制,在处理长上下文问题时具有线性计算和恒定内存复杂度。

  1. Meta透露它们正在开发新穿戴设备,一个神经手环,它只需要想一想即可打字。
  2. Soulplay:一个支持大模型角色扮演的移动app。使用Llama3 70b作为底层模型

论文

  1. YOCO:一个新型的解码器-解码器架构。它能处理更长的上下文。和Transformer比有更好的吞吐。

  1. Microsoft新作直指vLLM:不使用Paged Attention的动态内存管理方法。这种方法让解码速度提高了1.97倍。

模型

  1. 选择性微调Llama3的参数就能在某些领域获得比GPT4更好的效果:Llama3-TenyxChat-70B。

  1. 使用Llama3微调的代码助手,Llama-3-8B-Instruct-Coder,它去除了内容过滤器。并且提供了一个fp16的版本,方便推理。

温馨小教程:

  1. 在评估RAG性能时,评估最后的性能很重要。但同时评估中间层的性能也很重要。例如中间的查询和搜索到的文档。这份教程教你如何查看RAG中间的输出:docs.smith.langchain.com/how_to_guid…