RWKV 社区六月动态:多次亮相高规格活动,适合混合架构的新特性发布

206 阅读15分钟

欢迎大家收看《RWKV 社区最新动态》,本期内容收录了 RWKV 社区 2025 年 6 月的最新动态。

只需 3 分钟,快速了解 RWKV 社区 6 月都有哪些新鲜事!

6 月动态省流版(TL;DR)

  1. RWKV 模型新闻动态

    • RWKV-8 系列之 DeepEmbedAttention 发布
  2. RWKV 学术研究动态

    • 新论文:FEAT: Full-Dimensional Efficient Attention Transformer for Medical Video Generation(基于 RWKV 的医学视频生成,已被 MICCAI 2025 提前接收
    • 新论文:Pan-Sharpening via Causal-Aware Feature Distribution Calibration(基于 RWKV 的全色锐化,一区顶刊 TGRS 接收)
    • 新论文:URWKV: Unified RWKV Model with Multi-state Perspective for Low-light Image Restoration(基于 RWKV 的低光照图像恢复,已入选 CVPR 2025
    • 新论文:VisualRWKV-HM: Enhancing linear visual-language models via hybrid mixing(RWKV 的视觉语言模型,发表于 JCR Q1 期刊 Information Fusion
    • 新论文:SMNet: A Semantic Guided Mamba Network for Remote Sensing Change Detection(遥感变化检测,IEEE TAES 接收)
    • 新论文:Accurate, fast, cheap: Choose three. Replacing Multi-Head-Attention with Bidirectional Recurrent Attention for Long-Form ASR(基于 RWKV 的语音识别,Interspeech 2025 接收)
    • 新论文:Personalizable Long-Context Symbolic Music Infilling with MIDI-RWKV(基于 RWKV 的音乐生成)
    • 新论文:Out-of-Distribution Semantic Occupancy Prediction(引入 RWKV 增强特征的 3D 语义占用预测)
    • 新论文:Vision-QRWKV: Exploring Quantum-Enhanced RWKV Models for Image Classification(基于 RWKV 的量子增强图像分类)
    • 新论文:Diet-Seg: Dynamic Hardness-Aware Learning for Enhanced Brain Tumor Segmentation(基于 RWKV 的医学图像分割)
    • 新论文:Exploring Diffusion with Test-Time Training on Efficient Image Restoration(基于 RWKV 的图像修复)
    • 新论文:Relational Context Modeling for Improved Knowledge Graph Completion(混合 RWKV 架构的知识图谱补全)
    • 新论文:Med-URWKV: Pure RWKV With ImageNet Pre-training For Medical Image Segmentation(基于 RWKV 的医学图像分割)
    • 新论文:RWKV-IF: Efficient and Controllable RNA Inverse Folding via Attention-Free Language Modeling(基于 RWKV的 RNA 逆折叠)
    • 新论文:A Parallel Processing Architecture for Long-Term Power Load Forecasting(基于 RWKV 的长期电力负荷预测)
    • 新论文:Blind Identification of Collective Motion Criticality Using Sequence Model Predictive Entropy Variance(集体运动临界性盲识别)
    • 新论文:融合接收加权键值架构和球面几何特征的甲状腺结节分割方法(基于 RWKV 的医学影像分割)
  3. RWKV 社区项目动态

    • rwkv_Ascend(RWKV 和昇腾共建的算子库)

    • rwkv7-g1-1.5b-instruct-preview(RWKV 的后训练模型)

  4. RWKV 社区市场活动

    • RWKV 参加亚马逊云科技中国峰会

    • RWKV 参加 RTE Open Day

    • RWKV 参加魔搭开发者大会

    • RWKV 参加 GAIC 全球互联网架构大会

    • RWKV 亮相上海开源创新箐英荟

    • RWKV 亮相国际技术进出口交易会

    • RWKV 亮相香港 NovaX 国际创投嘉年华

RWKV 模型新闻动态

RWKV-8 系列之 DeepEmbedAttention

5 月 27 日,我们公开了 RWKV-8 首个新特性 DeepEmbed:对端侧友好的稀疏设计,解决 MoE 显存占用

6 月 30 日,与其相关的另一个新特性 DeepEmbedAttention(DEA)也正式公布。这是一种基于 RWKV-8 DeepEmbed 思路的注意力变体,拥有极小的 KV 缓存,尤其适合混合模型(例如后续的 RWKV-7s 混合模型),可将它们的长上下文性能提升到 Transformer 水准。

DeepEmbedAttention-loss

RWKV 学术研究动态

RWKV 学术研究包括基于 RWKV 架构的新论文RWKV 社区参加的学术研究

FEAT

  • 论文名称:FEAT: Full-Dimensional Efficient Attention Transformer for Medical Video Generation
  • 论文链接:arxiv.org/abs/2506.04…
  • 发布日期:2025-06-05

本文基于 RWKV 模型架构中的 WKV 注意力机制,提出了 FEAT 模型,通过统一的空间-时间-通道注意力机制解决医疗视频生成中通道交互不足、计算复杂度高和去噪指导粗糙的问题。在多个数据集上实现了高效高质量的医疗视频生成。

该项工作十分新颖和出色,已经以 top9% 的评分提前入选 MICCAI 2025

20250605-FEAT

Pan-Sharpening via Causal-Aware Feature Distribution Calibration

本文基于 RWKV 模型提出了一种新的全色锐化方法,通过因果推断解决网络优化中的频率不平衡问题。该方法在训练阶段利用 RWKV 架构的全局感受野,有效学习高频分量的长尾分布,并量化特征偏差的累积方向。

实验结果表明,该方法在多个基准数据集上均优于现有先进方法,展示了其在全色锐化任务中的有效性和鲁棒性。

文中方法在全色锐化任务中有出色的表现,已入选一区顶刊 IEEE Transactions on Geoscience and Remote Sensing

20250604-Pan-Sharpening_via_Causal-Aware_Feature_Distribution_Calibration

URWKV

  • 论文名称:URWKV: Unified RWKV Model with Multi-state Perspective for Low-light Image Restoration
  • 论文链接:arxiv.org/abs/2505.23…
  • 发布日期:2025-05-29

论文基于 RWKV 模型,提出了一种统一的多状态视角模型 URWKV,用于低光照图像恢复。该模型通过定制化的 URWKV 块感知和分析复杂退化,利用多阶段状态实现自适应场景感知的亮度调制。显著提升了性能。

论文受到广泛认可,已入选 CVPR 2025

20250529-URWKV

VisualRWKV-HM

20250606-VisualRWKV-HM

论文基于 RWKV 模型提出了 VisualRWKV-HM,这是一种具有线性复杂度的视觉语言模型,在单图像、多图像和多视图基准测试中均达到了 SOTA 性能。

与基于 Transformer-Mamba 架构的混合模型 LongLLaVA 相比,它在上下文长度为 16K 时消耗的内存更少,吞吐量提高了 24%。此外,VisualRWKV-HM 具有良好的可扩展性,通过扩展状态编码器和解码器,可以进一步提高性能。

VisualRWKV-HM 表现出优秀的视觉语言性能,已发表于顶级期刊 Information Fusion

SMNet

论文基于 RWKV 模型和 Mamba 架构提出了一种新的遥感变化检测模型 SMNet,该模型通过整合多层次特征表示,有效解决了当前方法在变化检测任务中性能有限和特征表达能力不足的问题。SMNet 利用 RWKV 的多方向 WKV 注意力机制和 Mamba 的空间架构,增强了模型处理语义信息的能力。

实验结果表明,SMNet 在多个遥感变化检测基准数据集上表现出色,显著优于现有方法。

20250618-SMNet_A_Semantic_Guided

Accurate, fast, cheap: Choose three. Replacing Multi-Head-Attention with Bidirectional Recurrent Attention for Long-Form ASR

  • 论文名称:Accurate, fast, cheap: Choose three. Replacing Multi-Head-Attention with Bidirectional Recurrent Attention for Long-Form ASR
  • 论文链接:arxiv.org/abs/2506.19…
  • 发布日期:2025-06-24

本文研究了将多头注意力(MHA)替换为双向循环注意力(RA)在长语音识别(ASR)中的应用,发现双向 RWKV-Conformer 模型在保持相似准确率的同时,效率更高。通过引入 Direction Dropout 方法,进一步提升了模型的灵活性和性能。

20250624-Accurate, fast, cheap

MIDI-RWKV

  • 论文名称:Personalizable Long-Context Symbolic Music Infilling with MIDI-RWKV
  • 论文链接:arxiv.org/abs/2506.13…
  • 发布日期:2025-06-16

论文基于 RWKV 模型提出了 MIDI-RWKV ,一个用于个性化、多轨道、长上下文和可控符号音乐填充的新型模型。该模型采用 RWKV-7 线性架构,能够在边缘设备上实现高效且连贯的音乐协同创作。MIDI-RWKV 通过微调初始状态实现了在极小样本条件下的个性化。

实验结果表明,MIDI-RWKV 在多项定量和定性指标上均优于现有方法。

20250616-MIDI-RWKV

Out-of-Distribution Semantic Occupancy Prediction

  • 论文名称:Out-of-Distribution Semantic Occupancy Prediction
  • 论文链接:arxiv.org/abs/2506.21…
  • 发布日期:2025-06-26

这篇论文为解决自动驾驶中的“意外”物体识别难题,创新性地引入 RWKV 架构来强化模型的特征感知力,并提出了 OccOoD 框架。它巧妙融合了精细的 3D 体素和全局的鸟瞰图视角,能更准确地判断异常。为了训练和验证模型,作者还独创性地构建了合成异常数据集.

实验结果表明,在不影响常规物体识别性能的前提下,实现了对未知风险的精准捕获。

20250626-Out-of-Distribution Semantic Occupancy Prediction

Vision-QRWKV

  • 论文名称:Vision-QRWKV: Exploring Quantum-Enhanced RWKV Models for Image Classification
  • 论文链接:arxiv.org/abs/2506.06…
  • 发布日期:2025-06-07

本文基于 RWKV 模型提出了一种量子增强的混合架构 Vision-QRWKV,用于图像分类任务。通过将变分量子电路(VQC)集成到 RWKV 的通道混合组件中,模型提升了非线性特征转换能力。

实验表明,该模型在多个医疗和标准图像数据集上表现优于经典模型。

20250607-Vision-QRWKV

Diet-Seg

  • 论文名称:Diet-Seg: Dynamic Hardness-Aware Learning for Enhanced Brain Tumor Segmentation
  • 论文链接:www.biorxiv.org/content/10.…
  • 发布日期:2025-06-03

本文基于 RWKV 模型提出了一种新型脑肿瘤分割框架 Diet-Seg,通过将基于熵的像素级难度估计与动态学习率调节策略结合,有效提升了脑肿瘤分割的准确性。Diet-Seg 框架采用 RWKV-UNet 作为主干网络,以捕捉全局空间依赖性。

实验结果表明,Diet-Seg 在 BraTS2018–2021 数据集上表现优于现有方法,特别是在肿瘤子区域的分割上取得了显著提升。

20250603-Diet-Seg Dynamic

DiffRWKVIR

  • 论文名称:Exploring Diffusion with Test-Time Training on Efficient Image Restoration
  • 论文链接:arxiv.org/abs/2506.14…
  • 发布日期:2025-06-17

论文基于 RWKV 模型提出了 DiffRWKVIR 框架,该框架将测试时训练(TTT)与高效扩散相结合,通过 Omni-Scale 2D 状态演化扩展 RWKV 的位置依赖参数化,实现全局上下文感知,并通过块优化闪存处理加速计算,最终在图像修复任务中超越现有方法,显著提升了效率和效果。

该论文还提出了先验引导的高效扩散方法,通过提取紧凑的图像先验表示,加速了训练和推理过程,同时解决了传统扩散模型中的计算低效问题。

20250617-Exploring Diffusion with Test-Time Training on Efficient Image Restoration

RCME

论文基于 RWKV 模型和 TuckER 模型,提出了一种名为 RCME 的混合架构,用于改进知识图谱补全。RCME 结合了 RWKV 的序列建模能力和动态嵌入生成,以及 TuckER 的关系解码鲁棒性,在链接预测和三元组分类任务中表现优于多种先进模型。

实验结果表明,该架构在多个基准数据集上均取得了显著的性能提升。

20250601-Relational Context Modeling for Improved

Med-URWKV

  • 论文名称:Med-URWKV: Pure RWKV With ImageNet Pre-training For Medical Image Segmentation
  • 论文链接:arxiv.org/abs/2506.10…
  • 发布日期:2025-06-12

论文基于 RWKV 模型提出了一种名为 Med-URWKV 的纯 RWKV 架构,该架构基于 U-Net 框架构建,并融入了基于 ImageNet 的预训练,以进一步探索 RWKV 在医学图像分割任务中的潜力。

研究通过在七个数据集上的实验,验证了 Med-URWKV 在医学图像分割任务中的有效性。

20250612-Med-URWKV

RWKV-IF

  • 论文名称:Med-URWKV: Pure RWKV With ImageNet Pre-training For Medical Image Segmentation
  • 论文链接:www.biorxiv.org/content/10.…
  • 发布日期:2025-06-14

本文基于 RWKV 模型提出了一种名为 RWKV-IF 的高效可控 RNA 逆折叠框架,通过将结构到序列的生成建模为条件语言建模任务,以线性复杂度捕获长程依赖关系。研究引入了一种解码策略,结合 Top-k 采样、温度控制和 G-C 含量偏向,生成结构准确且具有生物物理意义的序列。显著优于传统搜索基线方法。

20250614-RWKV-IF

MP-RWKV

  • 论文名称:A Parallel Processing Architecture for Long-Term Power Load Forecasting
  • 论文链接:www.mdpi.com/2673-4591/9…
  • 发布日期:2025-06-16

本文基于 RWKV-TS 模型提出了 MP-RWKV,通过并行处理路径解决长期电力负荷预测中不同预测范围的挑战。MP-RWKV 通过上下文状态机制和位置感知注意力机制,在短期和长期预测场景中均表现出色。

实验结果表明,MP-RWKV 在 24 小时至 432 小时的预测范围内均优于现有基准模型,尤其在传统模型性能下降的长期预测中表现突出。显著提升了长期电力负荷预测的准确性和稳定性。

20250616-A Parallel Processing Architecture for Long-Term Power Load Forecasting

Blind Identification

  • 论文名称:Blind Identification of Collective Motion Criticality Using Sequence Model Predictive Entropy Variance
  • 论文链接:papers.ssrn.com/sol3/papers…
  • 发布日期:2025-06-16

本文基于 RWKV-7 序列模型提出了一种无参数的集体运动临界性识别方法,通过分析单智能体轨迹数据来检测 Vicsek 模型中的临界区域。

该方法利用预测香农熵的方差作为指标,无需系统控制参数或全局信息,成功在 L=32 和 L=64 系统中识别出临界噪声水平,且结果符合有限尺寸缩放原理。

20250616-Blind Identification of Collective Motion Criticality Using Sequence Model Predictive Entropy Variance

融合接收加权键值架构和球面几何特征的甲状腺结节分割方法

  • 论文名称:融合接收加权键值架构和球面几何特征的甲状腺结节分割方法
  • 论文链接:www.biomedeng.cn/article/10.…
  • 发布日期:2025-05-29

论文提出了一种融合接收加权键值架构(RWKV)和球面几何特征(SGF)采样技术的甲状腺结节分割方法。该方法通过二维偏移预测和像素级采样位置调整,有效捕捉邻近区域细节,实现精确分割。同时,本研究引入了区块注意力模块(PAM),利用区域交叉注意力机制优化解码器特征图,使其更精确关注编码器的高分辨率特征。

在甲状腺结节区域分割数据集(TN3K)和甲状腺影像数字数据库(DDTI)上的实验表明,本文所提方法的戴斯相似系数(DSC)分别达到87.24%和80.79%,优于现有模型,且计算复杂度较低,或可为甲状腺结节精确分割提供一种高效解决方案。

20250529-融合接收加权键值架构和球面几何特征的甲状腺结节分割方法

社区项目动态

rwkv_Ascend

rwkv_Ascend 是 RWKV 与昇腾共建的算子仓库,欢迎rwkv爱好者学习、使用和魔改的RNN attention(rwkv、fla)系列算子代码。

rwkv7-g1-1.5b-instruct-preview

此项目是社区成员精心制作的 RWKV7-G1 1.5B 的后训练模型,强化了指令遵循能力和中文能力,同时拥有更高的情商。

RWKV7-G1-1.5B-instruct

社区活动

RWKV 参加亚马逊云科技中国峰会

2025 年 6 月 19 日,RWKV 团队受邀出席于上海举办的亚马逊云科技中国峰会,并荣膺「智创未来」领航奖。

AMZ-1

RWKV 参加 RTE Open Day

2025 年 6 月 21 日至 22 日,北京,一场属于技术人的盛会——RTE Open Day 拉开帷幕。RWKV 团队与来自全国的技术爱好者和开发者们齐聚一堂,展示前沿应用,共话 AGI 的无限可能。

RTE Openday AGI Playground-3

RWKV 参加魔搭开发者大会

2025 年 6 月 30 日,在国家信息中心指导、魔搭社区主办的 2025 魔搭开发者大会上,RWKV 团队受邀出席。团队与广大开发者深入分享了 RWKV 的最新进展与架构的核心亮点,共探 AI 技术的新可能。

ModelScope-2

RWKV 参加 GAIC 全球互联网架构大会

2025 年 6 月 14 日,在全球互联网架构大会上,RWKV 团队深度解析了 RWKV 最新架构在精度、显存占用及运算速度等方面的核心优势,并面向公众分享了简单易用的基于 RWKV 进行微调、推理与多模态开发的最佳实践。

GIAC-1

RWKV 亮相上海开源创新箐英荟

2025 年 6 月 28 日,RWKV 团队出席由上海开源信息技术协会主办的 2025 上海开源创新箐英荟,并凭借其卓越的技术贡献和活跃的社区生态,荣获主办方颁发的“优秀开源项目奖”。

SHOPEN-1

SHOPEN-2

RWKV 亮相国际技术进出口交易会

2025 年 6 月 11 日至 13 日,RWKV 团队携其创新成果亮相上海世博展览馆,出席(上海)国际技术进出口交易会。会上,团队向与会者展示了 RWKV 在端侧部署、低资源消耗及可持续学习等方面的卓越优势,引发广泛关注。

CSITF-1

RWKV 亮相香港 NovaX 国际创投嘉年华

2025 年 6 月 30 日至 7 月 1 日,RWKV 团队登陆香港,在 NovaX Global Investmatch Carnival 国际创投嘉年华 2025 的舞台上,与全球顶尖的创投机构和行业领袖齐聚一堂,共同探讨 AI 技术的商业前景与未来机遇。

NovaX-1

加入 RWKV 社区

欢迎大家加入 RWKV 社区,可以从 RWKV 中文官网了解 RWKV 模型,也可以加入 RWKV 论坛、QQ 频道和 QQ 群聊,一起探讨 RWKV 模型。