RWKV 社区五月动态:多篇高质量论文、RWKV-8 第一个新特性公布!

169 阅读8分钟

欢迎大家收看《RWKV 社区最新动态》,本期内容收录了 RWKV 社区 2025 年 5 月的最新动态。

只需 3 分钟,快速了解 RWKV 社区 5 月都有哪些新鲜事!

5 月动态省流版(TL;DR)

  1. RWKV 学术研究动态

    • 新论文:Multi-View Learning with Context-Guided Receptance for Image Denoising(RWKV 图像去噪,已被 IJCAI 主会接收

    • 新论文:RWKVQuant: Quantizing the RWKV Family with Proxy Guided Hybrid of Scalar and Vector Quantization(RWKV 模型量化,已入选 ICML2025

    • 新论文:QuantumRWKV:Quantum-Enhanced Channel Mixing in RWKV Models for Time Series Forecasting(RWKV 量子增强时序预测)

    • 新论文:DualComp: End-to-End Learning of a Unified Dual-Modality Lossless Compressor(基于 RWKV-7 的图像和文本压缩)

    • 新论文:Maximizing Asynchronicity in Event-based Neural Networks(基于 RWKV-6 的事件相机异常检测)

    • 新论文:RWKV-X: A Linear Complexity Hybrid Language Model(RWKV 混合模型架构)

    • 新论文:Multiple Span Bidirectional RWKV Network for Infrared Image Super-Resolution(RWKV 红外图像超分)

    • 新论文:RADLADS: Rapid Attention Distillation to Linear Attention Decoders at Scale(RWKV 模型转换)

    • 新论文:Spatio-Temporal Weighted Graph Reason Learning for Multivariate Time-Series Anomaly Detection(RWKV 时序异常检测)

    • 新论文:ModRWKV:Transformer Multimodality in Linear Time(多模态的 RWKV)

    • 新论文:RainRWKV:a deep RWKV model for video deraining(基于 RWKV 的视频去雨)

  2. RWKV 模型新闻动态

    • RWKV7 G1 2.9B 发布,同参数量全面登顶
    • RWKV-8 "Heron" 第一个新特性发布
  3. RWKV 社区活动

    • RWKV 亮相澳门和深圳双展
  4. RWKV 社区项目动态

    • rwkv7-g1-1.5b-Lonely-Neko:基于 RWKV-7 G1 1.5B 微调的对话模型,角色十分可爱。

RWKV 学术研究动态

RWKV 学术研究包括 基于 RWKV 架构的新论文RWKV 社区参加的学术研究

Multi-View Learning

  • 论文名称:Multi-View Learning with Context-Guided Receptance for Image Denoising
  • 论文链接:arxiv.org/abs/2505.02…
  • 发布日期:2025-05-05

该论文基于 RWKV 模型提出 CRWKV 架构,通过引入双向 BiWKV 机制突破因果约束,实现线性复杂度的像素序列交互。结合 Context-guided Token Shift (CTS) 机制增强噪声分布建模,并通过 Frequency Mix 模块整合频域特征,在图像去噪任务中取得 SOTA 效果,推理时间减少 40%。

该论文因其在图像去噪任务中的优秀性能,已被 IJCAI 主会接收。

20250505-CRWKV

RWKVQuant

  • 论文名称:RWKVQuant: Quantizing the RWKV Family with Proxy Guided Hybrid of Scalar and Vector Quantization
  • 论文链接:arxiv.org/abs/2505.03…
  • 发布日期:2025-05-02

论文提出了 RWKVQuant,一种专门针对 RWKV 模型的训练后量化框架。通过结合标量量化和向量量化技术,并设计基于信息熵的代理策略与码本优化算法,该框架成功将 RWKV-14B 模型压缩至约 3 位宽,在精度损失小于 1% 的同时实现 2.14 倍加速。

实验证明了该方法在语言和视觉任务上的有效性,是首个针对 RWKV 家族的完整量化解决方案。

凭借优秀的模型压缩技术,论文成功入选 ICML2025

20250502-RWKVQuant

QuantumRWKV

  • 论文名称:Quantum-Enhanced Channel Mixing in RWKV Models for Time Series Forecasting
  • 论文链接:arxiv.org/abs/2505.13…
  • 发布日期:2025-05-18

论文提出了 QuantumRWKV 模型,将 RWKV 模型中的前馈网络部分替换为变分量子电路,以增强非线性表示能力。

实验证明,该模型在处理非线性或混沌动力学的时间序列任务中表现更优。

20250517-QUANTUM-ENHANCED CHANNEL MIXING IN RWKV MODELS

DualComp

  • 论文名称:DualComp: End-to-End Learning of a Unified Dual-Modality Lossless Compressor
  • 论文链接:arxiv.org/abs/2505.16…
  • 发布日期:2025-05-22

论文提出了 DualComp,一种 RWKV-7 的统一双模态无损压缩器,首次实现了图像和文本数据的统一无损压缩。

DualComp 在图像和文本数据集上的压缩性能实现 SOTA,且参数更少,支持桌面 CPU 上的近实时推理。其单模态变体在 Kodak 数据集上以仅 1.2% 的模型大小超越了之前的最佳图像压缩器约 9%。

20250530-DualComp

Maximizing Asynchronicity

  • 论文名称: Maximizing Asynchronicity in Event-based Neural Networks
  • 论文链接:arxiv.org/abs/2505.11…
  • 发布日期:2025-05-16

论文提出了一种新的异步到同步框架 EVA,用于实时事件相机数据处理。

该框架基于 RWKV-6 构建了高效的异步编码器,实现了逐事件的表示更新,并采用自监督学习方法获得了具有高度泛化能力的事件表示。

20250516-Maximizing Asynchronicity in Event-based Neural Networks

RWKV-X

  • 论文名称:RWKV-X: A Linear Complexity Hybrid Language Model
  • 论文链接:arxiv.org/abs/2504.21…
  • 发布日期:2025-04-30

论文提出了 RWKV-X 混合语言模型,通过将 RWKV 的短程建模效率与新型稀疏注意力机制结合,显著提升了长上下文处理能力。

该模型在 64K token 序列上持续预训练后,在长上下文基准测试中超越前期 RWKV-7 模型,同时保持线性训练时间复杂度和恒定推理解码复杂度,支持百万级 token 序列解码。

20250430-RWKV-X ALinear Complexity Hybrid Language Model

Multiple Span Bidirectional RWKV Network

  • 论文名称:Multiple Span Bidirectional RWKV Network for Infrared Image Super-Resolution
  • 论文链接:link.springer.com/article/10.…
  • 发布日期:2025-04-30

论文提出了一种基于 RWKV 模型的多跨度双向 MSB-RWKV 网络用于红外图像超分辨率。

通过改进 RWKV 的注意力机制,设计了 MSB-WKV 线性复杂度全局注意力模块和 Wide Shift 局部特征增强层,实现了红外图像长程依赖建模与局部细节恢复的高效平衡。

实验表明该方法在红外图像超分辨率任务中优于现有技术。

20250430-Multiple Span Bidirectional RWKV Network

RADLADS

  • 论文名称:RADLADS: Rapid Attention Distillation to Linear Attention Decoders at Scale
  • 论文链接:arxiv.org/abs/2505.03…
  • 发布日期:2025-05-05

论文提出 RADLADS 框架,通过注意力蒸馏将传统 softmax attention 的 Transformer 高效转换为线性注意力模型。

基于 RWKV 架构开发了两种新型变体 RAD-RWKV6 和 RAD-RWKV7,显著改善了现有 RWKV 架构在模型转换中的兼容性问题,并在 7B 至 72B 参数量级上实现了接近原模型的推理质量。

20250505-RADLADS

STWGRL

  • 论文名称:Spatio-Temporal Weighted Graph Reason Learning for Multivariate Time-Series Anomaly Detection
  • 论文链接:ieeexplore.ieee.org/abstract/do…
  • 发布日期:2025-05-12

论文提出了 STWGRL 框架,用于多元时间序列异常检测。其核心贡献包括基于 D-RWKV 模块高效捕获长期序列信息,结合 TaGAA 模块自适应聚合信号特征。

STWGRL 框架平衡了检测精度、时间成本和可靠性。

20250512-Spatio-Temporal Weighted Graph Reason Learning

ModRWKV

  • 论文名称:ModRWKV:Transformer Multimodality in Linear Time
  • 论文链接:arxiv.org/abs/2505.14…
  • 发布日期:2025-05-20

论文提出了一种基于 RWKV-7 架构的 ModRWKV 框架,探索了现代 RNN 架构在多模态场景下的应用。

ModRWKV 通过动态自适应的异构模态编码器实现多源信息融合,并通过广泛的实验确定了性能与计算效率之间的最佳平衡。

20250520-ModRWKV Transformer Multimodality in Linear Time

RainRWKV

论文提出了一种基于 RWKV 模型的 RainRWKV 框架,用于视频去雨任务。通过引入小波变换移位机制和管状嵌入机制,分别增强了模型对低频特征和高频细节的捕捉能力。

在视频去雨任务中表现出卓越的性能。

20250524-RainRWKV a deep RWKV model for video deraining

RWKV 模型新闻动态

RWKV7-G1 2.9B 发布

2025 年 5 月 20 日,RWKV 基金会开源发布了 RWKV7-G1 2.9B 推理模型(Reasoning Model)。RWKV7-G1 2.9B 在代码和数学能力上很大提升。

RWKV-G1 2.9B Eval

详细报道RWKV7-G1 2.9B 推理模型开源发布,展示数学/代码/全球语言能力,已适配手机 app

RWKV-8 "Heron" 新特性

2025 年 5 月 26 日,RWKV-8 "Heron" 的第一个新特性 DeepEmbed 公开。

RWKV-8 "Heron" 是 RWKV 的下一代架构,具有多个全新技术。首先公布的是 DeepEmbed 技术,它可以实现类似 MoE 的优秀推理性能,同时无需占用显存,甚至无需占用内存,可以让稀疏的大模型真正部署到所有端侧设备。

RWKV-8 "Heron" DeepEmbed

详细报道RWKV-8 预览之 DeepEmbed:对端侧友好的稀疏设计,解决 MoE 显存占用

社区活动

RWKV 亮相双展

5 月 22 至 24 日,元始智能同时参加了澳门 BEYOND EXPO 以及 2025 全球人工智能终端展,并首次公开展示基于 RWKV-7 模型的 5 款端侧 AI 应用 demo,呈现人工智能模型在离线环境下的技术突破。

RWKV-in-BEYOND_EXPO

详细报道RWKV-7新app亮相双展:聚焦端侧推理及多模态

社区项目动态

rwkv7-g1-1.5b-Lonely-Neko

社区成员 @Seikaijyu 基于 RWKV7 G1 1.5B 微调的角色扮演模型 Lonely-Neko,支持推理角色的内心活动,拥有非常优秀且稳定的角色扮演能力。

lonly-cat

加入 RWKV 社区

欢迎大家加入 RWKV 社区,可以从 RWKV 中文官网了解 RWKV 模型,也可以加入 RWKV 论坛、QQ 频道和 QQ 群聊,一起探讨 RWKV 模型。