TZ-LLM: Protecting On-Device Large Language Models with Arm TrustZone
核心问题:移动设备上部署的LLM存在专有模型泄露给终端用户的安全风险,需要轻量级保护机制
主要方法:提出基于Arm TrustZone TEE的系统设计,采用流水线恢复机制利用LLM推理的确定性内存访问模式预取参数,隐藏内存分配、I/O和解密延迟;引入协同驱动设计在TEE中创建最小数据平面NPU驱动
关键结果:在OpenHarmony OS和llama.cpp框架上实现,相比缺乏优化的TEE基线,TTFT减少高达90.9%,解码速度提升高达23.2%
研究意义:为移动设备LLM提供了高效安全保护方案,显著降低了推理延迟并提升了安全性
Generalist Foundation Models Are Not Clinical Enough for Hospital Operations
核心问题:通用基础模型缺乏医院运营决策所需的专业知识,在医疗知识和对话基准上表现良好但实际运营能力不足
主要方法:构建Lang1模型家族(100M-7B参数),在包含800亿临床token和6270亿互联网token的专门语料库上预训练;开发REalistic Medical Evaluation (ReMedE)基准评估五个关键任务
关键结果:零样本设置下通用和专门模型在4/5任务上表现不佳(36.6%-71.7% AUROC),微调后Lang1-1B超越大70倍的通用模型,AUROC提升3.64%-6.75%
研究意义:揭示了医疗系统AI需要领域内预训练、监督微调和真实世界评估的组合,支持专门LLM在专业任务中竞争的观点
Cost-Driven Synthesis of Sound Abstract Interpreters
核心问题:构建提供全局正确性保证的抽象解释器仍然是抽象解释领域的主要障碍
主要方法:将合成建模为约束优化问题,引入基于数学基础的代价函数测量不健全性;开发统一框架将LLM生成与语法语义验证和定量代价引导反馈机制结合
关键结果:不仅匹配手工转换器的质量,更重要的是发现了复杂非线性算子的健全高精度转换器,这些在现有文献中缺失
研究意义:为神经网络验证中的抽象解释器合成提供了新方法,显著降低了构建正确性保证的负担
Why is "Chicago" Predictive of Deceptive Reviews? Using LLMs to Discover Language Phenomena from Lexical Cues
核心问题:欺骗性评论的区分特征通常微妙、碎片化且难以解释,机器学习分类器学习的特征对人类难以理解
主要方法:使用LLM将机器学习到的词汇线索转化为人类可理解的语言现象;展示通过此方式获得的语言现象在数据中经验基础,可跨相似领域泛化
关键结果:发现的语言现象比LLM先验知识或上下文学习获得的现象更具预测性,有助于在没有欺骗检测分类器的环境中批判性评估在线评论可信度
研究意义:为欺骗性评论检测提供了可解释的语义基础,增强了人类对机器学习特征的理解
Live-SWE-agent: Can Software Engineering Agents Self-Evolve on the Fly?
核心问题:LLM代理需要专门设计且可能次优,因为穷尽整个代理支架设计空间极其困难且成本高昂
主要方法:提出首个实时软件代理,在解决真实世界软件问题时在运行时自主持续演化自身;从仅访问bash工具的最基本代理支架开始,自主演化自身支架实现
关键结果:在SWE-bench Verified基准上达到75.4%解决率,超越所有现有开源软件代理,接近最佳专有解决方案性能;在SWE-Bench Pro基准上达到45.8%的最佳已知解决率
研究意义:实现了软件代理的实时自主演化,显著提升了问题解决能力和适应性
Data Value in the Age of Scaling: Understanding LLM Scaling Dynamics Under Real-Synthetic Data Mixtures
核心问题:合成数据引入系统性分布差异,特别是由于top-p采样、温度缩放和有限采样等数据生成机制的截断效应导致长尾知识代表性不足
主要方法:识别由两个断点表征的三阶段缩放行为,反映模型在学习头部和尾部知识时的行为转变;推导针对真实-合成混合的LLM泛化边界
关键结果:提出有效且高效的数据估值方法,可扩展到大规模数据集;在四个任务上的综合实验证明方法在数据估值方面超越最先进基线,计算成本显著降低
研究意义:为混合真实-合成数据集的特征化和评估提供了理论基础和实践方法
T-SAR: A Full-Stack Co-design for CPU-Only Ternary LLM Inference via In-Place SIMD ALU Reorganization
核心问题:LLM进展超过了主要使用CPU的边缘平台的计算和内存容量,现有CPU解决方案严重依赖基于内存的查找表限制可扩展性
主要方法:提出首个在CPU上实现可扩展三元LLM推理的框架,重新利用SIMD寄存器文件进行动态寄存器内LUT生成;最小硬件修改消除内存瓶颈并最大化数据级并行性
关键结果:在GEMM延迟和GEMV吞吐量上分别实现5.6-24.5倍和1.1-86.2倍改进,SIMD单元仅3.2%功耗和1.4%面积开销;达到NVIDIA Jetson AGX Orin的2.5-4.9倍能效
研究意义:为边缘平台上的高效LLM推理提供了实用方法,显著提升了计算效率和能效 这些论文涵盖了LLM领域的多个重要方向,包括移动设备安全、医疗领域应用、抽象解释器合成、欺骗检测、软件代理演化、数据估值和边缘计算优化等方面,代表了当前LLM研究的前沿进展。