人工智能 论文日报
=========更新日期 2024-12-07=======================
研究领域 图像识别
1 Stereo Anywhere: Robust Zero-Shot Deep Stereo Matching Even Where Either Stereo or Mono Fail
作者: Luca Bartolomei
发表日期: 2024-12-05T18:59:58+00:00
论文地址:arxiv.org/abs/2412.04…
我们推出了Stereo Anywhere,一个新颖的立体匹配框架,它将几何约束与单目深度视觉基础模型(VFMs)中的鲁棒先验知识相结合。通过巧妙地通过双分支架构耦合这些互补的信息,我们无缝地整合了立体匹配与学习到的上下文线索。按照这一设计,我们的框架引入了新颖的成本体积融合机制,有效处理了诸如无纹理区域、遮挡和非朗伯表面等关键挑战。通过我们新颖的视觉错觉数据集MonoTrap,以及在多个基准测试中的广泛评估,我们证明,仅用合成数据训练的模型在零样本泛化方面取得了最先进的结果,显著优于现有解决方案,并且在面对镜子和平滑透明物体等具有挑战性的情况下展现出卓越的鲁棒性。
2 VisionZip: Longer is Better but Not Necessary in Vision Language Models
作者: Senqiao Yang
发表日期: 2024-12-05T18:59:53+00:00
论文地址:arxiv.org/abs/2412.04…
近期,视觉-语言模型的进展通过增加视觉标记的长度,使它们远远超过了文本标记的长度,并显著提高了计算成本,从而提升了性能。然而,我们观察到,像CLIP和SigLIP这样的流行视觉编码器生成的视觉标记中存在大量冗余。为了解决这个问题,我们推出了VisionZip,这是一种简单而有效的方法,它为语言模型输入选择一组信息丰富的标记,减少视觉标记的冗余,提高效率,同时保持模型的性能。所提出的VisionZip可广泛应用于图像和视频理解任务,并适用于真实场景中的多轮对话,而此前的方法在这些场景中往往表现不佳。实验结果显示,VisionZip在几乎所有设置中至少比先前的最先进方法提高了5%的性能。此外,我们的方法显著提高了模型的推理速度,预填充时间提高了8倍,使得LLaVA-Next 13B模型在取得更好结果的同时,推理速度超过了LLaVA-Next 7B模型。此外,我们还分析了这种冗余产生的原因,并鼓励社区关注提取更好的视觉特征,而不是单纯地增加标记长度。我们的代码可以在github.com/dvlab-resea…
3 UnZipLoRA: Separating Content and Style from a Single Image
作者: Chang Liu
发表日期: 2024-12-05T18:59:50+00:00
论文地址:arxiv.org/abs/2412.04…
本文介绍了UnZipLoRA这种方法,它能够将图像分解为其组成主题和风格,分别用两个不同的LoRAs(低秩适配)来表示。与现有的一些个性化技术不同,这些技术要么单独关注主题或风格,要么需要对每个元素分别进行单独的训练集训练,UnZipLoRA通过同时训练两个LoRAs,从单一图像中解耦这些元素。UnZipLoRA确保生成的LoRAs是兼容的,即它们可以通过直接相加的方式无缝组合。UnZipLoRA使得主题和风格的独立操作和重新上下文化成为可能,包括生成各自的变体、将提取的风格应用于新的主题,并将它们重新组合以重构原始图像或创造出新的变体。为了解决主题和风格纠缠的问题,UnZipLoRA采用了一种新颖的提示分离技术,以及列和块分离策略,准确保留主题和风格的特征,并确保所学到的LoRAs之间的兼容性。通过人类研究和定量指标的评估,证明了与DreamBooth-LoRA、Inspiration Tree和B-LoRA等其他最先进的方法相比,UnZipLoRA的有效性。
4 Cubify Anything: Scaling Indoor 3D Object Detection
作者: Justin Lazarow
发表日期: 2024-12-05T18:59:09+00:00
论文地址:arxiv.org/abs/2412.04…
我们考虑的是利用商品手持设备获取的单个RGB(-D)帧进行室内三维物体检测。我们力求在数据和建模方面显著推进现状。首先,我们证实现有数据集在规模、准确性和物体多样性方面存在重大限制。因此,我们推出了Cubify-Anything 1M(CA-1M)数据集,该数据集详尽地标记了超过40万个三维物体,这些物体位于超过1000个高精度激光扫描的场景中,并且与超过3500个手持式、以自我为中心的捕捉完美配准。接下来,我们构建了Cubify Transformer(CuTR),这是一个完全基于Transformer的三维物体检测基线,它不是在三维点或体素表示上操作,而是直接从RGB(-D)输入派生的2D特征预测三维边界框。尽管这种方法没有任何三维感应偏差,但我们展示,与CA-1M结合使用时,CuTR能超越基于点的检测方法——在三维空间中准确召回超过62%的物体,并且显著提高了处理商品级激光雷达衍生深度图中的噪声和不确定性的能力,同时无需改变架构即可提供有希望的仅RGB性能。此外,通过在CA-1M上进行预训练,CuTR在SUN RGB-D的更多样化版本上也能超越基于点的检测方法——这支持了这样的观点:尽管在现有数据集较小尺寸时,三维感应偏差很有用,但它们未能扩展到CA-1M这种数据丰富的情况。总的来说,这个数据集和基线模型为我们向能有效“方块化”任何物体的模型迈进提供了有力证据。
5 Towards Real-Time Open-Vocabulary Video Instance Segmentation
作者: Bin Yan
发表日期: 2024-12-05T18:53:13+00:00
论文地址:arxiv.org/abs/2412.04…
在本文中,我们解决了实时执行开放词汇视频实例分割(OV-VIS)的挑战。我们分析了在执行OV-VIS时,现有基础模型计算上的瓶颈,并提出了一种新的方法——TROY-VIS,该方法显著提高了处理速度,同时保持了高准确度。我们引入了三项关键技术:(1)解耦注意力特征增强器,以加快不同模态和尺度间的信息交互速度;(2)快速嵌入记忆(Flash Embedding Memory),用以快速获取对象类别的文本嵌入;(3)核插值(Kernel Interpolation),利用视频中时间上的连续性。我们的实验表明,TROY-VIS在两个大规模OV-VIS基准测试——BURST和LV-VIS上,在准确度和速度之间实现了最佳平衡,运行速度比GLEE-Lite快20倍(25 FPS 对 1.25 FPS),且准确度相当甚至更优。这些结果证明了TROY-VIS在移动机器人、增强现实等动态环境实时应用中的潜力。代码和模型将在github.com/google-rese…
6 Style3D: Attention-guided Multi-view Style Transfer for 3D Object Generation
作者: Bingjie Song
发表日期: 2024-12-04T18:59:38+00:00
论文地址:arxiv.org/abs/2412.03…
我们推出了Style3D,这是一种从内容图像和风格图像生成风格化3D对象的新方法。与大多数先前需要案例或风格特定训练的方法不同,Style3D支持即时3D对象风格化。我们的关键洞察是,3D对象风格化可以分解为两个相互关联的过程:多视角双特征对齐和稀疏视角空间重建。我们引入了MultiFusion Attention,这是一种注意力引导的技术,用于从内容-风格对实现多视角风格化。具体来说,内容图像中的查询特征在多个视角之间保持了几何一致性,而风格图像中的键和值特征则用于指导风格转换。这种双特征对齐确保了多视角图像之间空间连贯性和风格保真度的维持。最后,引入了一个大的3D重建模型,以生成连贯的风格化3D对象。通过在多个视角之间建立结构和风格特征之间的相互作用,我们的方法实现了一个整体化的3D风格化过程。大量实验证明,Style3D为生成风格一致的3D资产提供了更灵活和可扩展的解决方案,在计算效率和视觉质量方面都超过了现有方法。
7 Sparse-view Pose Estimation and Reconstruction via Analysis by Generative Synthesis
作者: Qitao Zhao
发表日期: 2024-12-04T18:59:24+00:00
论文地址:arxiv.org/abs/2412.03…
从一组多视角图像中推断出其底层的3D结构,通常需要解决两个相互依赖的任务——准确的3D重建需要精确的摄像机姿态,而预测摄像机姿态则依赖于(显式或隐式地)对底层3D进行建模。传统的分析综合框架将这种推断视为一种联合优化,旨在解释所观察到的像素,而最近的实例通过基于梯度下降的初始姿态估计精细化方法,学习了表达性强的3D表示(例如,神经场)。然而,在给定一组稀疏的观察视角时,观察结果可能并不提供足够的直接证据以获得完整且准确的3D结构。此外,姿态估计中的较大误差可能不易纠正,并可能进一步降低推断出的3D质量。为了在这具有挑战性的设置中实现鲁棒的3D重建和姿态估计,我们提出了SparseAGS方法,该方法通过以下方式调整分析综合方法:a) 结合新颖的基于生成先验的新视角合成和光度目标,以提高推断3D的质量;b) 明确考虑异常值,并使用基于连续优化的离散搜索策略进行纠正。我们在真实世界和合成数据集上,结合几种现成的姿态估计系统作为初始化,验证了我们的框架。我们发现,它显著提高了基本系统的姿态准确性,同时产生了超越当前多视角重建基线的高质量3D重建结果。
8 The Matrix: Infinite-Horizon World Generation with Real-Time Moving Control
作者: Ruili Feng
发表日期: 2024-12-04T18:59:05+00:00
论文地址:arxiv.org/abs/2412.03…
我们推出了“矩阵”这款首款基础的现实世界模拟器,它能生成连续的720p高保真真实场景视频流,同时支持第一人称和第三人称视角下的实时响应控制,让用户能够沉浸在丰富多变的动态环境中进行探索。该模拟器在有限的监督数据上进行训练,这些数据来自如《极限竞速:地平线5》和《赛博朋克2077》等AAA级游戏,并辅以大规模来自现实世界场景(如东京街道)的非监督视频资料。“矩阵”让用户能够穿越连续不断、未经剪辑的长达一小时的多样化地形,包括沙漠、草原、水域和城市景观。以16帧每秒的速率运行,该系统能够支持实时交互,并展示了零样本泛化的能力,将虚拟游戏环境转换到在现实中往往难以收集连续运动数据的实际情境。例如,“矩阵”能够模拟一辆宝马X3在办公环境中穿行的场景——这一环境既未在游戏数据中也未在现实世界来源中出现。这种方法展示了AAA游戏数据在推进健壮世界模型方面的潜力,弥合了在数据有限情境下模拟与真实世界应用之间的差距。
9 FLAIR: VLM with Fine-grained Language-informed Image Representations
作者: Rui Xiao
发表日期: 2024-12-04T18:56:04+00:00
论文地址:arxiv.org/abs/2412.03…
CLIP在大规模对齐图像和文本方面取得了令人印象深刻的效果。然而,它在捕捉细致的视觉特征方面仍然有限,因为CLIP是在全局层面上匹配图像和文本的。为了解决这个问题,我们提出了FLAIR,即细粒度语言信息图像表示,这种方法利用了长而详细的图像描述来学习局部图像嵌入。通过抽样描述图像细粒度细节的不同子标题,我们训练我们的视觉-语言模型不仅产生全局嵌入,还产生特定文本的图像表示。我们的模型在局部图像标记上引入了文本条件注意池化,以生成在检索详细图像内容方面表现卓越的细粒度图像表示。我们在现有的多模态检索基准以及我们新引入的细粒度检索任务上均取得了最先进的效果,后者评估了视觉-语言模型检索图像部分内容的能力。此外,我们的实验证明了在3000万图像-文本对上训练的FLAIR在捕捉细粒度视觉信息方面的有效性,包括零样本语义分割,其性能超过了在数十亿对上训练的模型。代码可在github.com/Explainable…
10 NODE-AdvGAN: Improving the transferability and perceptual similarity of adversarial examples by dynamic-system-driven adversarial generative model
作者: Xinheng Xie
发表日期: 2024-12-04T18:36:09+00:00
论文地址:arxiv.org/abs/2412.03…
理解对抗性样本对于提高模型的鲁棒性至关重要,因为它们引入了难以察觉的扰动,能够欺骗模型。因此,有效的对抗性样本具有通过消除其独特性来训练更鲁棒模型的潜力。我们提出了NODE-AdvGAN,这是一种新颖的方法,它将对抗性生成视为一个连续过程,并采用神经常微分方程(NODE)来模拟生成器的动态。通过模仿传统基于梯度的方法的迭代特性,NODE-AdvGAN生成了更平滑、更精确的扰动,这些扰动在与良性图像结合时能够保持高感知相似性。我们还提出了一种新的训练策略,即NODE-AdvGAN-T,通过在训练过程中有效地调整噪声参数,增强黑盒攻击中的可迁移性。实验表明,NODE-AdvGAN和NODE-AdvGAN-T生成的对抗性样本在保持比传统基于GAN的方法更好的感知质量的同时,实现了更高的攻击成功率。
11 An ADHD Diagnostic Interface Based on EEG Spectrograms and Deep Learning Techniques
作者: Medha Pappula
发表日期: 2024-12-03T18:59:35+00:00
论文地址:arxiv.org/abs/2412.02…
本文介绍了一种创新的方法,通过在脑电图(EEG)信号上应用深度学习(DL)技术,对注意力缺陷多动障碍(ADHD)进行诊断。该方法针对当前基于行为诊断方法的局限性,这些局限性常导致误诊和性别偏见。通过使用一个公开可获得的EEG数据集,并将信号转换成频谱图,本研究采用了Resnet-18卷积神经网络(CNN)架构来提取用于ADHD分类的特征。该模型取得了高精确度、召回率,以及0.9的总体F1分数。特征提取突显了与ADHD相关的重要大脑区域(额极、顶叶和枕叶)。这些洞察指导创建了一个三部分数字诊断系统,便于在校园环境中进行成本效益高且易于获取的ADHD筛查。该系统使得能够更早且更准确地识别处于ADHD风险的学生,及时提供支持以增强他们的发展成果。本研究展示了将EEG分析与DL结合用于提升ADHD诊断的潜力,为传统方法提供了一个可行的替代选择。
12 Taming Scalable Visual Tokenizer for Autoregressive Image Generation
作者: Fengyuan Shi
发表日期: 2024-12-03T18:59:10+00:00
论文地址:arxiv.org/abs/2412.02…
现有的矢量量化(VQ)方法在可扩展性方面存在困难,这主要归因于在训练过程中进行部分更新的码本的不稳定性。由于非激活码与视觉特征之间的分布差距逐渐扩大,码本的利用程度下降,很容易导致码本崩溃。为了解决这个问题,我们提出了索引反向传播量化(IBQ),这是一种新的VQ方法,用于对所有码本嵌入和视觉编码器进行联合优化。在编码特征与码本之间的一个热独热分布上应用直接估计器,使得所有编码都具有可微性,并与视觉编码器保持一致的潜在空间。IBQ使得视觉标记器的可扩展训练成为可能,并且首次实现了具有高维度(256)、高利用率和大规模码本()。在标准的ImageNet基准测试上的实验验证了IBQ的可扩展性和优越性,在重建( rFID)和自回归视觉生成( gFID)上都取得了竞争性的结果。代码和模型可在github.com/TencentARC/…
13 AlphaTablets: A Generic Plane Representation for 3D Planar Reconstruction from Monocular Videos
作者: Yuze He
发表日期: 2024-11-29T18:59:52+00:00
论文地址:arxiv.org/abs/2411.19…
我们推出了AlphaTablets,这是一种新颖的、通用的3D平面表示方法,其特点在于拥有连续的3D表面和精确的边界划分。通过将3D平面表示为带有alpha通道的矩形,AlphaTablets结合了当前2D和3D平面表示的优势,实现了对3D平面的准确、一致和灵活建模。我们在AlphaTablets上构建了可微分的光栅化技术,以高效地将3D平面渲染成图像,并提出了一种从单目视频中3D平面重建的新型自下而上的处理流程。我们从预训练模型中获取2D超像素和几何线索开始,将3D平面初始化为AlphaTablets,并通过可微分渲染进行优化。我们引入了一种有效的合并方案,以促进AlphaTablets的增长和细化。通过迭代优化和合并,我们重建了具有坚实表面和清晰边界的完整且准确的3D平面。在ScanNet数据集上的大量实验表明,在3D平面重建方面取得了最先进的效果,凸显了AlphaTablets作为一种通用的3D平面表示在各种应用中的巨大潜力。项目页面可以在以下链接查看:hyzcluster.github.io/alphatablet…
14 DELT: A Simple Diversity-driven EarlyLate Training for Dataset Distillation
作者: Zhiqiang Shen
发表日期: 2024-11-29T18:59:46+00:00
论文地址:arxiv.org/abs/2411.19…
在数据集精炼领域的最新进展导致了两个主要方向的解决方案。传统的批量到批量匹配机制适用于小规模数据集,其中包括在模型和合成上采用双层优化方法,如FRePo、RCIG和RaT-BPTT等,以及其他如分布匹配、梯度匹配和权重轨迹匹配的方法。相对而言,批量到全局匹配代表了解耦方法,这特别适用于大规模数据集。正如SReL、G-VBSM、WMDD和CDA等方法所展示的,这种方法在社区内引起了极大的兴趣。第二种方法的一个主要挑战在于,由于样本是独立优化的,并且不同的合成图像重用相同的全局监督信号,每个类别内合成的多样性不足。在这项研究中,我们提出了一种新的多样性驱动的早晚期训练(DELT)方案,以减少计算量并增强批量到全局匹配中图像的多样性。我们的方法概念简单而有效,它将预定义的每个类别的样本(IPC)划分为更小的子任务,并采用局部优化将每个子集精炼为来自不同阶段的分布,从而减少了统一优化过程引起的同质性。这些子任务精炼出的图像在应用于整个任务时显示出有效的泛化能力。我们在CIFAR、Tiny-ImageNet、ImageNet-1K及其子数据集上进行了大量实验。我们的方法在不同数据集和每个类别的样本数(IPCs)上平均优于先前最先进的方法25%,使每个类别的多样性增加了超过5%,同时将合成时间减少了高达39.3%,以提高训练效率。代码可在以下链接找到:github.com/VILA-Lab/DE…
15 Effective Fine-Tuning of Vision-Language Models for Accurate Galaxy Morphology Analysis
作者: Ruoqi Wang
发表日期: 2024-11-29T05:10:47+00:00
论文地址:arxiv.org/abs/2411.19…
银河形态分析涉及根据它们的形状和结构对银河系进行分类。为此任务,直接在大型、带注释的天文学数据集上训练特定领域的模型是有效的,但成本高昂。相比之下,在小规模的天文图像集上微调视觉基础模型在资源利用上更有效率,但通常会导致准确度降低。为了结合两种方法的优势并解决它们的不足,我们提出了GalaxAlign,这是一种新颖的方法,它通过微调预训练的基础模型,在完成天文任务时实现高准确度。具体来说,我们的方法扩展了一种对比学习架构,在微调过程中对齐三种类型的数据:(1)代表银河形状和结构的示意图符号集合;(2)这些符号的文本标签;(3)银河图像。这样,GalaxAlign不仅消除了对昂贵的预训练的需求,还提升了微调的有效性。在银河分类和相似性搜索上的大量实验表明,我们的方法通过融入领域特定的多模态知识,有效地为天文任务微调了通用的预训练模型。
16 MinerU: An Open-Source Solution for Precise Document Content Extraction
作者: Bin Wang
发表日期: 2024-09-27T15:35:15+00:00
论文地址:arxiv.org/abs/2409.18…
文档内容分析一直是计算机视觉领域的重要研究方向。尽管在OCR、布局检测和公式识别等方法上取得了显著进展,但由于文档类型和内容的多样性,现有开源解决方案在持续提供高质量的内容提取方面仍面临挑战。为了应对这些挑战,我们推出了MinerU,这是一个用于高精度文档内容提取的开源解决方案。MinerU利用复杂的PDF-Extract-Kit模型有效地从多种文档中提取内容,并采用精心调整的预处理和后处理规则,以确保最终结果的准确性。实验结果表明,MinerU在各种文档类型中一致地实现了高性能,显著提高了内容提取的质量和一致性。MinerU开源项目可在github.com/opendatalab…
研究领域 文生图
1 PaintScene4D: Consistent 4D Scene Generation from Text Prompts
作者: Vinayak Gupta
发表日期: 2024-12-05T18:59:57+00:00
论文地址:arxiv.org/abs/2412.04…
扩散模型近期的发展彻底改变了2D和3D内容创作的面貌,然而生成具有照片级真实感的动态4D场景仍然是一个重大挑战。现有的动态4D生成方法通常依赖于从预先训练的3D生成模型中提取知识,经常针对合成对象数据集进行微调。因此,所生成的场景往往以对象为中心,且缺乏真实感。尽管文本到视频模型能够生成带有动态的更真实场景,但它们通常在空间理解方面存在困难,并且在渲染过程中对摄像机视角的控制有限。为了解决这些局限,我们提出了PaintScene4D,这是一个新颖的文本到4D场景生成框架,它摒弃了传统的多视图生成模型,转而采用一种精简架构,利用在多样化真实世界数据集上训练的视频生成模型。我们的方法首先使用视频生成模型生成一个参考视频,然后采用策略性的摄像机阵列选择进行渲染。我们应用渐进式变形和修复技术,以确保在多个视角之间保持空间和时间的连贯性。最后,我们使用动态渲染器优化多视图图像,从而根据用户偏好实现灵活的摄像机控制。采用无需训练的架构,我们的PaintScene4D高效地生成可以从任意轨迹观看的真实4D场景。相关代码将公开可用。我们的项目页面位于 paintscene4d.github.io/。
2 Turbo3D: Ultra-fast Text-to-3D Generation
作者: Hanzhe Hu
发表日期: 2024-12-05T18:59:56+00:00
论文地址:arxiv.org/abs/2412.04…
我们推出了Turbo3D,这是一个超快速的文本转3D系统,能够在不到一秒的时间内生成高质量的高斯溅射资产。Turbo3D采用了一个快速的四步四视图扩散生成器和一个有效的前馈高斯重构器,两者都在潜在空间中运作。这个四步四视图生成器是一个通过我们新颖的双教师法提炼出的学生模型,该方法鼓励学生从一个多视图教师那里学习视图一致性,以及从一个单视图教师那里学习照片级真实感。通过将高斯重构器的输入从像素空间转换到潜在空间,我们消除了额外的图像解码时间,并将变压器序列长度减半,以达到最大的效率。我们的方法与之前的基线相比,在3D生成结果上表现出色,同时运行时间仅为它们的一小部分。
3 MEMO: Memory-Guided Diffusion for Expressive Talking Video Generation
作者: Longtao Zheng
发表日期: 2024-12-05T18:57:26+00:00
论文地址:arxiv.org/abs/2412.04…
近期视频扩散模型的进展为基于真实音频驱动的说话视频生成开启了新的可能性。然而,要在生成的说话视频中实现无缝的音频-唇同步,保持长期的身份一致性,以及产生自然、与音频对齐的表情,仍然面临重大挑战。为了应对这些挑战,我们提出了记忆引导的情感意识扩散(MEMO)方法,这是一种端到端的音频驱动肖像动画技术,用于生成保持身份一致性和表现力的说话视频。我们的方法围绕两个关键模块构建:(1) 一个记忆引导的时间模块,通过开发记忆状态来存储来自更长时间跨度的上下文信息,并通过线性注意力引导时间建模,增强了长期的身份一致性和动作平滑度;以及(2) 一个情感意识音频模块,它用多模态注意力替代传统的交叉注意力,以增强音频-视频交互,同时从音频中检测情感,通过情感自适应层标准化来细化面部表情。大量的定量和定性结果表明,MEMO能够在各种图像和音频类型中生成更加真实的说话视频,并在整体质量、音频-唇同步、身份一致性和表情-情感对齐方面超越了现有技术水平。
4 Motion Prompting: Controlling Video Generation with Motion Trajectories
作者: Daniel Geng
发表日期: 2024-12-03T18:59:56+00:00
论文地址:arxiv.org/abs/2412.02…
运动控制对于生成富有表现力和引人入胜的视频内容至关重要;然而,目前大多数视频生成模型主要依赖文本提示进行控制,这种方法难以捕捉动态动作和时序构成的细微差别。为此,我们训练了一个视频生成模型,该模型以稀疏或密集的时空运动轨迹为条件。与之前的运动条件化工作相比,这种灵活的表示可以编码任意数量的轨迹,特定对象或全局场景运动,以及时间上稀疏的运动;由于其灵活性,我们将这种条件化称为“运动提示”。尽管用户可以直接指定稀疏轨迹,我们还展示了如何将高级用户请求转换为详细的、半密集的运动提示,我们将这一过程称为运动提示扩展。我们通过多种应用展示了我们方法的通用性,包括摄像机和对象运动控制、与图像“互动”、运动迁移和图像编辑。我们的结果显示了诸如真实物理之类的涌现行为,表明运动提示在探索视频模型和与未来生成式世界模型互动方面的潜力。最后,我们进行了定量评估、进行了人机研究,并展示了强大的性能。视频结果可在我们的网页上查看:motion-prompting.github.io/。
5 ScImage: How Good Are Multimodal Large Language Models at Scientific Text-to-Image Generation?
作者: Leixin Zhang
发表日期: 2024-12-03T10:52:06+00:00
论文地址:arxiv.org/abs/2412.02…
多模态大型语言模型(LLM)已经展现出从文本指令生成高质量图像的令人印象深刻的实力。然而,在生成科学图像——这是加速科学进步的一个关键应用——方面的表现仍然没有得到充分探索。在这项工作中,我们通过引入ScImage这一基准来解决这个空白,它是为了评估LLM在从文本描述生成科学图像时的多模态能力而设计的。ScImage评估了理解力的三个关键维度:空间、数字和属性理解,以及它们的组合,重点关注科学对象(例如,正方形、圆形)之间的关系。我们用两种输出生成模式评估了五种模型:GPT-4o、Llama、AutomaTikZ、Dall-E和StableDiffusion,包括基于代码的输出(Python、TikZ)和直接光栅图像生成。此外,我们还考察了四种不同的输入语言:英语、德语、波斯语和中文。我们与11位科学家合作进行的评估涵盖三个标准(正确性、相关性以及科学准确性),结果显示,尽管GPT-4o在处理更简单提示时能够生成质量尚可的输出,这些提示涉及单独的空间、数字或属性理解等维度,但所有模型在这个任务上都面临挑战,特别是在处理更复杂提示时。
6 Safety Alignment Backfires: Preventing the Re-emergence of Suppressed Concepts in Fine-tuned Text-to-Image Diffusion Models
作者: Sanghyun Kim
发表日期: 2024-11-30T04:37:38+00:00
论文地址:arxiv.org/abs/2412.00…
.
微调文本到图像扩散模型被广泛应用于个性化和对新领域的适应。在本文中,我们识别了微调的一个关键漏洞:旨在过滤有害内容(例如,裸露)的安全校准方法在微调过程中可能会失效,导致之前被抑制的内容重新浮现,即使在使用良性数据集时也是如此。尽管这种“微调越狱”问题在大规模语言模型中已为人所知,但在文本到图像扩散模型中,这一问题仍然在很大程度上未经探索。我们的调查发现,标准的微调可能会无意中撤销安全措施,导致模型重新学习到之前被移除的有害概念,甚至加剧有害行为。为了解决这个问题,我们提出了一种新颖且直接的解决方案,称为模块化LoRA,其涉及将安全低秩适应(LoRA)模块与微调LoRA组件分开训练,并在推理过程中将它们合并。这种方法有效地防止了有害内容的重新学习,同时不损害模型在新任务上的性能。我们的实验表明,模块化LoRA在保持安全校准方面优于传统的微调方法,为抵御潜在攻击提供了一种增强文本到图像扩散模型安全性的实用方法。
7 Descriptions of women are longer than that of men: An analysis of gender portrayal prompts in Stable Diffusion
作者: Yan Asadchy
发表日期: 2024-11-28T08:48:05+00:00
论文地址:arxiv.org/abs/2411.18…
生成式人工智能在图像创作方面已成为数字艺术家、视觉设计师以及大众的常用工具。社交媒体用户拥有众多工具来塑造他们的视觉表达:图像编辑工具、滤镜、面部遮罩、换脸、头像以及人工智能生成的图片。恰当的个人资料图片的重要性不容小觑:它对于留下正确的第一印象、维持信任以及促进交流至关重要。传统上正确地呈现个人、群体和集体,可能有助于在社会中培养包容性、理解和尊重,确保不同的观点得到认可和重视。尽管先前的研究揭示了如ImageNet等大型图像数据集中的偏见,以及在这些数据集上训练的人工智能系统所继承的偏见,但在这项工作中,我们关注的是Discord平台上使用StableDiffusion模型生成图像时,文本提示中出现的偏见和刻板印象。我们分析了超过180万个描述男性和女性的提示,并运用统计方法来揭示描述男性和女性的提示是如何构建的,以及哪些词汇构成了各自性别的描绘。我们发现,男性描述的中位数长度系统性地短于女性描述的中位数长度,同时我们的研究还发现关于词汇长度分布的提示存在一种共同做法。主题分析显示,存在经典刻板印象,其中男性被用“强大”、“粗犷”等支配性特质来描述,而女性则被与身体和顺从相关的概念来表现:“美丽”、“漂亮”等。这些结果强调了提示原始意图的重要性,并表明在设计促进探索和公平代表的界面时,应当考虑到Discord等平台上的文化实践。
研究领域 其他
1 NVILA: Efficient Frontier Visual Language Models
作者: Zhijian Liu
发表日期: 2024-12-05T18:59:55+00:00
论文地址:arxiv.org/abs/2412.04…
视觉语言模型(VLMs)在近年来在准确性上取得了显著进步。然而,它们的效率却鲜少受到关注。本文介绍了NVILA,这是一系列旨在同时优化效率和准确性的开放VLMs。在VILA的基础上,我们通过首先扩大空间和时间分辨率,然后压缩视觉标记,来改进其模型架构。这种“先扩展后压缩”的方法使得NVILA能够高效处理高分辨率图像和长视频。我们还进行了系统性的研究,以提升NVILA在整个生命周期中的效率,包括训练、微调和部署。NVILA在广泛的图像和视频基准测试中与许多领先的开放和专有VLMs的准确度相匹配或超越。同时,它将训练成本降低了4.5倍,微调内存使用减少了3.4倍,预填充延迟减少了1.6-2.2倍,解码延迟减少了1.2-2.8倍。我们很快将公开我们的代码和模型,以促进可复现性。
2 Low-degree functions without non-essential arguments
作者: Denis S. Krotov
发表日期: 2024-12-05T18:59:37+00:00
论文地址:arxiv.org/abs/2412.04…
对于哈明图 ,其中 是一个常数质数幂,而 在增长,我们构建了完美的着色方法,该方法不涉及非必要参数,使得 与商矩阵的非对角部分呈指数关系。特别是,我们构建了不平衡的布尔函数(),使得必要参数的数量与函数的度数呈指数关系。
3 Code-as-Monitor: Constraint-aware Visual Programming for Reactive and Proactive Robotic Failure Detection
作者: Enshen Zhou
发表日期: 2024-12-05T18:58:27+00:00
论文地址:arxiv.org/abs/2412.04…
在闭环机器人系统中,自动检测和预防开集故障至关重要。近期研究往往难以在故障发生后反应性地识别预期之外的故障,同时主动预防可预见的故障。为此,我们提出了Code-as-Monitor(CaM),一种新颖的范式,利用视觉语言模型(VLM)同时进行开集故障的反应性检测和主动性检测。我们方法的核心是将这两个任务制定为统一的时空约束满足问题集,并使用VLM生成的代码对它们进行实时监控评估。为了提高监控的准确性和效率,我们进一步引入了约束元素,将这些与约束相关的实体或其部分抽象为紧凑的几何元素。这种方法提供了更高的通用性,简化了跟踪,并通过利用这些元素作为视觉提示促进了约束感知的视觉编程。实验表明,与三个模拟器和真实世界设置中的基线相比,CaM在严重干扰下取得了28.7%的更高成功率,并将执行时间减少了31.8%。此外,CaM可以与开环控制策略集成,形成闭环系统,使得在动态环境中杂乱场景下的长视野任务成为可能。
4 Navigation World Models
作者: Amir Bar
发表日期: 2024-12-04T18:59:45+00:00
论文地址:arxiv.org/abs/2412.03…
导航是具有视觉-运动能力的代理的基本技能。我们介绍了一种导航世界模型(NWM),这是一种可控的视频生成模型,可根据过去的观察和导航动作预测未来的视觉观察。为了捕捉复杂的环境动态,NWM采用了一种条件扩散变换器(CDiT),该变换器在大量以人为中心和机器人代理的全方位视频中进行了训练,并扩展到100亿个参数。在熟悉的环境中,NWM可以通过模拟导航轨迹并评估它们是否达到预期目标来进行规划。与具有固定行为的监督导航策略不同,NWM在规划过程中可以动态地融入限制条件。实验证明,它在从零开始规划轨迹或通过对来自外部策略的样本轨迹进行排序方面是有效的。此外,NWM利用其学习的视觉先验,仅从一个输入图像就能在未知环境中想象出轨迹,使其成为下一代导航系统中的一个灵活而强大的工具。
5 Style3D: Attention-guided Multi-view Style Transfer for 3D Object Generation
作者: Bingjie Song
发表日期: 2024-12-04T18:59:38+00:00
论文地址:arxiv.org/abs/2412.03…
我们提出了Style3D,这是一种新颖的方法,可以从内容图像和风格图像生成风格化的3D对象。与大多数先前需要案例或风格特定训练的方法不同,Style3D支持即时3D对象风格化。我们的关键洞察是,3D对象风格化可以分解为两个相互连接的过程:多视角双特征对齐和稀疏视角空间重建。我们引入了MultiFusion Attention,这是一种注意力引导的技术,用于从内容—风格对实现多视角风格化。具体来说,内容图像中的查询特征保持了在多个视图之间的几何一致性,而风格图像中的键和值特征用于指导风格迁移。这种双特征对齐确保了在多视角图像中保持空间连贯性和风格保真度。最后,我们引入了一个大型的3D重建模型,以生成连贯的风格化3D对象。通过在多个视角之间建立结构和风格特征之间的相互作用,我们的方法实现了一个整体性的3D风格化过程。广泛的实验证明,Style3D为生成风格一致的3D资产提供了一种更灵活和可扩展的解决方案,在计算效率和视觉质量上都超过了现有方法。
6 Sparse-view Pose Estimation and Reconstruction via Analysis by Generative Synthesis
作者: Qitao Zhao
发表日期: 2024-12-04T18:59:24+00:00
论文地址:arxiv.org/abs/2412.03…
从一组多视角图像中推断出其底层的3D结构通常需要解决两个相互依赖的任务——精确的3D重建需要准确的摄像机姿态,而预测摄像机姿态又依赖于(显式或隐式地)对底层3D进行建模。传统的分析合成框架将这种推断视为一种联合优化,旨在解释观察到的像素,而最近的方法则通过基于梯度下降的初始姿态估计精细化学习了表达性的3D表示(例如,神经场)。然而,在给定一组稀疏的观察视角时,这些观察可能不足以提供足够的直接证据以获得完整且准确的3D。此外,姿态估计中的较大误差可能不易修正,并可能进一步降低推断出的3D质量。为了在这种具有挑战性的设置中实现健壮的3D重建和姿态估计,我们提出了SparseAGS方法,该方法通过以下方式调整了这种分析合成方法:a) 将基于新颖视角合成的生成先验与光度目标结合,以提高推断出的3D质量;b) 明确处理异常值,并采用基于连续优化的离散搜索策略进行修正。我们在结合几种现成的姿态估计系统作为初始化的真实世界和合成数据集上验证了我们的框架。我们发现,它显著提高了基础系统的姿态精度,同时产生了高质量的3D重建结果,这些结果超越了当前多视角重建基线的效果。
7 Streaming Detection of Queried Event Start
作者: Cristobal Eyzaguirre
发表日期: 2024-12-04T18:58:27+00:00
论文地址:arxiv.org/abs/2412.03…
机器人技术、自动驾驶、增强现实以及许多融合了计算机视觉的应用必须快速响应用户定义的实时展开的事件。为了应对这一挑战,我们提出了一个新颖的多模态视频理解任务——流式查询事件开始检测(Streaming Detection of Queried Event Start,简称SDQES)。SDQES的目标是高准确度、低延迟地识别由自然语言查询描述的复杂事件的开始。我们基于Ego4D数据集构建了一个新的基准,并引入了新的针对任务特定的指标,以研究在第一人称视角视频设置中流式多模态检测不同事件。受到自然语言处理和视频任务中参数高效的微调方法的启发,我们提出了基于适配器(adapter)的基线方法,该方法支持图像到视频的迁移学习,使得在线视频建模更加高效。我们在短片段和未修剪视频设置上评估了三种视觉-语言骨干网络和三种适配器架构。
8 Categorize and randomize: a model of sequential stochastic choice
作者: Ester Sudano
发表日期: 2024-12-04T18:50:35+00:00
论文地址:arxiv.org/abs/2412.03…
我们通过分类来模拟随机选择,这是由将替代方案初步划分为同质且互斥的类别所导致的。代理人在可用的类别中随机选择一个,然后在选定的类别内随机挑选一个条目。我们给出了由这一过程生成的选择的正式定义,并提供了一组特征。这些特性使得外部观察者能够推断出应用了分类。在更一般的解释中,该模型能够将观察到的选择描述为独立子选择的组合。这种组合通过随机效用最大化保留了理性化的可能性。该模型的推广包含了卢斯模型(Luce model)和嵌套逻辑模型(Nested Logit)。
9 Non-Abelian elastic collisions, associated difference systems of equations and discrete analytic functions
作者: Pavlos Kassotakis
发表日期: 2024-12-04T18:39:03+00:00
论文地址:arxiv.org/abs/2412.03…
我们将描述一维空间中两个粒子非相对论弹性碰撞的运动方程扩展到任意结合代数。相对论性弹性碰撞方程实际上是这些通用方程的一个特例。此外,我们还证明这些方程可以重新解释为定义在图上的差分系统,这种重新解释将(统一)离散解析函数的线性和非线性方法联系起来。
10 Self-test loss functions for learning weak-form operators and gradient flows
作者: Yuan Gao
发表日期: 2024-12-04T17:48:38+00:00
论文地址:arxiv.org/abs/2412.03…
在涉及偏微分方程中的弱形式算子和梯度流的数据驱动建模中,损失函数的构建是一项重大挑战,特别是由于需要恰当地选择测试函数。我们通过引入自检损失函数来解决这一挑战,这些函数采用依赖于未知参数的测试函数,特别适用于算子线性依赖于未知数的情况。所提出的自检损失函数对于梯度流保持能量守恒,并且与随机微分方程的期望对数似然比相一致。重要的是,它是二次的,这有助于对反问题的可识别性和适定性的理论分析,同时也导致了高效的参数或非参数回归算法。它在计算上很简单,只需要低阶导数,甚至完全不需要导数,数值实验证明了它对于噪声和离散数据的鲁棒性。
11 Flow Matching with General Discrete Paths: A Kinetic-Optimal Perspective
作者: Neta Shaul
发表日期: 2024-12-04T17:24:35+00:00
论文地址:arxiv.org/abs/2412.03…
离散空间扩散或流动生成模型的设计空间,相较于它们在连续空间的对等技术,要明显地理解得不够深入,许多研究仅关注于简单的遮蔽构建。在这项工作中,我们旨在采用一种全面的方法来构建基于连续时间马尔可夫链的离散生成模型,并且首次允许使用任意的离散概率路径,或者通俗地说,就是腐败过程。通过优化对称动能的视角,我们提出了可以应用于任何给定概率路径的速度公式,完全将概率和速度解耦,使用户可以根据特定数据领域的专业知识来指定任何理想概率路径。此外,我们还发现,特定的混合概率路径构造方式能够为离散情况优化对称动能。我们通过多种模态的实证验证了这一新设计空间的有用性:文本生成、无机材料生成和图像生成。我们发现,即使是对于文本,使用动能最优的混合路径,我们也能超越遮蔽构建的表现;同时,在视觉领域,我们可以利用特定于领域的概率路径构造。
12 Motion Prompting: Controlling Video Generation with Motion Trajectories
作者: Daniel Geng
发表日期: 2024-12-03T18:59:56+00:00
论文地址:arxiv.org/abs/2412.02…
动作控制对于生成富有表现力和引人入胜的视频内容至关重要;然而,大多数现有的视频生成模型主要依赖文本提示进行控制,这在捕捉动态动作和时间构成的细微差别方面存在困难。为此,我们训练了一种视频生成模型,该模型依据空间和时间上的稀疏或密集动作轨迹进行条件设置。与之前的动作条件化工作相比,这种灵活的表示可以编码任意数量的轨迹,具体到对象或全局场景动作,以及时间上的稀疏动作;由于其灵活性,我们将这种条件化称为“动作提示”。尽管用户可以直接指定稀疏轨迹,我们还展示了如何将高级用户请求转换为详细的、半密集的动作提示,我们称这个过程为“动作提示扩展”。我们通过各种应用展示了我们方法的通用性,包括相机和对象动作控制、与图像“互动”、动作转移和图像编辑。我们的结果显示了诸如真实物理这样的突现行为,表明动作提示在探索视频模型和与未来生成世界模型互动方面的潜力。最后,我们进行了定量评估、进行了人类研究,并展示了强劲的性能。视频结果可在我们的网页上查看:motion-prompting.github.io/。
13 Scaling BERT Models for Turkish Automatic Punctuation and Capitalization Correction
作者: Abdulkader Saoud
发表日期: 2024-12-03T18:59:51+00:00
论文地址:dx.doi.org/10.1109/ASY…
本文研究了基于BERT模型的土耳其语文本自动标点和大小写纠错的有效性,涉及五种不同规模的模型。这些模型分别被指定为Tiny、Mini、Small、Medium和Base。每个模型的设计和能力都针对土耳其语特有的挑战进行了量身定制,旨在在最小化计算开销的同时优化性能。研究系统地比较了每个模型的性能指标——精确度、召回率和F1分数,为它们在不同操作环境中的应用提供了见解。结果表明,随着模型规模的增加,文本的可读性和准确性显著提升,其中Base模型取得了最高的纠错精确度。这项研究为根据特定用户需求和计算资源选择合适的模型规模提供了全面指导,为在现实应用中部署这些模型,以提高土耳其语文本书写质量奠定了框架。
14 Adaptive Informed Deep Neural Networks for Power Flow Analysis
作者: Zeynab Kaseb
发表日期: 2024-12-03T18:33:48+00:00
论文地址:arxiv.org/abs/2412.02…
本研究介绍了PINN4PF,一个端到端的深度学习架构,用于电力流(PF)分析,能有效捕捉大型现代电力系统的非线性动态。所提出的神经网络(NN)架构在训练流程中包含了两项重要的进展:(A)一个双头前馈NN,与PF分析相匹配,包括一个能够调整以适应有功和无功功率消耗模式的激活函数;(B)一个基于物理的损失函数,部分融入了电力系统拓扑信息。所提议架构的有效性通过4节点、15节点、290节点和2224节点的测试系统进行验证,并与两种基线模型进行了对比:线性回归模型(LR)和黑箱NN(MLP)。对比基于以下方面:(i)泛化能力,(ii)鲁棒性,(iii)训练数据集大小对泛化能力的影响,(iv)对导出PF量(特别是线路电流、线路有功功率和线路无功功率)的逼近准确性,以及(v)可扩展性。结果显示,PINN4PF在所有测试系统中均优于两种基线模型,优势高达两个数量级,不仅在诸如泛化能力这样的直接标准上,而且在逼近导出的物理量方面也表现出了优势。
15 OCR Hinders RAG: Evaluating the Cascading Impact of OCR on Retrieval-Augmented Generation
作者: Junyuan Zhang
发表日期: 2024-12-03T17:23:47+00:00
论文地址:arxiv.org/abs/2412.02…
检索增强生成(RAG)通过整合外部知识,减少了虚构内容的产生并融入最新信息,而不需要对大型语言模型(LLM)进行重新训练。作为RAG的重要组成部分,外部知识库通常是通过使用光学字符识别(OCR)从非结构化的PDF文档中提取结构化数据来构建的。然而,鉴于OCR预测的不完美以及结构化数据固有的非均匀表示,知识库不可避免地包含了各种OCR噪声。在本文中,我们介绍了OHRBench,这是首个用于理解OCR对RAG系统级联影响的基准测试。OHRBench包含了从六个现实世界RAG应用领域精心挑选的350个非结构化PDF文档,以及从文档中的多模态元素派生的问答,这些挑战了现有的用于RAG的OCR解决方案。为了更好地理解OCR对RAG系统的影响,我们确定了两种主要的OCR噪声类型:语义噪声和格式噪声,并对它们应用扰动,生成了一系列含有不同程度每种OCR噪声的结构化数据。使用OHRBench,我们首先对当前的OCR解决方案进行了全面评估,并揭示目前还没有哪种解决方案能够胜任为RAG系统构建高质量知识库的任务。然后我们系统地评估了这两种噪声类型的影响,并展示了RAG系统的脆弱性。此外,我们还讨论了在没有OCR的情况下,利用视觉语言模型(VLM)在RAG系统中潜在的可能性。代码:github.com/opendatalab…
16 Single-atom resolved collective spectroscopy of a one-dimensional atomic array
作者: Britton Hofer
发表日期: 2024-12-03T16:34:32+00:00
论文地址:arxiv.org/abs/2412.02…
有序的原子阵列因其共振偶极-偶极相互作用中的建设性干涉,相比于无序的原子集合,显示出增强的集体光学响应。一个结果是,相对于裸原子频率,发生了大的能级跃迁偏移。在线性光学领域(低光强度),人们观察到洛伦兹原子谱线的光谱偏移,这通常被称为集体兰姆移位。在强驱动下,系统中存在许多激发,这使得这种偏移的计算在理论上具有挑战性,但理解它对于例如在光学时钟中进行拉姆齐光谱学是重要的。在这里,我们报告了对一维排列的30个镝原子集体光学响应的研究。我们驱动原子在狭窄的互组合跃迁上,隔离了一个二能级系统,并使用宽带跃迁进行单次态读取以测量原子状态。在线性光学领域,我们测量了由于偶极相互作用引起的稳态下共振的偏移,并测量了这种偏移如何依赖于原子间距离。我们进一步在单原子水平上解析了激发如何在阵列上分布。然后,在同一跃迁上我们执行拉姆齐光谱学,即远离线性区域。我们观察到了时间相关性的偏移,这使我们能够将在线性光学领域观察到的集体兰姆移位与大激发情况下的联系绘制出来。
17 Intelligent Spark Agents: A Modular LangGraph Framework for Scalable, Visualized, and Enhanced Big Data Machine Learning Workflows
作者: Jialin Wang
发表日期: 2024-12-02T13:41:38+00:00
论文地址:arxiv.org/abs/2412.01…
本文介绍了一种针对大数据环境下人工智能和机器学习可视过程建模工具,该工具采用LangGraph框架构建智能Spark代理。该工具将关键的机器学习阶段——数据预处理、特征工程、模型训练和评估——表现为模块化组件。分析师可以可视化的设计工作流程,然后这些流程会被自动转换为优化后的Spark代码以便执行。这种方法简化了Apache Spark的复杂性,降低了与Scala相关的学习曲线,并提高了代码的可重用性。文章讨论了该提议解决方案的理论基础、关键技术,并评估了其有效性。
18 Efficient short-wave infrared upconversion by self-sensitized holmium-doped nanoparticles
作者: Rakesh Arul
发表日期: 2024-11-29T18:59:51+00:00
论文地址:arxiv.org/abs/2411.19…
光子上转换技术,即将多个低能量光子结合产生一个高能量光子,在生物医学、催化和光子学应用中具有广泛的兴趣。镧系元素掺杂纳米粒子(LnNP)是一种独特的上转换纳米转换器,能够实现超大的反斯托克斯偏移(>1000纳米)和高光稳定性,不会发生光漂白和光闪烁现象。LnNP的激发波长一直局限于第二近红外窗口(1000-1700纳米),主要由中心在1.5微米附近的铒离子吸收所感应。在这里,我们展示了新颖的自感应holmium(Ho)掺杂纳米转换器,进一步将感应范围扩展到2微米短波红外,并实现高效上转换至640纳米。我们证明,这种上转换是一个4光子转换过程,其基础是能量传递上转换机制。通过精确控制掺杂浓度和外壳层,我们实现了高达15.2%的上转换与下转换效率比,超过了理论最大值的一半。将Ho掺杂的LnNP置于等离子体纳米腔装置中,由于显著缩短了Ho的发光寿命(从29微秒缩短至<1纳秒),使得发射强度大幅增加(最高达32倍),表明其具有高达3x10的高珀塞尔增强因子。这些结果为短波红外上转换和LnNP发射的纳米等离子体增强研究开辟了新的可能性,具有在检测、诊疗、光子学和光电子学等领域潜在的应用前景。
19 Perception Test 2024: Challenge Summary and a Novel Hour-Long VideoQA Benchmark
作者: Joseph Heyward
发表日期: 2024-11-29T18:57:25+00:00
论文地址:arxiv.org/abs/2411.19…
在成功举办了2023年的活动之后,我们在2024年IEEE/CVF欧洲计算机视觉会议(ECCV)期间组织了一场为期半天的第二次感知测试挑战赛。此次挑战的目标是对标最先进的视频模型,并通过感知测试基准来衡量自去年以来的进展。今年,挑战赛包含了七个赛道(比去年增加了六个),覆盖了从低级到高级的任务,包括语言和非语言界面,横跨视频、音频和文本模态;新增的赛道关注长达一小时的 video 理解,并引入了全新的视频问答基准1h-walk VQA。总的来说,不同赛道中的任务包括:目标跟踪、点跟踪、时间动作定位、时间声音定位、多选视频问答、基于实体的视频问答以及长达一小时的 video 问答。在这份报告中,我们概括了挑战赛的任务和结果,并详细介绍了这个新颖的一小时视频问答基准1h-walk VQA。
20 Transfer Learning for High-dimensional Quantile Regression with Distribution Shift
作者: Ruiqi Bai
发表日期: 2024-11-29T18:49:55+00:00
论文地址:arxiv.org/abs/2411.19…
来自相关源研究的资料通常可以增强目标研究的发现。然而,目标研究与源研究之间的分布偏移可能会严重影响知识转移的效率。在高维回归设定中,现有的转移方法主要关注参数偏移。在本文中,我们聚焦于在三种类型的分布偏移——参数偏移、协变量偏移和残差偏移下的高维分位数回归的知识转移。我们提出了一种新颖的可转移集合和一个新的转移框架,以解决上述三种不一致性。在存在分布偏移的情况下,建立了非渐近估计误差界和源检测一致性,以验证我们方法的有效性和优越性。此外,还提出了一种正交去偏方法,用于知识转移的统计推断,从而得到更精确的渐近结果。广泛的模拟结果以及实际数据应用进一步证明了我们提出过程的有效性。
21 Sparse Partitions of Graphs with Bounded Clique Number
作者: António Girão
发表日期: 2024-11-29T18:25:25+00:00
论文地址:arxiv.org/abs/2411.19…
我们证明对于每个整数,存在一个正常数,具有以下性质:对于任何和任何团数至多为的图,可以将分割成至多个集合,使得对于每个,的最大度数至多为。这回答了Fox、Nguyen、Scott和Seymour的一个问题,他们证明了对于不含诱导的图有类似的结果。
22 Noncommutative Model Selection for Data Clustering and Dimension Reduction Using Relative von Neumann Entropy
作者: Araceli Guzmán-Tristán
发表日期: 2024-11-29T18:04:11+00:00
论文地址:arxiv.org/abs/2411.19…
我们提出了一对完全由数据驱动的算法,用于无监督分类和降维,并通过实证研究它们在多个数据集上的性能,包括三维模拟数据以及来自COIL-20数据集的图像。这些算法以从度量空间中均匀分布采样的一组点作为输入,后者嵌入到一个环境度量空间中,并输出数据的聚类或降维结果。它们通过从数据中构建一系列自然图家族,并选择能最大化由图构建的特定归一化热算子的相对冯·诺伊曼熵的图。确定了合适的图之后,可以使用图的拉普拉斯算子的特征向量来降低数据的维度,并通过相关图拉普拉斯算子的零空间识别数据中的聚类。值得注意的是,这些算法不需要像-均值等流行算法以及包括拉普拉斯特征图在内的更现代谱方法那样,输入关于邻域大小或期望聚类数量的信息。
在我们的计算实验中,我们的聚类算法在具有非平凡几何和拓扑结构的数据集上,尤其在聚类不集中在特定点的数据集上,表现优于-均值聚类;而我们的降维算法在几个简单示例中展示出良好的效果。
23 Thompson, Ulam, or Gauss? Multi-criteria recommendations for posterior probability computation methods in Bayesian response-adaptive trials
作者: Daniel Kaddaj
发表日期: 2024-11-29T17:32:32+00:00
论文地址:arxiv.org/abs/2411.19…
为了实施一个贝叶斯响应自适应试验,有必要评估一系列后验概率。由于缺乏计算其精确值的封闭形式公式,这个序列通常通过模拟来近似。通过模拟近似这些概率可能会带来较高的计算成本,并影响可能探索的情景的准确度或范围。基于高斯分布的另一种近似方法可能更快,但其准确性无法保证。文献中缺乏关于选择近似方法及比较其特性的实用建议,特别是考虑到计算速度与准确度之间的权衡。在本文中,我们关注的是试验具有二元终点和Beta先验的情况。我们首先概述了一种计算任意治疗臂数量的后验概率的确切高效方法。然后,使用精确概率计算,我们展示了如何基于计算速度、患者受益和推断准确性的考虑来基准计算方法。这是通过对双臂情况的多种模拟,以及对三臂确立癫痫治疗试验的分析来完成的。最后,我们提供了在不同设置下哪种计算方法最为合适的实用指导,以及如果使用基于模拟的近似方法应如何选择模拟次数。
24 Streamlining Prediction in Bayesian Deep Learning
作者: Rui Li
发表日期: 2024-11-27T15:07:44+00:00
论文地址:arxiv.org/abs/2411.18…
对贝叶斯深度学习(BDL)的兴趣日益增长,导致了大量估算后验分布的方法。然而,在诸如预测等推理的有效计算方面,很大程度上被忽视了,蒙特卡洛积分仍然是标准方法。在这项工作中,我们通过不需要采样的单一前向传播来简化BDL中的预测流程。为此,我们对激活函数进行局部线性化处理,并在线性层上进行局部高斯近似。这使得我们能够解析地计算出后验预测分布的近似值。我们展示了我们的方法对于多层感知器(MLP)和变压器网络(如ViT和GPT-2)都适用,并评估了它在回归和分类任务上的性能。
25 Exploration of LLM Multi-Agent Application Implementation Based on LangGraph+CrewAI
作者: Zhihua Duan
发表日期: 2024-11-27T11:29:17+00:00
论文地址:arxiv.org/abs/2411.18…
随着大型模型技术的快速发展,代理技术在各个领域的应用日益广泛,深刻改变了人们的工作和生活方式。在复杂且动态的系统中,多代理通过分工和代理间的协作完成单个代理难以完成的复杂任务。本文讨论了LangGraph和CrewAI的集成应用。LangGraph通过图形架构提高信息传输效率,而CrewAI通过智能任务分配和资源管理增强团队协作能力和系统性能。本文的主要研究内容为:(1)设计基于LangGraph的代理架构以实现精确控制;(2)基于CrewAI增强代理完成各种任务的能力。本研究旨在深入探讨LangGraph和CrewAI在多代理系统中的应用,为代理技术的未来发展提供新视角,推动大型模型智能代理领域的技术进步与应用创新。
26 DANA: Domain-Aware Neurosymbolic Agents for Consistency and Accuracy
作者: Vinh Luong
发表日期: 2024-09-27T18:29:23+00:00
论文地址:arxiv.org/abs/2410.02…
大型语言模型(LLM)展现了卓越的能力,但它们固有的概率性质常导致在解决复杂问题时出现不一致性和不准确。本文介绍了DANA(领域感知神经符号代理)架构,通过将领域特定知识与神经符号方法结合,解决了这些问题。我们首先从神经符号的角度分析了当前的人工智能架构,包括AutoGPT、LangChain ReAct和OpenAI的ChatGPT,突出了它们依赖概率推理对输出不一致性的影响。作为回应,DANA捕捉并应用自然语言和符号形式的领域专业知识,使得问题解决行为更具确定性且更可靠。我们使用分层任务计划(HTPs)在开源OpenSSA框架中实现了一种DANA变体。这个实现版本在FinanceBench金融分析基准上取得了超过90%的准确率,在一致性和准确性方面显著优于当前的基于LLM的系统。在物理行业,如半导体领域的应用表明,DANA灵活的架构在纳入知识方面是有效的,能够减轻LLM的概率局限性,并具有解决复杂现实问题、需要可靠性和精确性的潜力。
27 ChatBI: Towards Natural Language to Complex Business Intelligence SQL
作者: Jinqing Lian
发表日期: 2024-05-01T14:01:22+00:00
论文地址:arxiv.org/abs/2405.00…
自然语言到SQL(NL2SQL)技术为那些不熟悉数据库的非专业用户提供了使用SQL进行数据分析的机会。将自然语言转换为商业智能(NL2BI)是NL2SQL在实际生产系统中的一种流行实用场景。与NL2SQL相比,NL2BI引入了更多的挑战。
在本文中,我们提出了ChatBI,这是一种全面且高效的技术,用于解决NL2BI任务。首先,我们分析了交互方式这一重要模块,NL2SQL和NL2BI在使用中有所不同,并设计了一个更小、成本更低的模型来匹配这种交互方式。在商业智能场景中,表格包含大量的列,这使得依赖大型语言模型(LLM)进行模式链接的现有NL2SQL方法由于标记限制而无法进行。商业智能场景中模糊列的比例更高,也使得模式链接变得困难。ChatBI结合了数据库社区中现有的视图技术,首先将模式链接问题分解为单一视图选择问题,然后使用更小、更便宜的机器学习模型来选择列数显著减少的单个视图。这个单一视图的列随后作为模式链接所需列传递给LLM。最后,ChatBI提出了一个与现有流程不同的分阶段流程,这使得ChatBI能够更准确地生成包含复杂语义和比较关系的SQL。
我们已经将ChatBI部署在百度的数据平台上,并将其整合到多个产品线中进行大规模生产任务评估。获得的结果突显了其实用性、通用性和高效性。同时,与当前主流的NL2SQL技术在我们的真实商业智能场景数据表和查询下相比,它也取得了最佳结果。
研究领域 大语言模型
1 VisionZip: Longer is Better but Not Necessary in Vision Language Models
作者: Senqiao Yang
发表日期: 2024-12-05T18:59:53+00:00
论文地址:arxiv.org/abs/2412.04…
近期在视觉-语言模型方面的进展,通过增加视觉标记的长度,使它们比文本标记长得多,大幅提高了计算成本,从而增强了性能。然而,我们观察到,像CLIP和SigLIP这样的流行视觉编码器生成的视觉标记中存在大量冗余。为了解决这个问题,我们提出了VisionZip,这是一种简单而有效的方法,它为语言模型输入选择一组信息丰富的标记,减少视觉标记的冗余,提高效率,同时保持模型的性能。所提出的VisionZip可广泛应用于图像和视频理解任务,并且非常适合现实世界中的多轮对话,而此前的方法在这些场合往往表现不佳。实验结果表明,在几乎所有设置中,VisionZip比之前的最先进方法至少提高了5%的性能。此外,我们的方法显著提高了模型推断速度,预填充时间提高了8倍,并使LLaVA-Next 13B模型在获得更好结果的同时,推断速度超过了LLaVA-Next 7B模型。此外,我们分析了这种冗余产生的原因,并鼓励社区关注提取更优质的视觉特征,而不仅仅是增加标记长度。我们的代码可在github.com/dvlab-resea…
2 Targeting the Core: A Simple and Effective Method to Attack RAG-based Agents via Direct LLM Manipulation
作者: Xuying Li
发表日期: 2024-12-05T18:38:30+00:00
论文地址:arxiv.org/abs/2412.04…
由大型语言模型(LLM)提供动力的AI代理,通过实现无缝、自然且情境感知的交流,已经转变了人机交互。尽管这些进步带来了极大的实用性,但它们也继承了并放大了一些固有的安全风险,例如偏见、公平性、虚构现象、隐私泄露以及透明度不足。本文研究了一个关键漏洞:针对AI代理内部LLM核心的对抗性攻击。具体来说,我们测试了一个假设:一个看似简单的对抗性前缀,例如“忽略这份文件”,可以绕过LLM的情境防护措施,强制其产生危险或非预期的输出。通过实验,我们展示了很高的攻击成功率(ASR),揭示了现有LLM防御的脆弱性。这些发现强调了迫切需要针对LLM层面及更广泛的基于代理的架构中的漏洞,制定健壮、多层次的安全措施。
3 Aya Expanse: Combining Research Breakthroughs for a New Multilingual Frontier
作者: John Dang
发表日期: 2024-12-05T15:41:06+00:00
论文地址:arxiv.org/abs/2412.04…
我们推出了Aya Expanse模型家族,这是新一代的8B和32B参数多语言模型,旨在解决开发高性能多语言模型的关键挑战,这些模型的能力可以与单语言模型相媲美甚至超越。通过利用Cohere For AI和Cohere多年的研究成果,包括数据套利、多语言偏好训练和模型合并等领域的进步,Aya Expanse在多语言性能方面树立了新的标杆。我们在翻译成23种语言的Arena-Hard-Auto数据集上的评估显示,Aya Expanse 8B和32B在其各自的参数类别中超越了包括Gemma 2、Qwen 2.5和Llama 3.1在内的领先开放权重模型,取得了高达76.6%的胜率。值得注意的是,Aya Expanse 32B甚至超过了参数是其两倍的Llama 3.1 70B模型,实现了54.0%的胜率。在这份简短的 technical 报告中,我们展示了Aya Expanse模型家族的扩展评估结果,并发布了它们的开放权重,同时推出了一个新的多语言评估数据集m-ArenaHard。
4 Agent AI with LangGraph: A Modular Framework for Enhancing Machine Translation Using Large Language Models
作者: Jialin Wang
发表日期: 2024-12-05T01:45:12+00:00
论文地址:arxiv.org/abs/2412.03…
本文探讨了Agent AI和LangGraph在推进机器翻译(MT)的自动化和有效性方面的变革性角色。这些代理是模块化组件,被设计用来执行特定任务,如特定语言之间的翻译,其中包括专门用于英语、法语和日语翻译的TranslateEnAgent、TranslateFrenchAgent和TranslateJpAgent。这些代理利用大型语言模型(如GPT-4o)强大的语义能力,确保翻译既准确又符合语境,同时保持模块化、可扩展性和语境保持。
LangGraph是一个基于LangChain构建的图形化框架,它简化了这些代理及其工作流程的创建和管理。它支持动态状态管理,使代理能够保持对话上下文,并通过连接代理促进它们之间的协作,从而自动化复杂的工作流程。凭借其灵活性、开源社区支持与大型语言模型的无缝集成,LangGraph使代理能够提供高质量的翻译。
Agent AI和LangGraph共同构成一个协同系统,其中LangGraph负责协调代理之间的互动,确保用户输入能够被高效地分析、路由和处理。实验结果表明,该系统有望提升多语言翻译的准确性和可扩展性。通过强调模块化设计和自动化工作流程,本文为智能机器翻译服务的进一步创新奠定了基础。
5 Inst-IT: Boosting Multimodal Instance Understanding via Explicit Visual Prompt Instruction Tuning
作者: Wujian Peng
发表日期: 2024-12-04T18:58:10+00:00
论文地址:arxiv.org/abs/2412.03…
大型多模态模型(LMMs)在指令调整的进展下取得了重大突破。然而,尽管现有模型能在整体层面上理解图像和视频,它们在需要更细腻理解和对齐的实例级理解上仍面临挑战。实例级理解至关重要,因为它关注的是我们最感兴趣的具体元素。令人兴奋的是,现有研究发现在提供明确的视觉线索时,最先进的LMMs展现出强大的实例理解能力。受此启发,我们引入了一种由GPT-4o辅助的自动化标注管道,通过明确的视觉提示来引导实例,从而从图像和视频中提取实例级信息。基于这一管道,我们提出了Inst-IT,一种通过明确的视觉提示指令调整来增强LMMs在实例理解方面的解决方案。Inst-IT包括一个诊断多模态实例级理解的基准,一个大规模的指令调整数据集,以及一种持续的指令调整训练范式,有效提升现有LMMs在时空实例理解方面的能力。实验结果表明,在Inst-IT的助力下,我们的模型不仅在Inst-IT基准上取得了卓越性能,同时在各种通用图像和视频理解基准上也展示了显著提升。这表明我们的数据集不仅促进了实例级理解,也强化了通用图像和视频理解的整体能力。
6 From Individual to Society: A Survey on Social Simulation Driven by Large Language Model-based Agents
作者: Xinyi Mou
发表日期: 2024-12-04T18:56:37+00:00
论文地址:arxiv.org/abs/2412.03…
传统的社会学研究常常依赖人类的参与,这种方法虽然有效,但成本高昂,难以扩大规模,并且存在伦理上的问题。近期大型语言模型(LLM)的进展突显了它们模拟人类行为的潜力,能够复制个体反应并促进跨学科研究。在本文中,我们对这一领域进行了全面调查,展示了由LLM赋能的智能体在模拟方面取得的最新进展。我们将这些模拟分为三种类型:(1)个体模拟,模仿特定的个体或人口群体;(2)情景模拟,多个智能体在特定情境中协作达成目标;(3)社会模拟,建模智能体社会内的互动,以反映现实世界的复杂性和多样性。这些模拟呈现出由详细的个体建模到大规模社会现象的逐步推进。我们对每种模拟类型进行了详细讨论,包括模拟的架构或关键组成部分、目标或情境的分类以及评估方法。之后,我们汇总了常用的数据集和基准。最后,我们讨论了这三种类型模拟的趋势。相关资源的存储库位于{\url{github.com/FudanDISC/S…
7 Best-of-N Jailbreaking
作者: John Hughes
发表日期: 2024-12-04T18:51:32+00:00
论文地址:arxiv.org/abs/2412.03…
我们推出了最佳-N(BoN)越狱方法,这是一种简单的黑盒算法,能够跨多种模态破解前沿的人工智能系统。BoN越狱通过反复对提示进行变异抽样,并结合一系列增强手段——例如对文本提示进行随机洗牌或大小写转换——直到引出有害的响应为止。我们发现,在使用10,000个增强提示抽样时,BoN越狱在闭源语言模型上取得了很高的攻击成功率(ASRs),例如在GPT-4o上达到89%,在Claude 3.5 Sonnet上达到78%。此外,它同样有效地绕过了最先进的开源防御措施,如断路器。BoN还能无缝扩展到其他模态:它通过使用特定于模态的增强手段,破解视觉语言模型(VLMs)如GPT-4o和音频语言模型(ALMs)如Gemini 1.5 Pro。当我们抽样更多增强提示时,BoN的可靠性得到提升。在所有模态中,攻击成功率(ASR)作为抽样数量(N)的函数,在许多数量级上实证表现出类似幂律的行为。BoN越狱还可以与其他黑盒算法组合,以实现更有效的攻击——将BoN与优化的前缀攻击结合,可以使ASR提高多达35%。总体而言,我们的研究指出,尽管语言模型具备强大的能力,但它们对输入的看似无害的变化非常敏感,攻击者可以利用这一点跨多种模态进行攻击。
8 PaliGemma 2: A Family of Versatile VLMs for Transfer
作者: Andreas Steiner
发表日期: 2024-12-04T18:50:42+00:00
论文地址:arxiv.org/abs/2412.03…
PaliGemma 2是对PaliGemma开放式视觉-语言模型(VLM)的升级,基于Gemma 2系列语言模型。我们将PaliGemma同样采用的SigLIP-So400m视觉编码器与整个Gemma 2模型系列结合,从2B模型一直到27B模型。我们分多个阶段在这些模型上进行训练,以三种分辨率(224px、448px和896px)赋予它们通过微调进行迁移的广泛知识。由此产生的涵盖不同模型尺寸和分辨率的基准模型家族,使我们能够研究影响迁移性能的因素(如学习率),并分析任务类型、模型尺寸和分辨率之间的相互作用。此外,我们还扩展了迁移任务的数量和范围,超出了PaliGemma的范围,包括不同的OCR相关任务,如表格结构识别、分子结构识别、乐谱识别以及长篇细粒度字幕生成和放射学报告生成,在这些任务上,PaliGemma 2取得了最先进的结果。
9 A Review on Scientific Knowledge Extraction using Large Language Models in Biomedical Sciences
作者: Gabriel Lino Garcia
发表日期: 2024-12-04T18:26:13+00:00
论文地址:arxiv.org/abs/2412.03…
大型语言模型(LLM)的快速进步为医学知识的提取和合成开辟了新的边界,特别是在证据综合领域。本文回顾了LLM在生物医学领域的最先进应用,探索了它们在自动化复杂任务方面的有效性,如从生物医学文献语料库中提取证据综合和数据。尽管LLM展示了惊人的潜力,但仍然存在重大挑战,包括与虚构现象、上下文理解和在多样化医学任务中泛化的能力相关的问题。我们强调了当前研究文献中的关键空白,尤其是对统一基准的需求,以标准化评估并确保在现实世界应用中的可靠性。此外,我们还提出了未来研究的方向,强调整合最先进的技术,如检索增强生成(RAG)以提升LLM在证据综合中的性能。通过应对这些挑战并利用LLM的优势,我们旨在改善对医学文献的获取,并促进医疗保健领域的有意义发现。
10 Flow Matching with General Discrete Paths: A Kinetic-Optimal Perspective
作者: Neta Shaul
发表日期: 2024-12-04T17:24:35+00:00
论文地址:arxiv.org/abs/2412.03…
离散空间扩散或流动生成模型的设计空间远不如它们的连续空间对应物理解得透彻,许多研究仅关注简单的遮蔽构建。在这项工作中,我们旨在采取一种基于连续时间马尔可夫链构建离散生成模型的全面方法,并且首次允许使用任意的离散概率路径,或者通俗地说,是腐败过程。通过优化对称动能的视角,我们提出了可以应用于任何给定概率路径的速度公式,完全解耦了概率和速度,使用户可以根据特定数据领域的专业知识自由指定任何期望的概率路径。此外,我们发现一种特殊的混合概率路径构建能优化离散情况下的对称动能。我们通过多种模态的实证验证了这一新设计空间的有用性:文本生成、无机材料生成和图像生成。我们发现,即使是文本,在使用动能最优混合路径的情况下,我们也能超越遮蔽构建;同时,在视觉领域,我们可以利用特定于领域的概率路径构建。
11 Scaling BERT Models for Turkish Automatic Punctuation and Capitalization Correction
作者: Abdulkader Saoud
发表日期: 2024-12-03T18:59:51+00:00
论文地址:dx.doi.org/10.1109/ASY…
本文研究了基于BERT模型的土耳其语文本自动标点和大小写纠错效果,涵盖了五种不同规模的模型。这些模型分别被指定为Tiny、Mini、Small、Medium和Base。每个模型的设计和能力都针对土耳其语特有的挑战进行了量身定制,旨在优化性能的同时最小化计算开销。研究系统比较了每个模型的性能指标——精确度、召回率和F1分数,为它们在不同操作环境中的应用提供了见解。结果显示,随着模型规模的增大,文本的可读性和准确性显著提高,Base模型取得了最高的纠错精确度。这项研究为根据特定用户需求和计算资源选择合适的模型规模提供了全面指导,为在现实应用中部署这些模型以提高土耳其语书面质量奠定了框架。
12 The Asymptotic Behavior of Attention in Transformers
作者: Álvaro Rodríguez Abella
发表日期: 2024-12-03T18:54:49+00:00
论文地址:arxiv.org/abs/2412.02…
变压器中的一个关键组成部分是注意力机制,它协调整个变压器中每个标记如何影响其他每个标记的传播。在本文中,我们提供了一个严格的数学分析,探讨了变压器中注意力的渐近特性。尽管我们基于不同的假设提出了几项结果,但它们都指向了同一个结论:所有标记渐近地趋向一致,这一现象在文献中已有实证报告。我们的发现与现有理论结果进行了仔细对比,并通过使用GPT-2模型的模拟和实验研究进行了说明。
13 Time-Reversal Provides Unsupervised Feedback to LLMs
作者: Yerram Varun
发表日期: 2024-12-03T17:54:12+00:00
论文地址:arxiv.org/abs/2412.02…
大型语言模型(LLM)通常被训练以预测时间的前进方向。然而,近期的研究表明,引导这些模型回顾并批判它们自己的生成内容可以产生有用的反馈。受此启发,我们探讨了是否可以让LLM具备逆向思维(预测和评分)的能力,以提供补充正向LLM的未经监督的反馈。为了实现这一点,我们引入了时间反转语言模型(TRLM),这种模型在条件响应下能够评分和生成查询,实际上是按照时间的反方向运行。此外,为了在查询响应方向上有效地进行推断,我们从零开始预训练并微调了一个语言模型(TRLM-Ba),以逆序的方式处理标记。我们通过实验(以及在风格化设置中的理论分析)证明,当用于在给定响应的情况下评分查询以重新排序多个正向生成结果时,时间反转模型确实可以补充正向模型的预测。我们在广泛使用的AlpacaEval排行榜上,使用自对数困惑度分数进行最优N个重新排序的基准线上,获得了高达5%的性能提升。我们进一步展示了TRLM评分优于传统的给定查询的响应正向评分,在引文生成和段落检索等应用中带来了显著的增益。接下来,我们利用TRLM的生成能力来增强或提供LLM输入安全过滤器的未经监督反馈,在流行的JailbreakBench排行榜上针对几种已发布的攻击,显示出假阴性率的显著降低,而对假阳性率的影响可以忽略不计。
14 CEGI: Measuring the trade-off between efficiency and carbon emissions for SLMs and VLMs
作者: Abhas Kumar
发表日期: 2024-12-03T17:32:47+00:00
论文地址:arxiv.org/abs/2412.02…
本文分析了小型语言模型(SLM)和视觉语言模型(VLM)的性能,并在四个基本任务:图像字幕生成、视觉问答(VQA)、对话摘要和文本到SQL转换中,评估了模型性能与碳排放之间的权衡。选择了属于Qwen和LLaMA架构家族的各种SLM和VLM,并评估了基于参数数量、量化水平和微调参数的不同模型变体的性能。计算了模型变体的性能和碳排放量。为了量化模型性能与碳排放之间的权衡,我们引入了一个新颖的度量指标,称为CEGI(碳排放效率增益指数)。该指标表示每百万可训练参数单位百分比增益的碳排放量。这个指标提供了一个标准化的度量,用于比较模型在性能提升与其环境成本方面的效率。实验结果表明,微调SLM和VLM可以达到与大型语言模型(LLM)相媲美的性能水平,同时产生的碳排放量显著减少。我们的发现表明,大型模型在准确性上的边际增益并不能证明大幅增加碳排放是合理的。通过利用低比特量化水平,所提出的度量进一步提高了能源效率,同时不损害性能。本研究突出了在保持高性能和环境可持续性之间的平衡。它为选择适合环境友好型AI开发的模型提供了一个有价值的度量标准。
15 OCR Hinders RAG: Evaluating the Cascading Impact of OCR on Retrieval-Augmented Generation
作者: Junyuan Zhang
发表日期: 2024-12-03T17:23:47+00:00
论文地址:arxiv.org/abs/2412.02…
检索增强生成(RAG)通过整合外部知识,减少了虚构现象并融入最新信息,从而增强了大型语言模型(LLM)的功能,而且无需重新训练。作为RAG的重要组成部分,外部知识库通常是通过使用光学字符识别(OCR)从非结构化的PDF文档中提取结构化数据构建的。然而,鉴于OCR的预测并不完美以及结构化数据在本质上的表示不均匀,知识库中不可避免地会包含各种OCR噪声。在本文中,我们介绍了OHRBench,这是第一个用于理解OCR对RAG系统级联影响的基准测试工具。OHRBench包含了来自六个实际RAG应用领域的350份精心挑选的非结构化PDF文档,以及从文档中的多模态元素衍生出的问答内容,这些内容挑战了目前用于RAG的OCR解决方案。为了更好地理解OCR对RAG系统的影响,我们识别出两种主要的OCR噪声:语义噪声和格式噪声,并对它们应用扰动,生成了一系列含有不同程度每种OCR噪声的结构化数据集。使用OHRBench,我们首先对当前的OCR解决方案进行了全面评估,发现它们都不足以为RAG系统构建高质量的知识库。接着,我们系统地评估了这两种噪声类型的影响,并展示了RAG系统的脆弱性。此外,我们还讨论了在没有OCR的情况下,利用视觉语言模型(VLM)在RAG系统中可能发挥的潜力。代码:github.com/opendatalab…
16 Fine Tuning Large Language Models to Deliver CBT for Depression
作者: Talha Tahir
发表日期: 2024-11-29T20:48:08+00:00
论文地址:arxiv.org/abs/2412.00…
认知行为疗法(CBT)是一种经过充分验证、基于证据的重度抑郁症治疗方法。不幸的是,个人接受CBT治疗仍面临重大障碍,包括费用、治疗师稀缺和污名化问题。本研究探讨了将小型开放权重大型语言模型(LLMs)精细化调整以提供针对抑郁症状的CBT治疗的可行性。我们使用了Nous研究团队对Llama 3.1 405b版本进行精细化调整后生成的58套综合CBT对话记录,对三种模型进行了再训练:Mistral 7b v0.3、Qwen 2.5 7b和Llama 3.1 8b。通过修改后的认知治疗评分量表(CTRS)来评估CBT的保真度。所有经过精细化调整的模型与它们的指令调整变体进行了比较。为了评估模型性能,生成了模拟的患者对话记录,其中指令和CBT调整模型充当治疗师,DeepSeek-V2.5充当患者。这些模拟的对话记录由Gemini 1.5 Pro-002根据修改后的CTRS进行评估。我们的研究结果表明,CBT调整模型在总体CTRS得分上显著优于它们的指令调整对应模型,平均提高了11.33分(p < 0.001)。Llama 3.1 8b的表现最为强劲(平均CTRS得分67.86 ± 7.24),其次是Qwen 2.5 7b(64.28 ± 9.55)和Mistral 7b v0.3(64.17 ± 9.79),这些模型之间的差异在统计学上是有意义的。CBT调整模型在实施核心CBT技术和提供共情反应方面是胜任的,但在议程坚持、探索深度和长上下文连贯性方面存在局限性。本研究证实,特定的CBT精细化调整可以有效在小型LLM中编码治疗能力,但在临床部署之前,必须解决重大技术和伦理问题。
17 T2Vid: Translating Long Text into Multi-Image is the Catalyst for Video-LLMs
作者: Shukang Yin
发表日期: 2024-11-29T18:59:54+00:00
论文地址:arxiv.org/abs/2411.19…
多模态大型语言模型(MLLMs)在图像领域的成功引起了研究界的广泛关注。基于以往成功的经验,研究人员最近开始探索将这一成功扩展到视频理解领域。除了从零开始训练,一种有效的方法是利用预训练的图像-LLMs,这导致了两种主流方法:零样本推理和进一步用视频数据进行微调。在这项工作中,我们对这些方法进行了研究,并收获了一种有效的数据增强方法。我们首先对零样本推理方法进行了深入检查,并发现了两个局限性:即泛化能力有限和缺乏时间理解能力。因此,我们进一步调查了微调方法,发现当简单使用所有视频数据样本时,学习效率较低,这可以归因于指令多样性的缺乏。针对这一问题,我们开发了一种名为T2Vid的方法,用于合成类似视频的样本,以丰富训练语料库中的指令多样性。整合这些数据使得一个简单且高效的训练方案成为可能,仅用15%的样本量训练就能达到与甚至超过使用全视频数据集的性能。同时,我们发现所提出的方案可以在不使用长视频样本进行训练的情况下提升长视频理解的表现。我们希望我们的研究能够激发更多关于使用MLLMs进行视频理解和高质量数据整理的思考。代码已发布在 github.com/xjtupanda/T…
18 Critical Tokens Matter: Token-Level Contrastive Estimation Enhence LLM's Reasoning Capability
作者: Zicheng Lin
发表日期: 2024-11-29T18:58:22+00:00
论文地址:arxiv.org/abs/2411.19…
大型语言模型(LLM)在推理任务上表现出色。它们利用自回归的 token 生成来构建推理路径,从而能够发展出连贯的思维链条。在这项工作中,我们探讨了单个 token 对推理任务最终结果的影响。我们发现存在导致 LLMs 推理路径错误的“关键 token”。具体来说,我们发现当迫使 LLMs 解码非关键 token 而不是关键 token 时,它们往往会产生正确的结果。受到这一观察的启发,我们提出了一种新颖的方法——cDPO,旨在对齐过程中自动识别并对关键 token 进行 token 级别的奖励。具体而言,我们开发了一种对比估计方法来自动识别关键 token,这是通过比较正模型和负模型的生成概率来实现的。为了做到这一点,我们分别在不同推理路径上对正模型和负模型进行微调,因此它们能够识别导致错误结果的不正确路径中的关键 token。此外,为了在对齐过程中使模型更好地与关键 token 信息对齐,我们将传统的 DPO 算法扩展到 token 级别的 DPO,并使用上述正负模型得到的差分概率作为 token 级别 DPO 学习的重要权重。在 GSM8K 和 MATH500 基准上的实验结果表明,所提出的方法 cDPO 在两个广泛使用的模型 Llama-3(8B 和 70B)以及 deepseek-math(7B)上的有效性。
19 Critical Tokens Matter: Token-Level Contrastive Estimation Enhances LLM's Reasoning Capability
作者: Zicheng Lin
发表日期: 2024-11-29T18:58:22+00:00
论文地址:arxiv.org/abs/2411.19…
大型语言模型(LLM)在推理任务上表现出色。它们利用自回归的令牌生成来构建推理路径,从而能够发展出连贯的思维链。在这项工作中,我们探讨了单个令牌对推理任务最终结果的影响。我们发现存在导致LLM推理路径错误的“关键令牌”。具体来说,我们发现当迫使LLM解码其他令牌而不是关键令牌时,它往往会生成正确的结果。基于这一观察,我们提出了一种新颖的方法——cDPO——旨在在对照过程中自动识别并对关键令牌进行令牌级奖励。具体来说,我们开发了一种对比估计方法来自动识别关键令牌。这是通过比较正模型和负模型的生成概率来实现的。为了达到这个目的,我们分别在不同推理路径上对正模型和负模型进行微调,因此它们能够识别导致错误结果的错误路径中的关键令牌。此外,为了在对照过程中使模型与关键令牌信息更一致,我们将传统的DPO算法扩展到令牌级DPO,并使用上述正负模型的差异概率作为令牌级DPO学习的重要权重。在GSM8K和MATH500基准上的实验结果表明,我们提出的cDPO方法对于两个广泛使用的模型Llama-3(8B和70B)和deepseek-math(7B)是有效的。
20 Advanced System Integration: Analyzing OpenAPI Chunking for Retrieval-Augmented Generation
作者: Robin D. Pesl
发表日期: 2024-11-29T16:09:43+00:00
论文地址:arxiv.org/abs/2411.19…
整合多个(子)系统对于创建高级信息系统(ISs)至关重要。困难主要出现在跨越信息系统生命周期整合动态环境时。传统的方法是提供一个注册表,其中包含系统端点的API文档。大型语言模型(LLM)已经显示出能够基于这些文档自动创建系统集成(例如,作为服务组合),但由于输入标记的限制,它们需要简洁的输入,尤其是在涉及全面的API描述时。目前,尚不清楚如何最佳地预处理这些API描述。在这项工作中,我们(i)分析了将检索增强生成(RAG)用于端点发现和OpenAPI的分块(即预处理),以减少输入标记长度同时保留最相关信息。为了进一步减少组合提示的输入标记长度并改善端点检索,我们提出(ii)一个发现代理,它只接收最相关端点的摘要,并根据需要检索详细信息。我们使用RestBench基准评估了RAG用于端点发现的效果,首先针对不同的分块可能性和参数测量端点检索的召回率、准确性和F1分数。然后,我们使用相同的测试集评估发现代理。通过我们的原型,我们展示了如何成功使用RAG进行端点发现以减少标记数量。尽管召回率、准确性和F1分数的值很高,但还需要进一步研究以检索所有必需的端点。我们的实验表明,在预处理方面,基于LLM和特定格式的方 法优于简单的分块方法。依赖于代理进一步增强了这些结果,因为代理将任务分解为多个细粒度的子任务,在标记数量、准确性和F1分数方面提高了整体RAG性能。
21 LLM Teacher-Student Framework for Text Classification With No Manually Annotated Data: A Case Study in IPTC News Topic Classification
作者: Taja Kuzman
发表日期: 2024-11-29T11:42:58+00:00
论文地址:arxiv.org/abs/2411.19…
随着在线新闻故事数量的不断增加,无论它们是用何种语言撰写,按照主题对它们进行分类对于提高读者获取相关内容的便捷性变得至关重要。为了应对这一挑战,我们提出了一种基于大型语言模型(LLM)的教师-学生框架,用以开发无需手动数据标注的多语言新闻分类模型,并且这些模型的体积合理。该框架使用生成型预训练转换器(GPT)模型作为教师模型,通过自动标注斯洛文尼亚语、克罗地亚语、希腊语和加泰罗尼亚语的新闻文章,来开发国际新闻电信委员会(IPTC)媒体主题训练数据集。教师模型在所有四种语言上都展现出很高的零样本性能,其与人类标注者的相符程度可与人类标注者之间的相符程度相媲美。为了减轻每天处理数百万文本的计算限制,我们进一步对类似BERT的学生模型进行微调,这些学生模型在GPT标注的数据集上表现出与教师模型相媲美的高性能。此外,我们还探讨了训练数据大小对学生模型性能的影响,并研究了它们的单语、多语以及零样本跨语言能力。研究结果表明,学生模型只需相对较少的训练实例就能达到高性能,并展现出强大的零样本跨语言能力。最后,我们发布了性能最佳的新闻主题分类器,它能够使用IPTC媒体主题架构中的顶级类别进行多语言分类。
22 Structured Object Language Modeling (SoLM): Native Structured Objects Generation Conforming to Complex Schemas with Self-Supervised Denoising
作者: Amir Tavanaei
发表日期: 2024-11-28T18:16:41+00:00
论文地址:arxiv.org/abs/2411.19…
在本文中,我们研究了一个问题:如何生成符合复杂架构的、具有不同组件(方面)间错综复杂依赖关系的结构化对象。对象的各个方面(属性、字段、列、属性)可能是短小、结构化、类型受限的事实,也可能是较长的自然语言描述。该对象在其携带的冗余信息中(相对一致性)需要在不同的方面保持自洽,同时还要与世界知识(绝对一致性)相吻合。我们将这个问题框定为语言建模问题(结构化对象语言建模),并训练了一个大型语言模型(LLM)原生地执行这项任务,无需指令或提示工程。我们提出了一种自监督的去噪方法,用以从这类对象的现有数据集中训练模型。输入请求可以是现有的对象本身,在这种情况下,模型充当再生器,补充、校正、标准化输入;也可以是任何需要结构化的非结构化文本。我们证明了自监督去噪训练提供了一个强大的基线,并且通过少量的人工演示进行额外的监督微调能带来进一步改进。实验结果表明,我们提出的方法与经过提示工程优化的通用型最先进LLM(Claude 3,Mixtral-8x7B)表现相当或更优,同时在成本效率上有一个数量级以上的提升。
23 SmartLLMSentry: A Comprehensive LLM Based Smart Contract Vulnerability Detection Framework
作者: Oualid Zaazaa
发表日期: 2024-11-28T16:02:01+00:00
论文地址:dx.doi.org/10.57019/jm…
智能合约对于管理区块链网络中的数字资产至关重要,凸显了有效安全措施的必要性。本文介绍了SmartLLMSentry这一新颖框架,它利用大型语言模型(LLM),特别是具有情境训练的ChatGPT,来推进智能合约漏洞检测。传统的基于规则框架在高效集成新检测规则方面存在局限。相比之下,SmartLLMSentry使用LLM来简化这一流程。我们创建了一个专门的数据集,其中随机选择了五种漏洞用于模型训练和评估。我们的结果显示,在足够的数据条件下,准确率达到91.1%的精确匹配,尽管GPT-4在规则生成方面的性能相较于GPT-3有所下降。本研究表明,通过LLM驱动的规则集成,SmartLLMSentry显著提高了漏洞检测的速度和准确性,为改进区块链安全性和解决智能合约中之前未充分探索的漏洞提供了新方法。
24 VARCO-VISION: Expanding Frontiers in Korean Vision-Language Models
作者: Jeongho Ju
发表日期: 2024-11-28T12:38:42+00:00
论文地址:arxiv.org/abs/2411.19…
在本文中,我们介绍了一个开源的韩英视觉语言模型(VLM),名为VARCO-VISION。我们采用了一种逐步训练策略,使模型能够在保留主干模型知识的同时学习语言和视觉信息。与同等规模的模型相比,我们的模型在多种需要双语图像文本理解和生成能力的场景中表现出卓越的性能。VARCO-VISION还能够执行定位、指称和光学字符识别(OCR),扩大了其实际应用场景和潜力。除了模型本身,我们还发布了五个韩语评估数据集,包括四个封闭集和一个开放集基准。我们期待我们的这一里程碑能够为那些致力于训练VLM的人工智能研究者提供更广阔的机会。VARCO-VISION可在以下链接获取:huggingface.co/NCSOFT/VARC…
25 Pushing the Limits of Large Language Model Quantization via the Linearity Theorem
作者: Vladimir Malinovskii
发表日期: 2024-11-26T15:35:44+00:00
论文地址:arxiv.org/abs/2411.17…
将大型语言模型量化已经成为降低其内存和计算成本的标准方法。通常,现有方法侧重于将问题分解为逐层的子问题,并通过各种指标最小化每层的误差。然而,这种方法目前缺乏理论上的正当性,所使用的指标可能不是最优的。在本文中,我们提出了一个“线性定理”,建立了逐层的重建误差与模型由于量化导致的困惑度增加之间的直接关系。这一洞察使得两种新的应用成为可能:(1)一种简单的不依赖数据的大语言模型量化方法,使用哈达玛旋转和均方误差最优网格,我们将其称为HIGGS,它优于所有先前的无数据方法,如极其流行的NF4量化格式;(2)在中位比特宽度体制下,寻找非均匀的逐层量化级别以匹配给定压缩约束的最优解,通过减少到动态规划获得。在实践方面,我们在Llama-3.1和3.2系列模型以及Qwen系列模型上展示了改进的准确度-压缩权衡。此外,我们还证明了我们方法可以在各种批量大小下有效地通过GPU内核支持,推进了大型语言模型的无数据和非均匀量化。
26 Performance of Large Language Models in Technical MRI Question Answering: A Comparative Study
作者: Alan B McMillan
发表日期: 2024-11-19T05:29:58+00:00
论文地址:arxiv.org/abs/2411.12…
背景:人工智能的进步,特别是大型语言模型(LLM),有望提升磁共振成像(MRI)技术专长,无论操作者的技能水平或地理位置如何。 方法:我们评估了数个LLM在回答来自标准化复习书中的570个技术性MRI问题的准确性。这些问题涵盖了九个MRI主题,包括基本原理、图像生成和安全等。我们测试了闭源模型(例如,OpenAI的o1预览版、GPT-4o、GPT-4 Turbo和Claude 3.5 Haiku)和开源模型(例如,Phi 3.5 Mini、Llama 3.1、smolLM2)。通过LangChain框架使用标准化提示查询模型,并使用自动化评分协议将回答与正确答案进行比对。准确性,即正确答案的比例,是主要的结果指标。 结果:闭源的o1预览版模型取得了最高的准确性(94%),超过了随机猜测基准(26.5%)。GPT-4o和o1 Mini得分88%,GPT-4 Turbo和Claude 3.5 Haiku各得分84%。在开源模型中,Phi 3.5 Mini表现良好,达到78%的准确性,与数个闭源模型相当。在基本原理和仪器设备类别的准确性最高,但在图像加权与对比、历史、以及伪影与校正方面的准确性较低。 结论:LLM在处理技术性MRI问题方面展现出高准确性,表明它们有潜力标准化并提升MRI实践。这些模型可能会改善在多样化临床环境下的图像质量和一致性。需要进一步研究以优化LLM的临床应用并将其整合到MRI工作流程中。
27 Pro-Prophet: A Systematic Load Balancing Method for Efficient Parallel Training of Large-scale MoE Models
作者: Wei Wang
发表日期: 2024-11-15T07:27:58+00:00
论文地址:arxiv.org/abs/2411.10…
深度学习模型的规模不断扩大以提升模型质量。随着模型规模的增加,训练计算预算的线性增长意味着训练超大规模模型极为耗时。近来,专家混合模型(Mixture of Expert,简称MoE)因其能以稳定的计算预算将模型扩展到超大规模而受到广泛关注。然而,大规模MoE模型低效的分布式训练阻碍了其更广泛的应用。特别是,在训练过程中,设备间出现了相当大的动态负载不平衡,显著降低了吞吐量。为应对这一挑战,已经提出了几项负载平衡的工作。与算法级的解决方案相比,系统级解决方案因与硬件亲和性更好且不会影响模型收敛而受到更多关注。然而,它们受到高通信成本和通信与计算重叠性差的问题困扰。为解决这些挑战,我们提出了一种系统性的负载平衡方法——Pro-Prophet,它包含一个规划器和调度器,用于大规模MoE模型的并行高效训练。为了适应动态负载不平衡,我们分析了训练统计信息,并据此设计Pro-Prophet。为了降低通信量,Pro-Prophet规划器根据统计信息确定一系列轻量级的负载平衡策略,并基于这些统计信息高效搜索一种通信效率高的策略用于训练。为了充分重叠通信与计算,Pro-Prophet调度器根据统计信息和操作特性调度数据相关操作,从而进一步提高训练吞吐量。实验结果表明,与Deepspeed-MoE和FasterMoE相比,Pro-Prophet实现了最高2.66倍的加速。此外,与FasterMoE相比,Pro-Prophet在负载平衡方面的提升最高可达11.01倍。
28 oRetrieval Augmented Generation for 10 Large Language Models and its Generalizability in Assessing Medical Fitness
作者: Yu He Ke
发表日期: 2024-10-11T00:34:20+00:00
论文地址:arxiv.org/abs/2410.08…
大型语言模型(LLM)在医疗应用方面显示出潜力,但往往缺乏专业的临床知识。检索增强生成(RAG)允许定制特定领域的资讯,使其适用于医疗保健。本研究评估了RAG模型在判定手术适宜性和提供术前指导方面的准确性、一致性和安全性。我们利用35项本地和23项国际术前指南开发了LLM-RAG模型,并与人工生成的回答进行了对比测试。共评估了3,682个回答。临床文件使用Llamaindex进行处理,并对包括GPT3.5、GPT4和Claude-3在内的10个LLM进行了评估。分析了14个临床场景,重点关注术前指导的七个方面。已建立的指南和专家判断用于确定正确答案,以人工生成的答案作为比较。LLM-RAG模型在20秒内生成回答,比临床医生(10分钟)快得多。GPT4 LLM-RAG模型取得了最高的准确度(96.4%对比86.6%,p=0.016),没有出现虚构现象,生成的正确指导与临床医生相当。结果在本地和国际指南中均保持一致。本研究展示了LLM-RAG模型在术前医疗任务中的潜力,突出了其效率、可扩展性和可靠性。
29 DANA: Domain-Aware Neurosymbolic Agents for Consistency and Accuracy
作者: Vinh Luong
发表日期: 2024-09-27T18:29:23+00:00
论文地址:arxiv.org/abs/2410.02…
大型语言模型(LLM)展现了卓越的能力,但它们固有的概率性质常常导致在解决复杂问题时出现不一致性和不准确。本文介绍了DANA(领域感知神经符号代理),一种通过将领域特定知识与神经符号方法结合来解决这些问题的架构。我们首先通过神经符号的视角分析了当前的AI架构,包括AutoGPT、LangChain ReAct和OpenAI的ChatGPT,强调了它们依赖概率推理如何导致输出不一致。作为回应,DANA捕捉并应用领域专业知识,以自然语言和符号形式呈现,使得问题解决行为更具确定性和可靠性。我们使用分层任务计划(HTPs)在开源的OpenSSA框架中实现了一种DANA的变体。这个实现版本在FinanceBench金融分析基准上取得了超过90%的准确率,在一致性和准确性方面显著优于当前的基于LLM的系统。将DANA应用于如半导体等物理行业表明,其灵活的架构在整合知识方面是有效的,能够缓解LLM的概率限制,并且在处理需要可靠性和精确度的复杂现实世界问题方面具有潜力。
30 ComfyBench: Benchmarking LLM-based Agents in ComfyUI for Autonomously Designing Collaborative AI Systems
作者: Xiangyuan Xue
发表日期: 2024-09-02T17:44:10+00:00
论文地址:arxiv.org/abs/2409.01…
先前许多人工智能研究专注于开发一体化的模型以最大化智能,主要目标是提升特定任务的性能。与此相反,这项工作尝试研究利用基于大型语言模型(LLM)的智能体来自主设计协作型人工智能系统。为了探索这个问题,我们首先引入了ComfyBench来评估智能体在ComfyUI中设计协作型AI系统的能力。ComfyBench是一个全面的基准测试,包含200项多样化的任务,覆盖了各种遵循指令的生成挑战,同时为3,205个节点和20个工作流程提供了详细的标注。基于ComfyBench,我们进一步开发了ComfyAgent,这是一个创新的框架,它通过生成工作流程,使基于LLM的智能体能够自主设计协作型AI系统。ComfyAgent基于两个核心概念。首先,它用代码表示工作流程,这些代码可以被解释器可逆地转换并执行为协作系统。其次,它构建了一个多智能体系统,通过学习现有工作流程并为给定任务生成新的工作流程来进行协作。尽管实验结果显示ComfyAgent在解决率上与o1-preview相当,并在ComfyBench上显著超越了其他智能体,但ComfyAgent仅解决了15%的创新任务。基于LLM的智能体在自主设计协作型AI系统方面仍有很长的路要走。ComfyBench的进展为更智能、更自主的协作AI系统铺平了道路。
31 Reinforcement Learning from Human Feedback: Whose Culture, Whose Values, Whose Perspectives?
作者: Kristian González Barman
发表日期: 2024-07-02T08:07:27+00:00
论文地址:arxiv.org/abs/2407.17…
我们主张在大型语言模型(LLM)的背景下,强化学习从人类反馈中(RLHF)应当采纳多元主义的认识论和伦理优势。借鉴社会认识论和科学多元主义哲学,我们提出了使RLHF更能响应人类需求的方法,以及如何解决这一过程中遇到的挑战。文章以一个变革议程作为结论,即具体的、可行的步骤来改进LLM的发展。
32 ChatBI: Towards Natural Language to Complex Business Intelligence SQL
作者: Jinqing Lian
发表日期: 2024-05-01T14:01:22+00:00
论文地址:arxiv.org/abs/2405.00…
自然语言到SQL(NL2SQL)技术为那些不熟悉数据库的非专业用户提供了使用SQL进行数据分析的机会。将自然语言转换为商业智能(NL2BI)是NL2SQL在实际生产系统中的一种流行实用场景。相比于NL2SQL,NL2BI引入了更多的挑战。
在本文中,我们提出了ChatBI,一种全面且高效的解决NL2BI任务的技术。首先,我们分析了交互模式,这是NL2SQL和NL2BI在使用中有所不同的重要模块,并设计了一个更小、成本更低的模型来匹配这种交互模式。在商业智能场景中,表格包含大量的列,这使得依赖大型语言模型(LLM)进行模式链接的现有NL2SQL方法由于标记限制而无法进行。BI场景中模糊列的比例更高,也使得模式链接变得困难。ChatBI结合了数据库社区中现有的视图技术,首先将模式链接问题分解为单一视图选择问题,然后使用更小、成本更低的机器学习模型来选择列数显著减少的单个视图。这个单一视图的列随后作为模式链接所需列传递给LLM。最后,ChatBI提出了一种与现有流程不同的分阶段流程,这使ChatBI能够更准确地生成包含复杂语义和比较关系的SQL。
我们已经将ChatBI部署在百度的数据平台上,并将其整合到多个产品线中进行大规模生产任务评估。获得的结果凸显了其实用性、通用性和效率的优势。同时,与当前主流的NL2SQL技术在我们的真实BI场景数据表和查询下相比,它也取得了最佳效果。
33 GraphReason: Enhancing Reasoning Capabilities of Large Language Models through A Graph-Based Verification Approach
作者: Lang Cao
发表日期: 2023-08-18T03:12:59+00:00
论文地址:arxiv.org/abs/2308.09…
大型语言模型(LLM)展示了令人印象深刻的推理能力,特别是在处理数学应用题等复杂推理任务时,由特定设计的提示引导时更是如此。这些模型通常采用一种思维链方法来解决问题,这不仅增强了它们的推理能力,同时也为我们提供了深入了解它们解决问题的过程的有价值见解。然而,LLM的推理能力仍有很大的提升空间。一些研究指出,集成一个LLM输出验证器可以在不进行额外模型训练的情况下提高推理的准确性。在本文中,我们沿袭这些研究,并引入一种新颖的基于图的方法来进一步增强LLM的推理能力。我们认为,由于不同推理路径中间步骤之间的逻辑联系,LLM生成的一个推理任务的多重解可以表现为一个推理图。因此,我们提出了Reasoning Graph Verifier(GraphReason)来分析和验证LLM生成的解决方案。通过评估这些图,模型可以产生更准确、更可靠的结果。我们的实验结果显示,我们的基于图的验证方法不仅显著提高了LLM的推理能力,而且在提升这些模型推理性能方面,也优于现有的验证器方法。
34 Unveiling Security, Privacy, and Ethical Concerns of ChatGPT
作者: Xiaodong Wu
发表日期: 2023-07-26T13:45:18+00:00
论文地址:arxiv.org/abs/2307.14…
本文深入探讨了ChatGPT的领域,这是一个利用主题建模和强化学习来生成自然回应的人工智能聊天机器人。尽管ChatGPT在客户服务、教育、心理健康治疗、个人生产力及内容创作等各个行业都拥有巨大的潜力,但解决其安全性、隐私以及伦理问题至关重要。通过探讨从GPT-1到GPT-4的升级路径,讨论该模型的特性、局限性及潜在应用,本研究旨在揭示将ChatGPT融入我们日常生活可能带来的风险。聚焦于安全性、隐私和伦理问题,我们强调了这些担忧对广泛采用所提出的挑战。最后,我们分析了这些领域的开放性问题,并呼吁共同努力确保大型语言模型的安全和伦理发展。
研究领域 知识图谱
1 Numerical invariants of normed matrix factorizations
作者: May Sela
发表日期: 2024-12-05T18:54:42+00:00
论文地址:arxiv.org/abs/2412.04…
我们定义了一个范数矩阵分解范畴以及该范畴中对象的界链概念。我们对球面对象进行界限链的规范等价分类,并利用这种分类来定义数值不变量。这些不变量预计在镜像对称下,对应于仅有边界约束的拉格朗日有理同调球的开Gromov-Witten不变量,这是由第二作者和Tukachinsky定义的。
对于每个Delzant多面体,我们构建了一个范数矩阵分解范畴。对于满足组合相对自旋条件的Delzant多面体,我们构建了该范畴中的一个对象,称为狄拉克分解。预计狄拉克分解在镜像对称下对应于由Delzant多面体相关的环面辛流形实部所给出的拉格朗日子流形。在为奇数的-单纯形情况下,我们证明了狄拉克分解是球面的,这与是一个有理同调球的事实相呼应。对于,我们证明了狄拉克分解的数值不变量与的开Gromov-Witten不变量相一致。对于且在低阶情况下,计算机计算验证了狄拉克分解的数值不变量与的开Gromov-Witten-Welschinger不变量相一致。
尽管在的Fukaya范畴中,对于任何特征为零的域来说都是平凡的,但上述结果可以被视为在Novikov环上镜像对称的一种表现。
2 The Growth of Galaxy Stellar Haloes Over
作者: Devin J. Williams
发表日期: 2024-12-04T19:00:12+00:00
论文地址:arxiv.org/abs/2412.03…
的积累。观测那些追踪星系晕建立的过程可以探究推动星系大小和恒星质量增长的过程。我们对质量完整的()242,456个恒星形成星系和88,421个宁静星系(SFGs和QGs)从CLAUDS和HSC-SSP调查中,在范围内进行了恒星晕的组装研究。我们提取了星系休息帧-波段表面亮度()轮廓,以研究星系外围微弱的扩展发射。通过分析不同SFG和QG \msS范围内随着红移降低的中值轮廓的趋势,我们检查了星系组装的情况,并将星系轮廓的演变与星系内恒星质量增长联系起来。自从以来,大多数星系中值轮廓的演变(在SFGs中约为64%,在QGs中约为71%)都发生在它们的恒星晕区域(2-10)内。在范围内,质量更大的星系更快速地积累恒星晕物质。在这一时期,相对于固定的SFGs,QGs在其恒星晕中积累了更大比例的物质(约为1.2倍)。尽管星可以在低质量SFGs中解释观察到的恒星晕增长(),但高质量SFGs()以及低质量和高质量QGs都需要额外的组装机制。我们的结果表明,小合并的吸积驱动了这些星系中额外的恒星晕增长。在更重的星系中,吸积的贡献更大。
3 The R.O.A.D. to clinical trial emulation
作者: Dimitris Bertsimas
发表日期: 2024-12-04T18:17:09+00:00
论文地址:arxiv.org/abs/2412.03…
观察性研究在随机对照试验(RCT)由于成本、伦理问题或时间限制而不可行时,提供了关于干预措施有效性的唯一证据。尽管许多研究方法试图从观察数据中得出因果关系,但越来越的趋势是模仿RCT的设计来进行观察性研究,这种策略被称为“目标试验模拟”。尽管目标试验模拟具有潜力,但由于缺乏随机化,它无法完全解决现实世界数据中的混杂偏误。在这项工作中,我们提出了一种新颖的目标试验模拟框架,旨在克服几个关键局限性,包括混杂偏误。该框架的流程如下:首先,我们将特定试验的入选标准应用于观察队列。然后,我们通过提取与目标RCT中对照组的协变量分布和基线预后相匹配的子集来“校正”这个队列。接下来,我们通过调整治疗组的预后估计来处理未测量的混杂因素,使其与试验中观察到的预后相一致。在完成试验模拟之后,我们更进一层,利用模拟队列来训练最优决策树,识别具有治疗效果异质性(HTE)的患者亚组。我们使用两个外部模型来验证混杂偏误的缺失,并且独立由我们模拟的原始试验负责团队确认治疗建议的有效性。据我们所知,这是第一个成功解决观察到的和未观察到的混杂问题的框架,这一挑战历史上限制了随机试验模拟和因果推断的使用。此外,我们的框架在推进精准医疗方面也很有前景,通过识别从特定治疗中受益最多的患者亚组。
4 Revising the Spin and Kick Connection in Isolated Binary Black Holes
作者: Vishal Baibhav
发表日期: 2024-12-04T16:51:11+00:00
论文地址:arxiv.org/abs/2412.03…
黑洞(BH)自旋的起源仍然是黑洞最不为人所理解的方面之一。尽管存在许多不确定性,但人们普遍认为,如果黑洞起源于孤立的巨大恒星双星系统,它们的自旋应该与双星系统的轨道角动量对齐。这个假设源于黑洞从其前身恒星继承自旋的观念。在这项研究中,我们放宽了这一长期持有的观点,并探索了在黑洞形成之前或形成过程中可能导致黑洞自旋增加的各种机制。除了初始自旋,我们还讨论了可以使黑洞各向同性地自旋、与初始踢方向平行的自旋以及与初始踢方向垂直的自旋的物理过程。这些不同的机制在可观测的自旋大小分布、自旋-轨道错位以及合并双星的有效进动自旋中留下了独特的印记。特别是,这些机制使得即使是起源于场中的双星也能表现出进动和逆行自旋()。这扩大了孤立双星演化的参数空间,使其包含了之前被认为是动态组装双星所独有的区域。
5 Stage IV CMB forecasts for warm inflation
作者: F. B. M. dos Santos
发表日期: 2024-12-03T18:59:41+00:00
论文地址:arxiv.org/abs/2412.02…
我们报告了在未来宇宙微波背景(CMB)调查的光照下,对未来十年内可获得的温通胀预测约束。这些观测可能最终为我们提供了揭示通胀期间引力波产生所需的关键信息,这一点通过检测到CMB B模式功率谱中至关重要的非零张量-标量比率得到了体现。我们考虑了三项未来调查的影响,分别是CMB-S4、西蒙斯观测站和空间搭载的LiteBIRD,这些调查将限制在四次方势能背景下,四种典型温通胀模型的参数空间,这一势能在理论上是得到了良好支持的。我们发现,这三项调查相比于使用当前Planck+BICEP/Keck阵列数据获得的最新结果,都显著改进了模型的参数空间。此外,结合地面和空间调查(CMB-S4+LiteBIRD)进一步收紧了约束,我们预计能够更好地区分不同的温通胀情景。当我们把模型的预测与一个与兼容的ΛCDM+预测进行比较时,这一结果变得清晰:其中一个模型已经因数据而遭到排除。
6 Increased Surface Temperatures of Habitable White Dwarf Worlds Relative to Main-Sequence Exoplanets
作者: Aomawa L. Shields
发表日期: 2024-12-03T18:59:34+00:00
论文地址:dx.doi.org/10.3847/153…
发现巨大行星候选体绕白矮星运行,以及詹姆斯·韦伯太空望远镜展现的能力,将探测白矮星宜居带内岩石行星的可能性推到了关注的焦点。我们呈现了一个具有类似地球大气成分和恒星日照的 aqua 行星的模拟,该行星绕两种不同类型恒星的宜居带运行——一个5000K的白矮星和具有相似有效温度的主序K型矮星开普勒-62,并识别出导致这两个行星气候不同的机制。由于它的快速旋转(10小时)和轨道周期,与绕开普勒-62运行的同步旋转行星相比,同步旋转的白矮星行星的全球平均表面温度要高25K。这种超快速旋转产生了强大的纬向风和纬向动量的经向通量,拉伸并均质化了大气循环的规模,并防止了在与绕开普勒-62运行的同步行星的白天侧形成等量的厚重液态水云,同时也从较高纬度向赤道方向输送热量。因此,白矮星可能为形成于或迁移到其宜居带内的行星上的生命提供了适宜的环境,产生比主序恒星宿主行星更温暖的表面环境,以补偿不断缩小的恒星日照通量。
7 Molecular gas and dust properties in quasar hosts
作者: Francesco Salvestrini
发表日期: 2024-12-03T18:57:41+00:00
论文地址:arxiv.org/abs/2412.02…
观测活动寻找在再电离时期(EoR)类星体宿主星系中难以捉摸的冷气体储备至关重要,这有助于研究早期时期首批大规模系统的形成和演化。我们展示了新的北方扩展毫米波数组(NOEMA)观测结果,追踪了已知红移的八个类星体中的五个的CO(6--5)、CO(7--6)发射线以及其下的连续体,从而完成了对第一类星体宿主星系中冷分子气体储备的普查。
通过结合NOEMA观测和可用的档案阿塔卡马大型毫米波数组(ALMA)数据,我们使用修改的黑体模型来模拟远红外光谱能量分布,以测量尘埃特性和恒星形成率。
我们利用CO和[CII]谱线推导分子气体质量,并将其与半分析模型以及不同时期星系观测结果进行比较。
对于此样本中的五个类星体,没有报告统计上显著的CO发射线检测结果,与后期星系相比,宿主星系中的冷分子气体量相对较低。
尽管如此,气尘比与局部值一致,这表明尘埃与冷气体之间的比例关系至少保持到。
EoR时期的类星体显示出迄今为止观测到的最高的恒星形成效率之一,但与宇宙正午时期观测到的明亮类星体以及半分析模型GAEA预测的最亮( erg s)类星体对象相当。
EoR时期的类星体宿主星系正在经历一个强烈的恒星形成阶段,这表明类星体的发光阶段与其宿主的迅速增长之间存在强烈耦合。
8 In Search of Extraterrestrial Artificial Intelligence through the Dyson Sphere-like structures around the Primordial Black Holes
作者: Shant Baghram
发表日期: 2024-12-03T18:45:18+00:00
论文地址:arxiv.org/abs/2412.02…
我们孤独吗?这是一个几个世纪以来人类一直在面对的引人入胜的问题。寻找外星生命的探索范围广泛,从寻找宇宙中简单形式的生命到智慧生物。一个合理的设想是,有可能出现智慧生命,随后是由人工智能(AI)装备甚至主导的高级文明。在这项工作中,我们根据卡尔达肖夫等级将高级文明(平等地说,AI主导的文明)进行分类。我们提出一个新的尺度,即空间探索距离,来衡量文明的发展程度。我们提出了这一距离与卡尔达肖夫等级之间的关系。接着,我们提出高级文明将利用原始黑洞作为能量收获源的想法。我们通过计算空间探索距离来计算收获的能量。最后,我们提出一种观测方法,用以探测银河系及其他星系中原始黑洞周围的戴森球体类结构中存在外星AI的可能性。
9 Canonical Differential Equations Beyond Genus One
作者: Claude Duhr
发表日期: 2024-12-03T09:13:44+00:00
论文地址:arxiv.org/abs/2412.02…
我们首次讨论了超椭圆费曼积分的典型微分方程。我们研究超椭圆拉氏函数,特别包括了具有两个环非平面双盒的最大切割,已知这涉及到一个二代超椭圆曲线。我们特别考虑了与二代超椭圆曲线相关联的三参数和四参数拉氏函数,并构建了它们的典型微分方程。尽管这一构建的核心步骤依赖于现有方法——我们证明了这些方法适用于高阶情形——但我们利用关于积分族在典型形式下的扭曲上同调交角矩阵结构的新思路,以更好地理解出现的新函数。此外,我们还观察到在 -分解微分方程矩阵中出现了西格尔模形式,这很好地推广了来自椭圆情形的类似观察结果。
10 The hot circumgalactic medium in the eROSITA All-Sky Survey III. Star-forming and quiescent galaxies
作者: Yi Zhang
发表日期: 2024-11-29T18:59:21+00:00
论文地址:arxiv.org/abs/2411.19…
银河周围介质(CGM),作为恒星形成的气体储备库,可能包含了关于神秘星系熄火以及双峰星系种群起源的答案。我们测量了恒星形成星系和宁静星系周围热CGM的X射线发射。我们探测到了质量大于的恒星形成星系和质量大于的宁静星系周围热CGM的扩展X射线发射,延伸至。具有中值恒星质量的恒星形成星系的大约为,而具有的宁静星系则分别为。值得注意的是,质量大于的宁静星系展现出了比它们对应的恒星形成星系更明亮的 hot CGM。在晕质量区间内,我们探测到了质量大于的恒星形成星系和宁静星系周围相似的X射线发射,这表明处于同样质量暗物质晕中的星系拥有同样明亮的hot CGM。我们强调观测到的恒星形成星系和宁静星系的关系对恒星质量与晕质量关系(SHMR)很敏感。与宇宙学水动力学模拟(EAGLE、TNG100和SIMBA)的比较显示了不同程度的相符,这取决于模拟以及考虑的具体恒星或晕质量范围。无论是在恒星质量还是晕质量中选定,恒星形成星系并没有在其同一质量范围内从热CGM中堆叠出比宁静星系更明亮的X射线发射。这一结果为当前宇宙学模拟中作为熄火机制实施的反馈影响提供了有用的限制。
11 Multi-Epoch Observations of the Nearby Spiral Galaxy NGC 3938 with the Chandra X-ray Observatory
作者: Siddhi Raut
发表日期: 2024-11-29T18:55:45+00:00
论文地址:arxiv.org/abs/2411.19…
我们呈现了使用钱德拉X射线观测台对SA(s)c型螺旋星系NGC 3938进行的两阶段ACIS观测分析。这些观测的总曝光时间为95千秒,假定距离为22兆秒差距,其限制的未吸收光度约为10^{38} ergs/sec。在D25半径范围内,两个阶段共检测到47个独立的合并源,其显著性水平达到3西格玛或更高。我们证实,在钱德拉观测期间,星系核未被检测到。我们尽可能地将在X射线波段检测到的源与其他波段的对应体进行关联。基于这两个阶段,我们识别出三个变量源,另外两个源可能在这两次观测之间存在变化。我们没有正式检测到在NGC 3938发生的五个历史超新星中的任何一个。NGC 3938的光度函数与近期汇编的38个星系进行了比较,我们发现与NGC 3938的“已知”距离存在潜在的重大问题。我们还计算了恒星形成率和金属丰度值;恒星形成率在很大程度上取决于采用的距离。金属丰度似乎在8.2-9.2的范围内,与其他工作得出的值一致。在附录中,我们包括了对那些位于钱德拉视场内但位于NGC 3938外的源的简短讨论。
12 Can LLMs be Good Graph Judger for Knowledge Graph Construction?
作者: Haoyu Huang
发表日期: 2024-11-26T12:46:57+00:00
论文地址:arxiv.org/abs/2411.17…
在实际场景中,从信息检索(IR)系统获取的大部分数据都是非结构化的。将自然语言句子转换为结构化的知识图谱(KGs)依然是一个关键挑战。构建的KGs的质量也可能会影响到一些依赖KG的领域,比如GraphRAG系统和推荐系统的性能。近期,大型语言模型(LLMs)已经在处理各种自然语言处理任务中显示出惊人的能力。然而,在利用LLMs处理生成结构化KGs的任务时仍面临挑战。我们已经确定了现有KG构建方法的三个局限性:(1)现实世界文档中包含大量信息及过度的噪声,可能导致提取混乱的信息。(2)原始的LLMs在从某些特定领域的文档中有效提取准确知识方面存在困难。(3)在使用LLMs直接作为构建KGs的无监督方法时,不能忽视幻觉现象。
在本文中,我们提出了GraphJudger,一个针对上述挑战的知识图谱构建框架。我们在方法中引入了三个创新模块,分别是:以实体为中心的迭代文本去噪、知识感知的指令调整和图判断。我们试图利用LLMs的功能,使其不仅仅作为KG构建问题的预测器,而是作为一个图判断器,后者在能力上优于前者。在两个通用文本-图对数据集和一个特定领域文本-图对数据集上进行的实验表明,与基准方法相比,我们的方法表现更优。我们提出的方法的代码可在github.com/hhy-huang/G…
13 PatentGPT: A Large Language Model for Patent Drafting Using Knowledge-based Fine-tuning Method
作者: Runtao Ren
发表日期: 2024-08-26T12:00:29+00:00
论文地址:arxiv.org/abs/2409.00…
在人类即将步入一个技术创新新时代的边缘,迅速将创意转化为受保护的知识产权(IP)的能力比以往任何时候都更为关键。然而,传统的专利起草流程充满了挑战,要求对高级领域知识和技术概念有细致入微的理解。现有的大型语言模型(LLM)虽然强大,但由于缺乏生成技术准确的专利文件所需的专门知识和对上下文的感知,在IP创作领域往往力不从心。为了弥补这一关键差距,我们提出了一个划时代的知识细调(KFT)框架,旨在赋予AI自主挖掘、理解和应用领域特定知识的能力。我们的模型,PatentGPT,利用了独特的知识图谱预训练、领域特定的有监督细调(SFT)以及基于人类反馈的强化学习(RLHF)的结合。通过广泛的评估,PatentGPT在专利相关的基准测试中表现出色,其得分比现有最先进模型高出大约400%。通过KFT方法,模型不仅能够辅助,还能增强人类的创造力和创新,我们的方法为AI驱动的知识产权创作设定了新标准,为更加高效和有效的发明流程铺平了道路。
14 Alleviating Sparsity of Open Knowledge Graphs with Ternary Contrastive Learning
作者: Qian Li
发表日期: 2022-11-08T01:52:05+00:00
论文地址:arxiv.org/abs/2211.03…
形式知识的稀疏性以及非本体构建的粗糙性,使得稀疏性问题在开放知识图谱(OpenKGs)中尤为突出。由于链接的稀疏性,为少数次实体学习有效的表示变得困难。我们假设在这种情境下,引入负样本,对比学习(CL)的制定可能是有益的。然而,现有的CL方法将知识图谱三元组建模为实体的二元对象,忽略了关系引导的三元传播模式,而且它们过于通用,即忽略了在OpenKGs中出现的零样本、少数样本和同义词问题。为了解决这个问题,我们提出了TernaryCL,一个基于头、关系和尾之间三元传播模式的CL框架。TernaryCL设计了对比实体和对比关系,以挖掘具有负实体和关系的三元判别特征,引入对比自我以帮助零样本和少数样本实体学习判别特征,对比同义词以模拟同义实体,以及对比融合以从多条路径聚合图特征。在基准测试上的大量实验表明,TernaryCL优于现有最先进模型。
研究领域 具身智能
1 Moto: Latent Motion Token as the Bridging Language for Robot Manipulation
作者: Yi Chen
发表日期: 2024-12-05T18:57:04+00:00
论文地址:arxiv.org/abs/2412.04…
大型语言模型在广泛语料库上的预训练近期在多种自然语言处理任务中取得了显著的成功,而且仅需极少的微调。这种成功为长期以来受限于高成本动作标注数据的机器人领域带来了新的希望。我们提出这样一个问题:鉴于有大量的包含交互相关知识的视频数据可以作为丰富的“语料库”,类似的生成式预训练方法能否有效地应用于增强机器人学习?关键挑战在于找到一种有效的表示方法,使得自回归预训练能够造福于机器人操作任务。受到人类通过观察动态环境学习新技能的方式启发,我们提出有效的机器人学习应当强调与动作密切相关的运动知识,这种知识独立于硬件,有助于将学到的动作转换到实际的机器人动作中。为此,我们推出了Moto,它通过一个潜在运动标记器将视频内容转换为潜在运动标记序列,以无监督的方式从视频中学习动作的“桥梁”语言。我们通过运动标记自回归对Moto-GPT进行预训练,使其能够捕捉多样化的视觉运动知识。预训练后,Moto-GPT显示出产生语义上可解释的运动标记、预测可信的运动轨迹以及通过输出可能性评估轨迹合理性的潜力。为了将学到的运动先验转移到真实的机器人动作,我们实施了一种联合微调策略,无缝连接潜在运动标记预测与真实机器人控制。广泛的实验表明,微调后的Moto-GPT在机器人操作基准测试中表现出卓越的鲁棒性和效率,凸显了它将知识从视频数据转移到下游视觉操作任务中的有效性。
2 Navigation World Models
作者: Amir Bar
发表日期: 2024-12-04T18:59:45+00:00
论文地址:arxiv.org/abs/2412.03…
导航是具有视觉-运动能力的代理的基本技能。我们引入了一种导航世界模型(NWM),这是一种可控的视频生成模型,它根据过去的观察和导航动作预测未来的视觉观察。为了捕捉复杂的环境动态,NWM采用了条件扩散转换器(CDiT),它在大量以人为中心以及机器人代理的视频上进行训练,并扩展到100亿个参数。在熟悉的环境中,NWM可以通过模拟导航轨迹并评估它们是否实现了预期目标来进行规划。与具有固定行为的监督导航策略不同,NWM在规划过程中可以动态地融入限制条件。实验证明了其在从零开始规划轨迹或在从外部策略采样的轨迹中排名方面的高效性。此外,NWM利用其学习的视觉先验,仅从一个输入图像就能在未知环境中想象出轨迹,使其成为下一代导航系统中的一个灵活而强大的工具。
3 Streaming Detection of Queried Event Start
作者: Cristobal Eyzaguirre
发表日期: 2024-12-04T18:58:27+00:00
论文地址:arxiv.org/abs/2412.03…
机器人技术、自动驾驶、增强现实以及许多具身计算机视觉应用必须快速响应用户定义的实时展开的事件。为了应对这一场景,我们提出了一个新的多模态视频理解任务——流式查询事件开始检测(Streaming Detection of Queried Event Start,简称SDQES)。SDQES的目标是高准确度、低延迟地识别一个复杂事件的开始,该事件由自然语言查询描述。我们基于Ego4D数据集引入了一个新的基准,以及新的特定任务度量标准,以研究在第一人称视角视频设置中流式多模态检测不同事件。受到自然语言处理和视频任务中参数高效微调方法的启发,我们提出了基于适配器(adapter)的基线方法,该方法实现了图像到视频的迁移学习,使得可以高效地进行在线视频建模。我们在短片段和未修剪视频设置中评估了三种视觉-语言骨干网络和三种适配器架构。
4 UniGraspTransformer: Simplified Policy Distillation for Scalable Dexterous Robotic Grasping
作者: Wenbo Wang
发表日期: 2024-12-03T18:59:54+00:00
论文地址:arxiv.org/abs/2412.02…
我们推出了UniGraspTransformer,一个基于Transformer的网络,用于灵活的机器人抓握,它在简化训练的同时提高了可扩展性和性能。与先前的方法,如需要复杂的多步骤训练流程的UniDexGrasp++不同,UniGraspTransformer遵循了一个简化的流程:首先,使用强化学习为单个物体训练专用的策略网络,以生成成功的抓握轨迹;然后,将这些轨迹蒸馏到一个单一的通用网络中。我们的方法使得UniGraspTransformer能够有效地扩展,包含多达12个自注意力块以处理具有不同姿态的数千个物体。此外,它在理想化和真实世界的输入中都表现出了良好的泛化能力,在基于状态和基于视觉的设置中进行了评估。值得注意的是,UniGraspTransformer为各种形状和方向的物体生成了更广泛的抓握姿态,从而产生了更多样化的抓握策略。实验结果表明,与现有技术水平相比,UniGraspTransformer在各个物体类别上都取得了显著的改进,在基于视觉的设置中,对于已见物体、类别内未见物体以及完全未见物体的成功率分别提高了3.5%、7.7%和10.1%。项目页面:dexhand.github.io/UniGraspTra…
5 Planning-Guided Diffusion Policy Learning for Generalizable Contact-Rich Bimanual Manipulation
作者: Xuanlin Li
发表日期: 2024-12-03T18:51:39+00:00
论文地址:arxiv.org/abs/2412.02…
涉及丰富接触的双臂操作需要精确协调两个手臂,通过策略性地选择接触点和动作来改变物体状态。由于这些任务固有的复杂性,获取足够的演示数据以及训练能够泛化至未见场景的政策仍然是一个在很大程度上尚未解决的问题。在接触规划的最新进展基础上,我们引入了可泛化的规划引导扩散政策学习(GLIDE)方法,该方法通过利用基于模型的运动规划器在高质量的物理模拟中生成演示数据,有效地学习解决涉及丰富接触的双臂操作任务。通过在随机化环境中进行高效规划,我们的方法为涉及多样物体和转换的任务生成大规模、高质量的合成运动轨迹。然后,我们通过行为克隆使用这些演示来训练一个条件任务扩散政策。为了解决模拟到现实的差距,我们提出了一系列关键的设计选项,包括特征提取、任务表示、动作预测和数据增强,这些选项使得学习平滑动作序列的鲁棒预测和泛化至未见场景成为可能。通过在模拟和现实世界中的实验,我们证明我们的方法可以使双臂机器人系统有效地操作具有不同几何形状、尺寸和物理性质的各种物体。网站:glide-manip.github.io/。
研究领域 强化学习
1 Finer Behavioral Foundation Models via Auto-Regressive Features and Advantage Weighting
作者: Edoardo Cetin
发表日期: 2024-12-05T17:36:22+00:00
论文地址:arxiv.org/abs/2412.04…
前后表示法(FB)是一种近期提出的框架(Touati等人,2023年;Touati和Ollivier,2021年),用于训练行为基础模型(BFMs),旨在为给定强化学习(RL)环境中指定的任何新任务提供零样本高效策略,而无需针对每个新任务进行训练。在这里,我们解决了FB模型训练的两个核心限制。首先,与所有基于后续特征的方法一样,FB依赖于对任务的线性编码:在测试时,每个新的奖励函数都线性地投影到一组固定的预训练特征上。这限制了任务表示的表达性和精度。我们通过引入自回归特征来打破线性限制,这些特征使得细粒度任务特征依赖于更粗粒度的任务信息。这可以表示任意的非线性任务编码,从而显著提高了FB框架的表达性。其次,众所周知,从离线数据集中训练RL智能体通常需要特定的技术。我们展示了FB与这些离线RL技术相结合效果良好,通过将(Nair等人,2020b;Cetin等人,2024年)的技术适配到FB上。这对于在一些数据集中获得非平稳的性能是必要的,例如DMC Humanoid。因此,我们为许多新环境生成了有效的FB BFMs。值得注意的是,在D4RL locomotion基准测试中,通用FB智能体的表现与标准单任务离线智能体(IQL,XQL)相当。在许多设置中,离线技术是获得任何像样性能所必需的。自回归特征产生了积极但适度的效果,主要集中在对空间精度和训练集中表现行为之外的任务泛化要求较高的任务上。
2 T-REG: Preference Optimization with Token-Level Reward Regularization
作者: Wenxuan Zhou
发表日期: 2024-12-03T18:56:07+00:00
论文地址:arxiv.org/abs/2412.02…
人类反馈强化学习(RLHF)在将大型语言模型(LLM)与人类价值观对齐方面起到了关键作用。传统上,RLHF涉及对查询生成回应,并使用奖励模型为整个回应分配奖励。然而,这种方法面临挑战,因为它依赖于单一的、稀疏的奖励,这使得模型难以识别序列中哪些部分对最终奖励贡献最大。近期方法试图通过引入令牌级奖励来解决这一局限。然而,这些方法通常依赖于训练好的信用分配模型或AI标注者,这引发了关于奖励质量和可靠性的担忧。在本文中,我们提出了令牌级奖励正则化(T-REG),这是一种新颖的方法,它利用序列级和令牌级奖励进行偏好优化。利用LLM的自我完善能力,我们的方法采用对比提示使LLM自我生成令牌级奖励。这些自我生成的奖励作为奖励正则化,指导模型更有效地在令牌之间分配序列级奖励。这有助于更好地进行令牌级信用分配并提高对齐性能。在包括Alpaca Eval 2和Arena-Hard在内的遵循指令的基准测试上的实验表明,我们的方法一致地超过了基线方法,分别在两个基准上提高了3.8%和4.4%。我们将在github.com/wzhouad/T-R…
3 On the optimality of coin-betting for mean estimation
作者: Eugenio Clerico
发表日期: 2024-12-03T18:11:48+00:00
论文地址:arxiv.org/abs/2412.02…
信心序列是一系列适应性信心集合,它们在适应新数据的同时保持有效性。最近的研究进展提出了一种算法公式,用于构建针对有界实随机变量的最紧凑信心序列。这些方法采用了一种投币赌博框架,玩家在此框架下按顺序对潜在均值和观察数据之间的差异进行投注。本信件证实,这样的投币赌博公式在所有可能用于构建基于e-变量和序贯假设检验的信心序列的算法框架中是最优的。
4 PDDLFuse: A Tool for Generating Diverse Planning Domains
作者: Vedant Khandelwal
发表日期: 2024-11-29T17:52:39+00:00
论文地址:arxiv.org/abs/2411.19…
各种现实世界的挑战需要能够适应广泛领域的规划算法。传统上,规划领域的创建在很大程度上依赖于人工实现,这限制了可用领域的规模和多样性。虽然近年来,人们利用生成式人工智能技术,如大型语言模型(LLM)来创建领域,但这些努力主要集中在将现有领域从自然语言描述中翻译出来,而不是生成全新的领域。相比之下,在强化学习中非常有效的领域随机化概念,通过在一系列多样化的新随机领域中训练,提高了性能和泛化能力。受到这一成功的启发,我们的工具PDDLFuse旨在弥合规划领域定义语言(PDDL)中的这一差距。PDDLFuse被设计用来生成新的、多样化的规划领域,以验证新的规划器或测试基本的规划模型。我们已经开发出调整领域生成器参数以调节生成领域难度的方法。这种适应性至关重要,因为现有的领域无关规划器通常难以处理更复杂的问题。初步测试表明,PDDLFuse高效地创建出复杂多样的领域,这比传统的领域生成方法有了显著的进步,并为规划研究做出了贡献。
研究领域 语音识别
1 Comprehensive Audio Query Handling System with Integrated Expert Models and Contextual Understanding
作者: Vakada Naveen
发表日期: 2024-12-05T08:56:54+00:00
论文地址:arxiv.org/abs/2412.03…
本文提出了一种综合聊天机器人系统,通过整合多种专门的音频处理模型来处理广泛的音频相关问题。所提出的系统采用了一个意图分类器,该分类器在一个多样化的音频查询数据集上进行了训练,能够将关于音频内容的查询分发给专业模型,如自动语音识别(ASR)、说话人识别、音乐识别以及文本转音频生成等。随后,一个拥有3.8亿参数的大型语言模型接收来自音频上下文检测(ACD)模块的输入,该模块从音频中提取音频事件信息,并对专家模型的文本领域输出进行后处理,以计算对用户的最终回应。我们在自定义的音频任务和MMAU声音集基准上评估了该系统。这些自定义数据集由行业基准未涵盖的目标用例驱动,包括ACD时间戳-QA(问答)以及ACD时间-QA数据集,分别用于评估时间戳和时间推理问题。首先,我们确定基于BERT的意图分类器在查询分发上优于LLM-fewshot意图分类器。进一步的实验表明,与最先进的大型音频语言模型相比,我们的方法在一些自定义任务上的准确性有了显著提升,并且在MMAU基准的声音测试集上,表现优于7B参数规模范围内的模型,因此为设备端部署提供了一个有吸引力的选择。
2 Towards Cross-Lingual Audio Abuse Detection in Low-Resource Settings with Few-Shot Learning
作者: Aditya Narayan Sankaran
发表日期: 2024-12-02T11:51:19+00:00
论文地址:arxiv.org/abs/2412.01…
网络滥用内容检测,特别是在资源匮乏的环境中和音频模态中,仍是一个少有人涉足的领域。我们探讨了预训练的音频表征在检测低资源语言中的滥用语言方面的潜力,具体来说,是在印度语言中采用小样本学习(FSL)的情况下。利用来自Wav2Vec和Whisper等模型的强大表征,我们通过小样本学习探索跨语言的滥用语言检测,使用的是ADIMA数据集。我们的方法将这些表征整合到模型无关的元学习(MAML)框架中,以对10种语言的滥用语言进行分类。我们尝试了不同的样本量(50-200),以评估有限数据对性能的影响。此外,还进行了一项特征可视化研究,以更深入地了解模型的行为。这项研究突显了预训练模型在低资源场景下的泛化能力,并为在多语言环境中检测滥用语言提供了宝贵的洞见。
研究领域 推荐算法
1 User-item fairness tradeoffs in recommendations
作者: Sophie Greenwood
发表日期: 2024-12-05T18:59:51+00:00
论文地址:arxiv.org/abs/2412.04…
在基本的推荐系统范式下,预测最相关的项目会被推荐给每个用户。这可能导致某些项目的曝光率低于它们“应有的”水平;为了解决这个问题,已经开发出几种算法方法以确保项目的公平性。这些方法不可避免地会牺牲一些用户的推荐质量,以改善项目的表现,这就引发了用户公平性的问题。相应地,近期的研究工作专注于开发多方面公平性的算法,旨在同时优化用户公平性、项目公平性以及整体推荐质量。这就引出了一个问题:这些目标之间有何权衡,以及(多目标)最优解的特点是什么?从理论上讲,我们开发了一个同时考虑用户和项目公平性目标的推荐模型,并刻画了公平性约束优化的解。我们识别出两种现象:(a)当用户偏好多样化时,可以实现“免费”的项目和用户公平性;(b)当用户的偏好被错误估计时,他们可能会特别受到项目公平性约束的不利影响。在实证研究中,我们为arXiv上的预印本原型了一个推荐系统,并实施了我们的框架,实际测量了这些现象,并展示了这些现象如何指导带有推荐系统中介匹配市场的设计。
2 Explainable CTR Prediction via LLM Reasoning
作者: Xiaohan Yu
发表日期: 2024-12-03T17:17:27+00:00
论文地址:arxiv.org/abs/2412.02…
推荐系统已成为现代用户体验的重要组成部分,但在其决策过程中缺乏透明度。现有的可解释推荐方法受到事后诸葛亮范式的限制,在这种范式下,解释生成器与底层推荐模型独立训练。这种范式需要在数据构建上投入大量人力,并引发了解释可靠性的担忧。在本文中,我们提出了ExpCTR这一新颖框架,它将基于大型语言模型的解释生成直接整合到CTR预测过程中。受到近期强化学习进展的启发,我们采用了两种精心设计的奖励机制:LC对齐,确保解释反映用户意图;以及IC对齐,保持与传统基于ID的CTR模型的一致性。我们的方法采用了结合了LoRA的高效训练范式和三阶段迭代过程。ExpCTR无需大量的解释数据集,同时促进了CTR预测与解释生成的协同作用。实验结果表明,ExpCTR在三个真实世界的数据集上显著提高了推荐准确性和可解释性。
3 Lossless and Privacy-Preserving Graph Convolution Network for Federated Item Recommendation
作者: Guowei Wu
发表日期: 2024-12-02T05:31:22+00:00
论文地址:arxiv.org/abs/2412.01…
图神经网络(GNN)已成为物品推荐的尖端解决方案。然而,现有的基于GNN的推荐方法依赖于对碎片化的用户-物品交互子图的集中存储,并在聚合的全局图上进行训练,这可能会导致隐私问题。作为回应,一些近期的研究通过利用去中心化和碎片化的用户-物品子图,开发了基于GNN的联邦推荐方法,以保护用户隐私。然而,由于隐私限制,现有联邦推荐方法中的图卷积过程与集中式相比是不完整的,这导致了推荐性能的下降。在本文中,我们提出了一种新颖的、无损且保护隐私的图卷积网络(LP-GCN),它可以在确保隐私的同时,完全完成基于去中心化用户-物品交互子图的图卷积过程。值得一提的是,其性能与非联邦(即集中式)方法相当。此外,我们通过理论分析和实证研究验证了其有效性。在三个真实世界数据集上的广泛实验表明,我们的LP-GCN优于现有的联邦推荐方法。一旦论文被接受,代码将会公开可用。
4 Cross-Domain Recommendation Meets Large Language Models
作者: Ajay Krishna Vajjala
发表日期: 2024-11-29T17:25:00+00:00
论文地址:arxiv.org/abs/2411.19…
跨域推荐(CDR)已成为解决单域推荐系统面临的冷启动问题的一个有前景的解决方案。然而,现有的CDR模型依赖于复杂的神经架构、大规模数据集和大量的计算资源,这使得它们在数据稀缺的情境下或需要简洁性时效果不佳。在这项工作中,我们利用大型语言模型(LLM)的推理能力,并在多个域对中探索它们在CDR领域的性能。我们针对CDR设计了两种新颖的提示,并证明当有效提示时,LLM在评分预测和排名任务中,在各项指标和各种域组合上都优于最先进的CDR基线。这项工作弥合了LLM和推荐系统之间的鸿沟,展示了它们作为有效的跨域推荐器的潜力。
5 Enabling Explainable Recommendation in E-commerce with LLM-powered Product Knowledge Graph
作者: Menghan Wang
发表日期: 2024-11-17T10:57:31+00:00
论文地址:arxiv.org/abs/2412.01…
如何利用大型语言模型在电子商务推荐中的卓越能力一直是一个热门话题。在本文中,我们提出了LLM-PKG,这是一种高效的方法,它将LLM的知识提炼到产品知识图谱(PKG)中,然后将PKG应用于提供可解释的推荐。具体来说,我们首先通过向LLM提供精心设计的提示来构建PKG,然后将LLM的响应映射到真实的企业产品。为了减轻LLM产生幻觉的风险,我们采用了严格的评估和修剪方法,确保知识图谱的可靠性和可用性。通过在电子商务网站上进行的A/B测试,我们证明了LLM-PKG在显著提升用户参与度和交易方面是有效的。
6 Multi-Treatment Multi-Task Uplift Modeling for Enhancing User Growth
作者: Yuxiang Wei
发表日期: 2024-08-23T02:44:08+00:00
论文地址:arxiv.org/abs/2408.12…
作为推动在线用户增长的关键手段,提升模型(uplift modeling)旨在测量单个用户对不同处理方式(例如,是否玩游戏)的反应,比如游戏奖金,以此来增强商业成果。然而,以往的研究通常考虑单一任务、单一处理设置的情境,即只存在一种处理方式,并通过单一类型的用户反应来衡量整体处理效果。在本文中,我们提出了一个多处理多任务(Multi-Treatment Multi-Task, MTMT)提升网络,用以估计多任务场景下的处理效果。我们将多处理问题识别为一个分层响应的因果推断问题,包括基础效应(提供处理产生的影响)和增量效应(提供特定类型处理产生的影响),其中基础效应在数值上可能远大于增量效应。具体来说,MTMT分别编码用户特征和处理方式。用户特征编码器使用多门专家混合(Multi-gate Mixture of Experts, MMOE)网络来编码相关的用户特征,明确学习任务间的关系。产生的嵌入(embeddings)用于衡量每项任务的天然反应。此外,我们引入了一个处理-用户特征交互模块,以建模每种处理与用户特征之间的相关性。因此,我们基于产生的处理意识(treatment-aware)表征,分别为每项任务独立测量基础和增量处理效应。基于离线公共数据集和在线专有数据集的实验结果,证明了MTMT在单一/多处理和单一/多任务设置中的有效性。此外,MTMT已被部署在我们的游戏平台上,用以改善用户体验。
研究领域 AIOps
1 GraphSubDetector: Time Series Subsequence Anomaly Detection via Density-Aware Adaptive Graph Neural Network
作者: Weiqi Chen
发表日期: 2024-11-26T08:36:07+00:00
论文地址:arxiv.org/abs/2411.17…
时间序列子序列异常检测在众多现实世界应用中具有重要意义,这些应用范围从健康监测到AIOps(人工智能运维)。这一任务具有挑战性,原因如下:1) 如何有效学习时间序列中的复杂动态和依赖关系;2) 多样且复杂异常子序列,以及正常模式固有的变异性和噪声;3) 如何确定适当的子序列长度以实现有效检测,这对于许多现有算法来说是一个必需的参数。在本文中,我们提出了一种新的子序列异常检测方法,即GraphSubDetector。首先,它通过一种长度选择机制自适应地学习适当的子序列长度,这种机制突出了正常模式和异常模式的特征。其次,我们提出了一种密度感知的自适应图神经网络(DAGNN),它可以通过子序列之间的信息传递生成对正常数据变异性更加鲁棒的表示,用于异常检测。实验结果表明,我们提出的算法是有效的,与最先进算法相比,在多个时间序列异常基准数据集上取得了更优的性能。
2 An AutoML-based approach for Network Intrusion Detection
作者: Nana Kankam Gyimah
发表日期: 2024-11-24T17:07:46+00:00
论文地址:arxiv.org/abs/2411.15…
在本文中,我们提出了一种基于自动化机器学习(AutoML)的网络入侵检测方法,该方法利用了MLJAR AutoML框架开发的堆叠集成模型。我们的方法结合了多种机器学习算法,包括LightGBM、CatBoost和XGBoost,以提高检测的准确性和鲁棒性。通过自动化模型选择、特征工程和超参数调整,我们的方法减少了与传统机器学习方法相关的人工工作量。在NSL-KDD数据集上的大量实验表明,堆叠集成模型的表现优于单个模型,实现了高准确度并最小化了误报。我们的研究强调使用AutoML进行网络入侵检测的好处,因为基于AutoML的堆叠集成取得了最高性能,准确度为90%,F1分数为89%,优于随机森林(78%的准确度,78%的F1分数)、XGBoost和CatBoost(两者的准确度均为80%,F1分数均为80%)以及LightGBM(78%的准确度,78%的F1分数),为网络安全应用提供了一个更适应性强、效率更高的解决方案。
研究领域 图神经网络
1 Low-degree functions without non-essential arguments
作者: Denis S. Krotov
发表日期: 2024-12-05T18:59:37+00:00
论文地址:arxiv.org/abs/2412.04…
对于哈明图 ,其中 是一个恒定的素数幂,而 在增长,我们构建了完美的着色,其中不包含非必要参数,使得 与商矩阵的非对角部分呈指数关系。特别是,我们构建了不平衡的布尔函数(),使得必要参数的数量与函数的度数呈指数关系。
2 Residual Hyperbolic Graph Convolution Networks
作者: Yangkai Xue
发表日期: 2024-12-05T02:38:45+00:00
论文地址:dx.doi.org/10.1609/aaa…
双曲图卷积网络(HGCNs)已经展示了其在建模分层结构图上的表示能力。然而,与一般的图卷积网络(GCNs)一样,随着模型层数的增加,可能会出现过度平滑的问题,这限制了大多数当前HGCN模型的表示能力。在本文中,我们提出了残差双曲图卷积网络(R-HGCNs)来解决过度平滑问题。我们引入了一个双曲残差连接函数来克服过度平滑问题,并且从理论上证明了双曲残差函数的有效性。此外,我们还使用乘积流形和HyperDrop来促进R-HGCNs。R-HGCNs的独特特点如下:(1) 双曲残差连接在每个层次上保留了初始节点信息,并添加了一个双曲恒等映射以防止节点特征变得不可区分。(2) 在R-HGCNs中,乘积流形在不同组成部分设置了不同的原点,以方便从更广泛的视角提取特征信息,这增强了R-HGCNs的表示能力。(3) HyperDrop在双曲表示中加入了乘性高斯噪声,使得可以在不破坏双曲几何结构的情况下添加扰动,从而减轻过拟合问题。实验结果表明,在不同的图卷积层和各种乘积流形结构下,R-HGCNs的有效性得到了证明。
3 Dynamic Graph Neural Ordinary Differential Equation Network for Multi-modal Emotion Recognition in Conversation
作者: Yuntao Shou
发表日期: 2024-12-04T01:07:59+00:00
论文地址:arxiv.org/abs/2412.02…
多模态会话情感识别(MERC)指的是通过结合来自多种不同模态的数据(例如,音频、图像、文本、视频等)来识别和分类人类情感状态。大多数现有的多模态情感识别方法使用图卷积网络(GCN)来提高性能,但现有的GCN方法容易过拟合,并且无法捕捉说话者情感的时序依赖性。为了解决上述问题,我们提出了一种用于MERC的动态图神经网络常微分方程网络(DGODE),它结合了情感的动态变化来捕捉说话者情感的时序依赖性,并有效缓解了GCN的过拟合问题。在技术层面上,DGODE的关键思想是利用自适应的混合跳机制来提高GCN的泛化能力,并使用图常微分方程进化网络来刻画节点表示随时间的连续动态,捕捉时序依赖性。在两个公开的多模态情感识别数据集上的大量实验表明,我们提出的DGODE模型与各种基线方法相比具有更优的性能。此外,提出的DGODE还能够缓解过平滑问题,从而使得构建深层GCN网络成为可能。
4 Graph-Powered Defense: Controller Area Network Intrusion Detection for Unmanned Aerial Vehicles
作者: Reek Majumder
发表日期: 2024-12-03T16:32:57+00:00
论文地址:arxiv.org/abs/2412.02…
在过去十年中,包括配送、农业和环境监测在内的服务网络随着无人航空器(UAVs)的应用而呈指数级扩张。然而,UAVs在应对网络攻击方面,尤其是在控制器局域网络(CAN)总线方面还不够健壮。CAN总线是一种通用车辆总线标准,它使得微控制器和车载计算机能够交互,主要是连接不同的电子控制单元(ECUs)。在本研究中,我们致力于通过开发一种基于图的入侵检测系统(IDS),利用简化的应用层车辆通信和网络(UAVCAN)协议来解决UAVs中一些最关键的安全弱点。首先,我们根据UAVCAN协议规范解码CAN消息;其次,我们提出了一种将UAVCAN消息的表格形式转换为图结构的全面方法。最后,我们应用了各种基于图的机器学习模型来检测CAN总线上的网络攻击,包括图卷积神经网络(GCNNs)、图注意力网络(GATs)、图样本聚合网络(GraphSAGE)以及基于图结构的变压器模型。我们的研究发现,像GATs、GraphSAGE和基于图的变压器这样的归纳模型,在检测各种入侵类型时,即使协议规范的信息最少,也能达到与甚至超过像GCNNs这样的转导模型的竞争性准确度,从而为UAVs的CAN总线安全提供了一个通用的健壮解决方案。我们还与基于单层长短时记忆(LSTM)的基线结果进行了比较,发现我们所有的基于图的模型在未使用任何基于UAVCAN协议解码的特征的情况下表现得更好,突显了其协议独立性的高检测性能。
5 Graph Neural Networks for Heart Failure Prediction on an EHR-Based Patient Similarity Graph
作者: Heloisa Oss Boll
发表日期: 2024-11-29T14:40:19+00:00
论文地址:arxiv.org/abs/2411.19…
目标:在现代医疗保健中,准确预测疾病是一项至关重要的任务。本研究提出了一种新颖的方法,使用图神经网络(GNNs)和图变换器(GT)来预测在下一次医院就诊时患者相似性图中心力衰竭(HF)的发生率。材料与方法:我们从MIMIC-III数据集中使用了电子健康记录(EHR),并应用K-最近邻(KNN)算法,通过诊断、程序和药物嵌入创建了一个患者相似性图。实现了三种模型——GraphSAGE、图注意力网络(GAT)和图变换器(GT)——来预测HF发生率。模型性能通过F1分数、AUROC和AUPRC指标进行评估,并与基准算法进行比较。进行了可解释性分析以理解模型的决策过程。结果:GT模型展示了最佳的绩效(F1分数:0.5361,AUROC:0.7925,AUPRC:0.5168)。尽管随机森林(RF)基准算法取得了相似的AUPRC值,但GT模型因在图结构中使用患者关系而提供了增强的可解释性。对注意力权重、图连通性以及临床特征的联合分析为不同分类组中的模型预测提供了洞察。讨论与结论:如图神经网络等基于图的方法为预测HF提供了一个有效的框架。通过利用患者相似性图,GNNs能够捕捉到EHR数据中的复杂关系,有可能提高预测准确性和临床可解释性。
6 Graph-Enhanced EEG Foundation Model
作者: Limin Wang
发表日期: 2024-11-29T06:57:50+00:00
论文地址:arxiv.org/abs/2411.19…
脑电图(EEG)信号为疾病诊断和医疗保健应用提供了重要的洞见。然而,标记的EEG数据稀缺,这构成了一个重大挑战。基础模型通过利用大规模未标记数据进行预训练,提供了一种有前景的解决方案,这使得在多种任务上都能取得强劲的性能。尽管时间和通道间的关系对于理解EEG信号都至关重要,但现有的EEG基础模型主要关注时间动态,而忽视了通道间的关系。为了克服这一局限性,我们提出了一种新型的EEG基础模型,该模型融合了时间和通道间信息。我们的架构结合了能有效捕捉关系结构的图神经网络(GNNs)和一个遮蔽自动编码器,以实现高效的预训练。我们使用了三个下游任务来评估我们的方法,并尝试了各种GNN架构。结果显示,特别是在采用经过优化的配置的GCN架构时,我们的提出的模型在所有任务上均一致地超越了基线方法。这些发现表明,我们的模型可作为EEG分析的强大基础模型。
7 Exploration of LLM Multi-Agent Application Implementation Based on LangGraph+CrewAI
作者: Zhihua Duan
发表日期: 2024-11-27T11:29:17+00:00
论文地址:arxiv.org/abs/2411.18…
随着大型模型技术的快速发展,代理技术在各个领域的应用日益广泛,深刻改变了人们的工作和生活方式。在复杂动态系统中,多代理通过分工和代理之间的协作完成单个代理难以完成的复杂任务。本文探讨了LangGraph与CrewAI的集成应用。LangGraph通过图形架构提高信息传输效率,而CrewAI通过智能任务分配和资源管理增强团队协作能力和系统性能。本文的主要研究内容包括:(1)基于LangGraph设计代理架构以实现精确控制;(2)基于CrewAI增强代理完成各种任务的能力。本研究旨在深入探讨LangGraph和CrewAI在多代理系统中的应用,为代理技术的未来发展提供新视角,推动大型模型智能代理领域的技术进步与应用创新。
8 GraphSubDetector: Time Series Subsequence Anomaly Detection via Density-Aware Adaptive Graph Neural Network
作者: Weiqi Chen
发表日期: 2024-11-26T08:36:07+00:00
论文地址:arxiv.org/abs/2411.17…
时间序列子序列异常检测在众多现实世界应用中具有重要意义,这些应用领域从健康监测到AIOps(自动化运维)等。这项任务具有挑战性,原因如下:1) 如何有效学习时间序列中的复杂动态和依赖关系;2) 多样且复杂异常子序列,以及正常模式固有的方差和噪声;3) 如何确定适当的子序列长度以进行有效检测,这对于许多现有算法来说是一个必需的参数。在本文中,我们提出了一种新颖的子序列异常检测方法,名为GraphSubDetector。首先,它通过一种长度选择机制自适应地学习适当的子序列长度,这种机制突显了正常和异常模式的特征。其次,我们提出了一种密度感知自适应图神经网络(DAGNN),它可以通过子序列间的信息传递生成对正常数据方差具有更强鲁棒性的表示,以用于异常检测。实验结果证明了我们提出算法的有效性,与现有最先进算法相比,在多个时间序列异常基准数据集上取得了更优的性能。
9 FastGL: A GPU-Efficient Framework for Accelerating Sampling-Based GNN Training at Large Scale
作者: Zeyu Zhu
发表日期: 2024-09-23T11:45:47+00:00
论文地址:dx.doi.org/10.1145/362…
图神经网络(GNNs)在非欧几里得图数据上表现出极大的优势,在各类与图相关的任务中取得了突破性的性能。作为一种在拥有数十亿节点和边的大图上训练GNN的实际解决方案,基于采样的训练被现有的训练框架广泛采用。然而,通过深入分析,我们观察到现有基于采样的训练框架的效率仍然受限,原因在于基于采样的训练三个阶段存在的主要瓶颈:子图采样、内存IO以及计算。为此,我们提出了FastGL,这是一个高效的GPU框架,通过同时优化以上三个阶段来加速大规模GNN的基于采样训练,同时考虑了GPU特性和图结构。具体来说,FastGL通过利用图结构内部的固有重叠,开发了Match-Reorder策略来减少数据流量,在不产生任何GPU内存开销的情况下加速内存IO。此外,FastGL还采用了内存感知计算方法,利用GPU内存的分层次特性来减轻计算过程中的不规则数据访问。FastGL进一步整合了Fused-Map方法,旨在降低采样过程中的同步开销。广泛的实验表明,FastGL能够分别比现有先进框架PyG、DGL和GNNLab平均快11.8倍、2.2倍和1.5倍。我们的代码可以在github.com/a1bc2def6g/…
10 MultiBiSage: A Web-Scale Recommendation System Using Multiple Bipartite Graphs at Pinterest
作者: Saket Gurukar
发表日期: 2022-05-21T20:04:46+00:00
论文地址:arxiv.org/abs/2205.10…
图卷积网络(GCN)能够高效地整合图结构和节点特征,以学习高质量的节点嵌入。这些嵌入可以进一步用于多种任务,如推荐和搜索。在Pinterest,我们开发并部署了PinSage,这是一个数据高效的GCN,可以从Pin-Board图中学习pin嵌入。Pin-Board图包含了pin和board实体,并且图捕捉了pin属于board的交互。然而,在Pinterest上还存在许多其他实体,如用户、创意pin、创作者等,这些实体之间存在着异质交互,例如添加购物车、关注、长按等。
在这项工作中,我们展示了在捕捉这些多样化交互的图上训练深度学习模型,将比仅在Pin-Board图上训练PinSage学到更高质量的pin嵌入。为此,我们通过多个二分图对多样化的实体及其交互进行建模,并提出了一个新颖的数据高效的多重二分Sage模型(MultiBiSage)。MultiBiSage能够捕捉多个二分图的图结构,以学习高质量的pin嵌入。我们采取这种实用的方法,因为它允许我们利用Pinterest上已经开发的基础设施——例如能够对拥有数十亿节点的图执行优化随机游走的Pixie系统,以及现有的训练和部署工作流程。我们在六个二分图上训练MultiBiSage,包括我们的Pin-Board图。我们的离线指标显示,在多个用户参与度指标上,MultiBiSage显著优于已部署的最新版PinSage。
研究领域 金融
1 FANAL -- Financial Activity News Alerting Language Modeling Framework
作者: Urjitkumar Patel
发表日期: 2024-12-04T18:15:41+00:00
论文地址:arxiv.org/abs/2412.03…
在快速发展的金融领域,准确及时地解读市场新闻对需要应对不可预测事件的相关利益方至关重要。本文介绍了FANAL(金融活动新闻预警语言建模框架),这是一个专为实时金融事件检测和分析设计的基于BERT的专门框架,将新闻划分为十二个不同的金融类别。FANAL利用经过XGBoost处理的银标签数据,并采用先进的微调技术,结合ORBERT(赔率比BERT),这是BERT的一个新型变体,通过ORPO(赔率比偏好优化)进行微调,以实现更优的类别概率校准并与金融事件相关性对齐。我们将FANAL的性能与领先的大型语言模型进行了比较,包括GPT-4o、Llama-3.1 8B和Phi-3,证明了其卓越的准确性和成本效益。这一框架为金融情报和响应能力设定了新的标准,在性能和可负担性上都显著超越了现有模型。
2 StockBot: Using LSTMs to Predict Stock Prices
作者: Shaswat Mohanty
发表日期: 2022-07-14T01:50:27+00:00
论文地址:arxiv.org/abs/2207.06…
对金融市场进行评估以预测其行为,人们已经尝试使用了多种方法,以便做出明智且盈利的投资决策。由于市场的强烈非线性趋势和相互依赖性,往往难以开发一种能够完全阐明市场行为的统计方法。为此,我们提出了一种基于长短期记忆(LSTM)的模型,该模型利用时间序列数据的顺序结构以提供准确的市场预测。然后,我们开发了一个决策股票机器人(StockBot),其目标是在每天结束时买进/卖出股票以实现利润最大化。我们成功地展示了一个准确的预测模型,因此,我们的StockBot能够超越市场,并制定策略,其收益比市场上最激进的交易型开放式指数基金(ETFs)高出约15倍。
研究领域 **模型的分类如下:
- 语音识别
- 图像识别
- 大语言模型
- 知识图谱
- 图神经网络
- AIOps
- 金融
- 强化学习
- 文生图
- 具身智能
- 推荐算法
对于提供的情况,最合适的分类是:
(5) 图神经网络
因为该情况涉及到通过优化和改进3D结构估计,这通常与图神经网络处理图结构数据和节点间关系的能力相对应其他分类与描述的3D重建和优化任务不太相关**
1 Sparse-view Pose Estimation and Reconstruction via Analysis by Generative Synthesis
作者: Qitao Zhao
发表日期: 2024-12-04T18:59:24+00:00
论文地址:arxiv.org/abs/2412.03…
从一组多视角图像中推断出潜在的3D结构通常需要解决两个相互依赖的任务——精确的3D重建需要准确的相机姿态,而预测相机姿态则依赖于(显式或隐式地)对底层3D进行建模。传统的分析合成框架将这种推断视为一种联合优化,旨在解释所观察到的像素,而最近的实例通过基于梯度下降的初始姿态估计精细化方法学习了表达性3D表示(例如,神经场)。然而,在给定一个稀疏的观察视角集时,观察结果可能不足以提供足够的直接证据以获得完整且准确的3D。此外,姿态估计中的较大误差可能不易修正,并可能进一步降低推断出的3D质量。为了在这种具有挑战性的设置中实现鲁棒的3D重建和姿态估计,我们提出了SparseAGS方法,该方法通过以下方式改进了分析合成方法:a) 结合新颖的基于新视角合成的生成先验和光度目标以提高推断3D的质量;b) 明确处理异常值,并使用基于连续优化的离散搜索策略进行修正。我们在真实世界和合成数据集上验证了我们的框架,并结合了几个现成的姿态估计系统作为初始化。我们发现,它显著提高了基础系统的姿态准确性,同时产生了高质量的3D重建结果,这些结果超越了当前多视角重建基线的效果。