《The AI Journal》2025.02.15

75 阅读8分钟

大家好,2025年第三期《The AI Journal》半月刊发布啦。本期为大家带来了5个项目,包括1个文化领域的AI项目,3个医学或工程上的实用工具,以及由Hugging Face出品的AI课程。

1 meet-libai——李白知识图谱

1.1 简介

通过构建李白知识图谱,结合大模型训练出专业的AI智能体,以生成式对话应用的形式,推动李白文化的普及与推广。

TAJ_20250215_01.png

1.2 功能

本项目主要功能有:

✅ 以李白为中心的知识图谱

✅ 知识问答

✅ (诗词)文本转语音

✅ 文本生成图片

✅ 结合大模型回答问题

相比于直接使用大模型进行相关的功能实现,本项目特点是:

与李白主题相关的答案更加准确可靠

答案提供依据

1.3 适用

对古诗词感兴趣的读者或想进行技术学习的读者。

1.4 点评

meet-libai项目让我想起来“汉典重光”,这些典籍或内容的数字化对于中华文化的传承和发展有重大的意义!

TAJ_20250215_01.1.png

2 MedRAX——胸部X光片片的医学诊断助手

2.1 简介

MedRAX整合了多种最先进的分析工具,支持多模态推理和动态任务分解。用于胸部X光片的诊断模型,能进行诊断对话,疾病分类,甚至生成医学报告。

TAJ_20250215_02.png

2.2 功能

胸部X光片(CXR)在疾病管理和患者护理中发挥着重要的作用。尽管近年来随着技术的发展催生了针对CXR解读任务的各种模型,但这些解决方案往往各自独立运行,限制了其在临床实践中的实际应用价值。

MedRAX是首个多功能AI智能体,它将最先进的CXR分析工具与多模态大型语言模型无缝集成至统一框架中。MedRAX 能够动态调用这些模型,以解答复杂的医学问题,而无需额外训练。

实验结果表明,MedRAX 在开源和专有模型的对比测试中均达到了最先进的性能,标志着自动化CXR解读系统向实际应用迈出的重要一步。其主要技术特点是:

✨视觉问答(Visual QA): 采用 CheXagent 和 LLaVA-Med 进行复杂的医学图像理解和推理

✨分割(Segmentation): 使用 MedSAM 和 PSPNet(在 ChestX-Det 上训练)精准识别解剖结构

✨目标定位(Grounding): 采用 Maira-2 在医学影像中定位特定发现

✨报告生成(Report Generation): 使用 SwinV2 Transformer(在 CheXpert Plus 上训练)生成详细医学报告

✨疾病分类(Disease Classification): 采用 TorchXRayVision 的 DenseNet-121 识别 18 种病理类别

✨X 光片生成(X-ray Generation): 使用 RoentGen 生成合成 CXR 图像

✨实用工具(Utilities): 包括 DICOM 处理、可视化工具和自定义绘图功能

其主要功能是:

多模态医学推理:整合了多种胸部X光(CXR)分析工具和多模态大型语言模型,利用这些模型解决复杂的医学查询问题。

多步骤的推理分析:将复杂的医疗查询分解为多个子任务,并逐一解决。

丰富的工具集成:集成了多种工具,如视觉问答(CheXagent和LLaVA-Med)、图像分割(MedSAM和PSPNet)、病变定位(Maira-2)、报告生成(SwinV2 Transformer)、疾病分类(DenseNet-121)以及X光生成(RoentGen)等。

良好的用户界面:提供了一个生产级的用户界面

灵活的部署:支持本地和云端部署,能够满足不同医疗场景下的安全和隐私需求。

性能验证:其引入了 ChestAgentBench这个一个涵盖七大类别、共2,500个复杂医学问题的综合基准测试。通过ChestAgentBench基准测试,MedRAX在2500个复杂医疗查询中表现出色,覆盖检测、分类、定位等多个核心能力,其性能优于开源和专有模型。

🚧请注意: 当前版本的 MedRAX 处于实验性发布阶段,暂不支持 GPT-4o 和 MedSAM 的视觉功能,未来将逐步集成。

2.3 适用

对医疗AI感兴趣的读者或相关从业者。

2.4 点评

随着社会的发展,医疗健康是大家最关心的问题,相信人工智能和大模型的发展会极大地促进医疗科学的进步,本项目就是这方面的尝试,其开源精神和实际成果都是值得称道和学习的!感谢相关作者的付出和努力!

3 TRELLIS——基于图片生成3D模型

3.1 简介

TRELLIS可以根据文本或图像提示生成高质量 3D模型,支持GLB和Gaussian格式的输出和后续的的编辑。

TAJ_20250215_03.png

3.2 功能

TRELLIS是由微软和清华大学联合推出的一个根据文本或图片生成3D文件的项目,该项目提出了 Structured LATents (SLAT)这种统一的 3D 潜在表示方法,专为高质量、多功能的 3D 生成设计。SLAT 将稀疏结构与强大的视觉表示相结合,通过密集渲染的 3D 视图提取图像特征,并融合处理后,将这些局部潜变量附加到活动体素上。这些特征由强大的预训练视觉编码器提取,能够捕捉精细的几何与视觉细节,补充活动体素提供的粗略结构。然后,可以使用不同的解码器将 SLAT 映射为多种高质量的 3D 表示。

该项目基于 SLAT训练了一系列大规模 3D 生成模型,也就是TRELLIS,该模型可以基于文本提示或图像进行 3D 生成。

其分为两个阶段:首先生成 SLAT 的稀疏结构,然后为非空单元生成潜在向量。模型的核心架构采用修正流变换器(rectified flow transformers),并针对 SLAT 的稀疏性进行优化调整。

该项目在一个精心收集的大规模 3D 资产数据集上训练了高达20亿参数的规模 TRELLIS。实验表明,TRELLIS 能够生成具有精细几何结构和生动纹理的高质量 3D 资产,其表现远超以往方法。此外,它可以轻松适配不同的输出格式,以满足多样化的下游需求。我们可以在Hugging Face上进行试用。

3.3 适用

适用于于游戏开发、电影制作、虚拟现实、建筑设计和教育等领域的读者。

3.4 点评

小团队或个人开发着想要获得高质量的3D模型是比较困难的,常常需要我们下载一些专业软件(大概率买不起)进行学习之后建模。本项目的出现能够让大家非常快读的获取相关的3D资源,免费快速的推进项目。同时作为一个开源项目,可玩性也非常强。

4 Meetily——一款由AI驱动的会议助手

4.1 简介

一款由 AI 驱动的、侧重隐私保护的会议助手。可实时捕捉会议音频、转录内容并生成摘要或自动记录并整理会议内容。

TAJ_20250215_04.png

4.2 功能

会议转录工具已经有很多了,无论是飞书还是钉钉都推出了自己的会议转录工具,但本方案具备以下独特优势:

✨隐私优先:所有数据处理均在本地设备上完成,可以保证信息安全

✨免费:采用开源 AI 模型,无需依赖昂贵的 API

✨灵活性强:支持离线使用,兼容多种会议平台

✨可定制:可自部署,并根据需求进行个性化修改

✨智能分析:内置知识图谱,实现跨会议的语义搜索

其主要功能有:

✅ 现代化的响应式 UI,支持实时更新

✅ 实时音频捕捉(支持麦克风 + 系统音频)

✅ 使用本地 Whisper.cpp进行实时转录

✅ 说话人分离(Speaker Diarization)

✅ 本地处理,确保隐私安全

✅ 支持富文本编辑的笔记功能

✅ 会议图谱

4.3 适用

有会议记录需求且注重隐私的团队。

4.4 点评

一款生产力工具,随着AI的发展,隐私将会面临越来越大的挑战,我们需要这类工具守住最后的防线。

5  Agents Course——Hugging Face出品的AI课程

5.1 简介

由Hugging Face出品的AI课程,完成课程后可以获得获得由Hugging Face颁发的结业证书。

TAJ_20250215_05.png

5.2 功能

Hugging Face在人工智能学习领域的地位无需多言,通过本课程的学习,我们可以深入理解生成式 AI 的工作原理,学会使用最新的库和工具来构建自己的 AI 代理。其主要内容有:

✅ 学习生成式 AI 的理论和设计,并进行实践

✅ 掌握知名 AI 代理库**(如 smolagents、LangChain 和 LlamaIndex)

✅ 在 Hugging Face Hub 上分享自己的作品,并探索社区的作品

✅ 参与课程挑战,与其他学员的 AI 作品进行对比评估

✅ 课程作业(可获得结业证书)

5.3 适用

希望学习生成式AI的读者,特别是初学者。

5.4 点评

每一个AI领域的从业者或研究者,都应该能熟练使用Hugging Face。

本期内容就到这里,如果你更好的推荐或者对哪个项目特别感兴趣,欢迎在评论区给我留言,我将根据情况进行收录,并将大家喜欢的项目加入专栏,进行更加详细的介绍。我们下期再见!