小白狮ww

赞

2

|

搜索文章

VASP 教程：使用 VASP 进行机器学习力场训练

Vienna Ab initio Simulation Package（VASP，The VASP Manual - VASP Wiki）是一个计算机程序，用于从第一性原理进行原子尺度材料建模，例如电

4月前
179
点赞
评论

VASP 教程：使用 VASP 进行机器学习力场训练

成品不再是终点：Paints-Undo 让绘画步骤可视化

你是否好奇过，一幅已经完成的数字绘画，是如何从最初的草稿一步步发展到最终成品的？Paints-Undo 就是为复原这一过程而出现的。该模型由 lllyasviel 在 2024 年发布，可以将一张完成

4月前
126
点赞
评论

成品不再是终点：Paints-Undo 让绘画步骤可视化

中科院团队发布首个国产类脑脉冲大模型 SpikingBrain-1.0，推理效率达百倍提速

当全球 AI 竞赛仍在为更大的算力和数据量内卷时，中国科学院自动化研究所突破性地提出了「内生复杂性」的解题思路。其最新发布的「瞬悉1.0（SpikingBrain-1.0）」类脑脉冲大模型，借鉴大脑神

4月前
43
点赞
评论

中科院团队发布首个国产类脑脉冲大模型 SpikingBrain-1.0，推理效率达百倍提速

dots.ocr 基于 1.7B 参数实现多语言文档处理，性能达 SOTA

在这个信息爆炸的时代，我们每天面对堆积如山的文档、报告和表格，如何让机器真正读懂这些复杂排版下的文字信息，始终是技术领域的核心挑战。传统的 OCR 解决方案往往需要多个模块拼凑而成，流程繁琐且容易出错

4月前
53
点赞
评论

dots.ocr 基于 1.7B 参数实现多语言文档处理，性能达 SOTA

清华联合字节推出 HuMo，实现三模态协同生成人物视频

如今文本生成图像与视频已不再是天方夜谭。然而，当大多数模型仍在为生成画面的清晰度与稳定性而努力时，一个更为棘手的挑战浮出水面：如何精准、一致地生成以「人物」为核心的高质量视频？对此，清华大学与字节跳动

5月前
72
点赞
评论

清华联合字节推出 HuMo，实现三模态协同生成人物视频

LiveCC 首个视频解说大模型开源，比赛视频也能轻松拿捏！

你刷视频的时候是否也遇到过这些烦恼：看教学视频没有字幕，步骤总被错过；看比赛时听不懂专业术语，全程不知所云......别怕，你的救星来啦！新加坡国立大学 Show Lab 与字节跳动公司于 2025

5月前
155
1
评论

LiveCC 首个视频解说大模型开源，比赛视频也能轻松拿捏！

小米开源端到端语音模型 MiMo-Audio-7B-Instruct 语音智能与音频理解达 SOTA

想象一下，当语音模型不仅能听懂你的话，还能根据你所给出的例子进行举一反三，搞定全新的语音任务。小米最新推出的 MiMo-Audio-7B-Instruct 做到了这一点。这全都归功于它首次将大语言模型

5月前
152
点赞
评论

小米开源端到端语音模型 MiMo-Audio-7B-Instruct 语音智能与音频理解达 SOTA

即时克隆！NeuTTS-Air 引领语音生成新路径

在语音生成领域，TTS（Text-to-Speech）模型的精度和效率一直是难题。传统模型通常需要数小时训练、占用大量显存，并且在克隆个性化声音时往往牺牲音质。NeuTTS-Air 的出现则打破了这一

5月前
210
点赞
评论

即时克隆！NeuTTS-Air 引领语音生成新路径

AI 语音克隆神器 IndexTTS-2 开源，支持零样本声音克隆

IndexTTS-2 是由哔哩哔哩语音团队于 2025 年 6 月开源的新型文本转语音（TTS）模型。模型在情感表达和时长控制方面实现了重大突破，是首个支持精确时长控制的自回归 TTS 模型。支持零样

5月前
505
点赞
评论

AI 语音克隆神器 IndexTTS-2 开源，支持零样本声音克隆

专为高效文档转换设计，Granite-Docling-258M 小体量干大事成为文档处理「小助手」

Granite-Docling-258M 是由 IBM 于 2025 年 9 月推出的轻量级视觉语言模型，专为高效文档转换设计。模型能将文档转换为机器可读格式，同时完整保留布局、表格、公式等元素。模型

5月前
93
点赞
评论

专为高效文档转换设计，Granite-Docling-258M 小体量干大事成为文档处理「小助手」

个人成就

文章被点赞 14

文章被阅读 38,100

掘力值 1,738

加入于

2024-04-02