首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
OpenDataLab
掘友等级
上海人工智能实验室
坚持战略性、前瞻性、开放性、公益性的科研理念,践行共享数据资源的推广,打造国际领先的AI数据平台。
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
0
文章 0
沸点 0
赞
0
返回
|
搜索文章
最新
热门
高质量新闻数据集OpenNewsArchive:880万篇主流新闻报道,国产大模型开源数据又添猛料
在构建国产大语言模型的道路上,高质量新闻是不可或缺的重要语料之一。这类语料集准确性、逻辑性、时效性于一体,同时包含丰富的事实知识,可以大幅提升模型的文本生成质量、词汇表达能力、事件理解分析能力以及时序
微调数据最新开源!ChemData: 为化学语言模型提供全面数据支持
大型语言模型(LLM)已成为处理自然语言和汇聚世界知识的尖端技术,呈现了令人惊叹的自然语言理解和生成能力。然而,人类的语言远不止自然语言那么简单,特别是在科学研究领域,比如化学,存在着极其复杂且精确的
有点意思!腾讯 ARC Lab 最新发布的MiraData数据集,用于长视频生成,从这些方面做了clip分层描述……
最近小编网上冲浪时,被腾讯 PCG ARC Lab 新开源的文本-视频数据集——MiraData 吸引了目光。 这个数据集有多新?Readme在一天前刚更新完的那种,而且数据集有一大特点,是专门为长视
小小视频-文本标注,LabelU轻松拿下!
最近因为 Sora 模型大火,带动了文生视频任务研究。有小伙伴“吭哧吭哧”上手后,到人工精标数据时迷茫了,不知道选什么视频-文本标注工具为好。 小编听了也急的发愁,远在天边,近在眼前,这么好用的视频标
百里挑一“萃取”数据精华,上海AI实验室开源发布高质量语料“万卷2.0”(万卷CC)
近日,上海人工智能实验室(上海AI实验室)发布新一代高质量大模型预训练语料“万卷CC”(WanJuan-CC),首批开源的语料覆盖过去十年互联网上的公开内容,包含1千亿字符(100B token)
首场“解数Talk” 直播来了——大模型语料数据联盟开源数据集解读
12月13日 周三19:00,“解数Talk”首场直播,将解读“蜜巢·花粉1.0”数据集和“国际仲裁法律、规则与实践”数据集。后续更多直播,敬请关注OpenDataLab。
Open X-Embodiment 超大规模开源真实机器人数据集分享
近期,Google旗下的前沿人工智能企业DeepMind汇集了来自 22 种不同机器人类型的数据,创建了 Open X-Embodiment 数据集并开源了出来
收藏丨20个医疗场景经典、热门数据集资源汇总
当今,人工智能技术在医疗领域的应用日益广泛,其中医疗数据集起到了至关重要的作用。本文将介绍 20 个经典的医疗开源数据集,涵盖了各个部位、CT\MRI\内窥镜等多种模态数据,以帮助研究者们更好地探索
VIGC:自问自答,高质量视觉指令微调数据获取新思路
VIGC提出了一种新的多模态指令数据构造方式,可以基于无标注的图像自动生成多样性的高质量数据,且基于生成数据可以进一步提升当前模型的性能,可以作为指令数据获取及模型性能提升的新思路
中国大模型语料数据联盟迎来9家新成员,开源第二批语料数据
为提升语料数据供给水平,推动大模型产业高质量发展加速应用创新与行业落地,9月8日,由中国大模型语料数据联盟(以下简称“语料数据联盟”)主办的数说新语·开放日首场活动在上海人工智能实验室举行
下一页
个人成就
文章被点赞
5
文章被阅读
9,127
掘力值
326
关注了
0
关注者
2
收藏集
0
关注标签
2
加入于
2022-12-27