首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
OpenDataLab
掘友等级
上海人工智能实验室
坚持战略性、前瞻性、开放性、公益性的科研理念,践行共享数据资源的推广,打造国际领先的AI数据平台。
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
0
文章 0
沸点 0
赞
0
返回
|
搜索文章
OpenDataLab
@上海人工智能实验室
·
1年前
关注
高质量新闻数据集OpenNewsArchive:880万篇主流新闻报道,国产大模型开源数据又添猛料
在构建国产大语言模型的道路上,高质量新闻是不可或缺的重要语料之一。这类语料集准确性、逻辑性、时效性于一体,同时包含丰富的事实知识,可以大幅提升模型的文本生成质量、词汇表达能...
0
评论
分享
OpenDataLab
@上海人工智能实验室
·
1年前
关注
微调数据最新开源!ChemData: 为化学语言模型提供全面数据支持
大型语言模型(LLM)已成为处理自然语言和汇聚世界知识的尖端技术,呈现了令人惊叹的自然语言理解和生成能力。然而,人类的语言远不止自然语言那么简单,特别是在科学研究领域,比如...
0
评论
分享
OpenDataLab
@上海人工智能实验室
·
1年前
关注
有点意思!腾讯 ARC Lab 最新发布的MiraData数据集,用于长视频生成,从这些方面做了clip分层描述……
最近小编网上冲浪时,被腾讯 PCG ARC Lab 新开源的文本-视频数据集——MiraData 吸引了目光。 这个数据集有多新?Readme在一天前刚更新完的那种,而且数...
0
评论
分享
OpenDataLab
@上海人工智能实验室
·
1年前
关注
小小视频-文本标注,LabelU轻松拿下!
最近因为 Sora 模型大火,带动了文生视频任务研究。有小伙伴“吭哧吭哧”上手后,到人工精标数据时迷茫了,不知道选什么视频-文本标注工具为好。 小编听了也急的发愁,远在天边...
0
评论
分享
OpenDataLab
@上海人工智能实验室
·
1年前
关注
百里挑一“萃取”数据精华,上海AI实验室开源发布高质量语料“万卷2.0”(万卷CC)
近日,上海人工智能实验室(上海AI实验室)发布新一代高质量大模型预训练语料“万卷CC”(WanJuan-CC),首批开源的语料覆盖过去十年互联网上的公开内容,包含1千亿字符...
0
评论
分享
OpenDataLab
@上海人工智能实验室
·
1年前
关注
首场“解数Talk” 直播来了——大模型语料数据联盟开源数据集解读
12月13日 周三19:00,“解数Talk”首场直播,将解读“蜜巢·花粉1.0”数据集和“国际仲裁法律、规则与实践”数据集。后续更多直播,敬请关注OpenDataLab。...
0
评论
分享
OpenDataLab
@上海人工智能实验室
·
1年前
关注
Open X-Embodiment 超大规模开源真实机器人数据集分享
近期,Google旗下的前沿人工智能企业DeepMind汇集了来自 22 种不同机器人类型的数据,创建了 Open X-Embodiment 数据集并开源了出来...
0
评论
分享
OpenDataLab
@上海人工智能实验室
·
1年前
关注
收藏丨20个医疗场景经典、热门数据集资源汇总
当今,人工智能技术在医疗领域的应用日益广泛,其中医疗数据集起到了至关重要的作用。本文将介绍 20 个经典的医疗开源数据集,涵盖了各个部位、CT\MRI\内窥镜等多种模态数据...
1
评论
分享
OpenDataLab
@上海人工智能实验室
·
2年前
关注
VIGC:自问自答,高质量视觉指令微调数据获取新思路
VIGC提出了一种新的多模态指令数据构造方式,可以基于无标注的图像自动生成多样性的高质量数据,且基于生成数据可以进一步提升当前模型的性能,可以作为指令数据获取及模型性能提升...
0
评论
分享
OpenDataLab
@上海人工智能实验室
·
2年前
关注
中国大模型语料数据联盟迎来9家新成员,开源第二批语料数据
为提升语料数据供给水平,推动大模型产业高质量发展加速应用创新与行业落地,9月8日,由中国大模型语料数据联盟(以下简称“语料数据联盟”)主办的数说新语·开放日首场活动在上海人...
0
评论
分享
OpenDataLab
@上海人工智能实验室
·
2年前
关注
多模态语料库 “书生·万卷” 1.0 详细解读 | 附下载地址
国产大模型时代,高质量、开源、可信数据的重要性不言而喻,但它的稀缺性也是 AI 同行有目共睹的。 为了改变这一现状,OpenDataLab 联合大模型语料数据联盟构建了“书...
0
评论
分享
OpenDataLab
@上海人工智能实验室
·
2年前
关注
终于来啦!OpenDataLab 新增自主上传功能,升级CLI/SDK工具、数据集详情页……体验赠好礼~
9月,OpenDataLab 全新版本上线,支持用户自主发布原创数据集,同时升级了 CLI/SDK 工具、数据集详情页,让 AI 数据集开源更方便、展示更清晰。还有创作领好...
0
评论
分享
OpenDataLab
@上海人工智能实验室
·
2年前
关注
收藏|43个自动驾驶经典、热门数据集资源汇总
当今社会,自动驾驶技术已成为汽车产业的未来趋势。但是,要想让自动驾驶车辆真正上路行驶,离不开大规模的高质量数据集的支撑。 本文将为您介绍43个经典、热门的自动驾驶数据集...
1
评论
分享
OpenDataLab
@上海人工智能实验室
·
2年前
关注
人工标注或成过去式?SSA语义分割框架、SSA-engine自动类别标注引擎,大幅提升细粒度语义标注效率
复旦大学ZVG实验室团队基于此最新开源了SSA语义分割框架和SSA-engine自动注释引擎,可以为所有mask自动地生成细粒度语义标签,填补了SA-1B中缺乏的细粒度语义...
1
评论
分享
OpenDataLab
@上海人工智能实验室
·
2年前
关注
收藏丨20个中文语料数据集,含数学考试、公务员考题、医患对话等
要想训练出具有中文语境特色的大语言模型,中文语料数据必不可少,今天给大家分享20个中文语料数据集,欢迎转发、分享,催更下一期...
0
评论
分享
OpenDataLab
@上海人工智能实验室
·
2年前
关注
资源盘点丨9个经典视觉-语言多模态预训练数据集
在 ChatGPT 引爆社会与学术界的热点后,“大模型”与“多模态”也成为了搜索量攀升的热门词汇。这些体现了大众对人工智能的广泛关注。 事实上,人工智能的进步离不开深度学习...
0
评论
分享
OpenDataLab
@上海人工智能实验室
·
2年前
关注
3DTrans: 首个支持自动驾驶室外点云迁移学习的代码库
本文将为大家介绍上海人工智能实验室交通平台组ADLab的3DTrans代码库--首个自动驾驶室外3D点云迁移学习的代码库。此外3DTrans代码库还是Uni3D(CVPR-...
3
评论
分享
OpenDataLab
@上海人工智能实验室
·
2年前
关注
首个开源室外点云分割工具箱,提供多篇论文算法的强基线复现模型!(已开源)
PCSeg高性能点云分割开源框架强力来袭!支持多个公开数据集上多种SOTA算法高精度复现,训练时间更短、分割精度更高,开箱即用。室外点云全景分割研究必备,目前已开源,欢迎s...
0
评论
分享
OpenDataLab
@上海人工智能实验室
·
2年前
关注
收藏丨30个大语言模型训练相关的数据集分享
篇幅有限,更多数据集,请访问OpenDataLab官网:https://opendatalab.org.cn/...
0
评论
分享
下一页
个人成就
文章被点赞
6
文章被阅读
10,064
掘力值
329
关注了
0
关注者
2
收藏集
0
关注标签
2
加入于
2022-12-27