免费数据集网站(不定期更新)

37 阅读4分钟

我推荐找数据集的网站,是国内的数据集搜索引擎:遇见数据集。

遇见数据集索引了国内外的大部分网站。首页有最新的数据集推荐:GitHub、Hugging Face、arXiv这些热门站点​,都属于日级别的更新。

这个站点是从搜索引擎方面去监控最新的数据集,大家如果有关注某个一个特点领域或话题的更新,可以关注这个站点:

www.selectdataset.com/

另外公开数据集网站

1、DataSearch :datasetsearch.research.google.com

2、OpenDatalab : opendatalab.com/

3、Kaggle :www.kaggle.com/

4、github:https ://github.com/Bio-Datasets/bio-datasets

5、huggingface :huggingface.co/datasets/ar…

6、arXiv : arxiv.org/

7、魔搭社区:modelscope.cn/datasets

8、FindData:www.findata.cn/

9、DataCite Commons : commons.datacite.org/doi.org

10、MendeleyData: data.mendeley.com/

​11、超神经:hyper.ai/cn

12、DataONE : search.dataone.org/data

13、Harvard Dataverse: dataverse.harvard.edu/

14、MagicHub开源社区:MagicHub - Datasets Download

15、DataCite Commons:commons.datacite.org/doi.org

16、Papers with Code :paperswithcode.com/

17、DataHub :DataHub

18:data.public.lu:data.public.lu/

19、帕依提提:www.payititi.com/

20、data.gov:catalog.data.gov/dataset

21、和鲸社区:www.heywhale.com/

22、data.europa:data.europa.eu/data/datase…

23、AI_Studio:aistudio.baidu.com/

24、Opendata cern:opendata.cern.ch

25、PANGAEA:www.pangaea.de/

26、极市:www.cvmart.net/

27、Roboflow:universe.roboflow.com/

28、IEEE:ieee-dataport.org/datasets

29、Stanford:snap.stanford.edu/data/

30、GBIF: www.gbif.org/dataset/sea…

31、阿里云天池:tianchi.aliyun.com/

比如,我要找蛋白质的数据集,我就打开遇见数据集-让每个数据集都被发现,让每一次遇见都有价值,输入蛋白质。

页面上会有一些提示,看有没有自己想要,直接选择。

结果返回太多了,有10000+,量有点大。

添加图片注释,不超过 140 字(可选)

哦,对了,有一个比较好的功能,不仅能返回数据集,还有企业和机构。来,让你瞅瞅。

添加图片注释,不超过 140 字(可选)

比如点击这家 国信专达(杭州)科技有限公司,就有这家公司的介绍和相关数据集

接下来就是比较关心的数据集的展示情况,展示的内容还蛮丰富的,总会超出预期,让人眼前一亮。哦,原来是这样。涨知识了。

比如这个数集: PDB|生物信息学数据集|蛋白质结构数据集

添加图片注释,不超过 140 字(可选)

一、遇见数据集解决了哪些问题:

1、一站式数据获取平台

遇见数据集通过集中整合全球数据资源,为用户提供了一个一站式平台,使得用户能够轻松搜索和访问各种数据集,无需在多个来源之间进行切换,从而提高了数据获取的效率。

2、数据的可发现性

平台通过详细的数据标签和分类系统,增强了数据集的可发现性,帮助用户快速找到特定领域的数据集,尤其是对于特定研究领域或应用场景的数据,极大地方便了数据的检索和使用。

3、数据更新的及时性

遇见数据集频繁更新数据集内容,确保用户能够获取最新的数据资源,这对于需要最新数据进行分析和研究的用户来说尤为重要,保证了数据的效性和相关性。

4、集成大模型问答功能

遇见数据集计划集成大模型问答功能,进一步提升用户体验和数据获取的效率,使得用户能够通过自然语言查询快速找到所需的数据集。

二、遇见数据集特点:

1、全球数据资源整合

提供来自全球的数据集,覆盖多个国家和地区,满足不同用户的国际数据需求。

2、多领域覆盖:

数据集涉及人脸识别、自动驾驶、图像识别等多个领域,满足不同行业和研究的需求。

3、数据标签与分类系统:

通过详细的数据标签和分类,用户可以快速定位和检索特定领域的数据集。

4、更新及时与内容丰富:

数据集更新频繁,保持内容的时效性,确保用户能够获取最新的数据资源。

5、集成大模型问答功能

遇见数据集集成大模型问答功能,进一步提升用户体验和数据获取的效率,使得用户能够通过自然语言查询快速找到所需的数据集。

6、用户友好的界面

遇见数据集拥有一个友好的用户界面,使得查找和使用数据集变得简单直观,无论是科研人员、开发者还是数据分析师,都能轻松上手使用。