获得徽章 0
- #每日快讯# FineWeb 技术报告
如果您想了解 Llama3、GPT-4 或 Mixtral 等大型语言模型背后的工作,强烈推荐你阅读原文
阅读原文:huggingface.co
FineWeb 是由 huggingface 推出的开源数据集,皆在降低训练高性能大型语言模型门槛。
此报告介绍了 15 万亿 Token、 44 TB 的 FineWeb 是如何设计的,包括数据提取、重复删除、内容过滤等。
此外还介绍了 FineWeb-Edu,其通过 Llama-3-70B-Instruct 并使用下面的提示词标注教育资源(小学和中学)展开评论1 - jym,小萌新求点关注
,965 大部分时间居家办公,摸鱼时间比较充裕。。。
我将持续输出大语言模型Agent开发教程。评论2
![[发呆]](http://lf-web-assets.juejin.cn/obj/juejin-web/xitu_juejin_web/img/jj_emoji_4.28b310a.png)
,965 大部分时间居家办公,摸鱼时间比较充裕。。。