首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
XX123122
掘友等级
USTC
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
10
文章 10
沸点 0
赞
10
返回
|
搜索文章
最新
热门
数据工程实战 | 基于data_engineering_book构建"Mini-C4"预训练集
项目一:构建"Mini-C4"预训练集 GitHub地址: https://github.com/datascale-ai/data_engineering_book/ 在线链接:https://da
重写图文描述(Recaptioning)| 基于 data_engineering_book让文本更适配模型、更贴合图片
重写图文描述(Recaptioning)| 基于 data_engineering_book让文本更适配模型、更贴合图片 在多模态项目落地中,我们常会遇到「图片描述文本质量差」「文本风格不匹配模型输入
搞定图文对(Image-Text Pairs)| 基于 data_engineering_book从数据构建到模型适配
搞定图文对(Image-Text Pairs)| 基于 data_engineering_book从数据构建到模型适配 在多模态大模型(如CLIP、BLIP、AlignedCLIP等)的研发与落地中,
深入浅出 Tokenization & Serialization | 基于 data_engineering_book吃透LLM 开发中数据处理的核心环节
深入浅出 Tokenization & Serialization:基于 data_engineering_book吃透LLM 开发中数据处理的核心环节 在大语言模型(LLM)的开发和应用链路中,To
数据清洗与去噪|从 data_engineering_book 吃透数据清洗与去噪的核心逻辑
开篇:为什么数据清洗是数据工程师的“主战场”? 数据工程的核心是让“原始数据”转化为“可用资产”,而数据清洗与去噪正是这一过程中最基础也最关键的一环——行业共识是,数据工程师约60%-80%的时间都消
数据处理与转换|基于 data_engineering_book 玩转 ETL/ELT 核心流程
数据处理与转换|基于 data_engineering_book 玩转 ETL/ELT 核心流程 本文基于《Data Engineering Book》核心内容,深度拆解 ETL/ELT 的核心差异与
数据存储层设计|拆解 data_engineering_book 的数仓/湖/湖仓架构
数据存储层设计|拆解 data_engineering_book 的数仓/湖/湖仓架构 本文基于《Data Engineering Book》核心内容,系统拆解数仓、数据湖、湖仓架构的核心差异,梳理存
数据采集与摄入|手把手落地 data_engineering_book 的数据源接入实战
数据采集与摄入|手把手落地 data_engineering_book 的数据源接入实战 数据采集与摄入是数据工程的“第一道关口”—— 能否稳定、高效地把分散在各处的数据源接入数据体系,直接决定了后续
数据工程基石|从 data_engineering_book 读懂核心定义与技术栈
数据工程基石|从 data_engineering_book 读懂核心定义与技术栈 数据工程是大数据领域的“基建工程”,但很多人容易将其与数据分析、数据科学混为一谈;而 data_engineerin
开篇|data_engineering_book!一站式吃透大模型数据工程的开源书
开篇|data_engineering_book!一站式吃透大模型数据工程的开源书 在大模型时代,「数据质量决定模型上限」早已成为行业共识,但绝大多数开发者和团队在做LLM数据工程时,仍处于“摸着石头
下一页
个人成就
文章被点赞
10
文章被阅读
267
掘力值
62
关注了
0
关注者
0
收藏集
0
关注标签
4
加入于
2026-02-13