
获得徽章 26
- #DeepSeek 体验分享# PydanticAI 这个框架,是构建在 Pydantic 基础之上的,专门为 AI 应用开发设计。着重于将工程化理念引入到 AI 应用中。PydanticAI 框架中可以看到他在很多地方有其独特想法,对于很多问题有解决问题新思路。因为其侧重工程化,这一点和我对 deepseekers 的目标不谋而合,所以也特别关注,而且最近新出的 smolAgent、swarm 以及今天主角 PydanticAI 感觉都比较轻量级。
在我的 deepseekers 这个 AI Agent 框架设计上,很多地方都借鉴了这个 PydanticAI ,例如 deps 和 result 依赖。因为 PydanticAI 背后是 Pydantic ,Pydantic 是一个 Python 库,主要用于数据验证和数据序列化,而且 AI 应用在工程化上面,在数据上提供很好支持。Pydantic 通过其强大的数据验证、类型注解和序列化功能,对于 AI 应用给予很好支持,所以 pydanticAI 框架做 AI Agent 框架在其数据上会有天生优势。
个人对于 pydanticAI 进行一定研究,也沉淀了一些东西,如果大家想进一步了解 PydanticAI 可以去我的哔哩哔哩观看相关视频展开评论1 - 马斯克的大模型 Grok-1 开源了,这是一款拥有3140亿参数的先进混合专家模型,截止目前参数量最大的开源大语言模型。
这个版本包含了Grok-1在2023年10月完成预训练阶段时的基础模型数据。这意味着模型尚未经过针对特定应用(如对话系统)的微调。
根据Apache 2.0许可协议,向公众开放模型的权重和架构。
模型详细信息
- 该基础模型通过大量文本数据训练而成,未专门针对任何具体任务进行优化。
- 3140亿参数构成的混合专家模型,其中25%的参数能够针对特定的数据单元(Token)激活。
- xAI团队利用定制的训练技术栈,在JAX和Rust的基础上,从零开始构建了此模型,完成时间为2023年10月。
- 模型参数数量高达3140亿
- 混合专家模型(Mixture of Experts, MoE)
- 每一个数据单元(Token)由2位专家处理
- 共64个处理层
- 用于处理查询的有48个注意力机制单元(attention heads)
- 用于处理键(key)/值(value)的有8个注意力机制单元
- 嵌入向量(embeddings)的维度为6,144
- 采用旋转式嵌入表示(Rotary Position Embeddings, RoPE)
- 使用SentencePiece分词系统处理,包含131,072种数据单元
- 支持激活数据分布计算(activation sharding)和8位数字精度量化(8-bit quantization)
- 最大序列长度为8,192个数据单元,以处理更长的上下文信息
相关链接:github.com、
x.ai
展开513
今年跨年技术分享主要有 3 条主线
- 深度学习方向会围绕 chatGPT 为代表的大模型,会聊一聊
- 浅谈 chatGPT 的成长的经历
- 探究根治大模型环境的幻觉的良丹妙药
- 如何微调大模型
- 双剑合璧 SFT 和 RLHF专题
- 语言类 c/rust
- 展望一下 Rust 在 2024 的未来,新贵 Rust
- 浅谈 c 语言深度学习框架开发之路
- 分享开发 c 语言线性代数库的点点滴滴
- 框架, Azent 的引路人
- 探索大模型的落地之路
- 集思广益,打通企业信息化系统的 azent 框架的设计思想展开评论3