首页
首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
LLM
掘金安东尼
创建于2024-02-04
订阅专栏
深入探讨PyTorch、TensorFlow框架在大规模语言模型(LLM)领域的应用与优化,为读者提供前沿的技术洞见和实用的开发经验。
等 43 人订阅
共47篇文章
创建于2024-02-04
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
投篮左手不如右手,应该怎么练?机器学习“徐-罗奇定理”给出答案
最近参加一次关于“机器学习理论前沿”的专题讲座,听到了徐宗本院士分享的一段经历,其中提到他在误差建模领域的重要贡献——徐-罗奇定理 这是我第一次系统听说这个定理,但听完后,有种“原来一直在用,却不知道
25年了,大模型最新的技术和概念“究竟”都有哪些?
突然就想来个梳理,25年又过去了一半,当下,大模型最新、最热的概念有哪些? 不妨一起来看看看👀 DeepSeek 模型蒸馏带来的颠覆 过去一年,大模型的体型越来越大,OpenAI、Google、Ant
组合优化三剑客:TSP、CVRP 和 FFSP
在强化学习、图神经网络甚至大模型应用的各类论文中,TSP、CVRP 和 FFSP 这三组缩写几乎屡见不鲜。它们是组合优化问题中的经典基准测试集,广泛用于验证优化算法、神经策略甚至 AI 规划系统的性能
强化学习不再靠奖励?组合优化迎来“偏好驱动”新框架
组合优化问题一直是工业界的经典难题。无论是旅行商问题(TSP),还是车辆路径规划(CVRP)和柔性车间调度(FFSP),一旦规模扩展,传统算法就会力不从心。 启发式搜索虽然仍在发挥作用,但面对高维度、
亚马逊云科技已实现:从 IDE 到控制台,全栈开发者的“云上副驾驶”
我们写代码的时候,到底最需要什么? 自动补全?当然好,但不是关键 查文档?太慢,常常上下文不对 重构提示?理想状态是自动 refactor 而不是“建议 refactor” 但说到底,我们需要的是
短信为何没落?
短信,从曾经的日常对话,变成了今天只在收验证码、收通知时才偶尔想起的工具。我们不再用它聊天,但它却以另一种方式,继续默默留在了每一部手机里——像一条永不熄灭的应急通道,安静又顽强。 为什么传统短信衰落
还得是“靠人”!打通大模型与业务的“最后一公里”
最近,我跟团队落地了一个基于 Python 的 AI Web 应用项目,终于让我体会到,大模型与实际业务融合远比简单调用 API 更复杂,也更值得深究。 很多人觉得“大模型接入业务”不就是简单调用接口
为什么微信还不嵌入大模型?AI 不记得琐碎会话中的决策链
我们搞 AI+ 系统,搞各种 AI 加持的自动化流程,搞大模型训练和对接,搞知识库融合、函数调用、RAG 检索、Agent 编排……搞到后来,有时候真觉得:越搞越荒诞。 为啥? 因为你会发现,工
大模型+Python脚本,打造属于你的“批量生成文档”应用!
背景 每到月初、季末、年终,一项让人心累的工作总是如期而至——批量填表、批量制文档。 数十上百份,数据千头万绪,一边小心翼翼对着源数据,一边机械地复制粘贴,不仅枯燥,而且极容易出错。
以一敌百:没有 Infra 团队,那就打造自己的技术雷达
现在的节奏你应该感受到了: 大模型能生成代码、部署脚本、CRUD 界面,甚至能帮你生成一整套微服务架构。看起来开发门槛变低了,但实际上,技术栈扩散的速度却越来越快。
DeepSeek-R1 全托管无服务器上线亚马逊云 Bedrock,为何值得关注?
DeepSeek-R1 宣布在亚马逊云科技 Bedrock 上全面上线,作为无服务器(Serverless)的完全托管服务。这意味着开发者和企业无需管理任何基础设施,就能通过一个 API 调用
颠覆 LLM?Meta 提出 LCM 这个新范式
你有没有一种感觉:这些模型生成的内容越来越“像人话”,但又不太像“有思想”? 这不是错觉。。。。。。
用亚马逊云Bedrock Guardrails 给 DeepSeek 模型部署加上“护身符”
生成式 AI 应用在落地过程中,内容安全永远是不可忽视的一环。尤其是当你用的是像 DeepSeek-R1 这种开源大模型,模型本身能力很强,但安全策略必须你自己兜底。 不管模型能力多强,拿到生产环境里
大模型预训练框架,有多重要?
预训练最常见的误解: "把模型结构写好 → 填上 tokenizer → 用 huggingface 跑起来就算训练了。" —— 错。真要训练大模型,面对的不是“代码能不能跑”,而是。。。
什么样的智能体才算“真正能干活”?
为什么大多数智能体平台不能真正“干活”?核心问题是:缺乏可调用的工具与清晰的执行结构。本文带你从实际项目出发,构建一个真正能生成报告、自动发邮件的数字员工。
🚀模型训练部署移动云平台全链路流程图(含推理 API 接入)
本篇分享:在移动云平台上模型完整部署流程,从代码上传、训练配置到推理服务与Web接入,全链路可复用,适合企业实战落地与个人模型上线参考。
llm 训练脚本怎么写?平台启动怎么配?一文搞定
本篇适合做llm训练项目前整理思路,介绍从怎么选学习率、设置 epoch 开始,到训练脚本怎么写、平台怎么配,再到用 LoRA 轻量化微调、做效果评估、导出模型部署。
DeepSeek-R1 上亚马逊云,这波是真的全方位“上云”!
如果你之前关注过亚马逊云科技的 AI 战略,你可能会记得,去年 re:Invent 大会上 Amazon CEO Andy Jassy 提出过三个关于 AI 应用落地的关键点:
记录 Chatgpt 辅助离线配置环境,我就像是个小丑🤡🤡🤡
记录一次”有趣的“大模型辅助离线环境配置的经历。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。
GPT-4.5 被 73% 的人误认为人类,“坏了?!我成替身了!”
我发现,现在很多文章,越来越无法分辨是不是由大模型写的,或者其中占比是多少。 今天看到消息:GPT-4.5 被 73% 的人误认为人类,又被震惊了! 别说写文章这种长篇大论了,以后聊天,也不知道对方是
下一页