首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
LLM
掘金安东尼
创建于2024-02-04
订阅专栏
深入探讨PyTorch、TensorFlow框架在大规模语言模型(LLM)领域的应用与优化,为读者提供前沿的技术洞见和实用的开发经验。
等 45 人订阅
共56篇文章
创建于2024-02-04
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
GPT-5 发布:把模型的“切换权”还给模型自己!
就在昨晚!OpenAI 正式发布 GPT-5,并把它设为 ChatGPT 的默认模型。 这一代的变化不是“再大一点的模型”,而是把快模型 + 深度推理模型 + 实时路由器整合成一个统一系统:能判
python 代码实战详解:金融风控场景下的大模型挑战
在金融风控这一对准确性、可解释性要求极高的领域,我们会发现通用大模型往往"力不从心"。 想象这样一个场景: 某银行的信贷风控系统需要评估一笔企业贷款申请。系统需要分析企业的财务报表、现金流预测、行业风
大模型为何迟迟无法真正融入微信?
当所有人都在谈论 AI 如何改变世界的时候,我们却发现一个有趣的现象:拥有 13 亿用户的微信,至今仍然是一个相对"传统"的社交平台。ChatGPT 火了两年,Claude、GPT-4 轮番上阵,但微
AI 的十年周期规律:从专家系统到大模型,下一步是什么?
从 1980 年的专家系统,到 2023+ 年的大模型浪潮,AI 每十年一次“轮回”,技术更迭,范式切换。我们站在又一次临界点上,必须思考:下一步,到底是什么? ⏳ 一、40年简史:AI 每十年一次范
Cursor 发布 Web 和移动端 Agent:随时随地,开启编程!
Cursor 官方6.30日宣布,其智能编程助手正式登陆 Web 和移动端。开发者无需再局限于本地 IDE,无论是在电脑浏览器,还是在手机和平板上,Cursor Agent 都可以随时随地协助完成编码
百度文心4.5系列正式开源:国产大模型走到了世界牌桌正中央
2024年,DeepSeek R1 一战成名;2025年,OpenAI 不再嘴硬,终于也开始试探性地“Open”;谷歌一边推进 Gemini,一边推出轻量化的开源多模态 Gemma 系列……AI大模型
换了无数键盘、工学椅,却从没认真选过一块为程序员“注意力”设计的屏
注意力就是生产力 大模型的时代,我们意识到“自注意力”这件事情是最宝贵的!模型需要注意力,人更需要! 对程序员来说,写代码早已不是靠蛮力敲键盘,大模型能帮我们生成代码没错,但更依赖靠脑中的线程稳定运
又有新的大模型训练策略啦?
过去两年,对齐技术像被按下快进键:RLHF 让模型首次听懂“好坏”,DPO 把训练成本打五折,RLAIF 把标注员换成 GPT-4,Constitutional AI 甚至给模型立了一部“宪法”。
从 0 构建 AI Demo?这份“云上 0 元清单”你值得拥有!
学习大模型相关技术,准备写个小应用跑通前后端、调用模型接口、做个简洁的可视化界面,但做到一半就卡住了—— 往往不是卡在代码,而是卡在基础设施。“服务器去哪开?云服务动不动就几百起步”
投篮左手不如右手,应该怎么练?机器学习“徐-罗奇定理”给出答案
最近参加一次关于“机器学习理论前沿”的专题讲座,听到了徐宗本院士分享的一段经历,其中提到他在误差建模领域的重要贡献——徐-罗奇定理 这是我第一次系统听说这个定理,但听完后,有种“原来一直在用,却不知道
25年了,大模型最新的技术和概念“究竟”都有哪些?
突然就想来个梳理,25年又过去了一半,当下,大模型最新、最热的概念有哪些? 不妨一起来看看看👀 DeepSeek 模型蒸馏带来的颠覆 过去一年,大模型的体型越来越大,OpenAI、Google、Ant
组合优化三剑客:TSP、CVRP 和 FFSP
在强化学习、图神经网络甚至大模型应用的各类论文中,TSP、CVRP 和 FFSP 这三组缩写几乎屡见不鲜。它们是组合优化问题中的经典基准测试集,广泛用于验证优化算法、神经策略甚至 AI 规划系统的性能
强化学习不再靠奖励?组合优化迎来“偏好驱动”新框架
组合优化问题一直是工业界的经典难题。无论是旅行商问题(TSP),还是车辆路径规划(CVRP)和柔性车间调度(FFSP),一旦规模扩展,传统算法就会力不从心。 启发式搜索虽然仍在发挥作用,但面对高维度、
亚马逊云科技已实现:从 IDE 到控制台,全栈开发者的“云上副驾驶”
我们写代码的时候,到底最需要什么? 自动补全?当然好,但不是关键 查文档?太慢,常常上下文不对 重构提示?理想状态是自动 refactor 而不是“建议 refactor” 但说到底,我们需要的是
短信为何没落?
短信,从曾经的日常对话,变成了今天只在收验证码、收通知时才偶尔想起的工具。我们不再用它聊天,但它却以另一种方式,继续默默留在了每一部手机里——像一条永不熄灭的应急通道,安静又顽强。 为什么传统短信衰落
还得是“靠人”!打通大模型与业务的“最后一公里”
最近,我跟团队落地了一个基于 Python 的 AI Web 应用项目,终于让我体会到,大模型与实际业务融合远比简单调用 API 更复杂,也更值得深究。 很多人觉得“大模型接入业务”不就是简单调用接口
为什么微信还不嵌入大模型?AI 不记得琐碎会话中的决策链
我们搞 AI+ 系统,搞各种 AI 加持的自动化流程,搞大模型训练和对接,搞知识库融合、函数调用、RAG 检索、Agent 编排……搞到后来,有时候真觉得:越搞越荒诞。 为啥? 因为你会发现,工
大模型+Python脚本,打造属于你的“批量生成文档”应用!
背景 每到月初、季末、年终,一项让人心累的工作总是如期而至——批量填表、批量制文档。 数十上百份,数据千头万绪,一边小心翼翼对着源数据,一边机械地复制粘贴,不仅枯燥,而且极容易出错。
以一敌百:没有 Infra 团队,那就打造自己的技术雷达
现在的节奏你应该感受到了: 大模型能生成代码、部署脚本、CRUD 界面,甚至能帮你生成一整套微服务架构。看起来开发门槛变低了,但实际上,技术栈扩散的速度却越来越快。
DeepSeek-R1 全托管无服务器上线亚马逊云 Bedrock,为何值得关注?
DeepSeek-R1 宣布在亚马逊云科技 Bedrock 上全面上线,作为无服务器(Serverless)的完全托管服务。这意味着开发者和企业无需管理任何基础设施,就能通过一个 API 调用
下一页