首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
LLM
掘金安东尼
创建于2024-02-04
订阅专栏
深入探讨PyTorch、TensorFlow框架在大规模语言模型(LLM)领域的应用与优化,为读者提供前沿的技术洞见和实用的开发经验。
等 45 人订阅
共52篇文章
创建于2024-02-04
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
Cursor 发布 Web 和移动端 Agent:随时随地,开启编程!
Cursor 官方6.30日宣布,其智能编程助手正式登陆 Web 和移动端。开发者无需再局限于本地 IDE,无论是在电脑浏览器,还是在手机和平板上,Cursor Agent 都可以随时随地协助完成编码
百度文心4.5系列正式开源:国产大模型走到了世界牌桌正中央
2024年,DeepSeek R1 一战成名;2025年,OpenAI 不再嘴硬,终于也开始试探性地“Open”;谷歌一边推进 Gemini,一边推出轻量化的开源多模态 Gemma 系列……AI大模型
换了无数键盘、工学椅,却从没认真选过一块为程序员“注意力”设计的屏
注意力就是生产力 大模型的时代,我们意识到“自注意力”这件事情是最宝贵的!模型需要注意力,人更需要! 对程序员来说,写代码早已不是靠蛮力敲键盘,大模型能帮我们生成代码没错,但更依赖靠脑中的线程稳定运
又有新的大模型训练策略啦?
过去两年,对齐技术像被按下快进键:RLHF 让模型首次听懂“好坏”,DPO 把训练成本打五折,RLAIF 把标注员换成 GPT-4,Constitutional AI 甚至给模型立了一部“宪法”。
从 0 构建 AI Demo?这份“云上 0 元清单”你值得拥有!
学习大模型相关技术,准备写个小应用跑通前后端、调用模型接口、做个简洁的可视化界面,但做到一半就卡住了—— 往往不是卡在代码,而是卡在基础设施。“服务器去哪开?云服务动不动就几百起步”
投篮左手不如右手,应该怎么练?机器学习“徐-罗奇定理”给出答案
最近参加一次关于“机器学习理论前沿”的专题讲座,听到了徐宗本院士分享的一段经历,其中提到他在误差建模领域的重要贡献——徐-罗奇定理 这是我第一次系统听说这个定理,但听完后,有种“原来一直在用,却不知道
25年了,大模型最新的技术和概念“究竟”都有哪些?
突然就想来个梳理,25年又过去了一半,当下,大模型最新、最热的概念有哪些? 不妨一起来看看看👀 DeepSeek 模型蒸馏带来的颠覆 过去一年,大模型的体型越来越大,OpenAI、Google、Ant
组合优化三剑客:TSP、CVRP 和 FFSP
在强化学习、图神经网络甚至大模型应用的各类论文中,TSP、CVRP 和 FFSP 这三组缩写几乎屡见不鲜。它们是组合优化问题中的经典基准测试集,广泛用于验证优化算法、神经策略甚至 AI 规划系统的性能
强化学习不再靠奖励?组合优化迎来“偏好驱动”新框架
组合优化问题一直是工业界的经典难题。无论是旅行商问题(TSP),还是车辆路径规划(CVRP)和柔性车间调度(FFSP),一旦规模扩展,传统算法就会力不从心。 启发式搜索虽然仍在发挥作用,但面对高维度、
亚马逊云科技已实现:从 IDE 到控制台,全栈开发者的“云上副驾驶”
我们写代码的时候,到底最需要什么? 自动补全?当然好,但不是关键 查文档?太慢,常常上下文不对 重构提示?理想状态是自动 refactor 而不是“建议 refactor” 但说到底,我们需要的是
短信为何没落?
短信,从曾经的日常对话,变成了今天只在收验证码、收通知时才偶尔想起的工具。我们不再用它聊天,但它却以另一种方式,继续默默留在了每一部手机里——像一条永不熄灭的应急通道,安静又顽强。 为什么传统短信衰落
还得是“靠人”!打通大模型与业务的“最后一公里”
最近,我跟团队落地了一个基于 Python 的 AI Web 应用项目,终于让我体会到,大模型与实际业务融合远比简单调用 API 更复杂,也更值得深究。 很多人觉得“大模型接入业务”不就是简单调用接口
为什么微信还不嵌入大模型?AI 不记得琐碎会话中的决策链
我们搞 AI+ 系统,搞各种 AI 加持的自动化流程,搞大模型训练和对接,搞知识库融合、函数调用、RAG 检索、Agent 编排……搞到后来,有时候真觉得:越搞越荒诞。 为啥? 因为你会发现,工
大模型+Python脚本,打造属于你的“批量生成文档”应用!
背景 每到月初、季末、年终,一项让人心累的工作总是如期而至——批量填表、批量制文档。 数十上百份,数据千头万绪,一边小心翼翼对着源数据,一边机械地复制粘贴,不仅枯燥,而且极容易出错。
以一敌百:没有 Infra 团队,那就打造自己的技术雷达
现在的节奏你应该感受到了: 大模型能生成代码、部署脚本、CRUD 界面,甚至能帮你生成一整套微服务架构。看起来开发门槛变低了,但实际上,技术栈扩散的速度却越来越快。
DeepSeek-R1 全托管无服务器上线亚马逊云 Bedrock,为何值得关注?
DeepSeek-R1 宣布在亚马逊云科技 Bedrock 上全面上线,作为无服务器(Serverless)的完全托管服务。这意味着开发者和企业无需管理任何基础设施,就能通过一个 API 调用
颠覆 LLM?Meta 提出 LCM 这个新范式
你有没有一种感觉:这些模型生成的内容越来越“像人话”,但又不太像“有思想”? 这不是错觉。。。。。。
用亚马逊云Bedrock Guardrails 给 DeepSeek 模型部署加上“护身符”
生成式 AI 应用在落地过程中,内容安全永远是不可忽视的一环。尤其是当你用的是像 DeepSeek-R1 这种开源大模型,模型本身能力很强,但安全策略必须你自己兜底。 不管模型能力多强,拿到生产环境里
大模型预训练框架,有多重要?
预训练最常见的误解: "把模型结构写好 → 填上 tokenizer → 用 huggingface 跑起来就算训练了。" —— 错。真要训练大模型,面对的不是“代码能不能跑”,而是。。。
什么样的智能体才算“真正能干活”?
为什么大多数智能体平台不能真正“干活”?核心问题是:缺乏可调用的工具与清晰的执行结构。本文带你从实际项目出发,构建一个真正能生成报告、自动发邮件的数字员工。
下一页