首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
LLM
掘金安东尼
创建于2024-02-04
订阅专栏
深入探讨PyTorch、TensorFlow框架在大规模语言模型(LLM)领域的应用与优化,为读者提供前沿的技术洞见和实用的开发经验。
等 45 人订阅
共56篇文章
创建于2024-02-04
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
颠覆 LLM?Meta 提出 LCM 这个新范式
你有没有一种感觉:这些模型生成的内容越来越“像人话”,但又不太像“有思想”? 这不是错觉。。。。。。
用亚马逊云Bedrock Guardrails 给 DeepSeek 模型部署加上“护身符”
生成式 AI 应用在落地过程中,内容安全永远是不可忽视的一环。尤其是当你用的是像 DeepSeek-R1 这种开源大模型,模型本身能力很强,但安全策略必须你自己兜底。 不管模型能力多强,拿到生产环境里
大模型预训练框架,有多重要?
预训练最常见的误解: "把模型结构写好 → 填上 tokenizer → 用 huggingface 跑起来就算训练了。" —— 错。真要训练大模型,面对的不是“代码能不能跑”,而是。。。
什么样的智能体才算“真正能干活”?
为什么大多数智能体平台不能真正“干活”?核心问题是:缺乏可调用的工具与清晰的执行结构。本文带你从实际项目出发,构建一个真正能生成报告、自动发邮件的数字员工。
🚀模型训练部署移动云平台全链路流程图(含推理 API 接入)
本篇分享:在移动云平台上模型完整部署流程,从代码上传、训练配置到推理服务与Web接入,全链路可复用,适合企业实战落地与个人模型上线参考。
llm 训练脚本怎么写?平台启动怎么配?一文搞定
本篇适合做llm训练项目前整理思路,介绍从怎么选学习率、设置 epoch 开始,到训练脚本怎么写、平台怎么配,再到用 LoRA 轻量化微调、做效果评估、导出模型部署。
DeepSeek-R1 上亚马逊云,这波是真的全方位“上云”!
如果你之前关注过亚马逊云科技的 AI 战略,你可能会记得,去年 re:Invent 大会上 Amazon CEO Andy Jassy 提出过三个关于 AI 应用落地的关键点:
记录 Chatgpt 辅助离线配置环境,我就像是个小丑🤡🤡🤡
记录一次”有趣的“大模型辅助离线环境配置的经历。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。
GPT-4.5 被 73% 的人误认为人类,“坏了?!我成替身了!”
我发现,现在很多文章,越来越无法分辨是不是由大模型写的,或者其中占比是多少。 今天看到消息:GPT-4.5 被 73% 的人误认为人类,又被震惊了! 别说写文章这种长篇大论了,以后聊天,也不知道对方是
为什么GPT-4o可以生成吉卜力风格照片,原理是什么?
本文深入解析GPT-4o生成吉卜力风格图像的技术原理,涵盖Transformer架构、多模态对齐机制、扩散模型生成流程,以及模型如何通过大规模图文数据学习风格特征。文章结合结构图与案例
MCP:大模型落地的关键路径 —— 程序员的新机会
现在的大模型落地不理想,真正的落地,应该是落地到各个企业、各个生产环节,想一想:比如在浏览器中命令大模型处理公司 ERP 系统的内容 —— 帮我总结公司会议关键信息、帮我分析一下系统数据趋势。。。
🚀使用 Trae + SSH “急速开发”一个可以公网访问的 web 社区应用!!
废话背景不多说,直接开冲!本文通过一个实践,详细展示如何利用阿里云ECS、Trae SSH以及AI指令,从零开始快速搭建一个技术社区的Python Web应用。
llm落地困境破局?工作流如何成为程序员的「场景化改造」利器
最近有个感触就是:大模型想要落地,还得是依靠工作流。 众所周知,大模型是通用模型,大小公司要么是卖模型的、要么是买模型的,大家发现在专业场景下,大模型处理还是乏力。 融合大模型的重心似乎没有侧重在
说人话有多重要?大模型中的困惑度
我们常看到「困惑度」。它像一把标尺,衡量着AI生成文本的流畅度,决定着模型能否在手机端运行的生死线。 今天本篇将揭开这个指标的面纱
从BERT到DeepSeek的技术跃迁,关于“认知”的革命
2025年初,大模型生态最火的莫过于 DeepSeek 的出圈了! 这家2023年7月才成立的公司,可以说是以一己之力,扭转了主流大模型竞争的方向与局面。 它靠纯强化学习训练框架,硬是把1750亿参数
总被提示“服务器繁忙”?推荐10个DeepSeek R1平台入口
DeepSeek 自今年1月R1模型发布后,日活用户突破4000万,服务器负载远超预期。官方服务的卡顿问题已成为用户痛点,我们常常都会遇到"服务器繁忙,请稍后重试"提示,尤其在工作日高峰期
大模型编码“吊打“低代码的基本逻辑
低代码平台曾像自助火锅拯救厨房小白一样解救过许多人。。。然而,当低代码还在用乐高积木搭房子时,大模型编码已经掏出3D打印机开始造电梯了。。。
何谓 DeepSeek “蒸馏”?
可以说 DeepSeek通过“大模型强化学习+小模型蒸馏”的技术路径,不仅能与OpenAI的正面竞争,更提供了一个新的大模型研发思路。本篇一起来深入了解一下:何谓 DeepSeek “蒸馏”?
DeepSeek再次引爆大模型,扎克伯格称:非常厉害!
最近这些天被 DeepSeek 刷屏了,简而言之, DeepSeek 用超低的成本实现了和 ChatGPT o1 类似的效果,在多项测评中甚至还能领先,且它还是开源的! 这对于当前大模型来说,简直是爆
RAG BM25 算法和重排,微调以外的手段
许多开发者开始通过定制化的调优提升模型性能。 微调虽然能够提高模型的专门性,但也面临问题。。。。本篇介绍RAG BM25 算法和重排技术。
下一页