获得徽章 0
- 今天听了一场关于 Generative World Models(生成式世界模型) 的讲座,我最大的感受是:
我们一直把 Agent 当成“会调用工具的 ChatGPT”,但下一代 Agent 更像“会做梦的行动者”。
所谓世界模型,说白了就是:
AI 能在脑内模拟未来——“我如果这样做,会发生什么?”
这一步才是从“执行型助手”走向“决策型智能体”的分水岭。
💡洞察1:工具调用是外包能力,世界模型是内生能力
现在很多 Agent 看起来很强,其实是把任务外包给工具:搜资料、写代码、跑数据、生成图像……
但问题是:它会用工具,却不懂行动后果。
所以你会看到:计划写得很漂亮,执行就翻车;信息缺一点就卡住;长期任务完全不稳定。
世界模型的意义是让 Agent 有“内部模拟器”,能先预演再行动。
💡洞察2:2026 拼的不是“生成质量”,而是“可控 + 可交互”
过去我们看视频模型最在意“像不像”“美不美”。
但真正能用来做世界模拟的模型,最怕的是:
同一个物体 5 秒后变形、身份漂移、场景突然切换;你给动作,它却不按动作走。
所以未来关键指标会变成:
长时一致性(long-term consistency)+ 交互性(interactivity)
这不是“艺术”,而是“物理”。
💡洞察3:Agent 会从 “LLM+工具” 变成 “LLM+世界模型+工具”
我越来越相信未来的架构会是:
🧠 LLM 负责语言规划/解释
🌍 World Model 负责模拟与预测
🦾 工具/机器人负责真正执行
LLM 解决“要做什么”,世界模型解决“这样做会怎样”,工具解决“真的去做”。
三者合在一起,才像一个能在世界里行动的智能体。
💡洞察4:世界模型不只属于机器人,也会反向影响纯软件 Agent
我以前以为 world model 是自动驾驶/机器人专属。
但其实软件世界也需要“环境模拟”:
网页操作、企业系统流程、项目管理、代码运行调试……都是动态的、需要持续交互的环境。
如果没有内部模拟,Agent 只能靠不断试错 + 回滚,效率低、风险高。
#AI #人工智能 #AI趋势 #2026趋势 #AI学习 #AI笔记 #AI科普 #AIAgent #智能体 #世界模型 #WorldModel #多模态 #视频生成 #生成式AI #强化学习 #RL展开等人赞过14 - 最近刷到李飞飞谈 K12 教育的一段视频。她说得很尖锐:K12 很大程度是在浪费学生的时间——因为 AI 正在快速证明,很多任务机器也能完成。教育应该更偏向创造力、更偏向“人类该做的事”。
我第一反应不是愤怒,而是害怕。
我想到自己读书时班里那种“最稳的人”:不一定天赋最好,但每天刷题、背单词、整理错题本,靠系统性努力一步步往上走。我们这一代很多普通人,靠的就是这套应试路径:它痛苦、机械、让人窒息,但它也提供了一个现实的可能——只要肯熬,就还有上升通道。
所以当有人说“这一切都没必要”时,我忍不住问:那普通人还能靠什么?收获1:教育不只是知识,更是上升通道
K12 的意义不只是学会多少内容,而是它在现实里提供了一套相对统一的规则:努力 → 结果 → 改变命运的概率。它不完美,但对普通人来说,它是一块“底板”。底板被抽走,真正危险的不是效率低,而是机会变少。收获2:AI不会消灭内卷,只会升级内卷
AI 个性化教育确实强:因材施教、即时反馈、无限陪练,传统课堂做不到。但它也可能成为差距放大器:资源多的人更早拿到更好的工具、更好的内容、更好的路径,学习效率被技术直接拉开。过去你还能靠“熬”追一点,未来可能变成对方开外挂,你徒手攀岩。收获3:普通人的务实答案是进入,而不是旁观
你可以选择不碰 AI,但那等于主动放弃一张可能通往未来的门票。门票未必保证你到达,但没有门票,你连上车资格都没有。对普通人来说,最务实的策略就一句:
多用、多感受、多练习。
别等体系给答案,先让自己在新工具里活下来。
#李飞飞 #AI教育 #K12 #教育公平 #应试教育 #未来社会 #AI时代 #内卷 #普通人怎么办 #学习方法展开等人赞过36 - 最近刷到李飞飞谈 K12 教育的一段视频。她说得很尖锐:K12 很大程度是在浪费学生的时间——因为 AI 正在快速证明,很多任务机器也能完成。教育应该更偏向创造力、更偏向“人类该做的事”。
我第一反应不是愤怒,而是害怕。
我想到自己读书时班里那种“最稳的人”:不一定天赋最好,但每天刷题、背单词、整理错题本,靠系统性努力一步步往上走。我们这一代很多普通人,靠的就是这套应试路径:它痛苦、机械、让人窒息,但它也提供了一个现实的可能——只要肯熬,就还有上升通道。
所以当有人说“这一切都没必要”时,我忍不住问:那普通人还能靠什么?收获1:教育不只是知识,更是上升通道
K12 的意义不只是学会多少内容,而是它在现实里提供了一套相对统一的规则:努力 → 结果 → 改变命运的概率。它不完美,但对普通人来说,它是一块“底板”。底板被抽走,真正危险的不是效率低,而是机会变少。收获2:AI不会消灭内卷,只会升级内卷
AI 个性化教育确实强:因材施教、即时反馈、无限陪练,传统课堂做不到。但它也可能成为差距放大器:资源多的人更早拿到更好的工具、更好的内容、更好的路径,学习效率被技术直接拉开。过去你还能靠“熬”追一点,未来可能变成对方开外挂,你徒手攀岩。收获3:普通人的务实答案是进入,而不是旁观
你可以选择不碰 AI,但那等于主动放弃一张可能通往未来的门票。门票未必保证你到达,但没有门票,你连上车资格都没有。对普通人来说,最务实的策略就一句:
多用、多感受、多练习。
别等体系给答案,先让自己在新工具里活下来。
#李飞飞 #AI教育 #K12 #教育公平 #应试教育 #未来社会 #AI时代 #内卷 #普通人怎么办 #学习方法展开评论点赞 - 说个很真实的经历。
前段时间我在整理几本扫描版的技术书和论文合集,PDF 打开一看:
不能复制、不能搜索、页眉页脚乱飞,公式全是图片。
我一开始的想法很简单:OCR 一下,转成 Markdown,丢进笔记库。
结果……直接掉坑里。
一、我踩过的坑,比你想的多
我试过的方案包括但不限于
各种在线 OCR(慢 + 有页数限制)
本地 OCR(文本是出来了,结构没了)
PDF 转 Word(公式直接变成乱码)
LLM + OCR(慢到怀疑人生,还经常失败)
最崩溃的是:
一本书转完,我还得花几个小时手动整理结构。
那一刻我意识到:
问题根本不是“能不能识别文字”,
而是——能不能把它当一本“书”来处理。
二、我为什么会注意到 PDF Craft?
说实话,一开始我并没抱太大希望。
直到我看到一句介绍:
专注处理扫描版书籍 PDF
这句话直接戳中我痛点。
我真正需要的是:
自动区分正文 / 页眉 / 页脚
能识别章节结构
公式、表格、脚注别给我搞没了
然后我试了 PDF Craft。
三、第一次跑完,我是真的愣住了
不是“勉强能用”,而是:结果明显是“给人看的”。
它帮我做了几件以前只能手动干的事:
自动过滤页眉页脚
按章节生成结构
脚注、表格、公式都在
直接输出 Markdown / EPUB
尤其是 EPUB:
目录是自动生成的,丢进阅读器就能看。
那一刻我是真的松了一口气。
四、一个让我决定长期用它的点
作为一个常年折腾 AI 工具的人,我特别在意一件事:稳不稳定
PDF Craft v1.0 之后有个很重要的变化:
完全本地跑,不再依赖大模型在线纠错。
对我来说意味着:
不怕网络抽风
不用等接口
不担心隐私
跑一整本书也不心慌
这点真的很加分。
五、现在我一般怎么用它?
我的常规流程是:
1️⃣ 扫描版 PDF → PDF Craft
2️⃣ 转成 Markdown(进知识库)
3️⃣ 或直接转 EPUB(当电子书看)
以前一周的活,现在基本一天搞定。
#AI工具 #效率工具 #生产力工具 #PDF处理 #扫描版PDF #论文整理 #知识管理 #电子书制作 #研究生必备 #科研党 #程序员日常 #被PDF折磨的一天 #工具改变生活展开评论点赞 - 最近豆包手机爆火,很多人问我,豆包手机的自动操作到底能不能在普通手机上实现。我最近集中测试了三款不同的智能体,它们都能在手机上执行真实动作,完成跨应用的复杂任务。这里按我自己的真实体验整理,方便大家选择。
1. AutoGLM Phone Agent
它用 ADB 控制安卓手机,也是我最早上手成功的智能体。对我来说,它的最大优势是稳定。我第一次测试时,只给它一句指令,让它打开小红书并搜索上海咖啡店。它能判断自己当前在桌面,从桌面启动应用,再定位到搜索框并输入内容。整个过程的动作序列很自然。我又试了淘宝、微信等应用,识别率和执行质量都不错。更重要的是,它支持无线调试,只要电脑和手机在同一个网络里就能直接操作,这一点对我做自动化测试特别有用。
2. MobiAgent
相较于 AutoGLM,它更像是一个“会思考的手机大脑”。我在密集测试中发现,它最大的特点是能进行多任务处理,而且具备一定的偏好记忆和经验检索能力。我给它设计了一个完整流程:先在小红书找畅销牛仔裤,再切到淘宝比价,最后把结果通过微信发给同事。原本以为会中断,但它整个链路都执行下来了。尤其是跨应用跳转时的判断,很接近真实用户操作。用几次之后,它执行同类任务的速度明显更快,这说明经验模块确实在起作用。如果你希望手机自动处理复杂流程,这款的上限更高。
3. PhoneAgent
这是我在 iPhone 上找到的可行方案。因为 iOS 生态限制多,我原本不抱太大希望,但它使用 Xcode 的测试框架获取界面信息,再让模型做规划和动作执行。我第一次试的时候,让它给朋友发消息。它能准确打开信息应用、定位对话框、输入内容并发送。虽然速度比安卓方案略慢,但考虑到无需越狱,这个能力已经非常突破。我后来又试了设置类操作,例如切换某些系统项,也能正常完成。对纯 iPhone 用户来说,它算是真正能执行动作的智能体,而不是只停留在“问答层面”的助理。
#手机智能体 #手机自动化 #豆包手机平替 #AI工具 #安卓自动化 #iOS自动化
#人机协同 #AI实测体验 #工作提效展开赞过评论1 - 最近在研究 Nano Banana Pro,发现一个超强提示词宝库,把最好用、最容易出图惊艳的风格都整理给你们——新手直接套用就能爆量!
1. 超写实氛围大片
关键词:hyper-realistic、8k、golden rim light
效果:皮肤细节清晰、光影绝美,做封面超强。
✨ 2. 2000 年代数码相机自拍
关键词:early-2000s digital camera、harsh flash、grain
效果:复古 Y2K 风,随便一张都像旧相册翻出来的。
👼 3. 维密后台闪光灯
关键词:Victoria’s Secret、feather wings、crystal beading
效果:闪亮华丽、摄影棚感十足,写真必备。4. 无限递归猫图
一句话:recursive image of a cat holding an iPad
效果:无限循环,超级洗脑好玩。
📊 5. 草图秒变麦肯锡流程图
关键词:McKinsey style、vector、strict grid
效果:职场利器,白板涂鸦能直接变 PPT 素材。
🎞️ 6. Portra 电影感人像
关键词:Kodak Portra 400、golden hour、film grain
效果:氛围大片质感,自拍直接拉满故事感。
🧸 7. Pop Mart 3D 头像
关键词:C4D、Q 版、soft lighting
效果:可爱到爆的盲盒风,换头像首选。
#nanobanana #AI绘图 #提示词共享 #AI写真 #Y2K自拍 #3D头像 #小红书AI
这些提示词都是实测最稳的风格,有图需求的可以留言我帮你写。展开评论点赞 - 最近听了一场闭门分享,我对中国 AI 出海的认知被彻底改写了。原来我们在全球的竞争力,已经悄悄发生了质变。
① Web 端回到主舞台
AI 应用的核心场景在桌面端,Web 上线快、迭代快、不需要审核,比 App 更适合出海测试。很多团队发现:Web 做强了,App 可做可不做。
② 中国团队的体量越来越大
百万级 MAU 应用不断增加,千万级别也在扩张。不是“偶然爆款”,是整体实力在提升。
③ 传统 App 团队 + 原生 AI 团队全线加速
ChatGPT 后,中国团队反应极快:
新团队直接做海外
老团队迅速把产品 AI 化
中国式优势就是:快、落地、能商业化。
④ 视觉赛道是中国天然强项
视频、图片、剪辑类应用几乎占了榜单一半。视觉内容自带传播效应,中国团队又擅长做工具类,增长自然更快。
⑤ AI 虚拟人正在爆发
日均使用时长超过 50 分钟,是我最震撼的数据。虚拟人能建立“情感连接”,而中国团队在虚拟社交方向有多年积累。
⑥ 工具类产品稳、准、能赚钱
视频生成、内容生成、RAG、Workflow…
虽不一定最热,但商业化持续稳定,生态价值很强。
⑦ 字节的打法很典型
不是押一个产品,而是大量实验、快速放大跑出来的。
这也是 AI 应用时代最高效的方法论:试出正确答案,而不是想出答案。
⑧ 出海成功团队都有三个共性
看得懂全球市场
定位清晰
流量能力强
这三点组合,就是中国 AI 的底层优势。
看完这场分享,我越来越确信:
中国 AI 出海的真正增长,才刚刚开始。#AI出海 #中国AI #AIGC #AI应用 #AI趋势 #产品洞察 #出海增长 #AI创业 #AI工具 #虚拟人展开2点赞 - 最近真的被几个朋友疯狂安利 PDF 翻译工具,因为大家最大的痛点就是:
“翻译完排版乱成一锅粥,公式也变表情符号了……”
于是我亲自去试了两个开源工具,结果真的有被震惊到。1. BabelDOC:一键翻译+双语对照居然这么丝滑
它主打“英文 PDF → 中文”的高质量翻译,可以直接生成双语版 PDF,原文和译文一左一右,非常适合技术资料、英文手册、学习文献。
亮点包括:
全文一键翻译成中文
支持输出双语对照版 PDF
扫描 PDF 也能处理(内置 OCR)
支持命令行和 API,可接入自己的工具
如果你只是想把资料快速变中文,它真的够用了。2. PDFMathTranslate:排版完整度惊人(甚至有 Zotero 插件)
这个更偏科研党使用场景,厉害的是:
公式不乱、表格不炸、结构不变。
翻译后文档的可读性非常高。
它支持:
多翻译源(Google、DeepL、OpenAI 等)
GUI、命令行、Docker 等多形态
甚至有 Zotero 插件!读文献时右键直接翻译,超爽
对于论文用户,这种“就在 Zotero 里一键翻译”的体验简直太方便。怎么选?给你一个最简单建议:
想要快速中文+对照版 → 选 BabelDOC
想让排版不乱+公式保留 → 选 PDFMathTranslate
要做自己的翻译服务 → 两个搭配最好用
我现在读英文论文基本不头疼了,这两个工具真的把“翻译 PDF”这件事提升到新高度。
#PDF翻译 #论文翻译 #翻译神器 #双语PDF #科研工具 #BabelDOC #PDFMathTranslate #Zotero展开评论点赞 - 互联网的脆弱,远超你想象…
大家好,我是 AI 博主 Charlii。
昨天你是不是也遇到了:页面卡住
登录失败
网站一直转圈
不是你网坏了。
是 Cloudflare 故障导致全球大面积宕机。
而最让我震惊的是:
罪魁祸首竟然是一个极小的系统变更。
🫧 互联网大厦,有时会被“蝴蝶效应”击倒
Cloudflare 是全球最大的网络基础设施服务之一。
它一旦出事,上万个网站瞬间停摆。
这次事故不是黑客攻击,
而是一个权限调整:
工程师给数据库设置了更细的权限展示,
却因为查询没写数据库名,
原本只返回一份数据 → 变成两份。
这些数据会被打包成“特征文件”,
反爬虫系统依赖它判断访问是不是机器人。
文件变大 → 超过硬上限 → 模块崩溃。
更糟糕的是:
文件每 5 分钟自动同步全球。
于是互联网开始“心跳骤停”:
5 分钟恢复、5 分钟故障,反复循环。
工程师一度以为遭遇大规模 DDoS 攻击。
⚠️ 那几个小时,全世界的网络都在抖
影响范围极其广:
CDN 大量 500 错
Turnstile 验证挂了
Workers KV 异常
Access 登录失效
邮件安全部分下线
旧版代理甚至把所有用户误判为“机器人”,
把正常用户直接拦在门外。
短短 3 小时,互联网的稳定性被彻底撕开。
🌪️ 最触动我的,是互联网的“脆弱”
我们习惯了:
网页随时能开
视频随时能播
但背后其实是:
无数服务协作、依赖复杂、链路极长。
一个不起眼的变更,
都可能触发全球级连锁反应。
互联网宏大,却像玻璃一样脆弱:
依靠无数微小模块拼接才能运转。
💡 这件事让我重新认识了三件事
1️⃣ 稳定,是昂贵的奢侈品
你以为的“正常”,
是无数工程师的努力换来的。
2️⃣ 越依赖网络,越要理解它
不是要你学技术,
而是理解数字世界也有极限。
3️⃣ 小改动,也能改变世界
一个字段没写,
影响的却是全球几十亿用户。
复杂系统里,没有“无关紧要”的变更。
🤍 最后问你:
昨天宕机时你的第一反应是什么?
#Cloudflare #网络宕机 #技术热点 #AI博主Charlii #数字时代 #互联网的脆弱 #工程师日常 #科技科普 #复杂系统 #热点解读 #今日份分享 #冷知识 #数字焦虑 #科技思考 #互联网安全展开评论点赞 - 我为什么开始研究截图 API?
做 AI 技术内容久了,会进入一个状态:写教程要截图、做自动化要截图、跑监控要截图。
我最痛苦的一次,是为了示例图连续重截五小时——不是比例怪,就是清晰度糟,还经常加载不全。
那一刻我意识到:
技术内容能不能高效产出,取决于截图工具选得对不对。
于是我开始系统测试三类方案:Cloudflare Screenshot API、Microlink Screenshot、Headless-try(无头浏览器)。
下面是踩坑后的真实总结。
01|追求“稳定可控”:Cloudflare Screenshot API
我做 SSR 性能教程时,各种 API 截出来不是半截样式就是半截空白,但 Cloudflare 始终稳定。
优势在于:
支持全页 & 指定元素截图
可注入 JS/CSS
可调 viewport、deviceScaleFactor
基础设施稳,适合长期跑
如果你需要高清、干净、可控的截图,它是最专业的选择。
02|追求“最快产出”:Microlink Screenshot
赶内容的时候,我只需要一句话:快点给我一张图。
Microlink 就是为这种场景设计的:
传 URL 即可
几乎零配置
十几秒搞定
适合博客封面、预览图、轻量内容制作。
03|要处理“复杂流程”:Headless-try(无头浏览器)
有些页面必须:
登录
点击
等待渲染
托管服务都搞不定。
无头浏览器的好处是:你可以完全控制页面行为,模拟任意交互,适合自动化测试与复杂任务。
最简单的选型逻辑
别从技术开始想,从需求开始想:
想简单 → Microlink
想稳定 → Cloudflare
要交互 → Headless-try
这套逻辑至今帮我节省了大量时间,也让内容产出效率提升数倍。
希望你能少踩我踩过的坑。
#AI博主charlii #截图API #Cloudflare #Microlink #无头浏览器 #技术工具拆解展开评论点赞