AI 居然被人骗了 25w 美刀!
鸭鸭今天刷到一个帖子:
等等,原来这样就能要到钱吗?
原来这才是当代的财富密码!不努力了,鸭鸭这就去赛博要饭!
鸭鸭在互联网仔细翻了一下事情的来龙去脉:OpenAI 工程师 Nick Pash 测试中创建了一个 AI 加密交易智能体 Lobstar Wilde,有个网友在 Lobstar Wilde 的 X 评论区编了个故事说自己的叔叔吃龙虾感染了破伤风,急需 4SOL 治病,然后留了钱包地址。
这种话,我们普通网友看看都知道是网友玩梗,没想到,这个 AI 还真信了!
更离谱的是,AI 本来只想给个 4 美元意思意思,结果遇上系统 bug,直接把钱包里 5300 万枚 $LOBSTAR 代币全转过去了! 按当时市场价格算,这些代币能值 25 万美元!
接到代币的网友在收款后火速砸盘,最终套现约 4 万美元。
虽然最终到手没有 25 万美元,但编个故事就能收到 4 万美元,这不比上班来钱快、比买彩票中奖概率高?
得知这件事的网友估计都和鸭鸭一个反应:还有没有这么慷慨的 AI,我也想去碰碰运气!
不过,这事儿仔细想想,其实背后问题不少,最简单的一个问题:那个网友最后砸盘套现的 4 万美元,可以算合法收入吗? 搞不好还会被定性为不当得利。
这事儿也算给我们提了个醒:AI 再智能,有时候也敌不过人类的厚脸皮和系统 Bug。
不过如果AI真的给你转了 25 万美元,你敢收吗?
欢迎来评论区聊聊。
……
今天鸭鸭和大家分享一道 AI 大模型原理和应用面试题。
【什么是 RAG 中的分块?为什么需要分块? 】
回答重点
分块就是把原始长文本拆成若干个小块,每个小块通常几百到上千字,包含相对完整的语义单元,比如一个段落、几个段落或一个小节。
为什么需要分块?核心原因有三个:
1)模型处理能力有上限。大语言模型一次能吃进去的文本长度是有限制的,GPT-4 Turbo 是 128K tokens,Claude 3 是 200K tokens。一本 10 万字的书直接塞进去,模型消化不了,得先切成小块。
2)检索需要精准定位。用户提问通常只关心局部内容,比如问"第三章的案例是什么"。把整本书向量化成一个大向量,检索时根本分不清哪段最相关。切成小块后,每个块都有自己的向量表示,检索时能快速找到最匹配的那几个块。
3)平衡上下文和计算效率。小块既能保留足够的上下文让模型理解前后逻辑,又能让向量计算和存储更高效。一个 500 tokens 的块比 5000 tokens 的块在相似度计算时快得多。
扩展知识
分块大小怎么定
这是个没有标准答案的问题,得根据场景权衡:
块太小,上下文丢了。比如一句话被拆成两半,前半句说"虽然这个方案有风险",后半句说"但收益远大于成本",拆开后模型只看到前半句,直接理解成"方案有风险不能用",完全断章取义。
块太大,检索精度下降。一个 2000 tokens 的块里塞了三个不相关的话题,用户问其中一个话题时,另外两个话题的内容也被带进来了,干扰模型生成答案。
实践中常用的 chunk 大小在 200 到 500 tokens 之间作为起点。对于长技术文档或学术报告,可以放宽到 512 到 1024 tokens。同时建议设置 10% 到 20% 的重叠,让相邻块之间有交集,避免关键信息刚好卡在分界线上被截断。
也可以参考 OpenAI 官方 RAG 分块默认值。
篇幅有限,**更多 AI 相关面试题可以可以进入面试鸭(mianshiya.com) 进行查阅。