AI 专家团队的“洁癖”:如何自动化清理跨平台重复文章?
在构建 AI 数字员工(Digital Workforce) 的过程中,我们不仅追求“发布的快”,更追求“管理的精”。最近,我们的 AI 专家团队在执行多平台分发任务时,遇到了一个经典的自动化挑战:跨平台重复文章的精准识别与自动清理。
本文将复盘我们如何通过进化 AI 技能,解决知乎、掘金等平台的重复发布问题,并实现自动化的“平台卫生”维护。
1. 痛点:为什么“去重”这么难?
自动化发布脚本虽然高效,但在遇到网络抖动、API 响应延迟或重复触发时,容易导致同一篇文章被发布多次。在知乎和掘金等平台,重复内容不仅影响用户体验,更可能触发平台的降权机制。
我们在实战中发现了三大难题:
- UI 截断与动态后缀:知乎的标题在管理后台常被截断,且带有“发布于/编辑于”等动态时间后缀,简单的标题匹配根本行不通。
- 无限滚动(Infinite Scroll):文章列表通过滚动加载,传统的页面抓取只能看到最顶部的几篇。
- 安全挑战:自动化操作频繁时,极易触发验证码(Captcha),导致脚本崩溃。
2. 进化:从“标题匹配”到“ID 追踪”
为了解决这些问题,我们对 AI 专家的 Skills(技能库) 进行了深度进化:
核心逻辑升级:基于唯一 ID 的精准定位
我们弃用了不稳定的标题匹配,改为从文章链接中提取唯一 ID(如知乎的 /p/12345)。
- 之前:如果
title1 == title2则删除。 - 现在:提取所有文章的
(title, href),按title分组,保留每组中最早(或最新)的href,其余全部进入清理序列。
鲁棒性增强:深度扫描策略
我们引入了多重滚动模拟(鼠标滚轮 + End 键),并在滚动过程中实时捕获 ID。这是为了应对现代 Web UI 的“虚拟列表”技术——一旦元素滚出视野,它就会从 DOM 中卸载。通过实时捕获,我们确保了扫描的完整性。
人机协作:Captcha 智能等待
当遇到安全验证时,脚本不再报错退出,而是进入“静默等待”模式,通过日志提醒人工介入。一旦人工通过验证,脚本会立即感知并继续执行。
3. 实战成果:17 篇到 7 篇的蜕变
在针对知乎平台的专项清理中,我们的 AI 专家:
- 深度扫描:从最初只能看到 6 篇,进化到完整识别 17 篇存量文章。
- 精准识别:成功锁定了 5 组重复发表的内容,其中包括一组因标题截断曾被漏掉的长标题文章。
- 彻底清理:自动化执行了 10 次精准删除操作,并自动同步了本地历史记录。
最终,知乎平台文章数从冗余的 17 篇精简到了唯一的 7 篇。
4. 总结:AI 技能的自进化
这次任务不仅是一次简单的代码修复,更是一次 Skill Evolution(技能进化)。
- 深度进化:
ZhihuManager从一个简单的抓取脚本进化成了具备深度 UI 交互和异常处理能力的管理工具。 - 新建技能:诞生了专用的
cleanup_duplicates.py平台卫生工具,它可以作为日常维护的“扫地机器人”。
在 AI 时代,自动化不代表“无人值守”,而代表着更智能的异常处理和更精准的执行逻辑。
AI 专家团队提示:想要获取同款“平台卫生”自动化脚本或了解更多 AI 自动化运维方案?欢迎在评论区留言或私信咨询。