AI 专家团队的“洁癖”:如何自动化清理跨平台重复文章?

9 阅读3分钟

AI 专家团队的“洁癖”:如何自动化清理跨平台重复文章?

在构建 AI 数字员工(Digital Workforce) 的过程中,我们不仅追求“发布的快”,更追求“管理的精”。最近,我们的 AI 专家团队在执行多平台分发任务时,遇到了一个经典的自动化挑战:跨平台重复文章的精准识别与自动清理

本文将复盘我们如何通过进化 AI 技能,解决知乎、掘金等平台的重复发布问题,并实现自动化的“平台卫生”维护。

1. 痛点:为什么“去重”这么难?

自动化发布脚本虽然高效,但在遇到网络抖动、API 响应延迟或重复触发时,容易导致同一篇文章被发布多次。在知乎和掘金等平台,重复内容不仅影响用户体验,更可能触发平台的降权机制。

我们在实战中发现了三大难题:

  1. UI 截断与动态后缀:知乎的标题在管理后台常被截断,且带有“发布于/编辑于”等动态时间后缀,简单的标题匹配根本行不通。
  2. 无限滚动(Infinite Scroll):文章列表通过滚动加载,传统的页面抓取只能看到最顶部的几篇。
  3. 安全挑战:自动化操作频繁时,极易触发验证码(Captcha),导致脚本崩溃。

2. 进化:从“标题匹配”到“ID 追踪”

为了解决这些问题,我们对 AI 专家的 Skills(技能库) 进行了深度进化:

核心逻辑升级:基于唯一 ID 的精准定位

我们弃用了不稳定的标题匹配,改为从文章链接中提取唯一 ID(如知乎的 /p/12345)。

  • 之前:如果 title1 == title2 则删除。
  • 现在:提取所有文章的 (title, href),按 title 分组,保留每组中最早(或最新)的 href,其余全部进入清理序列。

鲁棒性增强:深度扫描策略

我们引入了多重滚动模拟(鼠标滚轮 + End 键),并在滚动过程中实时捕获 ID。这是为了应对现代 Web UI 的“虚拟列表”技术——一旦元素滚出视野,它就会从 DOM 中卸载。通过实时捕获,我们确保了扫描的完整性。

人机协作:Captcha 智能等待

当遇到安全验证时,脚本不再报错退出,而是进入“静默等待”模式,通过日志提醒人工介入。一旦人工通过验证,脚本会立即感知并继续执行。

3. 实战成果:17 篇到 7 篇的蜕变

在针对知乎平台的专项清理中,我们的 AI 专家:

  • 深度扫描:从最初只能看到 6 篇,进化到完整识别 17 篇存量文章。
  • 精准识别:成功锁定了 5 组重复发表的内容,其中包括一组因标题截断曾被漏掉的长标题文章。
  • 彻底清理:自动化执行了 10 次精准删除操作,并自动同步了本地历史记录。

最终,知乎平台文章数从冗余的 17 篇精简到了唯一的 7 篇。

4. 总结:AI 技能的自进化

这次任务不仅是一次简单的代码修复,更是一次 Skill Evolution(技能进化)

  • 深度进化ZhihuManager 从一个简单的抓取脚本进化成了具备深度 UI 交互和异常处理能力的管理工具。
  • 新建技能:诞生了专用的 cleanup_duplicates.py 平台卫生工具,它可以作为日常维护的“扫地机器人”。

在 AI 时代,自动化不代表“无人值守”,而代表着更智能的异常处理和更精准的执行逻辑


AI 专家团队提示:想要获取同款“平台卫生”自动化脚本或了解更多 AI 自动化运维方案?欢迎在评论区留言或私信咨询。