网络技术

网络技术

网络技术

各种网络技术问题的讨论和资料

等 1 人订阅共479篇文章创建于2023-02-22

AI 为什么能比你更懂网页？一次关于“语义抽取”的实战实验

本文探讨了传统网页抓取的局限性和AI在网页抓取中的新应用。传统抓取依赖于网页结构，易受改版影响。AI技术通过理解网页内容而非标签，提供了更稳定、跨网站的抓取方案，使抓取工作更高效、准确。

6月前
114
点赞
评论

AI 为什么能比你更懂网页？一次关于“语义抽取”的实战实验

从零到上手：用LLM打造会思考、能自愈的数据抓取

本文介绍了抓取技术及其与大型语言模型（LLM）的结合应用。抓取技术能自动从网页提取信息，而LLM作为“智慧大脑”，能理解网页内容，自动推断字段，修复逻辑，实现自动化数据抓取和整理。

6月前
103
点赞
评论

从零到上手：用LLM打造会思考、能自愈的数据抓取

实验报告：让AI自动生成采集代码，会踩哪些坑？

本文探讨了AI自动生成采集代码的可靠性，分析了模拟行为和接口调用两条技术路线，并指出AI在简单场景下表现良好，但在复杂场景下需人工介入。总结了AI写采集的思维框架和路线建议。

6月前
162
点赞
评论

实验报告：让AI自动生成采集代码，会踩哪些坑？

不是简单搜索，而是理解：让获取的论文会“语义对话”

本文介绍了一种基于语义搜索的知识库构建方法，通过将论文内容向量化并存入向量数据库，实现更精准的科研文献检索。与传统关键词匹配不同，该方法能“理解”用户需求，提高科研效率。

6月前
54
点赞
评论

不是简单搜索，而是理解：让获取的论文会“语义对话”

读完这篇，你大概不会再随便选异步或协程了

本文讲述了作者在面对小红书上20个品牌的帖子和评论抓取任务时，如何从旧的线程池+队列方案转向异步IO（asyncio+aiohttp）和多协程（gevent）技术，实现了稳定高效的舆情监控系统。

6月前
95
点赞
评论

读完这篇，你大概不会再随便选异步或协程了

Redis、Kafka 与 Celery：分布式调度三件套的性能权衡

本文探讨了分布式采集系统中调度层的重要性，并比较了Redis、Kafka和Celery三种调度工具在抓取头条热点新闻任务中的表现。建议从Redis开始，根据需求逐步升级。

6月前
163
点赞
评论

Redis、Kafka 与 Celery：分布式调度三件套的性能权衡

从网页到结构化数据，只需要一个 Prompt：LLM 解析器实战

本文介绍了如何利用大型语言模型(LLM)自动生成网页解析规则，展示了从抓取HTML到自动生成XPath解析规则并提取标题、作者、时间和正文的完整流程。文章还分享了配置经验和验证方法。

6月前
202
点赞
评论

从网页到结构化数据，只需要一个 Prompt：LLM 解析器实战

我为什么彻底切到 Playwright

本文讨论了从Puppeteer迁移到Playwright的原因和过程，强调Playwright在稳定性、并发隔离、反检测能力、代理注入和多内核支持方面的优势。

6月前
169
点赞
评论

我为什么彻底切到 Playwright

容器化 + Playwright：我怎么让 100 个浏览器同时跑还不宕机

本文分享了作者在多站点网页采集项目中使用Playwright遇到的性能瓶颈及优化过程。通过容器拆分、网络层优化和异步控制，成功使100个浏览器实例稳定运行，提升了系统稳定性和爬取效率。

6月前
188
点赞
评论

容器化 + Playwright：我怎么让 100 个浏览器同时跑还不宕机

别再用脚本硬撸了：Playwright 才是企业级采集的正确打开方式

本文介绍了如何将Playwright从单机脚本进化到分布式调度，以提高稳定性和效率。强调了使用代理池、任务队列、浏览器池和调度器的重要性，并提供了一个Playwright企业采集模板。

6月前
135
点赞
评论

别再用脚本硬撸了：Playwright 才是企业级采集的正确打开方式

抓取任务的权限隔离与多租户（SaaS）平台设计要点

本文介绍了一个多租户采集平台的构建，旨在解决权限隔离和数据独立性问题。项目强调了多租户系统在任务独立、代理隔离、数据分区和权限控制方面的复杂性，并提出了进一步扩展。

6月前
92
点赞
评论

抓取任务的权限隔离与多租户（SaaS）平台设计要点

手把手带你做一个金融舆情分析系统：爬取 + 情绪识别全流程实战

本文讨论了一个金融舆情分析项目，通过抓取新闻标题和评论，利用情绪分析模型判断市场情绪。对比了两种技术方案分别适用于快速验证和小规模采集，以及大规模舆情监控和数据样本研究。作者推荐混合使用两种方案

6月前
217
点赞
评论

手把手带你做一个金融舆情分析系统：爬取 + 情绪识别全流程实战

百万级并发下的去重挑战：Bloom Filter 与 Redis 的组合方案

本文探讨了高并发数据采集中避免重复URL抓取的问题，提出了结合Bloom Filter、Redis HyperLogLog和持久化备份的解决方案，实现了快速查重、准确统计和数据恢复。

6月前
51
点赞
评论

百万级并发下的去重挑战：Bloom Filter 与 Redis 的组合方案

静态规则解析与动态行为分析结合的混合抽取框架

探讨了现代网页数据采集的挑战，介绍了混合抽取框架，结合静态和动态技术，以适应JavaScript渲染和异步加载的网页。通过结构语言和行为语言的理解，混合框架能模拟用户行为，捕获真实数据。

6月前
55
点赞
评论

静态规则解析与动态行为分析结合的混合抽取框架

抓取任务队列精简化：延迟队列、优先级队列与回退策略设计

本文讲述了作者通过引入延迟队列、优先级队列和回退策略，优化抓取任务队列，提高系统稳定性和资源利用率。最终实现智能调度，使系统更高效。

6月前
57
点赞
评论

抓取任务队列精简化：延迟队列、优先级队列与回退策略设计

用 Playwright + 容器化做分布式浏览器栈：调度、会话管理与资源回收

本文介绍了如何搭建一个分布式浏览器栈，使用Playwright在容器中运行，配合代理、调度和会话管理，实现对多新闻网站的高并发抓取。通过Docker容器化浏览器实例，可以像调度服务一样调度它们。

6月前
128
点赞
评论

用 Playwright + 容器化做分布式浏览器栈：调度、会话管理与资源回收

图像与视频页面的数据提取：从OCR到关键帧抽取的一场“视觉接管”

本文介绍了从图像和视频页面提取数据的技术架构，包括OCR文本识别、关键帧抽取和元数据提取。通过多模态爬取方案，可以更精准地提取视觉内容及其背后的语义信息，对内容监测、品牌分析等行业具有重要价值。

7月前
233
点赞
评论

图像与视频页面的数据提取：从OCR到关键帧抽取的一场“视觉接管”

实时金融数据抓取：从混乱到一致性的全过程指南

介绍了如何搭建一个实时金融数据抓取系统，使用代理IP轮换、多线程技术提高效率，并统一数据聚合去重以保证一致性。通过Python和相关库，解决了动态页面刷新、封禁和数据不一致等问题。

7月前
465
点赞
评论

实时金融数据抓取：从混乱到一致性的全过程指南

中间件实现任务去重与精细化分发：设计模式与常见陷阱

本文探讨了在大规模数据抓取中任务去重的重要性，并介绍了责任链模式在抓取系统中的应用。通过设计去重和分发中间件，系统能更高效、灵活地处理任务，减少资源浪费。强调中间件在构建智能数据系统中的关键作用。

7月前
60
点赞
评论

中间件实现任务去重与精细化分发：设计模式与常见陷阱

面向新闻站点的增量采集系统：从时间窗口到事件触发

本文介绍了增量采集的概念，即只关注新增和更新的数据，通过时间窗口和事件驱动的组合来高效采集新闻网站的最新内容。提供了一个Python代码示例，展示如何抓取特定新闻网站过去24小时内的新文章。

7月前
125
点赞
评论

面向新闻站点的增量采集系统：从时间窗口到事件触发