网络技术

网络技术

网络技术

各种网络技术问题的讨论和资料

等 1 人订阅共479篇文章创建于2023-02-22

模拟行为 vs 接口调用：双十一价格分析的两条路线选择

监控京东双十一商品价格，采用接口调用和模拟行为两种方法。接口调用快速但需应对防护，模拟行为慢但能绕过反爬。智能混合方案结合两者，适应不同需求。

7月前
115
点赞
评论

模拟行为 vs 接口调用：双十一价格分析的两条路线选择

用LLM自动化生成解析器：从Prompt到Parser的工程化落地

本文提出用LLM+Prompt自动解析网页，无需手写XPath。示例中，LLM秒生成新浪新闻首页解析代码，速度快、逻辑可读，还能自我迭代。未来工程师将变身“Prompt设计师”，让爬虫开发更简洁有趣。

7月前
159
点赞
评论

用LLM自动化生成解析器：从Prompt到Parser的工程化落地

网页快照的结构化保存方案：对象存储 + 可搜索元数据设计

本文讲述了作者构建新闻信息挖掘系统的过程，从最初的简单网页保存到后来的结构化元数据索引，实现了新闻网页的快速检索和分析。项目最终转变为一个“时间归档系统”，保存网页的同时支持新闻演化分析。

7月前
77
点赞
评论

网页快照的结构化保存方案：对象存储 + 可搜索元数据设计

优化分布式采集的数据同步：一致性、去重与冲突解决的那些坑与招

采集项目中遇到的分布式数据同步问题，通过实施一致性、去重和冲突解决，成功解决了数据重复和同步延迟问题，提高了系统稳定性。时间戳哈希保证一致性，URL归一化和布隆过滤器确保去重，分布式锁解决写入冲突

7月前
91
点赞
评论

优化分布式采集的数据同步：一致性、去重与冲突解决的那些坑与招

抓取稳定性手册：五种设计避免“瞬间降速 / 宕机”的架构技巧

本文介绍了五种提升爬虫稳定性的架构设计：限速调度器、智能代理切换、分布式任务调度、异常自愈机制和动态心跳监测。提供了一个异步爬虫模板，并强调了稳定性的重要性。

7月前
205
点赞
评论

抓取稳定性手册：五种设计避免“瞬间降速 / 宕机”的架构技巧

秒级行情推送系统实战：从触发、采集到入库的端到端架构

本文介绍了一个金融业务中实时行情推送系统，包括触发层、采集层、缓冲层、入库层和推送层，旨在实现秒级数据更新与推送。系统确保低延迟和高并发，适用于行情推送、金融交易风控等场景。

8月前
328
点赞
评论

秒级行情推送系统实战：从触发、采集到入库的端到端架构

单机扛不住，我把爬虫搬上了 Kubernetes：弹性伸缩与成本优化的实战

本文讨论了作者在大规模爬虫项目中遇到的挑战，并分享了通过Kubernetes和HPA实现自动伸缩、代理隔离和Redis队列，解决了任务堆积、高失败率和成本失控问题。

8月前
94
点赞
评论

单机扛不住，我把爬虫搬上了 Kubernetes：弹性伸缩与成本优化的实战

LLM + 抓取：让学术文献检索更聪明

本文介绍了结合爬虫技术和大型语言模型（LLM）的学术文献检索助手，通过爬取、清洗、向量化存储和RAG检索增强，为用户提供精准、高效的学术论文摘要。提高了检索效率和准确性。

8月前
94
点赞
评论

LLM + 抓取：让学术文献检索更聪明

用Playwright打造可靠的企业级采集方案--从单机验证到集群化落地

介绍了一个将单机Playwright爬虫演进为集群化方案的项目，旨在解决数据产品中的稳定性、数据抓取和规模化问题。逐步实现从单机到分布式的数据抓取，并记录关键实现和代码。

8月前
121
点赞
评论

用Playwright打造可靠的企业级采集方案--从单机验证到集群化落地

五个让抓取流程更可控的小技巧

强调了爬虫开发中“可控性”的重要性，提出了五个关键点：IP管理、请求节奏、用户模拟、异常重试和任务调度，以提升爬虫的稳定性和可靠性。文章建议根据项目规模和需求选择合适的策略，实现长期可维护的爬虫项目。

8月前
52
点赞
评论

从403到空白页：一次航班数据采集踩坑与解法分享

本文讨论了如何通过动态IP池技术解决航班信息采集中的IP封锁问题。由于航班信息价格和变动快，常规爬虫技术易被封禁。文章提出了使用代理IP、异常检测和节奏控制等方法，以实现长期稳定的航班数据采集。

8月前
79
点赞
评论

从403到空白页：一次航班数据采集踩坑与解法分享

用ChatGPT优化抓取策略：从规则设计到调试建议

将爬虫开发比作侦探破案，强调关键数据指标的重要性，并提供规则设计、代理策略和调试建议。通过代码示例，展示了如何使用代理和处理请求，提出了技术关系图谱和演进思路，以帮助更好地理解和应对爬虫开发中的挑战

8月前
117
点赞
评论

用ChatGPT优化抓取策略：从规则设计到调试建议

从 Prompt 到 Parser：一次知乎采集的曲折经历

使用大模型和Playwright进行知乎数据采集的挑战和改进策略。初始方案因页面异步加载、DOM变化和反爬策略导致失败。改进方案包括增强渲染层、适配器层和回退监控机制，以提高数据采集的稳定性和可靠性

8月前
209
点赞
评论

从 Prompt 到 Parser：一次知乎采集的曲折经历

学会“读网页”：生成式 AI 在足球赛事信息整理中的实战

本教程介绍了如何使用生成式AI提取足球比赛核心信息，包括比分、关键事件和球员表现。步骤包括采集、清洗、分块、调用LLM抽取、校验与落地，以及可视化。需准备Python环境、安装依赖库，并遵循合规性。

8月前
198
点赞
评论

超越传统XPath：用LLM理解复杂网页信息

本文探讨了从DOM树到语义理解的技术演进，指出传统XPath/CSS选择器在动态渲染、结构变化和语义感知上的局限性，介绍了LLM（大语言模型）在信息抽取中的新应用。演示了如何结合LLM进行新闻信息抽取

8月前
87
点赞
评论

超越传统XPath：用LLM理解复杂网页信息

用生成式方法“摸清”动态页面：小红书热点追踪实践

介绍使用Selenium/Playwright和生成式方法抓取小红书等社交平台数据的方法，包括环境安装、设置代理、启动浏览器、生成式推断页面结构和数据抓取。同时讨论了常见问题和对策，提升数据抓取效果

8月前
137
点赞
评论

用生成式方法“摸清”动态页面：小红书热点追踪实践

教你的采集程序看懂“伪装”的网页内容

本文探讨了电商领域中理解“伪装网页”的重要性，指出直接抓取网页源代码常因动态加载而无法获取关键信息。通过Amazon案例，文章展示了如何优化请求头配置、使用代理服务和分析数据来源，以获取真正有用的信息

8月前
83
点赞
评论

教你的采集程序看懂“伪装”的网页内容

构建一个“会思考”的房地产数据获取脚本

探讨了跨界思维在房地产信息获取中的应用，强调了“会思考”的智能脚本在应对市场数据快速变化中的重要性。通过C#脚本实现自动数据提取，提高了信息获取的效率和准确性，对房地产行业的决策和分析具有积极影响。

8月前
48
点赞
评论

构建一个“会思考”的房地产数据获取脚本

工业品供应链数据监测：从慧聪网采购需求说起

本文讨论了如何通过B2B平台实时监测制造业采购需求波动。提供了采集代码示例，强调了使用代理IP、重试和延迟访问的重要性，以确保数据采集的稳定性和准确性。

9月前
87
点赞
评论

工业品供应链数据监测：从慧聪网采购需求说起

新闻网站的数据采集与更新思路

介绍了一个跨站点增量更新引擎，旨在解决新闻采集中的实时性挑战。该引擎通过统一规则检测新增或改动内容，大幅节省资源。测试显示，增量采集能减少60%请求，捕获率超95%，具有行业级舆情雷达的潜在价值。

9月前
163
点赞
评论