小白学大数据

python研发

宁为代码类弯腰，不为bug点提交

赞

85

|

搜索文章

突破反爬：使用代理IP和User-Agent轮询爬取音乐数据

一、反爬虫机制的原理与应对策略在深入技术实现之前，我们有必要了解常见的反爬虫机制及其工作原理： IP频率限制：网站会监控单个IP地址的请求频率，如果短时间内请求过多，会判定为该IP存在爬虫行为，从而

5月前
132
点赞
评论

在Scrapy中如何处理API分页及增量爬取

一、理解挑战：为何要处理分页与增量爬取？ 1. API分页 API分页是一种将大量数据分割成多个较小、可管理块（即页面）的技术。常见的分页模式包括：页码分页：最直观的方式，通过 <font styl

5月前
64
点赞
评论

从Bing图片搜索JSON API直接获取数据

一、为什么要寻找 JSON API？在深入技术细节之前，让我们先理解这种方法的战略优势：极高的效率：API 返回的是纯数据（JSON 格式），通常只有几十KB，而不需要下载数百KB的 HTML、

5月前
83
点赞
评论

时序数据分析：Python爬取新浪财经频道新闻并绘制趋势图

引言：数据背后的商业脉搏在信息爆炸的时代，财经新闻不仅是市场动态的反映，其本身也是一种极具价值的时间序列数据。通过对海量财经新闻进行爬取、分析和可视化，我们可以从宏观视角洞察市场情绪的波动、热点议题

5月前
192
点赞
评论

增量爬取策略：如何持续监控贝壳网最新成交数据

一、增量爬取的核心思想与优势在深入代码之前，我们首先要理解增量爬取的核心理念。与传统的全量爬虫（每次运行都重新抓取所有数据）不同，增量爬虫只抓取自上次爬取以来新增或发生变化的数据。其核心优势不言而

5月前
84
点赞
评论

完整工具链：从爬取、解析到可视化12306城市数据的全流程实现

在数据驱动的时代，获取并理解公共数据已成为技术决策和商业分析的关键环节。12306作为中国铁路客运服务的核心系统，其背后庞大的城市站点数据不仅对旅行规划至关重要，更是观察中国城市化进程和交通网络布局的

5月前
68
点赞
评论

构建1688店铺商品数据集：Python爬虫数据采集与格式化实践

一、项目概述与技术选型我们的目标是：输入一个1688店铺主页URL，输出一个包含该店铺所有商品结构化信息的数据库或文件（如CSV、JSON）。这个目标可以拆解为三个核心步骤：数据采集：模拟浏览

5月前
118
点赞
评论

集成Scrapy与异步库：Scrapy+Playwright自动化爬取动态内容

一、为什么选择Scrapy + Playwright？在技术选型时，我们有必要理解这套组合拳的优势所在：强强联合的异步架构：Scrapy基于Twisted，是原生的异步框架；Playwright

5月前
172
点赞
评论

从携程爬取的杭州酒店数据中提取价格、评分与评论的关键信息

一、理解数据源：结构化的混乱在开始编写提取代码之前，我们必须理解携程页面数据的构成。现代网页大量使用JavaScript动态渲染，数据通常以JSON格式直接嵌入在HTML中，而非简单的静态文本。价

6月前
166
点赞
评论

利用Selenium和PhantomJS提升网页内容抓取与分析的效率

核心观点：效率的提升之道 Selenium本身是一个自动化测试工具，用于模拟真实用户操作。直接使用它来爬虫可能会很慢。提升效率的关键在于，将其从“模拟视觉化用户”转变为“高性能的无头数据采集工具”。

6月前
75
点赞
评论

个人成就

文章被点赞 44

文章被阅读 197,488

掘力值 9,722

加入于

2019-02-19