首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
爬虫程序
亿牛云爬虫专家
创建于2021-07-29
订阅专栏
为提升爬虫技巧不断寻找方案
等 5 人订阅
共394篇文章
创建于2021-07-29
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
优化爬虫程序使用代理IP时出现的TIME_WAIT和CLOSE_WAIT状态
为了提高爬虫程序的效率,我们通常使用代理IP来同时访问多个网站,避免被封禁。但是,使用代理IP也会带来一些问题。在Linux系统下,我们经常会遇到TIME_WAIT和CLOSE_WAIT状态的问题。
Python中如何使用os模块和shutil模块处理文件和文件夹
os和shutil都是Python标准库中用于处理文件和文件夹的模块,它们都提供了许多常用的文件和文件夹操作功能,但是它们的使用场景和优势有所不同。 os模块提供了许多操作系统相关的功能,例如打开文件
OkHttp的特性优点及爬虫示例
OkHttp是一个Java和Android应用程序的HTTP客户端库,旨在提高资源加载速度和节省带宽。这段代码用于从大众点评网站上采集某个城市中包含某个关键词的景点信息。
委托与线程在C#编程中的应用及选择
委托是一种表示对具有特定参数列表和返回类型的方法的引用的类型。可以使用委托将方法作为参数传递给其他方法,或者异步地调用方法。 线程是一个执行单元,它可以与进程中的其他线程并发运行。
Python线程的创建、执行和管理以及注意事项
Python提供了多种方法来创建、执行和管理线程,并且需要注意线程安全性和性能方面的问题。其中使用threading模块创建线程,并获取其执行的函数返回值的方法全文如下
FastAPI – 一个现代高性能Python Web框架及其示例
FastAPI是一个用于构建API的现代、高性能Python web框架。它使用标准的Python类型提示来支持数据自动验证和API文档自动生成。该框架的一些优点包括速度快、易用性好、自动文档生成
Selenium 如何定位 JavaScript 动态生成的页面元素
Selenium 是一个自动化测试工具,可以用来模拟浏览器的操作,如点击、输入、滚动等。但是有时候,我们需要定位的页面元素并不是一开始就存在的,而是由 JavaScript 动态生成的。
使用Python和Selenium库实现饭圈自动化投票
饭圈文化是一种由热爱和支持自己喜欢的偶像所构成的文化。在这个文化中,粉丝们通常会通过多种方式来表达他们的爱意,例如关注偶像参与的综艺和电视剧,使用各种社交平台为偶像打榜投票,以争取让偶像获得更高的排名
如何隐藏Selenium特征实现自动化网页采集
Selenium是一个流行的自动化网页测试工具,可以通过模拟用户在Chrome浏览器中的操作来完成网站的测试。然而,有些网站会检测浏览器是否由Selenium驱动,如果是,就会返回错误的结果或拒绝访问
Scrapy中间件采集HTTPS网站失败的原因
Scrapy 是一个基于 Python 的网络抓取框架,可以帮助开发人员从网站中快速有效地提取数据。Scrapy 的一个显著优势是可以通过中间件来定制和优化抓取过程。
成都房地产市场火爆,房价走势之数据分析
近年来,成都在经济发展、人口增长、城市建设等方面都取得了显著的成就,吸引了大量的人才和资本的流入,也带动了房地产市场的繁荣。通过爬虫程序采集对房天下、安居客、知乎等相关网站的数据进行整理。
使用 Playwright 和 C# 自动化采集亚马逊网站的商品信息和评论
Playwright 是一个用于测试和自动化网页的库,可以使用 C# 语言来控制 Chromium、Firefox 和 WebKit 这三种浏览器。
Puppeteer工具简介及其在网页爬取和自动化中的应用
Puppeteer是一个流行的Node.js库,在开发者中广泛使用的用于网页爬取和自动化任务的工具。它提供两种操作模式,即headfull和headless。
Clicknium:更强大的自动化工具,可用于爬取抖音动态网页数据
Clicknium是一款基于Python和Selenium的自动化库,可以用于控制浏览器,实现网页自动化操作和数据爬取。Clicknium的特点是支持多种浏览器,提供了多种元素定位和操作方法。
使用Selenium和代理用户名和密码在C#中进行无头浏览
Selenium是一个自动化测试工具,如果代理服务器需要用户名和密码进行验证,那么我们就需创建一个Chrome扩展插件,然后加载使用完成自动认证窗口
puppeteer vs python requests:哪种工具更适合采集视频链接?
如果你想要从网上下载一些视频资源,你可能会遇到一些难题。本文将对比两种常用的工具:puppeteer和python requests,并分析它们在采集视频链接方面的优缺点。
Python二进制通信:struct、array、ctypes模块比较
在与C语言或其他设备进行二进制通信时,Python需要使用一些专门的模块来转换数据格式。本文将介绍三个常用的模块:struct、array、ctypes,并从结构说明和性能分析两方面进行比较。
绕过HTTPS请求中的TLS特征识别及反爬机制
在使用 urllib.request 库进行 HTTPS 请求时,可能会出现 TLS 特征被识别的情况。通过爬虫代理加强版IP和随机User-Agent能够提高采集的效率。
Python 文件上传:如何使用 multipart/form-data 编码和 requests 包
在许多应用程序中,将文件上传到网站服务器是一个常见任务。然而,在 Python 中实现它可能很有挑战性。因为 Python 标准库没有提供创建 multipart/form-data 编码类型请求的内
Node.js前端如何使用反向代理解决跨域
Node.js 并提供了丰富的模块和工具来构建高性能的网络应用。我们可以利用反向代理解决跨域和 https协议
下一页