Python爬虫04--url的形式(组成)

163 阅读1分钟

爬虫:模拟浏览器发送请求获取数据-----> 提取URL

URL:一个网址/链接的组成部分

形式:scheme:// host[:port#] / patch / ... [?query-string] [#anchor]

scheme: 协议(例如:http,https,ftp)重要

host: 服务器的IP地址或者域名(例如:192.168.1.1 / www.baidu.com

port: 服务器端口(协议默认端口:80 / 443)

patch: 被访问资源的路径

query-string:参数,发送给HTTP服务器的数据(在url中一般以问号开头,意义不大

anchor: 锚(跳转到网址指定位置,不会重新发送请求,响应是一样的)