网络爬虫与http+ssl(1)

156 阅读2分钟

5持续创作,加速成长!这是我参与「掘金日新计划 · 10 月更文挑战」的第5天,点击查看活动详情

端口

查看IP的方式:打开命令行输入cmd,然后在端口中输入ipconfig,可以看到IP地址

端口号mysql 3306 mongodb 27017 nosql,端口号为独立标识

通讯协议

TCP通信协议/IP协议/Robot协议(规定爬虫不能爬取这个协议的文件)在srapy框架

超文本传输协议,端口80(HTTP协议)设置—网络—属性—看到已安装的协议,可以在这里添加新的协议

osm模型

⽬标Objective;策略Strategy;衡量指标Measurement

OSM模型,就是把宏⼤的⽬标拆解,对应到部门内各个⼩组具体的、可落地、可度量的⾏为上,从保证执⾏计划没有偏离⼤⽅向。

封包与解包的过程

http访问更快因为是明文传输就是不需加密,国家税务总局就是http,是没有加证书的

https=http+ssl为加密的过程,是一个安全版的访问过程,是加了证书的

HTTP请求与响应

客户端的请求与进行与服务器的请求与进行,个人手机电脑是客户端

全球统一资源定位符(URL)

html文件,学了前端才能看懂源代码,网页会根据HTML

css文件处理格式,位置

js处理跳转,点击事件,动画效果,走马灯

images文件,图片存放点

(F12弹出抓包工具)

(Ctrl+u页面源码)

抓包工具

elements元素

console控制台,js语法(全称javascript)

sources资源(js解密用)

network网络数据包XHR动态加载

这个如果是动态页面这个request就要使用Ajax请求动态加载json文件数据(Ajax异步加载)静态页面的网页都在源代码中。

爬虫就是模拟人去访问浏览器,避免让系统默认为自动化的爬虫程序

general全部的请求头

response headers服务器的是交投

request headers请求对象的请求头客户端的请求

host主机和端口号

user—agent标识,如果不带服务器,会认为你是一个自动化的爬虫程序

cookie有时间限制(动态)记录用户信息

referer副级的URL

请求方式

GET请求 (用于向服务器查询某些信息)

POST请求(数据隐藏)Payload—form data隐藏的数据,百度翻译为post请求

红点

stop recording network log 停止记录网络日志

clear,清空网络日志

preserve log,保留日志

disable cache禁用缓存(js逆向需要进行调试用)