网络爬虫与http+ssl（1）端口查看IP的方式：打开命令行输入cmd，然后在端口中输入ipconfig，可以看到I

5持续创作，加速成长！这是我参与「掘金日新计划 · 10 月更文挑战」的第5天，点击查看活动详情

查看IP的方式：打开命令行输入cmd，然后在端口中输入ipconfig，可以看到IP地址

端口号mysql 3306 mongodb 27017 nosql，端口号为独立标识

通讯协议

TCP通信协议/IP协议/Robot协议（规定爬虫不能爬取这个协议的文件）在srapy框架

超文本传输协议，端口80（HTTP协议）设置—网络—属性—看到已安装的协议，可以在这里添加新的协议

osm模型

⽬标Objective；策略Strategy；衡量指标Measurement

OSM模型，就是把宏⼤的⽬标拆解，对应到部门内各个⼩组具体的、可落地、可度量的⾏为上，从保证执⾏计划没有偏离⼤⽅向。

封包与解包的过程

http访问更快因为是明文传输就是不需加密，国家税务总局就是http，是没有加证书的

https=http+ssl为加密的过程，是一个安全版的访问过程，是加了证书的

HTTP请求与响应

客户端的请求与进行与服务器的请求与进行，个人手机电脑是客户端

全球统一资源定位符（URL）

html文件，学了前端才能看懂源代码，网页会根据HTML

css文件处理格式，位置

js处理跳转，点击事件，动画效果，走马灯

images文件，图片存放点

（F12弹出抓包工具）

（Ctrl+u页面源码）

抓包工具

elements元素

console控制台，js语法（全称javascript）

sources资源（js解密用）

network网络数据包XHR动态加载

这个如果是动态页面这个request就要使用Ajax请求动态加载json文件数据（Ajax异步加载）静态页面的网页都在源代码中。

爬虫就是模拟人去访问浏览器，避免让系统默认为自动化的爬虫程序

general全部的请求头

response headers服务器的是交投

request headers请求对象的请求头客户端的请求

host主机和端口号

user—agent标识，如果不带服务器，会认为你是一个自动化的爬虫程序

cookie有时间限制（动态）记录用户信息

referer副级的URL

请求方式

GET请求（用于向服务器查询某些信息）

POST请求（数据隐藏）Payload—form data隐藏的数据，百度翻译为post请求

红点

stop recording network log 停止记录网络日志

clear，清空网络日志

preserve log，保留日志

disable cache禁用缓存（js逆向需要进行调试用）