1. 编程语言分类
- 编译型语言: C/C++
- 一次性把源码进行翻译
- 执行效率很高,但是平台依赖性比较高
- 解释型语言: JavaScript/Python/ruby
- 逐行的对代码进行翻译和运行
- 执行效率相对较低,平台的依赖性不高
2. Python起源
- Python由荷兰数学和计算机科学研究学会的吉多·范罗苏姆于1990年代初设计
- 擅长:爬虫/自动化/科学计算/人工智能
- 官网:www.python.org/
3.工具选择
-
vscode: 轻量级
-
pycharm: 集成插件较多,号称地表最强
-
jupyter notebook: 适用老手,爬虫相关
4.基础数据类型
- int
- float
- bool
5.数据类型
-
字符串
- 模版字符串: f"名字是{name}" 或者"名字是%s",name
- "%s".format(s) 或者 "%s" % (s)
- %s字符串站位 %d占位整数 %f占位小数
- 切片:str[start:end:step]
- start:开始
- end:结束
- step:步长,正数是从左到右,负数是从右往左
- 字符串操作一般不会修改原字符串
- capitalize():首字母大写
- title():单词的首字母大写
- lower():所有字母变成小写
- upper():所有字母变成大写
- strip():去除两边空白符(空格,\t,\n)
- replace():替换
- split():切割成数组
- find(str):查找字符串的位置,没有返回-1
- index():查找字符串,没有则报错
- in: 在其中
- not in: 不在其中
- startswith():以xx开头
- endswith()
- isdigit():是否整数
- isdecimal: 是否小数
- len(s):s的长度
- "_".join(list)
-
列表
- sort() 升序
- sort(reverse=True) 降序
- for...in
-
元祖
- (): 不可变的列表
- 元祖如果只有一个元素,需要在元素的末尾加一个逗号
-
set
- { name1 } :字面量生成表达式
- 无序的可迭代数据类型,不可重复,不可存放 不可哈希的数据类型
- 可哈希数据:不可变的数据类型:int/str/tuple/boolean
- 不可哈希数据:可变的数据类型:list/dict/set
- add()
- remove()
- pop() 随机弹出一个元素
- & 或 intersection 交集
- | 或 union 并集
-
- 或 difference 差集
-
dict
- key必须是可哈希的数据类型
- setdefault(x) 设置默认值,如果以前已经有x了,那就不起作用
- pop(key) 删除,不可以在字典的循环迭代中进行删除操作
- items: 拿到(key,value)
- keys()/values()
-
字节编码
-
accii: 8bit 1byte
-
gbk: 16bit 2byte windows默认 源自ANSI
-
unicode: 32bit 4byte (无法使用,只是一个标准)
-
utf-8: mac默认 源自unicode
- 英文: 8bit
- 欧洲: 16bit
- 中国: 24bit
-
gbk和utf-8不可直接转化
-
encode(type)
-
decode(type)
-
-
运算符
- 运算: + - * /
- // : 商(地板除)
- 逻辑运算and/or/not : 先算括号> 算not> and> or
- 成员运算 in/not in