@[TOC](Jbd0:前言 & Jbd1:概述)
0. 教程地址
Jbd0:前言
1. Ubuntu
最近气温升高天气渐热,手里的全能本发热严重,开虚拟机的话烫到爆炸,所以还是继续用腾讯云吧,从centos换到ubuntu:
ubuntu@VM-0-12-ubuntu:/opt$ uname -a
Linux VM-0-12-ubuntu 5.4.0-96-generic #109-Ubuntu SMP Wed Jan 12 16:49:16 UTC 2022 x86_64 x86_64 x86_64 GNU/Linux
然后腾讯云给的默认用户就是ubuntu,我用的密钥登录还没有密码,设定root密码的话需要sudo passwd,具体参见1
2. 环境安装
教程给的安装包是在飞书,原本是想用wget直接下载的,但可能是因为这个分享有密码,所以不行
即便我参照博客2加上了密码等参数,还是不行。我也尝试了先cookie,这操作也不行
然后我之前下载有下载文件到本地,然后我想先传到学校的onedrive,然后服务器再来访问
然后还是不行,wget访问直接403: Forbidden,然后感觉是onedrive的问题,换关键字查博客
然后找到了两个博客3、4,里面的内容是一模一样的,总之思路还是要先拿到cookie
于是先在windows的界面访问分享连接,然后F12开始记录网络,之后再点击下载文件
然后我们去F12的网络页面里面找download.aspx/?…. ,右键复制为cURL(bash),也就是linux版
cURL(bash)是edge浏览器的称呼,Firefox里面的应该是cURL命令(POSIX),也就是博客的版本
这还不算完,复制得到的命令后面要加上--output file.extension,声明文件名和后缀,这才完整
然后我的ubuntu系统下,第一次尝试报错说权限不够,我在前面加了个sudo才运行成功
接着我就想到了,那飞书应该也是因为cookie的原因无法下载,似乎应该也能用这办法
于是同样登录后,先监控网络再点击下载,然后回去翻网络记录,找到一个boxcn···的get
像上面一样,右键复制为cURL(bash),后面加上文件名及后缀,前面加上sudo,也成功了
Jbd1:概述
1. 信息化浪潮
| 信息化浪潮 | 时间 | 标志 | 解决的问题 |
| 第一次浪潮 | 1980 | 个人计算机 | 信息处理 |
| 第二次浪潮 | 1995 | 互联网 | 信息传输 |
| 第三次浪潮 | 2010 | 物联网、云计算和大数据 | 信息爆炸 |
2. 4V特征
数据量大(Volume)、数据类型繁多(Variety)、处理速度快( Velocity)和价值密度低(Value)
2.1 Volume
对于数据的量,就现阶段的各大互联网公司而言,我感觉主要来自用户行为。像是传感器这些采集到大规模的数据,我感觉应该在工业领域更加常见
2.2 Variety
对于数据的种类,我感觉主要是互联网服务的繁荣吧。用户在聊天软件、支付软件、音乐软件、视频软件、购物软件、资讯软件等,都会产生大量的行为数据,种类繁多
2.3 Velocity
对于数据的高速处理,我感觉还是上面提到的在线服务的繁荣,以及庞大的互联网用户基础。在两者结合的情况下,每天都能产生大量的数据。
2.4 Value
关于数据的价值,一般确实不高,所以需要挖掘。教程举的例子是监控视频,如果没有发生什么事情,这段监控数据不用被查看,理论上来说也就没有价值。