首页
首页
沸点
课程
直播
活动
竞赛
商城
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
未闻 Code
青南
创建于2021-06-19
订阅专栏
未闻 Code 文章同步。
等 18 人订阅
共43篇文章
创建于2021-06-19
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
青南
21天前
逆向
人工智能
ChatGPT
一日一技:Prompt逆向工程,破解小红书文案生成器
一种全新的攻防对抗形式出现了。我给他取名,Prompt Reverse Engineering:Prompt逆向工程。
573
14
6
青南
4月前
Flask
Python
Flask中如何嵌套启动子线程?
Flask中启动子线程时,如果要在子线程中读取请求上下文参数,那么需要做一些特殊的设置。本文中涉及到的方法,目前应该是中文互联网首发。
2157
8
4
青南
1年前
Python
爬虫
开源
GNE 版本升级,基于可视化信号自动化识别并提取新闻正文
GNE 是一个通用的新闻正文抽取器,自从开源以来,已经被很多人用来作为新闻正文通用爬虫的重要组件。今天,GNE迎来重大升级,提高提取准确性。
5015
9
1
青南
1年前
Python
一日一技:什么情况使用静态方法和类方法?
两个例子完全搞懂静态方法和类方法。并且发现生活中Python 中无处不在,但是你常常忽略的使用类方法的地方。
1928
6
评论
青南
1年前
爬虫
后端
5分钟,自己做一个隧道代理
隧道代理可以自动切换 IP,但是价格昂贵。本文通过便宜的普通代理搭建隧道代理,提高开发效率,节省大量费用。
4144
12
1
青南
1年前
后端
爬虫
为什么爬虫工程师应该有一些基本的后端常识?
这篇文章会告诉你,为什么作为一个爬虫工程师,有一些基本的后端常识是必备条件。如果不懂后端,那么很多简单的问题你都不知道为什么。
1781
12
3
青南
2年前
爬虫
Python
在 Linux 服务器中创建假桌面运行模拟浏览器有头模式
经常使用 Selenium 或者 Puppeteer 的同学都知道,他们启动的 Chrome 浏览器分为有头模式和无头模式。在自己电脑上操作时,如果是有头模式,会弹出一个 Chrome 浏览器窗口,然后你能看到这个浏览器里面在自动操作。而无头模式则不会弹出任何窗口,只有进程。 …
2137
15
5
青南
2年前
Python
奇技淫巧:在 ssh 里面把服务器的文本复制到本地电脑
就能把字符串kingname复制到剪贴板里面。我们也可以使用这个方法把一个文件中的内容写入到剪贴板: 这样我们就不需要把文件打开再手动复制的。 有时候,我要把服务器上面的日志复制下来。原来都是进入服务器以后,用 vim 打开日志文件,用鼠标选中再复制。且不说服务器是 Linux…
4058
8
4
青南
2年前
Python
爬虫
惊呆了,我的 Python 代码里面出现了薛定谔的 Bug
GNE: 新闻网页正文通用抽取器更新了0.2.1版本,大幅度提高了正文的提取速度。在开发这个版本的时候,我遇到了一个非常奇怪的 Bug,最终发现是由于垃圾回收机制和内存重用机制导致的。今天我们来看看这个问题。 这段代码读取tests/163/9.html这个文件里面的 HTML…
1359
5
评论
青南
3年前
Python
爬虫
为什么你会被限制登录网页版微信?
有一个词叫做“三月爬虫”,指的是有些学生临到毕业了,需要收集数据写毕业论文,于是在网上随便找了几篇教程,学了点requests甚至是urllib和正则表达式的皮毛,就开始写爬虫疯狂从网上爬数据。这些爬虫几乎没有做任何隐藏自己的举动,不换IP,不设置headers,不限制速度,极…
5738
28
6
青南
3年前
Python
爬虫
(最新版)如何正确移除 Pyppeteer 中的window.navigator.webdriver
》一文中,我们介绍了修改源代码使Pyppeteer 打开的 Chrome 隐藏window.navigator.webdriver的方法。 然而时过境迁,随着 Chrome 版本升级,这一方法也宣告失效。 》我们介绍了在 Selenium 中如何隐藏最新版 Chrome 的wi…
1562
7
评论
青南
3年前
Python
爬虫
(最新版)如何正确移除Selenium中的 window.navigator.webdriver
在《一日一技:如何正确移除Selenium中window.navigator.webdriver的值》一文中,我们介绍了在当时能够正确从Selenium启动的Chrome浏览器中移除window.navigator.webdriver的方法。 后来时过境迁,Chrome升级了版…
7283
18
11
青南
3年前
开源
Python
Bug or Feature?藏在 requests_html 中的陷阱
在写爬虫的过程中,我们经常使用 XPath 来从 HTML 中提取数据。例如给出下面这个 HTML: 如果我们使用 lxml 来提取里面的你好、世界、你好、产品经理。 首先使用 XPath 获取class="one"这个 div 标签。由于这里有两个这样的标签,所以第28行的 …
1028
5
1
青南
3年前
Python
算法
以为是高性能神仙算法,一看源代码才发现...
在昨天的文章中,我们讲到了 RSA 算法。RSA 算法的根本原理中,有两个核心质数 p和 q,他们相乘得到一个数 n。由于反向从 n 分解出 p 和 q 非常困难,所以只要 p 和 q 足够大,RSA 算法在现在的计算机水平下就无法被破解。 现在,你先暂停一下,打开百度或者 G…
8133
71
19
青南
3年前
Python
别怕,我们的聊天消息,没人能偷看
由于众所周知的原因,国内的各大邮箱、聊天 App 都会监控你接收和发送的信息。如果你需要传递一些绝密内容应,显然你需要对你的内容进行加密。 但是加密的密码你怎么告诉别人呢?打电话说吗?如果是一对一的沟通,这种方式确实没有问题。 但如果现在是单向联系,多个人给你发信息。你想让所有…
6093
22
1
青南
3年前
Python
在 Linux/Mac 下为Python函数添加超时时间
我们在使用 requests 这类网络请求第三方库时,可以看到它有一个参数叫做timeout,就是指在网络请求发出开始计算,如果超过 timeout 还没有收到返回,就抛出超时异常。(当然存在特殊情况timeout 会失效,请看Timeouts and cancellation…
2355
11
2
青南
3年前
Python
一篇文章理解Python异步编程的基本原理
未闻 Code 已经发布过很多篇关于异步爬虫与异步编程的文章,最近有读者希望我能深入介绍一下 asyncio 是如何通过单线程单进程实现并发效果的。以及异步代码是不是能在所有方面都代替同步代码。 假设你需要用电饭煲煮饭,用洗衣机洗衣服,给朋友打电话让他过来吃饭。其中,电饭煲需要…
1722
24
评论
青南
3年前
Python
HTTP
浅度测评:requests、aiohttp、httpx 我应该用哪一个?
在 Python 众多的 HTTP 客户端中,最有名的莫过于requests、aiohttp和httpx。在不借助其他第三方库的情况下,requests只能发送同步请求;aiohttp只能发送异步请求;httpx既能发送同步请求,又能发送异步请求。 所谓的同步请求,是指在单进程…
6705
26
评论
青南
3年前
后端
Python
用它5分钟以后,我放弃用了四年的 Flask
有一个非常简单的需求:编写一个 HTTP接口,使用 POST 方式发送一个 JSON 字符串,接口里面读取发送上来的参数,对其中某个参数进行处理,并返回。 代码看起来已经很简洁了。我们用requests发个请求看看效果,如下图所示: 看起来没什么问题。 不出所料,报错了。 又报…
3.6w
223
86
青南
3年前
Python
爬虫
GNE v0.1 正式发布: 4 行代码开发新闻网站通用爬虫
GNE(GeneralNewsExtractor)是一个通用新闻网站正文抽取模块,输入一篇新闻网页的 HTML, 输出正文内容、标题、作者、发布时间、正文中的图片地址和正文所在的标签源代码。GNE在提取今日头条、网易新闻、游民星空、 观察者网、凤凰网、腾讯新闻、ReadHub、…
4905
50
评论
下一页