BobLin

资深工程师 | https://boblin.app

深入学习AI大模型，技术作者，一线开发者/PM, 精通Go和Python，熟悉Rust，精通Langchain，关注ChatGPT、OpenAI API、AIGC和LLM等相关内容.

赞

19

|

搜索文章

用Golang写爬虫(五) - 使用XPath

在这个系列文章里面已经介绍了BeautifulSoup的替代库soup和Pyquery的替代库goquery，但其实我写Python爬虫最愿意用的页面解析组合是lxml+XPath。为什么呢？先分别说一下lxml和XPath的优势吧 lxml是HTML/XML的解析器，它用 C…

6年前
9.0k
5
评论

用Golang写爬虫(五) - 使用XPath

用Golang写爬虫(四) - 使用soup

Python爬虫工程师有个常用的提取数据的库BeautifulSoup，而在Golang语言也有一个对应的库soup，由于我比较喜欢Python写爬虫所以自然而然的就想到了soup，这篇文章就是就来体验一下它。 soup是第三方库，需要手动安装：就如之前的练习，我们是要定义头…

6年前
4.3k
2
评论

用Golang写爬虫(四) - 使用soup

用Golang写爬虫(四) - 使用soup

Python爬虫工程师有个常用的提取数据的库BeautifulSoup，而在Golang语言也有一个对应的库soup，由于我比较喜欢Python写爬虫所以自然而然的就想到了soup，这篇文章就是就来体验一下它。就如之前的练习，我们是要定义头信息的，但是soup这个库只开放了G…

6年前
2.0k
8
评论

用Golang写爬虫(四) - 使用soup

用Golang写爬虫(三) - 使用goquery

在写爬虫的时候，想要对HTML内容进行选择和查找匹配时通常是不直接写正则表达式的：因为正则表达式可读性和可维护性比较差。用Python写爬虫这方面可选择的方案非常多了，其中有一个被开发者常用的库pyquery，而Golang也有对应的goquery，可以说goquery是jQu…

6年前
5.0k
10
评论

用Golang写爬虫(三) - 使用goquery

用Golang写爬虫(三) - 使用goquery

在写爬虫的时候，想要对HTML内容进行选择和查找匹配时通常是不直接写正则表达式的：因为正则表达式可读性和可维护性比较差。用Python写爬虫这方面可选择的方案非常多了，其中有一个被开发者常用的库pyquery，而Golang也有对应的goquery，可以说goquery是jQu…

6年前
436
2
评论

用Golang写爬虫(三) - 使用goquery

用Golang写爬虫(二) - 并发

在上篇文章里面我用Go写了一个爬虫，但是它的执行是串行的，效率很低，这篇文章把它改成并发的。由于这个程序只抓取10个页面，大概1s多就完成了，为了对比我们先给之前的doubanCrawler1.go加一点Sleep的代码，让它跑的「慢」些：这样运行起来大体可以计算出来程序跑完…

6年前
890
2
评论

用Golang写爬虫(二) - 并发

用Golang写爬虫(二) - 并发

在上篇文章里面我用Go写了一个爬虫，但是它的执行是串行的，效率很低，这篇文章把它改成并发的。由于这个程序只抓取10个页面，大概1s多就完成了，为了对比我们先给之前的doubanCrawler1.go加一点Sleep的代码，让它跑的「慢」些：已经很慢了。接着我们开始让它变得更快…

6年前
4.3k
14
2

用Golang写爬虫(二) - 并发

用Golang写爬虫(一)

之前一直都是再用Python写爬虫，最近想体验下Golang写爬虫的感觉，所以就有了这个系列。我想要抓取的页面是豆瓣Top250页面，选择它的理由有3个: 豆瓣页面代码相对规范豆瓣对爬虫爱好者相对更宽容 Top250页面简洁，很适合拿来练手我们先看第一版的代码...

6年前
1.0k
3
3

用Golang写爬虫(一)

之前一直都是再用Python写爬虫，最近想体验下Golang写爬虫的感觉，所以就有了这个系列。我想要抓取的页面是豆瓣Top250页面，选择它的理由有3个: 我们先看第一版的代码。我把URL请求的逻辑都放在了fetch函数中，里面做了一些异常处理。值得说的有2点：在Heade…

6年前
4.2k
7
评论

个人成就

文章被点赞 131

文章被阅读 90,034

掘力值 1,279

加入于

2019-07-09