Golang爬虫入门指南_golang mini-spider详解 goodcoder,阿里+头条+腾讯等大厂Golang笔试题目分享

25 阅读2分钟
"golang.org/x/net/html"

)

func main() { resp, err := http.Get("www.example.com") if err != nil { fmt.Println("请求发送失败:", err) return } defer resp.Body.Close()

doc, err := html.Parse(resp.Body)
if err != nil {
	fmt.Println("解析HTML失败:", err)
	return
}

findLinks(doc)

}

func findLinks(n *html.Node) { if n.Type == html.ElementNode && n.Data == "a" { for _, a := range n.Attr { if a.Key == "href" { fmt.Println(a.Val) } } }

for c := n.FirstChild; c != nil; c = c.NextSibling {
	findLinks(c)
}

}


上面的代码中,我们定义了一个递归函数`findLinks`来查找HTML中的所有链接。我们使用`html.Node``Type``Data`属性来判断当前节点是否为`<a>`标签,并使用`Attr`属性来获取链接的地址。


### 四、并发爬虫


并发是Golang的一个重要特性,能够提高爬虫的效率。我们可以使用Golang的并发机制来同时发送多个HTTP请求,加快网页的爬取速度。



package main

import ( "fmt" "net/http" "golang.org/x/net/html" )

func main() { urls := []string{ "www.example.com/page1", "www.example.com/page2", "www.example.com/page3", }

ch := make(chan string)

for \_, url := range urls {
	go fetch(url, ch)
}

for range urls {
	fmt.Println(<-ch)
}

}

func fetch(url string, ch chan<- string) { resp, err := http.Get(url) if err != nil { ch <- fmt.Sprintf("请求 %s 发送失败:%v", url, err) return } defer resp.Body.Close()

doc, err := html.Parse(resp.Body)
if err != nil {
	ch <- fmt.Sprintf("解析 %s 失败:%v", url, err)
	return
}

// 在这里进行HTML解析操作...

ch <- fmt.Sprintf("请求 %s 完成", url)

}


上面的代码中,我们定义了一个`ch`通道用于接收爬虫的结果。然后,我们使用`go`关键字来开启多个协程,每个协程负责爬取一个网页的内容并进行解析。最后,我们使用`<-ch`来从通道中获取结果并打印出来。


### 五、数据存储


爬取到的数据通常需要保存到数据库或者文件中。Golang提供了各种数据库驱动和文件操作函数,可以方便地进行数据存储。



package main

import ( "fmt" "net/http" "golang.org/x/net/html" "os" "io" )

func main() { resp, err := http.Get("www.example.com") if err != nil { fmt.Println("请求发送失败:", err) return } defer resp.Body.Close()

file, err := os.Create("output.html")
if err != nil {
	fmt.Println("创建文件失败:", err)
	return
}
defer file.Close()

\_, err = io.Copy(file, resp.Body)
if err != nil {
	fmt.Println("保存文件失败:", err)
	return
}

fmt.Println("文件保存成功")

}


上面的代码中,我们使用`os.Create`函数创建了一个名为`output.html`的文件,并使用`io.Copy`函数将HTTP响应的内容保存到文件中。


### 六、案例


#### 案例一:爬取网页标题



package main

import ( "fmt" "net/http" "golang.org/x/net/html" )

func main() { resp, err := http.Get("www.example.com") if err != nil { fmt.Println("请求发送失败:", err) return } defer resp.Body.Close()

doc, err := html.Parse(resp.Body)
if err != nil {
	fmt.Println("解析HTML失败:", err)
	return
}

title := findTitle(doc)
fmt.Println("网页标题:", title)

}

func findTitle(n *html.Node) string { if n.Type == html.ElementNode && n.Data == "title" { return n.FirstChild.Data }

for c := n.FirstChild; c != nil; c = c.NextSibling {
	title := findTitle(c)
	if title != "" {
		return title
	}
}

return ""

}


在上面的例子中,我们使用`findTitle`函数来查找网页的标题。我们通过递归遍历HTML树,如果遇到`<title>`标签,我们就返回其内容。


#### 案例二:爬取图片链接



package main

import ( "fmt" "net/http" "golang.org/x/net/html" )

func main() { resp, err := http.Get("www.example.com") if err != nil { fmt.Println("请求发送失败:", err) return } defer resp.Body.Close()

doc, err := html.Parse(resp.Body)
if err != nil {
	fmt.Println("解析HTML失败:", err)
	return
}

images := findImages(doc)
fmt.Println("图片链接:")
for \_, img := range images {
	fmt.Println(img)
}

}

func findImages(n *html.Node) []string { var images []string

if n.Type == html.ElementNode && n.Data == "img" {
	for \_, attr := range n.Attr {
		if attr.Key == "src" {
			images = append(images, attr.Val)
		}
	}
}

for c := n.FirstChild; c != nil; c = c.NextSibling {
	images = append(images, findImages(c)...)
}

return images

}


在上面的例子中,我们使用`findImages`函数来查找网页中的所有图片链接。我们通过递归遍历HTML树,如果遇到`<img>`标签,我们就将其`src`属性的值添加到结果集中。


#### 案例三:爬取动态生成内容



package main

import ( "fmt" "net/http" "io/ioutil" )

func main() { resp, err := http.Get("api.example.com/data") if err != nil { fmt.Println("请求发送失败:", err) return } defer resp.Body.Close()

body, err := ioutil.ReadAll(resp.Body)
if err != nil {
	fmt.Println("读取响应失败:", err)
	return
}

fmt.Println("动态生成内容:", string(body))

}


在上面的例子中,我们通过发送HTTP请求获取了一个动态生成的内容。这个内容可能是通过API接口返回的,而不是直接通过HTML页面展示的。我们使用`ioutil.ReadAll`函数来读取响应的内容,并将其打印出来。


![img](https://p9-xtjj-sign.byteimg.com/tos-cn-i-73owjymdk6/09ff05b156be43c2a13d5a10218fa20e~tplv-73owjymdk6-jj-mark-v1:0:0:0:0:5o6Y6YeR5oqA5pyv56S-5Yy6IEAg5py65Zmo5a2m5Lmg5LmL5b-DQUk=:q75.awebp?rk3s=f64ab15b&x-expires=1771857274&x-signature=HA0CPx65wnNSOb9Ygr2%2BIHg5XY8%3D)
![img](https://p9-xtjj-sign.byteimg.com/tos-cn-i-73owjymdk6/857fb517f68c49d6b541ebead65cbd2d~tplv-73owjymdk6-jj-mark-v1:0:0:0:0:5o6Y6YeR5oqA5pyv56S-5Yy6IEAg5py65Zmo5a2m5Lmg5LmL5b-DQUk=:q75.awebp?rk3s=f64ab15b&x-expires=1771857274&x-signature=nNGK69Yr4cdrVAAw3CqhOFfQO%2Fw%3D)

**网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。**

**[需要这份系统化的资料的朋友,可以添加戳这里获取](https://gitee.com/vip204888)**


**一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!**