python爬取小说（一）原因是网页的编码不同，所以要找到该网页的编码方式。爬取过来的内容是网页的全部内容，即是html

python爬取小说网页内容以及遇到的问题解决

简单的爬取小说

#  coding:UTF-8 -*-
import requests
 
if __name__ == '__main__':
    target = 'https://www.52bqg.com/book_24967/10502028.html'
    req = requests.get(url=target)
    print(req.text)

target是要爬取的目标连接url 但是这种爬取方式会出现乱码

类似于这样的乱码：

&nbsp;&nbsp;&nbsp;&nbsp;ÎªÊ²Ã´ºÚÎí¹ÈÕâÃ´Î£ÏÕ£¬¿ª×ÚÀÏ×æ¸úÆäËûÈË»¹Òª´³½øÀ´£¿<br />
<br />
&nbsp;&nbsp;&nbsp;&nbsp;ß×£¬ÕâºÚÎí¹ÈÖÐ²»ÉÙµØ·½»¹³¤×ÅÁéÒ©£¬ÕæÊÇ¸öÆæ¹ÖµÄµØ·½£¡<br />
<br />
&nbsp;&nbsp;&nbsp;&nbsp;³þ³¿Õð¾ªÖ®Óà£¬¿ªÊ¼²»¶ÏÍùÉÏ·É£¬µ±³åÆÆÔÆ²ãÒ»°ãµÄÅ¨Å¨ºÚÎíÊ±£¬Ëû¿´µ½ÁËÒ»×ù¾Þ´óµÄÉ½Âö¡£<br />
<br />
&nbsp;&nbsp;&nbsp;&nbsp;Ò»×ùÍ¨ÌåÆáºÚ£¬¸ßËÊÈëÔÆ£¬»ÖºëÎÞ±ÈµÄ¹ÅÉ½ËÊÁ¢ÔÚ²ÔÃ£µÄºÚÎíÖÐ¡£ÕâºÚÎí¹È¾¹È»Òþ²Ø×ÅÕâÃ´Ò»×ù»ÖºëµÄ¹ÅÉ½£¡<br />
<br />
&nbsp;&nbsp;&nbsp;&nbsp;É½ÉÏ¾¹È»¶¼ÊÇÊ¬Ìå£¬Ò»²ãÓÖÒ»²ãµÄµþÔÚÒ»Æð£¬ÕâÐ©Ê¬Ê×´ó¶àÒÑ¾±»ËºÁÑ£¬ËÀ×´¼«Îª²ÒÁÒ£¬ÏñÊÇ·¢Éú¹ýÒ»³¡¿õ¹ÅÕ½ÕùÒ»°ã¡£<br />
<br />
&nbsp;&nbsp;&nbsp;&nbsp;Õâ¡¡²»ÊÇ÷è÷ëÂð£¿Ò»¸ö¾Þ´óµÄÑª÷è÷ëµÄÍ·¶î»ìÔÚÊ¬¶Ñµ±ÖÐ£¬ÏÔµÃÌØ±ðÒ«ÑÛ£¬ÕâÕ½³¡ÖÐ¾¹È»»¹ÓÐÉÏ¹ÅÉñÊÞ±»É±£¿<br />
<br />
&nbsp;&nbsp;&nbsp;&nbsp;³þ³¿ºÜ¿ì¾Í·¢ÏÖ£¬×Ô¼ºÕð¾ªµÃÌ«ÔçÁË£¬Ô½ÍùÉÏ·É£¬Ëû¿´µ½µÄÉÏ¹ÅÉñÊÞÓëÌ«¹ÅÑýÄ§µÄÊ¬Ìå¾ÍÔ½¶à¡£<br />
<br />
&nbsp;&nbsp;&nbsp;&nbsp;ºÜ¿ìËû¾ÍÒÑ¾ÂéÄ¾ÁË£¬²»¹ý¾ÍÔÚËû·Éµ½°ëÉ½ÑüÊ±£¬ÔÚÈºÊ¬ÖÐ¿´µ½ÁËÒ»ÕÅÊìÏ¤µÄÃæ¿×£¬Ò»ÕÅ¾Þ´óµÄÌ«¼«²ÐÍ¼£¬ÓëÕû¸ö´óµØ»¯ÎªÒ»Ìå£¬ºÚ°×Á½É«¼«ÆäÃ÷ÏÔ¡£<br />
<br />
&nbsp;&nbsp;&nbsp;&nbsp;²ÐÍ¼±ßÔµ£¬¶¼ÊÇÒª³å½øÈ¥µÄÊ¬Ê×£¬ËÆºõÃ»ÓÐÈËÄÜÔ½Í¼°ë²½£¬¶øÌ«¼«Í¼µÄÖÐÐÄ£¬ÊÇÒ»¸öÃæÈÝÇåÛÇÏÉ·çµÀ¹ÇµÄÀÏÕß£¬Õâ¡¡Õâ·ÖÃ÷¾ÍÊÇ¼Ò¼Ò»§»§¶¼¹©·îµÄÌ«ÉÏÀÏ¾ý£¡<br />
<br />
&nbsp;&nbsp;&nbsp;&nbsp;ËûÔõÃ´»áËÀÔÚÕâÀï£¿<br />
<br />
&nbsp;&nbsp;&nbsp;&nbsp;Ì«ÉÏÀÏ¾ý±»Ò»Ö§½ðÉ«µÄ¼ý£¬´ÓÐÄÔà²¿Î»¶¤ËÀÔÚ×Ô¼ºµÄ¡°ÎÞÉÏÌ«¼«Í¼¡±ÉÏ£¬ËûÊÖ±ß»¹ÈÓ×ÅÒ»°ÑÒøË¿ÈçÑ©µÄÆÆËé¡°·÷³¾¡±¡£<br />
<br />
&nbsp;&nbsp;&nbsp;&nbsp;ÎÞÉÏÌ«¼«Í¼£¬Ìì½ç·÷³¾£¬ÕâÐ©¶¼ÊÇÍ¨Ìì³¹µØµÄ±¦Îï£¡<br />

原因是网页的编码不同，所以要找到该网页的编码方式。爬取过来的内容是网页的全部内容，即是html代码。所以开头可以查看网页的编码方式

`<meta http-equiv="Content-Type" content="text/html; charset=gbk" />`

可以发现是gbk编码方式于是改为utf-8编码方式，加一句代码 req.encoding=('gbk')

最后的代码就是

#  coding:UTF-8 -*-
import requests
 
if __name__ == '__main__':
    target = 'https://www.52bqg.com/book_24967/10502028.html'
    
    req = requests.get(url=target)
    req.encoding=('gbk')
    print(req.text)

这样整个网页的内容都可以爬取过来，而且是正常的编码啦

下次讲如何挑选出我们需要的内容。