爬虫

88 阅读1分钟
  • 方案一:nodejs环境使用
    获取音乐src等信息->按流的方式请求src地址,再流写入文件
const axios=require('axios')
const fs=require('fs')
const path=require('path')

//获取单个页面数据
async function getPage(num){
	let httpUrl='http://www.app-echo.com/api/recommend/sound-day?page='+num;
	let res= await axios.get(httpUrl)
	//循环音乐列表,获取音乐数据
	res.data.list.forEach(function(item,index){
		let title=item.sound.name;
		let mp3Url=item.sound.source;
		let filename=path.parse(mp3Url).name;

		let info=`${title},${mp3Url},${filename}`
		fs.writeFile('C:/Users/10853/Desktop/爬虫music.txt',info,{flag:'a'},function(err){
			console.log('ok');
		})
		console.log('歌名:'+filename);
		console.log('歌曲:'+mp3Url);
		download(mp3Url,filename);
	})
}

//下载音乐资源,流的形式
async function download(url,filename){
	let res=await axios.get(url,{responseType:'stream'})
	let extname=path.extname(url);
	let ws=fs.createWriteStream('C:/Users/10853/Desktop/爬虫music/'+filename+'.mp3');
	res.data.pipe(ws)
	res.data.on('close',function(){
		ws.end();
	})
}

getPage(2);

  • 方案二:前端页面插入js 使用a标签的download +Blob
        function download(){
          let res  = await axios.get(uri,{responseType:'blob'})
          console.log(res);
          let a=document.createElement('a')
          let file=new Blob([res.data], {type : 'audio/mpeg'})
          if('dowmload' in a){
            a.download='test.mp3'
            a.style.display='none'
            a.href=URL.createObjectURL(file)
            document.body.appendChild(a)
            a.click()
            URL.revokeObjectURL(a.href)
            document.body.removeChild(a)
          }else{
              // 兼容性处理
              click(a, (a.target = '_blank'))
          }
      }
      function click(node) { 
          try { node.dispatchEvent(new MouseEvent('click')) } 
          catch (e) { 
              var evt = document.createEvent('MouseEvents') 
              evt.initMouseEvent( 'click', true, true, window, 0, 0, 0, 80, 20, false, false, false, false, 0, null ) 
              node.dispatchEvent(evt) }


参考:
blog.csdn.net/weixin_4329… juejin.cn/post/684490…

反思

  • a标签通过download 属性下载文件存在跨域问题,必须为同一域名下,如果url指向第三方资源,download会失效---——浏览器能打开的文件,会直接打开,不能打开的文件,会直接下载
    solution:使用方案二将文件转为blob,createObjectURL
  • 在 Node.js 中写入文件最简单的方式是使用 fs.writeFile() API。对于大文件要使用文件流
  • 注意:爬虫运行速度太快,容易把对方的服务器搞崩溃,活着封锁你的ip,你可以在运行的函数中,加入一个随机运行时间函数,也就是setInterval,设置每3秒下载一张,这样就有点像真人的样子了,或者加入代理ip