🥕jsoup简介🥕
一款Java 的HTML解析器, 可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。
🥦爬取案例-网易新闻🥦
温馨提示: 爬取网易新闻全部资源 需要二次爬取(爬第一次的链接后再爬取获取作者 时间 图片) 对于网易导入的外部资源链接(无法处理) 爬取少量信息
2022-09-28 20:07:33.491 INFO 5704 --- [main] c.demo.article.ArticleApplicationTests : Started ArticleApplicationTests in 3.206 seconds (JVM running for 4.396)
2022-09-28 20:07:38.309 INFO 5704 --- [main] com.demo.article.utils.HtmlParseUtil : 文章Article(pkId=null, articleName=乌鲁木齐航空机长基里尔尔:中国是我的“第一个家”, articleAuthor=人民网-人民视频, gmtCreate=2022-09-28T11:17:12, articleUrl=https://www.163.com/news/article/HIBLUP8A000189FH.html, articleShowPic=https://static.ws.126.net/163/f2e/product/post_nodejs/static/logo.png)
2022-09-28 20:07:38.309 INFO 5704 --- [main] com.demo.article.utils.HtmlParseUtil : 文章Article(pkId=null, articleName=精神文明建设:为中华民族伟大复兴注入不竭动力, articleAuthor=光明网, gmtCreate=2022-09-28T12:07:41, articleUrl=https://www.163.com/news/article/HIBOR6P3000189FH.html, articleShowPic=https://nimg.ws.126.net/?url=http%3A%2F%2Fcms-bucket.ws.126.net%2F2022%2F0928%2F054a535bj00riwjgg000sc000b4007ec.jpg&thumbnail=660x2147483647&quality=80&type=jpg)
2022-09-28 20:07:38.309 INFO 5704 --- [main] com.demo.article.utils.HtmlParseUtil : 文章Article(pkId=null, articleName=外媒看中国人太空漫步名场面:“创造历史”, articleAuthor=海外网 , gmtCreate=2022-09-27T22:17:13, articleUrl=https://www.163.com/dy/article/HIA9AIH90514R9L4.html, articleShowPic=https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2022%2F0927%2Ff386d2e0j00riv993000qc000dc007ig.jpg&thumbnail=660x2147483647&quality=80&type=jpg)
🥑项目详细介绍🥑
`
🥰爬取网页资源🥰
🥐项目通俗易懂(注释多)🥐
🥙专门拍摄了一期视频讲解🥙
🍵B站视频🍵
🐎源码的分享🐎
🦌视频简介中🦌
🫖制作不易 望大家给个三连支持呀🫖
`
🥒部分源码展示🥒
//获取文章作者
String articleSource = articleContext.getElementsByClass("post_info").eq(SystemConstant.NUM_ZERO).text();
//如果文章中获取不了具体信息 说明不是网易文章 可直接跳过
if (ObjectUtil.isEmpty(articleSource)) {
continue;
}
//2022-08-01 12:01:14 来源: 央视新闻客户端 北京 举报 截取出文章作者
String author = StrUtil.sub(articleSource, 24, -6);
//文章发表时间
LocalDateTime gmtModified = DateUtil.parseLocalDateTime(StrUtil.sub(articleSource, 0, 19), SystemConstant.DATE_FORMAT_YYYY_MM_DD_HH_MM_SS);
//获取文章图片
Element content = articleContext.getElementById("content");