【外文选推自取】如何用Selenide和JDK 14+抓取网站

98 阅读1分钟

如何用Selenide和JDK 14+抓取网站

有时我们会发现自己处于这样一种情况:我们需要某些数据,而这些数据需要从一些网站上手动获取。作为开发者,自动化当然是我们的朋友,这就是为什么我们可以编写一些自动化的方法来抓取网站,而不是自己去搜索所有这些信息。我录制了一段视频,其中我从我的博客网站上获取了一些数据,并通过使用Selenide和一些新的Java功能(如记录)将其转换为CSV格式。

请记住,要做一个好公民,只在允许你这样做的网站和情况下使用这些技术,并且你的行为不会破坏任何服务。

你可以在GitHub上找到这个代码例子。Selenium Playground

我们正在做的是使用Selenide及其有用的查询和方法,以及Java Records和Streams来将我的博客条目映射到所需的输出格式。与使用网络API的不同之处在于,我们必须在如何识别和获取各个部分方面更有创造性,因为数据不一定是结构化的自动消费。

由我们JCG项目的合伙人Sebastian Daschner授权发表在Java Code Geeks上。请看原文。如何用Selenide和JDK 14+抓取网站

Java Code Geeks撰稿人所表达的观点仅代表其本人。