获得徽章 0
- #MCP 怎么玩# 前几天用了一款专门用来采集数据的mcp服务,我是在cursor配置的bright data mcp,好像是亮数据开发的mcp服务,它之前专门做数据采集api和ip代理的,相对比较专业吧。
这个mcp用下来有4个功能比较不错,第一是搜索功能,可以调用直接搜索谷歌并返回搜索数据;第二是采集网页,能够采集整个网站所有的页面,就非常强了;第三是访问查看各种网站公开内容,而且内置了解锁服务,不需要自己去应对反爬虫机制;第四能实现浏览器自动化,可以设置prompt,让mcp自己去自动化操作浏览器完成任务。展开赞过评论1 - #挑战每日一条沸点# 最近看到一个Python库brightdata-sdk,又一个爬虫利器,它是亮数据开发的专门用来在Python中使用数据采集服务,通过这个库可以实现对复杂网页的解锁,并且能自动切换ip访问,模拟真人行为,绕过各种反爬的检测。也就是说brightdata-sdk相比reqeusts、selenium能直接抓取到网页,而不需要处理复杂的检测,非常适合部署在大型爬虫任务上。展开1点赞
- #每天一个知识点# 最近在用playwright采集某短视频平台数据,发现真的很好用,比如selenium简单且快,而且api真不是一个时代的产物,难怪微软还搞了playwright mcp。我还发现想要playwright能绕过检测,稳定采集数据,最好是能接入亮数据的远程浏览器,而不是本地浏览器,因为亮数据在它的远程浏览器里内嵌了绕过反爬检测的技术,可以自动切换ip访问,还能识别验证码,简直如虎添翼,让playwright又强大了很多。展开赞过11
- #挑战每日一条沸点#
怎么获取跨境电商平台公开数据,之前做了5年的跨境电商,经常要做市场分析、竞品调研,采集数据是非常头疼的事,一般而言有3种主要的方式可以采集到商品数据。
1、用Python scrapy、selenium采集库,自己写脚本,需要注意部署IP切换、对付验证码等各种反爬机制。这类适合对技术非常了解的团队,或者是大型跨境公司。
2、去找电商平台官方的数据接口,这种数据是最稳定和准确的,比如Amazon RDS,但是受限于没法自定义数据字段,而且费用可能还不低。
3、用第三方的数据api或者现成数据集,比如亮数据api,它内置了采集技术和反爬应对策略,不需要你自己来写,对我这个技术菜鸟来说很实用。另外,它还有采集好的数据集,就是你能看到的现成的csv格式数据。展开赞过11 - #每天一个知识点# 这两天看到一个github仓库觉得蛮神奇,叫作brightdata-mcp,已经有1.5K star。你可以理解它是一个爬虫MCP服务,通过AI prompt来实时采集网络数据、搜索内容,最核心的特点是它居然能自己切换ip、解锁验证码,完全不需要手工去配置,后来知道它是基于亮数据采集api开发的,确实强。
我觉得这类mcp应用场景还是蛮广的,像市场舆情监测、电商货品采集、学术资料查询等,基本都能用的到。展开赞过11 - #MCP 怎么玩# Trae怎么设置MCP服务是安装mcp-feedback-enhanced插件来用吗,我最近在cursor用一个数据采集的mcp,brightdata mcp,想在Trae上能配置。
不得不说,现在mcp功能太强了,brightdata mcp是亮数据开发的爬虫类mcp,可以采集、访问、搜索各种网页数据,而且内置了解锁技术、以及ip代理池,不需要自己去处理各种反爬限制。
这样的话我可以用自然语言去采集复杂的网页公开数据,省去了大把开发脚本的时间。展开评论点赞 - #每天一个知识点# Playwright也出了MCP服务,这样就可以直接用大模型prompt来获取网页数据了,它能自动判断操作哪些元素来获取数据,不用再写脚本处理,方便很多。
但playwright会遇到反爬机制的限制,我在用传统playwright自动化的时候,会搭配亮数据的数据抓取浏览器来用,解决验证码、IP限制的问题,亮数据会内置人机验证解锁器、还可以自动去切换住宅代理IP池,模仿真人指纹,采集任务会稳定不少,可以试试。展开赞过评论1 - #MCP 怎么玩# 求问下大家用过数据采集类的MCP吗,能用Trae直接配置的,我这两天用了bright data MCP,是专门用来网页爬虫的,可以搜索、浏览、采集数据,而且不会被封禁,还挺好玩的。
看了下这是亮数据开发的MCP,好像是专门做数据采集业务的,应该还比较靠谱。等人赞过评论4 - #新人报道#
现在有了一种新的数据爬虫方法,AI大模型MCP爬虫,比纯python爬虫库和采集器更好用。我周末用了亮数据的爬虫MCP服务-Bright data MCP,可以用cursor、trae等编程agent调用,配置下Json文件就可以用。
亮数据本来就是做数据采集起家的,所以对于爬虫技术很拿手,这个MCP内置了各大电商、社媒等网站的采集api,自动化处理反爬机制,而且将数据集处理成结构化的json格式,只需要通过自然语言调用mcp就可以实现数据采集,比如电商的商品名称、价格等信息。
现在好像有几千次的免费mcp调用额度,羊毛可以薅一薅哈哈。展开赞过评论2