
Let Agents Scrape Web Data Themselves: smart-web-scraper Skill Practical Guide
smart-web-scraper enables agents to browse web and extract data autonomously. Installation, 3 use cases, and pitfalls.
📋 实验室验证报告
一个真实的需求
上周二,老板在群里丢了一个链接:「把这个页面上所有AI课程的标题、价格、讲师名字扒下来,整理成表格。」
我看了看,是一个在线学习平台的课程列表页,大概有50多门课。
正常情况下,我需要:打开页面→按F12→找HTML结构→写Python脚本→用BeautifulSoup解析→导出CSV。一套下来至少40分钟。
但这次,我只用了30秒。
我对小鹦鹉说:「用smart-web-scraper,把这个页面的课程信息扒下来。」
2分钟后,它给了我一个CSV文件,53门课,字段齐全,格式完美。
老板回了一个字:「牛。」
smart-web-scraper是啥?
简单说,这是一个让Agent能自主浏览网页、提取信息的OpenClaw技能。它不是简单的HTTP请求,而是能理解页面结构、智能识别内容的「网页阅读器」。
核心能力:自动识别页面主要内容区域、智能提取结构化数据、支持JavaScript渲染的页面、可以按指令提取特定字段。
安装和配置
安装很简单,一行命令:
clawhub install smart-web-scraper
这个技能不需要额外配置API key,因为它用的是浏览器自动化(Playwright)而不是第三方服务。
环境依赖:Node.js 18+、Playwright(安装技能时会自动装)、Chrome或Chromium浏览器。
如果安装后报错「Playwright not found」,手动运行一次:npx playwright install
实战使用:3个真实场景
场景1:扒课程列表
任务:访问 https://example-learning.com/courses,提取所有课程的标题、价格、讲师、评分,输出CSV格式。
场景2:监控竞品价格变化
我们有个小脚本,每天用smart-web-scraper扒一次3个竞品网站的价格页,然后对比变化。如果某个产品降价超过10%,就触发告警。这个脚本跑了2个月,帮我们抓到了7次竞品调价。
场景3:收集行业新闻
猫头鹰🦉每天早上的工作之一,就是用这个技能扒5个AI新闻网站的头条,然后整理成简报。
踩坑记录
坑1:动态加载的内容抓不到
有些网站是滚动加载的,默认情况下只会抓取首屏内容。解决方案:在指令里明确说「滚动到页面底部,等待所有内容加载完成」。
坑2:反爬虫拦截
有些网站会检测自动化工具。解决方案:加随机延迟(每次请求间隔2-5秒)、设置真实的User-Agent。
坑3:页面结构变了,提取失败
这是最烦的。我们的做法是:对于重要的数据源,每周人工检查一次,确认结构没变。
和其他技能的配合
smart-web-scraper很少单独使用,它通常和其他技能组合:+ translate-cli(翻译外文内容)、+ xiaohongshu-writing(改写成小红书笔记)、+ n8n-automation(定时扒取,自动存入数据库)。
我们有一个「竞品监控流水线」:smart-web-scraper(扒价格)→ translate-cli(翻译)→ n8n-automation(存入Notion)→ Telegram(告警)。全自动,每天跑一次。
SFD实验室怎么用的
我们15个Agent里,有5个经常用smart-web-scraper:猫头鹰🦉(扒论文)、小鹦鹉🦜(扒社交媒体热点)、招财猫🐱(扒竞品价格)、小春蚕🐛(扒日本AI资讯)、小狐狸🦊(扒素材)。
使用频率最高的是猫头鹰,平均每天扒20+个页面。最夸张的一次,它为了写一份「2026年AI工具全景图」,一天扒了87个网站,整理了300多个工具。
结语:让Agent替你「上网」
有了smart-web-scraper,Agent能自己上网找数据了。这就像给了它一双眼睛,让它能直接看世界,而不是只能通过你转述。
SFD编者注:写这篇的时候,我们的猫头鹰正在扒第12个网站的头条。它说今天已经扒了200多条新闻,准备整理成午间简报。我看了看时间,才上午10点。这就是自动化的力量。
⚙️ 安装与赋能
clawhub install smart-web-scraper-skill-ai-web-scraping-practical-guide-2026安装后在你的 Agent 配置中启用此技能,重启 Agent 即可生效。