案例 02|把网页数据抓成表:web_fetch vs browser(SOP)
目标
从网页拿到结构化信息(标题/链接/日期…),整理成 markdown/CSV。
先选工具(决策树)
- 不需要登录、内容在 HTML 里 →
web_fetch(快) - 需要登录/点按钮/动态加载 →
browser(稳)
你对小艺说(输入模板)
把这个网页的前 20 条条目抓出来,字段是:标题、链接、日期。输出成表格。
你最好再补一句:
- “如果需要登录,我用哪个账号(或我随后提供)。”
小艺会怎么做(两种路线)
路线 A:web_fetch(快)
- 抓网页正文
- 抽取字段(标题/链接/日期)
- 输出 markdown 表格或 CSV
路线 B:browser(稳)
- 打开网页
- snapshot(aria) 找列表区域
- 滚动/翻页拿到 20 条
- 抽取字段并输出表格
- 截图做验收(可选)
验收清单
- [ ] 字段齐全(标题/链接/日期)
- [ ] 条数正确(20 条)
- [ ] 链接可点击
常见坑
- 抓不到日期:页面日期是图片/脚本渲染 → 改用 browser
- 列表无限滚动:需要分段滚动 + 多次 snapshot