Skip to content

案例 02|把网页数据抓成表:web_fetch vs browser(SOP)

目标

从网页拿到结构化信息(标题/链接/日期…),整理成 markdown/CSV。


先选工具(决策树)

  • 不需要登录、内容在 HTML 里 → web_fetch(快)
  • 需要登录/点按钮/动态加载 → browser(稳)

你对小艺说(输入模板)

把这个网页的前 20 条条目抓出来,字段是:标题、链接、日期。输出成表格。

你最好再补一句:

  • “如果需要登录,我用哪个账号(或我随后提供)。”

小艺会怎么做(两种路线)

路线 A:web_fetch(快)

  1. 抓网页正文
  2. 抽取字段(标题/链接/日期)
  3. 输出 markdown 表格或 CSV

路线 B:browser(稳)

  1. 打开网页
  2. snapshot(aria) 找列表区域
  3. 滚动/翻页拿到 20 条
  4. 抽取字段并输出表格
  5. 截图做验收(可选)

验收清单

  • [ ] 字段齐全(标题/链接/日期)
  • [ ] 条数正确(20 条)
  • [ ] 链接可点击

常见坑

  • 抓不到日期:页面日期是图片/脚本渲染 → 改用 browser
  • 列表无限滚动:需要分段滚动 + 多次 snapshot