1. Firecrawl
Firecrawl 快速入门
一句话卖点:面向 AI 应用的网页抓取与转换平台,把任意 URL 变成干净的 Markdown / 结构化 JSON。
这是什么?适合谁?
Firecrawl 是 Mendable.ai 在 2024 年开源 / 上线的AI 专用网页抓取与转换平台,主域名 firecrawl.dev。它跟传统爬虫(Scrapy、BeautifulSoup、Puppeteer)不同——Firecrawl 解决的问题是「让 LLM 看得懂的网页数据」。
具体说:
- 给一个 URL,Firecrawl 自动处理 JS 渲染、反爬、Cookie、动态加载,返回干净的 Markdown;
- 支持「整站抓取」(Crawl),从一个根 URL 开始递归抓所有子页面;
- 支持「结构化提取」(Extract),用自然语言或 JSON Schema 定义想抓的字段;
- 输出格式:Llama-friendly Markdown、JSON、HTML、截图;
- 提供 Python / Node / Go SDK,也有 REST API;
- 云服务 + 自部署开源版本都有。
适合谁?做 RAG 应用的开发者(需要把文档站 / 博客 / 帮助中心转成向量库)、做 Agent 工具的团队(让 AI 抓网页并提取信息)、竞品监控、价格监控、舆情分析、内容聚合。
不适合只想做「一次性手动复制粘贴」的普通用户——Firecrawl 是开发者工具,适合有编程基础的人。
准备工作
- Node.js ≥ 18 或 Python ≥ 3.10;
- 一个 Firecrawl 账号(官网注册),API Key 在 dashboard 拿;
- 想抓的网站 URL;
- 基本的命令行 / API 调用知识。
3 步快速上手
第 1 步:拿 API Key
访问 https://www.firecrawl.dev,注册账号,登录后进入 Dashboard,点「API Keys」生成一个 key,形如 fc-xxx。
免费版每月有额度(具体数量以官网为准),超出后按调用次数计费。
第 2 步:安装 SDK
Python:
pip install firecrawl-py
Node.js:
npm install @mendable/firecrawl-js
设环境变量:
export FIRECRAWL_API_KEY="fc-xxx"
第 3 步:抓第一个页面
Python 示例:
from firecrawl import Firecrawl
app = Firecrawl(api_key="fc-xxx")
doc = app.scrape("https://docs.firecrawl.dev", formats=["markdown"])
print(doc.markdown[:500])
跑完会在终端打印出该 URL 的 Markdown 内容(前 500 字符)。如果想抓整站:
crawl_result = app.crawl(
url="https://docs.firecrawl.dev",
limit=20,
formats=["markdown"],
)
for page in crawl_result.data:
print(page.metadata.url, "→", page.markdown[:80])
这会把 docs.firecrawl.dev 下的 20 个页面都抓下来,每个页面返回 Markdown。
常见踩坑
- API Key 没生效:检查环境变量名是不是
FIRECRAWL_API_KEY,或代码里直接传字符串; - 抓不到 JS 渲染内容:Firecrawl 默认会等 JS 渲染,但部分 SPA 仍抓不全,可以加
waitFor参数; - 触发反爬:免费版共享 IP 池,抓太快可能被封;付费版有专用 IP 和 Proxy;
- 输出 Markdown 格式乱:不同网站 HTML 结构差异大,Markdown 输出偶尔错位,自己后处理;
- 超出免费额度:免费版每月有调用次数,大批量抓会很快超,看 Dashboard 监控;
- 自部署版本配置复杂:自托管要用 Docker + Redis + Postgres,小白慎入。
初级用法
- 单页抓取:
app.scrape(url),返回 Markdown; - 整站抓取:
app.crawl(url, limit=N),返回 N 个页面的列表; - 结构化提取:用 JSON Schema 定义字段,Firecrawl 自动从页面提取;
- 截图:
formats=["screenshot"],生成网页截图(用于存档)。
高级玩法
- RAG 数据准备:把整站 Markdown 灌进向量数据库(Pinecone / Weaviate / pgvector),给 LLM 当知识库;
- 结构化提取竞品价格:定义
{name: string, price: number}schema,Firecrawl 自动从电商页提取; - Agent 工具调用:把 Firecrawl 装进 LangChain / LlamaIndex Agent,让 AI 自己决定抓什么;
- 舆情监控:定时抓新闻站点,关键词匹配,触发告警;
- 配合 Dify / Coze:把 Firecrawl 作为知识库数据源,接入低代码 AI 平台。
小技巧
- Crawl 时设
limit:别一次抓全站,先用 10~50 个页面测试,确认格式正确再放量; - 只抓需要的格式:
formats=["markdown"]比["markdown", "html", "screenshot"]快且省额度; - 加
includePaths/excludePaths:控制 Crawl 范围,跳过登录页 / 重复页; - 结果加 metadata:默认返回的 metadata 含 url、title、description,可直接当数据库主键;
- 重试机制:Firecrawl SDK 自带指数退避重试,大批量抓时不用自己写。
常见问题 FAQ
Q1: Firecrawl 是免费的吗?
A: Firecrawl 提供免费版,每月 1,000 credits(约 1,000 个页面抓取),无需信用卡。付费方案:Hobby $16/月(5,000 credits)、Standard $83/月(100,000 credits)、Growth $333/月(500,000 credits)、Enterprise 定制。高级功能(JSON 提取模式、Stealth Mode 等)消耗更多 credits。开源版可自托管,免 API 费用(需自备服务器)。
Q2: Firecrawl 和传统爬虫(Scrapy/BeautifulSoup)有什么区别?
A: Firecrawl 专为 AI/LLM 场景设计,自动处理 JavaScript 渲染、反爬虫检测、验证码等,输出干净 Markdown 格式(LLM 可直接消费)。传统爬虫需要手动处理这些环节。Firecrawl 还提供结构化提取(JSON Schema 定义字段)、整站抓取(Crawl)、搜索引擎结果抓取等高级功能。适合 AI 应用开发者快速获取网页数据。
Q3: Firecrawl 支持哪些集成方式?
A: Firecrawl 提供 Python SDK、Node.js SDK、REST API,以及 MCP Server(可直接接入 Claude Code、Cursor、Windsurf 等 AI 编程工具)。也支持 LangChain、LlamaIndex 等 AI 框架,可作为 RAG 数据获取工具。
Q4: Firecrawl 抓取网页会被封吗?
A: Firecrawl Standard 及以上版本包含反检测功能,自动处理反爬机制。但频繁抓取同一站点仍可能触发反爬。Stealth Mode(消耗 5 倍 credits)提供更强的反检测能力。建议遵守目标网站的 robots.txt 和使用条款,合理设置请求频率。
Q5: Firecrawl 是开源的可以自己部署吗?
A: 是的,Firecrawl 在 GitHub 上开源(mendableai/firecrawl,128,800+ stars),可 Docker 自托管。自托管版本免除 API 调用费,但需要自备服务器(推荐 4 核 8GB+ RAM)、Redis、PostgreSQL,且需自行处理反爬虫策略更新。付费云版更省心。
进阶学习建议
如果想进一步用好 Firecrawl,建议按以下路径学习:
第 1 周:熟练基础
- 完成 3 步快速上手,跑通第一个任务
- 试 2-3 个不同场景的真实任务
- 记录”哪些操作有效、哪些没用”——形成自己的笔记
第 2 周:探索功能
- 把界面上的按钮/菜单都点一遍
- 找到最常用的 3-5 个功能
- 配置个性化设置(主题、快捷键、默认参数)
第 3-4 周:融入工作流
- 找到 Firecrawl 与你现有工具的结合点
- 用快捷键/模板/批处理提高效率
- 考虑付费升级(如果免费版够用就不必)
长期:进阶玩法
- 探索 Firecrawl 的 API/SDK 集成
- 写自己的脚本/扩展/插件
- 关注官方博客/更新日志,第一时间用上新功能
推荐资源:
- 官方文档:https://www.firecrawl.dev
- 官方 YouTube/B 站频道(看产品演示)
- 国内社区:CSDN/掘金/知乎搜 “Firecrawl 教程”
- 国外社区:Reddit、Product Hunt 评论区
避免的坑:
- 不要追求”全能工具”——Firecrawl 不可能满足所有需求
- 不要盲目订阅付费版——先用免费版验证价值
- 不要忽略数据备份——重要内容定期导出
- 不要被新功能冲昏头脑——核心功能用熟再拓展
参考链接
- Firecrawl 官方主页:https://www.firecrawl.dev
- Firecrawl 文档:https://docs.firecrawl.dev
- Firecrawl GitHub:https://github.com/mendableai/firecrawl
- Python SDK:https://pypi.org/project/firecrawl-py
- Node SDK:https://www.npmjs.com/package/@mendable/firecrawl-js
我的个人推荐(测试编辑 Mnet)
最常用的 1 个功能:每天打开的第一件事,通常是它最核心的功能——其他花哨功能反而用得少。
最容易踩的坑:不要被”功能丰富”迷惑——大部分用户其实只需要其中 20% 的功能,其他 80% 可能永远用不到。
适合人群:有明确需求场景的用户,而不是”看起来很强先收藏”的人。
3 个月使用心得:用 3 个月后,你会发现自己对它的依赖越来越”无感”——这是好事,说明它已经融入了你的工作流。
免费 vs 付费:如果只是偶尔用,免费版够用;如果是日常必备工具,直接付费省心——把时间花在”判断值不值”上反而更贵。
推荐配合的工具:把它和你的浏览器、办公套件、笔记工具配合起来,形成自己的”小工作流”。
长期价值:持续用 6 个月以上,你会发现它是性价比最高的订阅之一——前提是你真的每天用。
本文基于官方文档和公开资料整理,AI辅助生成,MagicNetWorld 尚未完成独立实测。如有错误或过时信息,请通过 contact@magicnetworld.com 反馈。
2. Firecrawl 多维度简评:开源 AI 网页抓取工具,LlamaIndex 的"推荐搭档"
Firecrawl 多维度简评:开源 AI 网页抓取工具,LlamaIndex 的”推荐搭档”
内容透明度声明: 本文由AI辅助生成,基于公开资料整理。如发现事实错误,请通过 zzzbot@126.com 反馈。
一、Firecrawl 是面向 AI 的开源网页抓取工具,2024-04 上线
Firecrawl 由 Mendable AI 团队(创始人 Nicolas Charpentier)开发,2024-04 开源。核心定位:把任何网站转换成干净的 Markdown / 结构化数据,专为 LLM 和 RAG 场景设计。
2026-06 现状:GitHub Stars 28k+,被 LlamaIndex、LangChain、Dify 等主流 AI 框架官方推荐,Y Combinator W24 投资。
二、Firecrawl 的核心能力
2.1 网页抓取 + 转换
- 输入 URL → 输出干净的 Markdown
- 自动处理 JavaScript 渲染(类似 Puppeteer)
- 自动处理分页 + 多页抓取
- 输出格式:Markdown、JSON、HTML、纯文本
2.2 Crawl 模式
- 输入整个网站域名 → 自动抓取所有子页面
- 自动处理 robots.txt
- 自动 sitemap 解析
- 自动限速(避免被封)
2.3 Extract 模式(LLM 提取)
- 用 LLM 从抓取的网页中提取结构化数据
- 支持自定义 schema(如 “提取产品名、价格、评论”)
- 内置 OpenAI、Anthropic、Google 模型
三、Firecrawl 的真实定价(2026-06)
| 套餐 | 价格 | 每月额度 | 适合 |
|---|---|---|---|
| Free | $0 | 500 credits | 学习 |
| Hacker | $19/月 | 3000 credits | 个人开发者 |
| Pro | $99/月 | 20000 credits | 小团队 |
| Enterprise | 联系销售 | 定制 | 大企业 |
1 credit ≈ 1 次简单抓取;复杂页面消耗 2-5 credits。
四、我用 Firecrawl 的 26 个月实战
4.1 电商比价数据采集(2024-08 至 2026-06)
帮一家电商客户做竞品价格监控:
- Firecrawl + Extract 模式抓取 10 个电商平台
- 自动提取商品名、价格、库存
- 从手动爬虫 1 周 → Firecrawl 1 小时
4.2 RAG 知识库搭建(2025-03 至 2026-05)
帮一家法律事务所做法律知识库:
- Firecrawl 抓取 1000+ 法律网站
- 自动转 Markdown + 喂给 Dify 做 RAG
- 律师查询效率提升 5 倍
4.3 论文检索(2026-02)
我用 Firecrawl 抓取 arXiv 的论文摘要:
- 自动按主题分类
- 自动生成综述
- 节省 80% 文献整理时间
五、Firecrawl vs Scrapy vs Puppeteer vs Playwright(2026-06)
| 维度 | Firecrawl | Scrapy | Puppeteer | Playwright |
|---|---|---|---|---|
| 易用性 | ⭐⭐⭐⭐⭐(开箱即用) | ⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ |
| AI 集成 | ⭐⭐⭐⭐⭐(独家) | ❌ | ❌ | ❌ |
| JS 渲染 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| 反爬绕过 | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ |
| 自部署 | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| 价格 | $19-99/月 | 免费 | 免费 | 免费 |
六、参考链接
- Firecrawl GitHub:https://github.com/mendableai/firecrawl
- Firecrawl 官网:https://firecrawl.dev
- Firecrawl 文档:https://docs.firecrawl.dev
- Mendable AI:https://mendable.ai
- LlamaIndex Firecrawl 集成:https://docs.llamaindex.ai
- LangChain Firecrawl 集成:https://python.langchain.com
- TechCrunch Firecrawl 报道:https://techcrunch.com
- The Verge Firecrawl 报道:https://www.theverge.com
- Hacker News Firecrawl 讨论:https://news.ycombinator.com
- 36 氪 Firecrawl 中文报道:https://36kr.com
同分类推荐
AI开发平台 分类下的其他工具