工具
Firecrawl 抓取网站
FirecrawlCrawlWebsiteTool
工具旨在抓取网站并将其转换为干净的 markdown 或结构化数据。
FirecrawlCrawlWebsiteTool
描述
Firecrawl 是一个用于抓取任意网站并将其转换为干净的 markdown 或结构化数据的平台。
安装
- 从 firecrawl.dev 获取 API 密钥,并将其设置到环境变量中(
FIRECRAWL_API_KEY
)。 - 安装 Firecrawl SDK 以及
crewai[tools]
包
示例
按如下方式使用 FirecrawlScrapeFromWebsiteTool 工具,让您的代理能够加载网站
代码
参数
api_key
: 可选。指定 Firecrawl API 密钥。默认为FIRECRAWL_API_KEY
环境变量。url
: 开始抓取的基础 URL。page_options
: 可选。onlyMainContent
: 可选。只返回页面主要内容,排除页眉、导航、页脚等。includeHtml
: 可选。包含页面的原始 HTML 内容。响应中将输出一个 html 键。
crawler_options
: 可选。控制抓取行为的选项。includes
: 可选。要包含在抓取中的 URL 模式。exclude
: 可选。要从抓取中排除的 URL 模式。generateImgAltText
: 可选。使用 LLM 为图像生成 alt 文本(需要付费计划)。returnOnlyUrls
: 可选。如果为 true,则在抓取状态中仅以列表形式返回 URL。注意:响应将是数据中包含的 URL 列表,而不是文档列表。maxDepth
: 可选。最大抓取深度。深度 1 是基础 URL,深度 2 包括基础 URL 及其直接子页面,以此类推。mode
: 可选。要使用的抓取模式。快速模式在没有站点地图的网站上抓取速度快 4 倍,但可能不如其他模式准确,不应在大量使用 JavaScript 渲染的网站上使用。limit
: 可选。最大抓取页面数。timeout
: 可选。抓取操作的超时时间(毫秒)。