概述 - CrewAI 框架

from crewai_tools import ScrapeWebsiteTool, FirecrawlScrapeWebsiteTool, SeleniumScrapingTool

# Create scraping tools
simple_scraper = ScrapeWebsiteTool()
advanced_scraper = FirecrawlScrapeWebsiteTool()
browser_automation = SeleniumScrapingTool()

# Add to your agent
agent = Agent(
    role="Web Research Specialist",
    tools=[simple_scraper, advanced_scraper, browser_automation],
    goal="Extract and analyze web data efficiently"
)

抓取最佳实践

尊重 robots.txt：始终检查并遵守网站抓取政策
速率限制：在请求之间实施延迟，以避免服务器过载
用户代理：使用适当的用户代理字符串来识别您的机器人
法律合规性：确保您的抓取活动符合服务条款
错误处理：对网络问题和被阻止的请求实施强大的错误处理
数据质量：在处理之前验证和清理提取的数据

工具选择指南

简单任务：使用ScrapeWebsiteTool进行基本内容提取
JavaScript 重型网站：使用SeleniumScrapingTool处理动态内容
规模与性能：使用FirecrawlScrapeWebsiteTool进行大容量抓取
云基础设施：使用BrowserBaseLoadTool进行可扩展的浏览器自动化
复杂工作流程：使用StagehandTool进行智能浏览器交互

PDF 文本写入工具

抓取网站

⌘我

开始使用

指南

核心概念

MCP 集成

工具

可观测性

学习

遥测

概述

可用工具

网站抓取工具

元素抓取工具

Firecrawl 抓取工具

Firecrawl 抓取工具

Firecrawl 搜索工具

Selenium 抓取工具

ScrapFly 工具

ScrapGraph 工具

爬虫工具

BrowserBase 工具

HyperBrowser 工具

Stagehand 工具

Oxylabs Scraper 工具

Bright Data 工具

常见用例

快速入门示例

抓取最佳实践

工具选择指南

开始使用

指南

核心概念

MCP 集成

工具

可观测性

学习

遥测

​可用工具

网站抓取工具

元素抓取工具

Firecrawl 抓取工具

Firecrawl 抓取工具

Firecrawl 搜索工具

Selenium 抓取工具

ScrapFly 工具

ScrapGraph 工具

爬虫工具

BrowserBase 工具

HyperBrowser 工具

Stagehand 工具

Oxylabs Scraper 工具

Bright Data 工具

​常见用例

​快速入门示例

​抓取最佳实践

​工具选择指南

可用工具

常见用例

快速入门示例

抓取最佳实践

工具选择指南