跳转到主要内容
这些工具使您的代理能够与网络交互,从网站提取数据,并自动化基于浏览器的任务。从简单的网页抓取到复杂的浏览器自动化,这些工具涵盖了您所有的网络交互需求。

可用工具

常见用例

  • 数据提取: 抓取产品信息、价格和评论
  • 内容监控: 跟踪网站和新闻源的变化
  • 潜在客户开发: 提取联系信息和业务数据
  • 市场研究: 收集竞争情报和市场数据
  • 测试与质量保证: 自动化浏览器测试和验证工作流程
  • 社交媒体: 提取帖子、评论和社交媒体分析

快速入门示例

from crewai_tools import ScrapeWebsiteTool, FirecrawlScrapeWebsiteTool, SeleniumScrapingTool

# Create scraping tools
simple_scraper = ScrapeWebsiteTool()
advanced_scraper = FirecrawlScrapeWebsiteTool()
browser_automation = SeleniumScrapingTool()

# Add to your agent
agent = Agent(
    role="Web Research Specialist",
    tools=[simple_scraper, advanced_scraper, browser_automation],
    goal="Extract and analyze web data efficiently"
)

抓取最佳实践

  • 遵守 robots.txt: 始终检查并遵循网站的抓取政策
  • 速率限制: 在请求之间实施延迟,以避免服务器过载
  • 用户代理: 使用适当的用户代理字符串来识别您的机器人
  • 法律合规: 确保您的抓取活动符合服务条款
  • 错误处理: 对网络问题和被阻止的请求实施稳健的错误处理
  • 数据质量: 在处理之前验证和清理提取的数据

工具选择指南

  • 简单任务: 使用 ScrapeWebsiteTool 进行基本内容提取
  • 重度 JavaScript 网站: 使用 SeleniumScrapingTool 处理动态内容
  • 规模与性能: 使用 FirecrawlScrapeWebsiteTool 进行大批量抓取
  • 云基础设施: 使用 BrowserBaseLoadTool 进行可扩展的浏览器自动化
  • 复杂工作流: 使用 StagehandTool 进行智能浏览器交互