跳转到主要内容
这些工具使您的代理能够与网络交互、从网站提取数据并自动执行基于浏览器的任务。从简单的网络抓取到复杂的浏览器自动化,这些工具涵盖了您所有的网络交互需求。

可用工具

常见用例

  • 数据提取:抓取产品信息、价格和评论
  • 内容监控:跟踪网站和新闻源的变化
  • 潜在客户生成:提取联系信息和业务数据
  • 市场研究:收集竞争情报和市场数据
  • 测试与质量保证:自动化浏览器测试和验证工作流程
  • 社交媒体:提取帖子、评论和社交媒体分析

快速入门示例

from crewai_tools import ScrapeWebsiteTool, FirecrawlScrapeWebsiteTool, SeleniumScrapingTool

# Create scraping tools
simple_scraper = ScrapeWebsiteTool()
advanced_scraper = FirecrawlScrapeWebsiteTool()
browser_automation = SeleniumScrapingTool()

# Add to your agent
agent = Agent(
    role="Web Research Specialist",
    tools=[simple_scraper, advanced_scraper, browser_automation],
    goal="Extract and analyze web data efficiently"
)

抓取最佳实践

  • 尊重 robots.txt:始终检查并遵守网站抓取政策
  • 速率限制:在请求之间实施延迟,以避免服务器过载
  • 用户代理:使用适当的用户代理字符串来识别您的机器人
  • 法律合规性:确保您的抓取活动符合服务条款
  • 错误处理:对网络问题和被阻止的请求实施强大的错误处理
  • 数据质量:在处理之前验证和清理提取的数据

工具选择指南

  • 简单任务:使用ScrapeWebsiteTool进行基本内容提取
  • JavaScript 重型网站:使用SeleniumScrapingTool处理动态内容
  • 规模与性能:使用FirecrawlScrapeWebsiteTool进行大容量抓取
  • 云基础设施:使用BrowserBaseLoadTool进行可扩展的浏览器自动化
  • 复杂工作流程:使用StagehandTool进行智能浏览器交互