Scrapfly 抓取网站工具
ScrapflyScrapeWebsiteTool
利用 Scrapfly 的网页抓取 API 以各种格式提取网站内容。
ScrapflyScrapeWebsiteTool
描述
ScrapflyScrapeWebsiteTool
旨在利用 Scrapfly 的网页抓取 API 从网站提取内容。此工具提供高级网页抓取功能,支持无头浏览器、代理和反机器人绕过功能。它允许以各种格式(包括原始 HTML、Markdown 和纯文本)提取网页数据,非常适合广泛的网页抓取任务。
安装
要使用此工具,您需要安装 Scrapfly SDK
您还需要在 scrapfly.io/register 注册以获取 Scrapfly API 密钥。
入门步骤
要有效使用 ScrapflyScrapeWebsiteTool
,请遵循以下步骤
- 安装依赖项:使用上述命令安装 Scrapfly SDK。
- 获取 API 密钥:在 Scrapfly 注册以获取您的 API 密钥。
- 初始化工具:使用您的 API 密钥创建工具实例。
- 配置抓取参数:根据您的需求自定义抓取参数。
示例
以下示例演示了如何使用 ScrapflyScrapeWebsiteTool
从网站提取内容
您还可以自定义抓取参数
参数
ScrapflyScrapeWebsiteTool
接受以下参数
初始化参数
- api_key:必需。您的 Scrapfly API 密钥。
运行参数
- url:必需。要抓取的网站 URL。
- scrape_format:可选。提取网页内容的格式。选项包括“raw”(HTML)、“markdown”或“text”。默认为“markdown”。
- scrape_config:可选。包含额外 Scrapfly 抓取配置选项的字典。
- ignore_scrape_failures:可选。是否忽略抓取期间的失败。如果设置为
True
,当抓取失败时,工具将返回None
而不是引发异常。
Scrapfly 配置选项
scrape_config
参数允许您使用以下选项自定义抓取行为
- asp:启用反抓取保护绕过。
- render_js:使用云无头浏览器启用 JavaScript 渲染。
- proxy_pool:选择代理池(例如,“public_residential_pool”、“datacenter”)。
- country:选择代理位置(例如,“us”、“uk”)。
- auto_scroll:自动滚动页面加载延迟加载的内容。
- js:由无头浏览器执行自定义 JavaScript 代码。
有关完整的配置选项列表,请参阅 Scrapfly API 文档。
用法
将 ScrapflyScrapeWebsiteTool
与智能体一起使用时,智能体需要提供要抓取的网站 URL,并可选择指定格式和额外的配置选项
更多带有自定义配置的高级用法
错误处理
默认情况下,如果抓取失败,ScrapflyScrapeWebsiteTool
将引发异常。可以通过指定 ignore_scrape_failures
参数来指示智能体优雅地处理失败
实现细节
ScrapflyScrapeWebsiteTool
使用 Scrapfly SDK 与 Scrapfly API 交互
结论
ScrapflyScrapeWebsiteTool
通过 Scrapfly 的高级网页抓取功能,提供了从网站提取内容的强大方式。凭借无头浏览器支持、代理和反机器人绕过等功能,它可以处理复杂的网站并以各种格式提取内容。此工具特别适用于需要可靠网页抓取的数据提取、内容监控和研究任务。