Opik 概述
通过 Comet Opik,利用全面的追踪、自动化评估和生产就绪的仪表板来调试、评估和监控您的 LLM 应用程序、RAG 系统和代理工作流。
Opik 代理仪表板
- 记录追踪和跨度:自动跟踪 LLM 调用和应用程序逻辑,以调试和分析开发及生产系统。手动或以编程方式注释、查看和比较不同项目之间的响应。
- 评估您的 LLM 应用程序的性能:根据自定义测试集进行评估,并运行内置评估指标或在 SDK 或 UI 中定义您自己的指标。
- 在 CI/CD 流水线中测试:使用 Opik 基于 PyTest 构建的 LLM 单元测试建立可靠的性能基线。运行在线评估以在生产中进行持续监控。
- 监控和分析生产数据:了解您的模型在生产中未见数据上的性能,并为新的开发迭代生成数据集。
设置
Comet 提供 Opik 平台的托管版本,您也可以在本地运行该平台。 要使用托管版本,只需创建一个免费的 Comet 帐户并获取您的 API 密钥。 要在本地运行 Opik 平台,请参阅我们的安装指南了解更多信息。 本指南中我们将使用 CrewAI 的快速启动示例。1
安装所需软件包
2
配置 Opik
3
准备环境
首先,我们将 LLM 提供商的 API 密钥设置为环境变量
4
使用 CrewAI
第一步是创建我们的项目。我们将使用 CrewAI 文档中的一个示例现在我们可以导入 Opik 的跟踪器并运行我们的 Crew运行您的 CrewAI 应用程序后,访问 Opik 应用程序以查看
- LLM 追踪、跨度及其元数据
- 代理交互和任务执行流程
- 性能指标,如延迟和令牌使用情况
- 评估指标(内置或自定义)
