概述
CrewAI 通过提供商的原生 SDK 与多个 LLM 提供商集成,让您可以灵活地为特定用例选择合适的模型。本指南将帮助您了解如何在 CrewAI 项目中配置和使用不同的 LLM 提供商。什么是 LLM?
大型语言模型 (LLM) 是 CrewAI 代理的核心智能。它们使代理能够理解上下文、做出决策并生成类似人类的响应。以下是您需要了解的信息LLM 基础知识
大型语言模型是经过大量文本数据训练的 AI 系统。它们为您的 CrewAI 代理提供智能支持,使它们能够理解和生成类似人类的文本。
上下文窗口
上下文窗口决定了 LLM 一次可以处理多少文本。较大的窗口(例如,128K 令牌)允许更多的上下文,但可能更昂贵且速度更慢。
温度
温度(0.0 到 1.0)控制响应的随机性。较低的值(例如,0.2)产生更集中、确定性的输出,而较高的值(例如,0.8)增加创造性和可变性。
提供商选择
每个 LLM 提供商(例如,OpenAI、Anthropic、Google)提供具有不同功能、定价和特性的模型。根据您对准确性、速度和成本的需求进行选择。
设置您的 LLM
在 CrewAI 代码中,您可以在不同的位置指定要使用的模型。一旦您指定了要使用的模型,您将需要为您使用的每个模型提供商提供配置(例如 API 密钥)。请参阅提供商配置示例部分,了解您的提供商。- 1. 环境变量
- 2. YAML 配置
- 3. 直接代码
最简单的入门方法。直接通过
.env 文件或在您的应用程序代码中设置模型。如果您使用 crewai create 引导您的项目,它将已经设置。.env
提供商配置示例
CrewAI 支持多种 LLM 提供商,每个提供商都提供独特的功能、身份验证方法和模型能力。在本节中,您将找到详细的示例,帮助您选择、配置和优化最适合您项目需求的 LLM。OpenAI
OpenAI
CrewAI 通过 OpenAI Python SDK 提供与 OpenAI 的原生集成。基本用法高级配置结构化输出支持的环境变量
注意:要使用 OpenAI,请安装所需的依赖项
代码
代码
代码
代码
OPENAI_API_KEY: 您的 OpenAI API 密钥(必需)OPENAI_BASE_URL: OpenAI API 的自定义基本 URL(可选)
- 原生函数调用支持(o1 模型除外)
- 带 JSON 模式的结构化输出
- 实时响应的流式传输支持
- 令牌使用跟踪
- 停止序列支持(o1 模型除外)
- 令牌级别洞察的对数概率
- o1 模型的推理工作控制
| 模型 | 上下文窗口 | 最适合 |
|---|---|---|
| gpt-4.1 | 1M 令牌 | 具有增强功能的最新模型 |
| gpt-4.1-mini | 1M 令牌 | 具有大上下文的高效版本 |
| gpt-4.1-nano | 1M 令牌 | 超高效变体 |
| gpt-4o | 128,000 令牌 | 针对速度和智能进行优化 |
| gpt-4o-mini | 200,000 令牌 | 具有大上下文的经济高效模型 |
| gpt-4-turbo | 128,000 令牌 | 长篇内容、文档分析 |
| gpt-4 | 8,192 令牌 | 高精度任务、复杂推理 |
| o1 | 200,000 令牌 | 高级推理、复杂问题解决 |
| o1-preview | 128,000 令牌 | 推理能力预览 |
| o1-mini | 128,000 令牌 | 高效推理模型 |
| o3-mini | 200,000 令牌 | 轻量级推理模型 |
| o4-mini | 200,000 令牌 | 下一代高效推理 |
Meta-Llama
Meta-Llama
Meta 的 Llama API 提供了对 Meta 系列大型语言模型的访问。API 可通过Meta Llama API获得。在您的 CrewAI 项目中的示例用法此处列出的所有模型https://llama.developer.meta.com/docs/models/都受支持。
.env 文件中设置以下环境变量代码
代码
| 模型 ID | 输入上下文长度 | 输出上下文长度 | 输入模态 | 输出模态 |
|---|---|---|---|---|
meta_llama/Llama-4-Scout-17B-16E-Instruct-FP8 | 128k | 4028 | 文本、图像 | 文本 |
meta_llama/Llama-4-Maverick-17B-128E-Instruct-FP8 | 128k | 4028 | 文本、图像 | 文本 |
meta_llama/Llama-3.3-70B-Instruct | 128k | 4028 | 文本 | 文本 |
meta_llama/Llama-3.3-8B-Instruct | 128k | 4028 | 文本 | 文本 |
Anthropic
Anthropic
CrewAI 通过 Anthropic Python SDK 提供与 Anthropic 的原生集成。基本用法高级配置支持的环境变量
注意:要使用 Anthropic,请安装所需的依赖项
代码
代码
代码
ANTHROPIC_API_KEY: 您的 Anthropic API 密钥(必需)
- Claude 3+ 模型原生工具使用支持
- 实时响应的流式传输支持
- 自动系统消息处理
- 用于控制输出的停止序列
- 令牌使用跟踪
- 多轮工具使用对话
max_tokens是所有 Anthropic 模型必需的参数- Claude 使用
stop_sequences而不是stop - 系统消息与对话消息分开处理
- 第一条消息必须来自用户(自动处理)
- 消息必须在用户和助手之间交替
| 模型 | 上下文窗口 | 最适合 |
|---|---|---|
| claude-3-7-sonnet | 200,000 令牌 | 高级推理和代理任务 |
| claude-3-5-sonnet-20241022 | 200,000 令牌 | 最新 Sonnet,性能最佳 |
| claude-3-5-haiku | 200,000 令牌 | 快速、紧凑的模型,用于快速响应 |
| claude-3-opus | 200,000 令牌 | 最适合复杂任务 |
| claude-3-sonnet | 200,000 令牌 | 平衡智能和速度 |
| claude-3-haiku | 200,000 令牌 | 最快,用于简单任务 |
| claude-2.1 | 200,000 令牌 | 扩展上下文,减少幻觉 |
| claude-2 | 100,000 令牌 | 适用于各种任务的多功能模型 |
| claude-instant | 100,000 令牌 | 快速、经济高效,用于日常任务 |
Google (Gemini API)
Google (Gemini API)
CrewAI 通过 Google Gen AI Python SDK 提供与 Google Gemini 的原生集成。在您的 基本用法高级配置Vertex AI 配置支持的环境变量
Gemma 模型:Gemini API 还支持托管在 Google 基础设施上的Gemma 模型。
注意:要使用 Google Gemini,请安装所需的依赖项完整的模型列表可在Gemini 模型文档中找到。
.env 文件中设置您的 API 密钥。如果您需要密钥,请查看AI Studio。.env
代码
代码
代码
GOOGLE_API_KEY或GEMINI_API_KEY: 您的 Google API 密钥(Gemini API 必需)GOOGLE_CLOUD_PROJECT: Google Cloud 项目 ID(用于 Vertex AI)GOOGLE_CLOUD_LOCATION: GCP 位置(默认为us-central1)GOOGLE_GENAI_USE_VERTEXAI: 设置为true以使用 Vertex AI
- Gemini 1.5+ 和 2.x 模型原生函数调用支持
- 实时响应的流式传输支持
- 多模态功能(文本、图像、视频)
- 安全设置配置
- 支持 Gemini API 和 Vertex AI
- 自动系统指令处理
- 令牌使用跟踪
| 模型 | 上下文窗口 | 最适合 |
|---|---|---|
| gemini-2.5-flash | 1M 令牌 | 自适应思维,成本效益 |
| gemini-2.5-pro | 1M 令牌 | 增强思维和推理,多模态理解 |
| gemini-2.0-flash | 1M 令牌 | 下一代功能、速度、思维 |
| gemini-2.0-flash-thinking | 32,768 令牌 | 具有思维过程的高级推理 |
| gemini-2.0-flash-lite | 1M 令牌 | 成本效益和低延迟 |
| gemini-1.5-pro | 2M 令牌 | 表现最佳,逻辑推理,编码 |
| gemini-1.5-flash | 1M 令牌 | 平衡的多模态模型,适用于大多数任务 |
| gemini-1.5-flash-8b | 1M 令牌 | 最快,成本效益最高 |
| gemini-1.0-pro | 32,768 令牌 | 早期生成模型 |
| 模型 | 上下文窗口 | 最适合 |
|---|---|---|
| gemma-3-1b | 32,000 令牌 | 超轻量级任务 |
| gemma-3-4b | 128,000 令牌 | 高效通用任务 |
| gemma-3-12b | 128,000 令牌 | 平衡性能和效率 |
| gemma-3-27b | 128,000 令牌 | 高性能任务 |
Google (Vertex AI)
Google (Vertex AI)
从您的 Google Cloud Console 获取凭据并保存到 JSON 文件,然后使用以下代码加载它CrewAI 项目中的示例用法Google 提供了一系列针对不同用例优化的强大模型
代码
代码
| 模型 | 上下文窗口 | 最适合 |
|---|---|---|
| gemini-2.5-flash-preview-04-17 | 1M 令牌 | 自适应思维,成本效益 |
| gemini-2.5-pro-preview-05-06 | 1M 令牌 | 增强思维和推理,多模态理解,高级编码等 |
| gemini-2.0-flash | 1M 令牌 | 下一代功能,速度,思维和实时流 |
| gemini-2.0-flash-lite | 1M 令牌 | 成本效益和低延迟 |
| gemini-1.5-flash | 1M 令牌 | 平衡的多模态模型,适用于大多数任务 |
| gemini-1.5-flash-8B | 1M 令牌 | 最快,成本效益最高,适用于高频任务 |
| gemini-1.5-pro | 2M 令牌 | 表现最佳,各种推理任务,包括逻辑推理,编码和创意协作 |
Azure
Azure
CrewAI 通过 Azure AI Inference Python SDK 提供与 Azure AI Inference 和 Azure OpenAI 的原生集成。端点 URL 格式:对于 Azure OpenAI 部署:对于 Azure AI Inference 端点基本用法高级配置支持的环境变量
代码
代码
代码
AZURE_API_KEY: 您的 Azure API 密钥(必需)AZURE_ENDPOINT: 您的 Azure 端点 URL(必需,也会检查AZURE_OPENAI_ENDPOINT和AZURE_API_BASE)AZURE_API_VERSION: API 版本(可选,默认为2024-06-01)
- Azure OpenAI 模型(gpt-4、gpt-4o、gpt-3.5-turbo 等)的原生函数调用支持
- 实时响应的流式传输支持
- 自动端点 URL 验证和校正
- 具有重试逻辑的全面错误处理
- 令牌使用跟踪
AWS Bedrock
AWS Bedrock
CrewAI 通过 boto3 SDK 使用 Converse API 提供与 AWS Bedrock 的原生集成。基本用法高级配置支持的环境变量
注意:要使用 AWS Bedrock,请安装所需的依赖项
代码
代码
代码
AWS_ACCESS_KEY_ID: AWS 访问密钥(必需)AWS_SECRET_ACCESS_KEY: AWS 密钥(必需)AWS_SESSION_TOKEN: 临时凭证的 AWS 会话令牌(可选)AWS_DEFAULT_REGION: AWS 区域(默认为us-east-1)
- 通过 Converse API 提供原生工具调用支持
- 流式和非流式响应
- 具有重试逻辑的全面错误处理
- 内容过滤的防护栏配置
- 通过
additional_model_request_fields实现模型特定参数 - 令牌使用跟踪和停止原因日志记录
- 支持所有 Bedrock 基础模型
- 自动对话格式处理
- 使用现代 Converse API 进行统一模型访问
- 自动处理模型特定的对话要求
- 系统消息与对话分开处理
- 第一条消息必须来自用户(自动处理)
- 某些模型(如 Cohere)要求对话以用户消息结束
| 模型 | 上下文窗口 | 最适合 |
|---|---|---|
| Amazon Nova Pro | 高达 300k 令牌 | 高性能模型,在各种任务中平衡准确性、速度和成本效益。 |
| Amazon Nova Micro | 高达 128k 令牌 | 高性能、经济高效的纯文本模型,专为最低延迟响应而优化。 |
| Amazon Nova Lite | 高达 300k 令牌 | 高性能、经济实惠的多模态处理,适用于图像、视频和文本,具有实时功能。 |
| Claude 3.7 Sonnet | 高达 128k 令牌 | 高性能,最适合复杂推理、编码和 AI 代理 |
| Claude 3.5 Sonnet v2 | 高达 200k 令牌 | 最先进的模型,专注于软件工程、代理能力和计算机交互,并优化成本。 |
| Claude 3.5 Sonnet | 高达 200k 令牌 | 高性能模型,在各种任务中提供卓越的智能和推理,并具有最佳的速度-成本平衡。 |
| Claude 3.5 Haiku | 高达 200k 令牌 | 快速、紧凑的多模态模型,专为快速响应和无缝类人交互而优化 |
| Claude 3 Sonnet | 高达 200k 令牌 | 平衡智能和速度的多模态模型,适用于大批量部署。 |
| Claude 3 Haiku | 高达 200k 令牌 | 紧凑、高速的多模态模型,专为快速响应和自然对话交互而优化 |
| Claude 3 Opus | 高达 200k 令牌 | 最先进的多模态模型,擅长复杂任务,具有类人推理和卓越的上下文理解。 |
| Claude 2.1 | 高达 200k 令牌 | 增强版本,具有扩展的上下文窗口、改进的可靠性,并减少长篇和 RAG 应用程序的幻觉 |
| Claude | 高达 100k 令牌 | 多功能模型,擅长复杂的对话、创意内容和精确的指令遵循。 |
| Claude Instant | 高达 100k 令牌 | 快速、经济高效的模型,适用于日常任务,如对话、分析、摘要和文档问答 |
| Llama 3.1 405B Instruct | 高达 128k 令牌 | 高级 LLM,用于聊天机器人、编码和领域特定任务的合成数据生成、蒸馏和推理。 |
| Llama 3.1 70B Instruct | 高达 128k 令牌 | 通过卓越的上下文理解、推理和文本生成来支持复杂对话。 |
| Llama 3.1 8B Instruct | 高达 128k 令牌 | 先进的最新模型,具有语言理解、卓越推理和文本生成。 |
| Llama 3 70B Instruct | 高达 8k 令牌 | 通过卓越的上下文理解、推理和文本生成来支持复杂对话。 |
| Llama 3 8B Instruct | 高达 8k 令牌 | 先进的最新 LLM,具有语言理解、卓越推理和文本生成。 |
| Titan Text G1 - Lite | 高达 4k 令牌 | 轻量级、经济高效的模型,针对英语任务进行优化,并专注于摘要和内容生成。 |
| Titan Text G1 - Express | 高达 8k 令牌 | 多功能模型,用于一般语言任务、聊天和 RAG 应用程序,支持英语和 100 多种语言。 |
| Cohere Command | 高达 4k 令牌 | 专注于遵循用户命令并提供实用企业解决方案的模型。 |
| Jurassic-2 Mid | 高达 8,191 令牌 | 经济高效的模型,在质量和经济性之间取得平衡,适用于各种语言任务,如问答、摘要和内容生成。 |
| Jurassic-2 Ultra | 高达 8,191 令牌 | 用于高级文本生成和理解的模型,擅长分析和内容创建等复杂任务。 |
| Jamba-Instruct | 高达 256k 令牌 | 具有扩展上下文窗口的模型,针对经济高效的文本生成、摘要和问答进行了优化。 |
| Mistral 7B Instruct | 高达 32k 令牌 | 此 LLM 遵循指令、完成请求并生成创意文本。 |
| Mistral 8x7B Instruct | 高达 32k 令牌 | 一个遵循指令、完成请求并生成创意文本的 MOE LLM。 |
| DeepSeek R1 | 32,768 令牌 | 高级推理模型 |
Amazon SageMaker
Amazon SageMaker
代码
代码
Mistral
Mistral
在您的 CrewAI 项目中的示例用法
.env 文件中设置以下环境变量代码
代码
Nvidia NIM
Nvidia NIM
在您的 CrewAI 项目中的示例用法Nvidia NIM 提供了一套全面的模型,适用于各种用例,从通用任务到专业应用程序。
.env 文件中设置以下环境变量代码
代码
| 模型 | 上下文窗口 | 最适合 |
|---|---|---|
| nvidia/mistral-nemo-minitron-8b-8k-instruct | 8,192 令牌 | 最先进的小型语言模型,为聊天机器人、虚拟助手和内容生成提供卓越的准确性。 |
| nvidia/nemotron-4-mini-hindi-4b-instruct | 4,096 令牌 | 一款用于设备端推理的双语印地语-英语 SLM,专门针对印地语进行了定制。 |
| nvidia/llama-3.1-nemotron-70b-instruct | 128k 令牌 | 为增强响应的帮助性而定制 |
| nvidia/llama3-chatqa-1.5-8b | 128k 令牌 | 高级 LLM,可为聊天机器人和搜索引擎生成高质量、上下文感知的响应。 |
| nvidia/llama3-chatqa-1.5-70b | 128k 令牌 | 高级 LLM,可为聊天机器人和搜索引擎生成高质量、上下文感知的响应。 |
| nvidia/vila | 128k 令牌 | 多模态视觉语言模型,可理解文本/图像/视频并创建信息丰富的响应 |
| nvidia/neva-22 | 4,096 令牌 | 多模态视觉语言模型,可理解文本/图像并生成信息丰富的响应 |
| nvidia/nemotron-mini-4b-instruct | 8,192 令牌 | 通用任务 |
| nvidia/usdcode-llama3-70b-instruct | 128k 令牌 | 最先进的 LLM,可回答 OpenUSD 知识查询并生成 USD-Python 代码。 |
| nvidia/nemotron-4-340b-instruct | 4,096 令牌 | 创建模仿真实世界数据特征的各种合成数据。 |
| meta/codellama-70b | 100k 令牌 | 能够从自然语言生成代码并反之亦然的 LLM。 |
| meta/llama2-70b | 4,096 令牌 | 尖端大型语言 AI 模型,能够根据提示生成文本和代码。 |
| meta/llama3-8b-instruct | 8,192 令牌 | 先进的最新 LLM,具有语言理解、卓越推理和文本生成。 |
| meta/llama3-70b-instruct | 8,192 令牌 | 通过卓越的上下文理解、推理和文本生成来支持复杂对话。 |
| meta/llama-3.1-8b-instruct | 128k 令牌 | 先进的最新模型,具有语言理解、卓越推理和文本生成。 |
| meta/llama-3.1-70b-instruct | 128k 令牌 | 通过卓越的上下文理解、推理和文本生成来支持复杂对话。 |
| meta/llama-3.1-405b-instruct | 128k 令牌 | 高级 LLM,用于聊天机器人、编码和领域特定任务的合成数据生成、蒸馏和推理。 |
| meta/llama-3.2-1b-instruct | 128k 令牌 | 先进的最新小型语言模型,具有语言理解、卓越推理和文本生成。 |
| meta/llama-3.2-3b-instruct | 128k 令牌 | 先进的最新小型语言模型,具有语言理解、卓越推理和文本生成。 |
| meta/llama-3.2-11b-vision-instruct | 128k 令牌 | 先进的最新小型语言模型,具有语言理解、卓越推理和文本生成。 |
| meta/llama-3.2-90b-vision-instruct | 128k 令牌 | 先进的最新小型语言模型,具有语言理解、卓越推理和文本生成。 |
| google/gemma-7b | 8,192 令牌 | 尖端文本生成模型,具有文本理解、转换和代码生成功能。 |
| google/gemma-2b | 8,192 令牌 | 尖端文本生成模型,具有文本理解、转换和代码生成功能。 |
| google/codegemma-7b | 8,192 令牌 | 基于 Google Gemma-7B 构建的尖端模型,专门用于代码生成和代码完成。 |
| google/codegemma-1.1-7b | 8,192 令牌 | 高级编程模型,用于代码生成、完成、推理和指令遵循。 |
| google/recurrentgemma-2b | 8,192 令牌 | 基于新型循环架构的语言模型,可在生成长序列时实现更快的推理。 |
| google/gemma-2-9b-it | 8,192 令牌 | 尖端文本生成模型,具有文本理解、转换和代码生成功能。 |
| google/gemma-2-27b-it | 8,192 令牌 | 尖端文本生成模型,具有文本理解、转换和代码生成功能。 |
| google/gemma-2-2b-it | 8,192 令牌 | 尖端文本生成模型,具有文本理解、转换和代码生成功能。 |
| google/deplot | 512 令牌 | 将图表图像转换为表格的单次视觉语言理解模型。 |
| google/paligemma | 8,192 令牌 | 擅长理解文本和视觉输入以生成信息丰富响应的视觉语言模型。 |
| mistralai/mistral-7b-instruct-v0.2 | 32k 令牌 | 此 LLM 遵循指令、完成请求并生成创意文本。 |
| mistralai/mixtral-8x7b-instruct-v0.1 | 8,192 令牌 | 一个遵循指令、完成请求并生成创意文本的 MOE LLM。 |
| mistralai/mistral-large | 4,096 令牌 | 创建模仿真实世界数据特征的各种合成数据。 |
| mistralai/mixtral-8x22b-instruct-v0.1 | 8,192 令牌 | 创建模仿真实世界数据特征的各种合成数据。 |
| mistralai/mistral-7b-instruct-v0.3 | 32k 令牌 | 此 LLM 遵循指令、完成请求并生成创意文本。 |
| nv-mistralai/mistral-nemo-12b-instruct | 128k 令牌 | 用于推理、代码、多语言任务的最先进语言模型;在单个 GPU 上运行。 |
| mistralai/mamba-codestral-7b-v0.1 | 256k 令牌 | 用于在各种编程语言和任务中编写和交互代码的模型。 |
| microsoft/phi-3-mini-128k-instruct | 128K 令牌 | 轻量级、最先进的开放式 LLM,具有强大的数学和逻辑推理能力。 |
| microsoft/phi-3-mini-4k-instruct | 4,096 令牌 | 轻量级、最先进的开放式 LLM,具有强大的数学和逻辑推理能力。 |
| microsoft/phi-3-small-8k-instruct | 8,192 令牌 | 轻量级、最先进的开放式 LLM,具有强大的数学和逻辑推理能力。 |
| microsoft/phi-3-small-128k-instruct | 128K 令牌 | 轻量级、最先进的开放式 LLM,具有强大的数学和逻辑推理能力。 |
| microsoft/phi-3-medium-4k-instruct | 4,096 令牌 | 轻量级、最先进的开放式 LLM,具有强大的数学和逻辑推理能力。 |
| microsoft/phi-3-medium-128k-instruct | 128K 令牌 | 轻量级、最先进的开放式 LLM,具有强大的数学和逻辑推理能力。 |
| microsoft/phi-3.5-mini-instruct | 128K 令牌 | 轻量级多语言 LLM,为延迟受限、内存/计算受限环境中的 AI 应用程序提供支持 |
| microsoft/phi-3.5-moe-instruct | 128K 令牌 | 基于专家混合架构的高级 LLM,可提供计算高效的内容生成 |
| microsoft/kosmos-2 | 1,024 令牌 | 突破性的多模态模型,旨在理解和推理图像中的视觉元素。 |
| microsoft/phi-3-vision-128k-instruct | 128k 令牌 | 从图像中进行高质量推理的尖端开放多模态模型。 |
| microsoft/phi-3.5-vision-instruct | 128k 令牌 | 从图像中进行高质量推理的尖端开放多模态模型。 |
| databricks/dbrx-instruct | 12k 令牌 | 一款通用 LLM,在语言理解、编码和 RAG 方面具有最先进的性能。 |
| snowflake/arctic | 1,024 令牌 | 为专注于 SQL 生成和编码的企业应用程序提供高效推理。 |
| aisingapore/sea-lion-7b-instruct | 4,096 令牌 | 代表和满足东南亚语言和文化多样性的 LLM |
| ibm/granite-8b-code-instruct | 4,096 令牌 | 用于代码生成、完成、解释和多轮转换的软件编程 LLM。 |
| ibm/granite-34b-code-instruct | 8,192 令牌 | 用于代码生成、完成、解释和多轮转换的软件编程 LLM。 |
| ibm/granite-3.0-8b-instruct | 4,096 令牌 | 支持 RAG、摘要、分类、代码和代理 AI 的高级小型语言模型 |
| ibm/granite-3.0-3b-a800m-instruct | 4,096 令牌 | 用于 RAG、摘要、实体提取和分类的高效专家混合模型 |
| mediatek/breeze-7b-instruct | 4,096 令牌 | 创建模仿真实世界数据特征的各种合成数据。 |
| upstage/solar-10.7b-instruct | 4,096 令牌 | 擅长 NLP 任务,尤其是在指令遵循、推理和数学方面。 |
| writer/palmyra-med-70b-32k | 32k 令牌 | 用于医疗领域中准确、上下文相关响应的领先 LLM。 |
| writer/palmyra-med-70b | 32k 令牌 | 用于医疗领域中准确、上下文相关响应的领先 LLM。 |
| writer/palmyra-fin-70b-32k | 32k 令牌 | 专门用于财务分析、报告和数据处理的 LLM |
| 01-ai/yi-large | 32k 令牌 | 经过英语和中文训练的强大模型,可用于聊天机器人和创意写作等多种任务。 |
| deepseek-ai/deepseek-coder-6.7b-instruct | 2k 令牌 | 强大的编码模型,在代码生成、完成和填充方面提供高级功能 |
| rakuten/rakutenai-7b-instruct | 1,024 令牌 | 先进的最新 LLM,具有语言理解、卓越推理和文本生成。 |
| rakuten/rakutenai-7b-chat | 1,024 令牌 | 先进的最新 LLM,具有语言理解、卓越推理和文本生成。 |
| baichuan-inc/baichuan2-13b-chat | 4,096 令牌 | 支持中英文聊天、编码、数学、指令遵循、解决测验 |
使用 WSL2 部署的本地 NVIDIA NIM
使用 WSL2 部署的本地 NVIDIA NIM
Groq
Groq
在您的 CrewAI 项目中的示例用法
.env 文件中设置以下环境变量代码
代码
| 模型 | 上下文窗口 | 最适合 |
|---|---|---|
| Llama 3.1 70B/8B | 131,072 令牌 | 高性能、大上下文任务 |
| Llama 3.2 系列 | 8,192 令牌 | 通用任务 |
| Mixtral 8x7B | 32,768 令牌 | 平衡性能和上下文 |
IBM watsonx.ai
IBM watsonx.ai
在您的 CrewAI 项目中的示例用法
.env 文件中设置以下环境变量代码
代码
Ollama (本地 LLM)
Ollama (本地 LLM)
- 安装 Ollama: ollama.ai
- 运行模型:
ollama run llama3 - 配置
代码
Fireworks AI
Fireworks AI
在您的 CrewAI 项目中的示例用法
.env 文件中设置以下环境变量代码
代码
Perplexity AI
Perplexity AI
在您的 CrewAI 项目中的示例用法
.env 文件中设置以下环境变量代码
代码
Hugging Face
Hugging Face
在您的 CrewAI 项目中的示例用法
.env 文件中设置以下环境变量代码
代码
SambaNova
SambaNova
在您的 CrewAI 项目中的示例用法
.env 文件中设置以下环境变量代码
代码
| 模型 | 上下文窗口 | 最适合 |
|---|---|---|
| Llama 3.1 70B/8B | 高达 131,072 令牌 | 高性能、大上下文任务 |
| Llama 3.1 405B | 8,192 令牌 | 高性能和输出质量 |
| Llama 3.2 系列 | 8,192 令牌 | 通用、多模态任务 |
| Llama 3.3 70B | 高达 131,072 令牌 | 高性能和输出质量 |
| Qwen2 系列 | 8,192 令牌 | 高性能和输出质量 |
Cerebras
Cerebras
在您的 CrewAI 项目中的示例用法
.env 文件中设置以下环境变量代码
代码
Cerebras 特点
- 快速推理速度
- 有竞争力的价格
- 速度和质量的良好平衡
- 支持长上下文窗口
Open Router
Open Router
在您的 CrewAI 项目中的示例用法
.env 文件中设置以下环境变量代码
代码
Open Router 模型
- openrouter/deepseek/deepseek-r1
- openrouter/deepseek/deepseek-chat
Nebius AI Studio
Nebius AI Studio
在您的 CrewAI 项目中的示例用法
.env 文件中设置以下环境变量代码
代码
Nebius AI Studio 特点
- 大量开源模型
- 更高的速率限制
- 有竞争力的价格
- 速度和质量的良好平衡
流式响应
CrewAI 支持 LLM 的流式响应,允许您的应用程序在生成输出时实时接收和处理。- 基本设置
- 事件处理
- 代理和任务跟踪
通过在初始化 LLM 时将 启用流式传输后,响应会以块的形式生成,从而创建更灵敏的用户体验。
stream 参数设置为 True 来启用流式传输结构化 LLM 调用
CrewAI 支持通过允许您使用 Pydantic 模型定义response_format 来从 LLM 调用中获取结构化响应。这使得框架能够自动解析和验证输出,从而更容易将响应集成到您的应用程序中,而无需手动后处理。 例如,您可以定义一个 Pydantic 模型来表示预期的响应结构,并在实例化 LLM 时将其作为 response_format 传递。然后,该模型将用于将 LLM 输出转换为结构化的 Python 对象。代码
高级功能和优化
了解如何充分利用您的 LLM 配置上下文窗口管理
上下文窗口管理
CrewAI 包含智能上下文管理功能
上下文管理最佳实践
- 选择具有适当上下文窗口的模型
- 尽可能预处理长输入
- 对大型文档使用分块
- 监控令牌使用以优化成本
性能优化
性能优化
1
令牌使用优化
为您的任务选择合适的上下文窗口
- 小型任务(最多 4K 令牌):标准模型
- 中型任务(4K-32K 之间):增强模型
- 大型任务(超过 32K):大型上下文模型
2
最佳实践
- 监控令牌使用情况
- 实施速率限制
- 尽可能使用缓存
- 设置适当的 max_tokens 限制
请记住定期监控您的令牌使用情况,并根据需要调整配置以优化成本和性能。
删除额外参数
删除额外参数
CrewAI 内部使用原生 SDK 进行 LLM 调用,这允许您删除特定用例不需要的额外参数。这有助于简化您的代码并降低 LLM 配置的复杂性。例如,如果您不需要发送
stop 参数,您可以简单地在 LLM 调用中将其省略传输拦截器
传输拦截器
CrewAI 为多个提供商提供消息拦截器,允许您在传输层挂钩请求/响应周期。支持的提供商:重要说明
- ✅ OpenAI
- ✅ Anthropic
- 两种方法都必须返回接收到的对象或对象类型。
- 修改接收到的对象可能会导致意外行为或应用程序崩溃。
- 并非所有提供商都支持拦截器 - 请查看上面支持的提供商列表
拦截器在传输层运行。这对于以下情况特别有用
- 消息转换和过滤
- 调试 API 交互
常见问题及解决方案
- 身份验证
- 模型名称
- 上下文长度
