DOCXSearchTool
我们仍在努力改进工具,因此未来可能会出现意外行为或变更。
DOCXSearchTool 是一款用于在 DOCX 文档中进行语义搜索的 RAG 工具。它使用户能够通过基于查询的搜索有效地从 DOCX 文件中搜索和提取相关信息。此工具对于数据分析、信息管理和研究任务非常宝贵,可简化在大量文档集合中查找特定信息的流程。
在您的终端中运行以下命令安装 crewai_tools 包
uv pip install docx2txt 'crewai[tools]'
以下示例演示了如何初始化 DOCXSearchTool 以在任何 DOCX 文件的内容中或使用特定的 DOCX 文件路径进行搜索。
from crewai_tools import DOCXSearchTool
# Initialize the tool to search within any DOCX file's content
tool = DOCXSearchTool()
# OR
# Initialize the tool with a specific DOCX file,
# so the agent can only search the content of the specified DOCX file
tool = DOCXSearchTool(docx='path/to/your/document.docx')
以下参数可用于自定义 DOCXSearchTool 的行为
| 参数 | 类型 | 描述 |
|---|
| docx | 字符串 | 可选。一个指定您要搜索的 DOCX 文件路径的参数。如果初始化时未提供,该工具允许稍后指定任何 DOCX 文件的内容路径进行搜索。 |
自定义模型和嵌入
默认情况下,该工具使用 OpenAI 进行嵌入和摘要。要自定义模型,您可以使用如下所示的配置字典:
from chromadb.config import Settings
tool = DOCXSearchTool(
config={
"embedding_model": {
"provider": "openai",
"config": {
"model": "text-embedding-3-small",
# "api_key": "sk-...",
},
},
"vectordb": {
"provider": "chromadb", # or "qdrant"
"config": {
# "settings": Settings(persist_directory="/content/chroma", allow_reset=True, is_persistent=True),
# from qdrant_client.models import VectorParams, Distance
# "vectors_config": VectorParams(size=384, distance=Distance.COSINE),
}
},
}
)