有没有办法在langchain中加载通过VectorstoreIndexCreator创建的索引？它是如何工作的？

2024-02-05

我正在尝试 langchains 及其应用程序，但作为一个新手，我无法理解嵌入和索引如何在这里真正协同工作。我知道这两个是什么，但我无法找到使用我创建和保存的索引的方法persist_directory.

我使用以下代码成功保存了 VectorstoreIndexCreator 创建的对象：

index = VectorstoreIndexCreator(vectorstore_kwargs={"persist_directory":"./custom_save_dir_path"}).from_loaders([loader])

但我找不到使用创建的 .pkl 文件的方法。如何使用我的链中的这些文件来检索数据？

另外，openAI 中的计费是如何进行的？如果我无法使用任何保存的嵌入或索引，每次运行代码时它都会重新嵌入所有数据吗？作为初学者，我仍在学习中，任何帮助将不胜感激。

这是完整的代码：

from langchain.document_loaders import CSVLoader
from langchain.indexes import VectorstoreIndexCreator
from langchain.chains import RetrievalQA
from langchain.llms import OpenAI
import os
os.environ["OPENAI_API_KEY"] = "sk-xxx"
# Load the documents
loader = CSVLoader(file_path='data/data.csv')

#creates an object with vectorstoreindexcreator
index = VectorstoreIndexCreator(vectorstore_kwargs={"persist_directory":"./custom_save_dir_path"}).from_loaders([loader])

# Create a question-answering chain using the index
chain = RetrievalQA.from_chain_type(llm=OpenAI(), chain_type="stuff", retriever=index.vectorstore.as_retriever(), input_key="question")

# Pass a query to the chain
while True:
    query = input("query: ")
    response = chain({"question": query})
    print(response['result'])

默认情况下，VectorstoreIndexCreator 使用矢量数据库 DuckDB，它是暂时的，将数据保存在内存中。如果你想持久化数据，你必须使用 Chromadb，并且需要显式地持久化数据并在需要时加载它（例如，当数据库存在时加载数据，否则持久化它）。

有关 chromadb 的更多详细信息，请参阅：chroma https://python.langchain.com/en/latest/modules/indexes/vectorstores/examples/chroma.html

您的案例中使用的 llm openai 负责创建嵌入（即将存储在向量数据库中的向量）。因此，每当您处理数据并将其存储在矢量存储中时，您都会在 openai 中产生费用，如果您从数据库加载矢量存储，则需要从 openai 中产生费用

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

有没有办法在langchain中加载通过VectorstoreIndexCreator创建的索引？它是如何工作的？的相关文章

保存为 HDF5 的图像未着色

我目前正在开发一个将文本文件和 jpg 图像转换为 HDF5 格式的程序用HDFView 3 0打开似乎图像仅以灰度保存 hdf h5py File Sample h5 img Image open Image jpg data np
Python getstatusoutput 替换不返回完整输出

我发现了这个很棒的替代品getstatusoutput Python 2 中的函数在 Unix 和 Windows 上同样有效不过我觉得这个方法有问题output被构建它只返回输出的最后一行但我不明白为什么任何帮助都是极好的 def
使用 Python 从文本中删除非英语单词

我正在 python 上进行数据清理练习我正在清理的文本包含我想删除的意大利语单词我一直在网上搜索是否可以使用像 nltk 这样的工具包在 Python 上执行此操作例如给出一些文本 Io andiamo to the beach w
使用Python请求登录Google帐户

在多个登录页面上需要谷歌登录才能继续我想用requestspython 中的库以便让我自己登录通常这很容易使用requests库但是我无法让它工作我不确定这是否是由于 Google 做出的一些限制也许我需要使用他们的 API 或
您可以格式化 pandas 整数以进行显示，例如浮点数的“pd.options.display.float_format”？

我见过this https stackoverflow com questions 18404946 py pandas formatdataframe and this https stackoverflow com questions
如何使用 Pandas、Numpy 加速 Python 中的嵌套 for 循环逻辑？

我想检查一下表的字段是否TestProject包含了Client端传入的参数嵌套for循环很丑陋有什么高效简单的方法来实现吗非常感谢您的任何建议 def test parameter a list parameter b list g
在Python中连接反斜杠

我是 python 新手所以如果这听起来很简单请原谅我我想加入一些变量来生成一条路径像这样 AAAABBBBCCCC 2 2014 04 2014 04 01 csv Id TypeOfMachine year month year
如何在 Python 中解析和比较 ISO 8601 持续时间？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我正在寻找一个 Python v2 库它允许我解析和比较 ISO 8601 持续时间may处于不同单
“隐藏”内置类对象、函数、代码等的名称和性质[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我很好奇模块中存在的类builtins无法直接访问的例如 type lambda 0 name function of module
如何通过索引列表从 dask 数据框中选择数据？

我想根据索引列表从 dask 数据框中选择行我怎样才能做到这一点 Example 假设我有以下 dask 数据框 dict A 1 2 3 4 5 6 7 B 2 3 4 5 6 7 8 index x1 a2 x3 c4 x5 y6 x
pyspark 将 twitter json 流式传输到 DF

我正在从事集成工作spark streaming with twitter using pythonAPI 我看到的大多数示例或代码片段和博客是他们从Twitter JSON文件进行最终处理但根据我的用例我需要所有字段twitter J
Numpy - 根据表示一维的坐标向量的条件替换数组中的值

我有一个data多维数组最后一个是距离另一方面我有距离向量r 例如 Data np ones 20 30 100 r np linspace 10 50 100 最后我还有一个临界距离值列表称为r0 使得 r0 shape Dat
pip 列出活动 virtualenv 中的全局包

将 pip 从 1 4 x 升级到 1 5 后pip freeze输出我的全局安装系统软件包的列表而不是我的 virtualenv 中安装的软件包的列表我尝试再次降级到 1 4 但这并不能解决我的问题这有点类似于这个问题 http
Python3 在 DirectX 游戏中移动鼠标

我正在尝试构建一个在 DirectX 游戏中执行一些操作的脚本除了移动鼠标之外我一切都正常是否有任何可用的模块可以移动鼠标适用于 Windows python 3 Thanks I used pynput https pypi or
从 NumPy ndarray 中选择行

我只想从 a 中选择某些行NumPy http en wikipedia org wiki NumPy基于第二列中的值的数组例如此测试数组的第二列包含从 1 到 10 的整数 gt gt gt test numpy array nump
根据列 value_counts 过滤数据框（pandas）

我是第一次尝试熊猫我有一个包含两列的数据框 user id and string 每个 user id 可能有多个字符串因此会多次出现在数据帧中我想从中导出另一个数据框一个只有那些user ids列出至少有 2 个或更多string
Python ImportError：无法导入名称 __init__.py

我收到此错误 ImportError cannot import name life table from cdc life tables C Users tony OneDrive Documents Retirement retirem
Scipy Sparse：SciPy/NumPy 更新后出现奇异矩阵警告

我的问题是由大型电阻器系统的节点分析产生的我基本上是在设置一个大的稀疏矩阵A 我的解向量b 我正在尝试求解线性方程A x b 为了做到这一点我正在使用scipy sparse linalg spsolve method 直到最近一切都
如何应用一个函数 n 次？ [关闭]

Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案假设我有一个函数它接受一个参数并返回相同类型的结果 def increment x return x 1 如何制作高阶函数repeat可以
更改 Tk 标签小部件中单个单词的颜色

我想更改 Tkinter 标签小部件中单个单词的字体颜色我知道可以使用文本小部件来实现与我想要完成的类似的事情例如使单词 YELLOW 显示为黄色 self text tag config tag yel fg clr yellow s

随机推荐

如何在 Android Studio 4.2.1 中获取 SHA1 和 SHA256

一般来说我们可以从SHA证书指纹 Gradle 在 Android Studio 的右侧 gt 任务 gt Android gt 签名报告但在 Android Studio 最新更新 4 2 1 中任务未显示获取 SHA 指纹的选项那
当我使用“传统”C 风格函数声明时，JavaScript 中会发生什么情况？

我知道在 JavaScript 中定义函数有多种方法最常见的两个是 1 function add a b return a b 2 var add function a b return a b 我对函数作为对象的想法感到满意它可以像任
QueryDSL - 从时间戳列中选择带有日期的行

使用 QueryDSL 除了使用 Between 之外还有其他方法可以从时间戳中按日期选择行吗像这样的查询其中转换日期 mytimestamp 2013 02 28 如果您使用 Querydsl SQL 则可以使用 Between
Xcode 不允许我创建新项目

我正在尝试创建一个新项目但在命名项目并选择语言后它不会让我进入下一个窗口我已附上屏幕截图 https i stack imgur com ZZMuj jpg https i stack imgur com ZZMuj jpg 正如您在
在 azure devops 主机上安装 mongodb 进行测试运行

我正在尝试切换到 azure devops 并且需要运行一个 mongodb 实例来进行一些集成测试由 azure devops 提供的主机不包含 mongodb 的安装我不知道在哪里可以使用 VS 和 mongodb 提供新的 doc
使用 Jquery Ui 自动完成时如何防止 Bootstrap Tokenfield 重复

我正在尝试实施Bootstrap Tokenfield 与 Jquery Ui 自动完成 http sliptree github io bootstrap tokenfield examples到目前为止我能够做到这一点除了我无法防止
循环内出现意外的“await”。（循环中无等待）

我该如何等待bot sendMessage 循环内部也许我需要await Promise all但我不知道我应该如何添加bot sendMessage Code const promise query exec promise then
如果选中复选框，则运行“something”

我有一个简单的 Visual Basic 2008 Express Edition 表单如下所示链接简单表格截图 1 我需要一些有关框架脚本的帮助该脚本检查每个复选框是否已选中我有一组 Word 模板其中都包含宏我想运行每个模板
堆被视为抽象数据类型吗？

我正在学习数据结构课程并对什么被认为是 ADT 抽象数据类型和什么不是如果它不是 ADT 那么它一定是实现感到有点困惑具体来说我说的是堆我在维基百科上读到堆是一种专门的基于树的数据结构这是否意味着它是一个ADT 如果是这样
网页包。使用“import()”后加载块失败

我正在尝试React项目中我发现其中一个 budles 文件太大我需要将其拆分所以我尝试使用import sintax import React from react import thumbnails from thumbnail
Core Graphics 未以正确的宽度绘制线条

我正在尝试将 UIView 上的边框与 drawRect 中绘制的线条结合起来我使用的宽度相同但问题是有时两者绘制的线条宽度相同有时则不同这甚至会随着设备方向的变化而变化但即使不改变设备方向它的宽度通常仍然不一样边框绘制为
我将使用 Enum 做什么？

我已经声明了一个枚举类型为其分配一个变量现在我正在将其写入控制台那么枚举类型在现实世界的应用程序中有什么用处呢 using System using System Collections Generic using System Li
如何在 ASP.NET Core 2 中抛出 ForbiddenException 而不是使用 AccessDeniedPath

我正在开发 ASP NET Core 2 Web 应用程序我正在处理拒绝访问页面授权角色或策略 pages 默认情况下不显示原始 URL 并返回403status ASP NET Core 2 0 将请求重定向到状态为 Access
何时使用、何时不使用 Python 3.5 `await` ？

我正在了解使用流程asyncio在Python 3 5中但我还没有看到我应该做什么的描述await以及我不应该做的事情或者可以忽略不计的事情我是否只需要使用我的最佳判断这是一个 IO 操作这应该是awaited 默认情况下所有代码
未声明的枚举？

编译此代码时 include
HTML 数据列表显示由水平线分隔的额外选项

我将 10 个选项传递给数据列表这些选项在下拉列表中显示良好但有时我会在选项列表底部看到更多由水平线分隔的选项 Chrome 可能会缓存或重复显示某些选项我不明白为什么 chrome 显示这些由水平线分隔的额外选项我浏览了互联网上与
为什么在 docker 后台使用带有“守护进程关闭”的 nginx？

一切都从这开始article https medium com pentacent nginx and lets encrypt with docker in less than 5 minutes b4b8a60d3a71关于在 dock
Laravel 中是否可以获取数据透视表与另一个表的关系？

我有一个当前具有以下架构的培训应用程序 trainings id name speakers id first name last name training speaker id training id speaker id traini
图像太大，无法在屏幕中显示（MATLAB）

我知道这只是一个警告不会影响代码但我的问题是我需要以实际大小显示图像而不进行任何缩小这可能吗imshowfunction 有没有参数可以做到这一点谢谢你们给出的解决方案是 Jonas https stackoverflow com
有没有办法在langchain中加载通过VectorstoreIndexCreator创建的索引？它是如何工作的？

我正在尝试 langchains 及其应用程序但作为一个新手我无法理解嵌入和索引如何在这里真正协同工作我知道这两个是什么但我无法找到使用我创建和保存的索引的方法persist directory 我使用以下代码成功保存了 Vecto

有没有办法在langchain中加载通过VectorstoreIndexCreator创建的索引？它是如何工作的？

有没有办法在langchain中加载通过VectorstoreIndexCreator创建的索引？它是如何工作的？ 的相关文章

随机推荐

热门标签

有没有办法在langchain中加载通过VectorstoreIndexCreator创建的索引？它是如何工作的？的相关文章