用 LangChain 构建基于资料库的问答机器人(二):从资料源中提取文本信息

2023-11-19

大家好,我是学生大使 Jambo。这个系列的目标是做出一个根据资料回答问题的机器人,那么从资料源中提取文本信息就是一件必要的事。但我们的资料源格式是多样的,比如 PDF、Word、HTML、PPT 等等,甚至有的资料源来自于网络,这些格式都不能直接提取出文本,但好在 Python 有很多第三方库可以帮助我们提取文本信息,并且 LangChain 也帮我们整合到了一起,我们只需要调用 LangChain 的接口就可以了。

我在公开网络上找到了一份 PDF 格式的合同,我们就以这份合同为例,介绍一下如何提取文本信息。

文本提取

LangChain 针对 PDF 包含了许多第三方库,比如 PyPDF2PyPDFium2PDFMiner 等等,这里我们以 PyPDF2 为例,介绍一下如何提取文本信息。

pip install pypdf

我们使用 PyPDFLoader 来加载 PDF 文件,然后调用 load 方法就可以得到文本信息了。PDF 的读取器会将 PDF 文件中的每一页转换成一段文本,然后将这些文本段组成一个列表返回。

from langchain.document_loaders import PyPDFLoader
loader = PyPDFLoader("./contract.pdf")
documents = loader.load()

文本分割

但仅仅是按页进行分割,仍然是不够的,因为一页中仍然包含了太多的字数,如果将来将这些文本放在 prompt 的上下文中,会占据大量的 token,而这些文本对于当下所问的问题不一定都是有用的,所以我们需要将这些文本再进行分割。

LangChain 提供了几种分割器,可以分割代码、段落、Markdown 标题。这里我们使用 RecursiveCharacterTextSplitter ,他会把文本按照字符进行分割,直到每个文本段的长度足够小。它默认的分割列表是 ["\n\n", "\n", " ", ""],这样它可以尽可能把段落、句子或单词放在一起。

其中 chunk_size 限制了每段文本的最大长度。chunk_overlap 则是两个文本段之间的重叠长度,如果一个段落实在太长而被强制分割成了两段,那么这两段之间就会有一段重叠的文本,这样可以保证上下文的连贯性。

它还有个参数 length_function,用来计算文本的长度,默认是 len。如果你想按照 token 的数量来分割,那么可以结合 tiktoken 库来使用。

from langchain.text_splitter import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)
docs = text_splitter.split_documents(documents)

这样我们就很容易的得到了一个文本列表,而不用考虑具体的分割细节了。

当然,这里只是简单的带大家了解一下 LangChain 的文本提取功能,还有其他很多格式和对应的细节没有介绍到,比如 Word、HTML、PPT 等等,如果你想了解更多,还是要自己去看看官方的文档

上一篇:用 LangChain 构建基于资料库的问答机器人(一):基础用法
下一篇: LangChain 构建基于资料库的问答机器人(三):ReAct

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

用 LangChain 构建基于资料库的问答机器人(二):从资料源中提取文本信息 的相关文章

  • websphere没有显示服务器,webserver不显示的问题

    运行configurewebserver1 sh时的信息 root iasd10g bin configurewebserver1 sh WASX7209I x 4F7F x 7528 SOAP x 8FDE x 63A5 x 5668 x
  • Python中的any()和all()

    any any 函数采用iterable作为参数 any iterable 迭代器可以是列表 元组或字典 如果iterable中的所有元素为true 则any 函数将返回 True 但是 如果传递给该函数的Iterable为空 则返回 Fa
  • Discord教程:Discord账号注册、Discord多账号登录和管理

    Discord最初是为游戏玩家在群聊和交流而创建的 但自疫情爆发以来 许多企业 公司和初创公司发现 居家办公时使用Discord进行日常沟通非常便捷 Discord不再是仅限于游戏玩家 平台建立了不同于其他任何社交空间的新空间 封闭又开放的
  • 史上最全的《Android面试题及解析》,赶紧收藏!

    写在文章前面的话 工欲行其事 必先利其器 英雄和侠客更需要宝剑助己成功 同样 在现代软件开发环境中 每个Android开发者都需要更好的工具 帮助我们增强功能 提高效率 在这个竞争激烈的行业中 只有优秀的工程师能够生存 需要我们能够为客户提

随机推荐

  • C++-map和set

    本期我们来学习map和set 目录 关联式容器 键值对 pair 树形结构的关联式容器 set multiset map multimap 关联式容器 我们已经接触过 STL 中的部分容器 比如 vector list deque forw
  • layui 勾选不联动父项 树形控件_layui实现checkbox的目录树tree的例子

    废话不多说啦 我就直接上代码吧 需要的朋友可以过来参考下 layui use tree function layui jquery form layui form 获取节点数据 getTreeData function getTreeDat
  • 【华为OD】

    目录 一 题目描述 二 输入描述 三 输出描述 示例一 输入 输出 说明 示例二 输入 输出 说明 四 Java玩法 一 题目描述 现有两个整数数组 需要你找出两个数组中同时出现的整数 并按照如下要求输出 1 有同时出现的整数时 先按照同时
  • stable diffusion基础

    整合包下载 秋叶大佬 AI绘画 8月最新 Stable Diffusion整合包v4 2发布 参照 基础04 目前全网最贴心的Lora基础知识教程 VAE 作用 滤镜 微调 VAE下载地址 C站 https civitai com mode
  • gcc源码编译中的问题处理过程

    1 需求是想要gcc可以编译32位程序也可以编译64位程序 机器是64位的 编译过程教程参考 https www quyu net info 782 html 但是configure配置时不能配置 disable multilib 如果配置
  • Java代码生成器Easy Code

    EasyCode是基于IntelliJ IDEA开发的代码生成插件 支持自定义任意模板 Java html js xml 只要是与数据库相关的代码都可以通过自定义模板来生成 支持数据库类型与java类型映射关系配置 支持同时生成生成多张表的
  • Python3 configparse模块(配置)

    Python3 configparse模块 配置 参考 https www cnblogs com bert227 p 9326313 html https www cnblogs com dion 90 p 7978081 html py
  • Mac下建立渗透测试环境:代理工具篇

    SSH完整命令行参数 D 绑定一个地址和端口 p 指定ssh连接的端口 L bind address port host hostport 指定本地端口和远程服务器的端口 将本地端口上的数据 发送到指定的远程端口上 R bind addre
  • ClickHouse进阶(十六):clickhouse优化-表优化

    进入正文前 感谢宝子们订阅专题 点赞 评论 收藏 关注IT贫道 获取高质量博客内容 个人主页 含各种IT体系技术 IT贫道 大数据OLAP体系技术栈 Apache Doris Kerberos安全认证 CSDN博客 订阅 拥抱独家专题 你的
  • linux 查看git,maven, java,haproxy,mysql,python,ansible等等版本命令汇总

    git版本 tom test git version git version 1 8 3 1 maven 版本 tom test mvn v Apache Maven 3 6 1 d66c9c0b3152b2e69ee9bac180bb8f
  • [BJOI2014]大融合【LCT维护子树信息】

    题目链接 本题保证不会构成环 此为前提 然后操作是查询 或者接上一条边 保证之前两点不连通 好了 接下去就是正经事儿了 在此之前 已经有了利用LCT来维护树链信息了 现在只要在这基础上稍加改变 就可以维护某点 也可以是不定根 的子树信息了
  • nginx:实时流量拷贝mirror模块

    ngx http mirror module模块 实时流量拷贝 precontent阶段的mirror模块 默认编译进nginx模块 通过 without ngx http mirror module禁用模块 功能 创造一份镜像流量 生产环
  • React函数式组件渲染、useEffect顺序总结

    参考资料 深入React的生命周期 上 出生阶段 Mount 深入React的生命周期 下 更新 Update 精读 useEffect 完全指南 React组件重新渲染理解 优化大全React渲染顺序及useEffect执行顺序探究 含并
  • mysql创建定时任务

    一 前言 自 MySQL5 1 6起 增加了一个非常有特色的功能 事件调度器 Event Scheduler 可以用做定时执行某些特定任务 例如 删除记录 对数据进行汇总等等 来取代原先只能由操作系统的计划任务来执行的工作 更值得 一提的是
  • pytorch小问题

    pytorch张量的保存和恢复 tensor本身就是对象 如果想要保存和恢复对应的对象 使用 torch save 和 torch load即可 就像picke的load 和dump一样 t2 torch randn 1024 1024 t
  • Java Spring @Scheduled 定时任务crontab表达式设置

    Java Spring Scheduled 定时任务crontab表达式设置 1 Cron详解 2 例子 参考 1 Cron详解 Cron表达式是一个字符串 字符串以5或6个空格隔开 分为6或7个域 每一个域代表一个含义 Cron有如下两种
  • React(一):React的设计哲学 - 简单之美

    React 一 React的设计哲学 简单之美 React 二 React开发神器Webpack React 三 理解JSX和组件 React 四 虚拟DOM Diff算法解析 React 五 使用Flux搭建React应用程序架构 Rea
  • Java程序员开发软件(工具)清单

    亲 你准备好了吗 001 项目管理 禅道 JIRA 002 办公协同 钉钉 003 工作邮件 Foxmail OutLook 004 项目文档 MS Office Word Excel PowerPoint WPS 005 MD 笔记 Ty
  • openGL之API学习(六十九)水平同步 垂直同步

    垂直和水平是CRT中两个基本的同步信号 水平同步信号决定了CRT画出一条横越屏幕线的时间 垂直同步信号决定了CRT从屏幕顶部画到底部 再返回原始位置的时间 而恰恰是垂直同步代表着CRT显示器的刷新率水平 垂直同步打开 那么在游戏中 或许强劲
  • 用 LangChain 构建基于资料库的问答机器人(二):从资料源中提取文本信息

    大家好 我是学生大使 Jambo 这个系列的目标是做出一个根据资料回答问题的机器人 那么从资料源中提取文本信息就是一件必要的事 但我们的资料源格式是多样的 比如 PDF Word HTML PPT 等等 甚至有的资料源来自于网络 这些格式都