如何使用 NLP 将非结构化文本内容分成不同的段落？

2023-12-30

以下非结构化文本具有三个不同的主题：史泰龙、费城和美国革命。但是您会使用哪种算法或技术将这些内容分成不同的段落？

分类器在这种情况下不起作用。我还尝试使用 Jaccard 相似度分析器来查找连续句子之间的距离，并尝试在连续句子之间的距离小于给定值时将它们分组为一个段落。有更好的方法吗？

这是我的文本示例：

西尔维斯特·加登齐奥·史泰龙，绰号“狡猾的史泰龙”，是一位美国演员、电影制片人和编剧。史泰龙以其男子气概和好莱坞动作角色而闻名。史泰龙的电影《洛奇》被纳入国家电影登记处，其电影道具也被放置在史密森尼博物馆。史泰龙在《洛奇》系列中使用了费城艺术博物馆的正门，使该地区被昵称为“洛基台阶”。费城是商业、教育和文化中心，曾是大英帝国第二大城市（仅次于伦敦）），以及原13个美洲殖民地的社会和地理中心。它是美国早期历史的核心，孕育了许多催生美国革命和独立的思想和行动。美国革命是 18 世纪下半叶的政治剧变，北美 13 个殖民地加入其中共同摆脱大英帝国，合并成为美利坚合众国。他们首先拒绝了英国议会在没有代表的情况下从海外统治他们的权力，然后驱逐了所有王室官员。到 1774 年，每个殖民地都建立了省议会或同等的政府机构，以形成各自的自治国家。

我在 NLP 领域工作了很长时间，这是一个你想要解决的非常棘手的问题。您永远无法实现 100% 准确度的解决方案，因此您应该预先决定是做出假阴性决策（未能找到段落分割点）还是假阳性决策（插入虚假分段）更好点）。完成此操作后，收集文档语料库并注释您期望找到的真实分割点。

完成此操作后，您将需要一种查找 EOS（句尾）点的机制。然后，在每对句子之间，您需要做出二元决定：是否应该在此处插入段落边界？

您可以根据不同的分割点来衡量每个段落中概念的凝聚力。例如，在一个有五个句子的文档（ABCDE）中，有十六种不同的分段方法：

ABCDE   ABCD|E   ABC|DE   ABC|D|E   AB|CDE   AB|CD|E   AB|C|DE   AB|C|D|E
A|BCDE  A|BCD|E  A|BC|DE  A|BC|D|E  A|B|CDE  A|B|CD|E  A|B|C|DE  A|B|C|D|E

为了衡量衔接性，您可以使用句子到句子的相似性度量（基于为每个句子提取的一些特征集合）。为简单起见，如果两个相邻句子的相似度度量为 0.95，则将它们组合到同一段落中的“成本”为 0.05。文档分割计划的总成本是所有句子连接成本的总和。为了达到最终的细分，您选择总成本最低的计划。

当然，对于包含多个句子的文档，有太多不同的可能的分段排列，无法强力评估其所有成本。因此，您需要一些启发式方法来指导该过程。动态编程在这里可能会有所帮助。

至于实际的句子特征提取……嗯，这就是事情变得非常复杂的地方。

您可能想忽略高度句法的单词（介词、连词、助动词和从句标记等连接词），并将相似性建立在语义更相关的单词（名词和动词，以及较小程度上的形容词和副词）上。

简单的实现可能只是计算每个单词的实例数量，并将一个句子中的单词计数与相邻句子中的单词计数进行比较。如果一个重要的单词（如“费城”）出现在两个相邻的句子中，那么它们可能会获得很高的相似度得分。

但问题是两个相邻的句子可能具有非常相似的主题，即使这些句子具有完全不重叠的单词集。

因此，您需要评估每个单词的“含义”（在给定周围上下文的情况下，其具体含义）并将该含义概括为涵盖更广泛的领域。

例如，想象一个含有“greenish”一词的句子。在我的特征提取过程中，我当然会包含确切的词汇值（“绿色”），但我还会应用形态变换，将单词标准化为其根形式（“绿色”）。然后我会在分类中查找该单词，发现它是一种颜色，可以进一步概括为视觉描述符。因此，基于这个词，我可能会在我的句子特征集合中添加四种不同的特征（“绿色”、“绿色”、“[颜色]”、“[视觉]”）。如果文档中的下一个句子再次提到颜色“绿色”，那么这两个句子将非常相似。如果下一句话使用“红色”这个词，那么它们仍然有一定程度的相似性，但程度较小。

所以，有一些基本的想法。您可以无限地详细说明这些并调整算法以在您的特定数据集上表现良好。有一百万种不同的方法可以解决这个问题，但我希望其中一些建议对您入门有所帮助。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何使用 NLP 将非结构化文本内容分成不同的段落？的相关文章

是否可以使用 Google BERT 来计算两个文本文档之间的相似度？

是否可以使用 Google BERT 来计算两个文本文档之间的相似度据我了解 BERT 的输入应该是有限大小的句子一些作品使用 BERT 来计算句子的相似度例如 https github com AndriyMulyar semant
openNLP 与 Solr 集成时出现异常

我正在尝试将 openNLP 与 Solr 6 1 0 集成我配置了架构和 solrconfig 文件详细信息请参见 wiki 链接 https wiki apache org solr OpenNLP https wiki apach
R 中多类分类的 ROC 曲线

我有一个包含 6 个类别的数据集我想绘制多类别分类的 ROC 曲线 Achim Zeileis 给出的第一个答案非常好 R中使用rpart包的ROC曲线 https stackoverflow com questions 30818188
哪种数据聚类算法适合检测时间序列事件中未知数量的聚类？

这是我的场景考虑在不同地点和时间发生的一组事件例如考虑有人在高空记录暴风雨期间城市中的雷击就我的目的而言闪电是瞬时的只能击中某些位置例如高层建筑还可以想象每次雷击都有一个唯一的 ID 以便以后可以参考该雷击这个城市大约有1
如何检测文本是否可读？

我想知道是否有一种方法可以告诉给定的文本是人类可读的我所说的人类可读的意思是它有一些含义格式就像某人写的文章或者至少是由软件翻译器生成的供人类阅读的文章这是背景故事最近我正在制作一个应用程序允许用户将短文本上传到数据库在部署
AttributeError：类型对象“Word2Vec”没有属性“load_word2vec_format”

我正在尝试实现 word2vec 模型并收到属性错误 AttributeError 类型对象 Word2Vec 没有属性 load word2vec format 下面是代码 wv Word2Vec load word2vec format
从边界框确定文本坐标 a 的正确方法是什么？

鉴于调用的结果imagettfbbox https www php net manual en function imagettfbbox php 什么是正确的像素完美的点提供给imagettftext https www php net
NLTK：包错误？朋克和泡菜？

基本上我不知道为什么会收到此错误只是为了获得更多图像这里有一个代码格式的类似消息由于是最新的该帖子的答案已经在消息中提到 Preprocessing raw texts LookupError Traceback most rec
图像上的文字

是否可以在 php 中动态地将文本放置在图像上然后将其发送到 rss feed 是的可以使用GD http www php net gd函数或图像魔术师 http www php net imagemagick功能具体取决于您的服务器
如何使用Python在没有窗口的情况下在屏幕上显示文本

问题我需要在没有窗口的情况下直接将文本写入屏幕文本需要显示在所有其他窗口和全屏应用程序之上并且不应以任何方式单击或交互 Example The text doesn t need to have a transparent backg
在哪里可以获得几乎所有英语单词的列表？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我想生成一些随机文本我尝试写一个基本的Java程序 int nowords r nextInt 2000 int i j for i 0
在监督分类中，使用partial_fit() 的MLP 比使用fit() 的表现更差

我正在使用的学习数据集是灰度图像flatten让每个像素代表一个单独的样本第二张图像在训练后将被逐像素分类Multilayer perceptron MLP 前一个分类器我遇到的问题是MLP当它一次接收到所有训练数据集时表现更好 fit
显示 \r\n 的文本编辑器？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我正在寻找一个可以显示实际回车符和换行符的文本编辑器例如如果我保存这个字符串 This rIs r
SVG 文本无法在 Chrome 或 Safari 中呈现

我有一些 SVG 文本在 Firefox 上运行良好但在 Chrome 和 Safari 中却没有出现我努力了向 svg 容器添加填充以防文本被隔断从文本中删除 xml space preserve 添加内联填充颜色
从文本文件 PHP 读取数据

我只是想知道如何在 php 中读取文本文件我想让它显示文本文件中的最后 200 个条目每个条目都在一个新行上 Like John White Jane Does John Does Someones Name 等等 Thanks Use
randomForest 包在删除一个预测类时的奇怪行为

我正在运行一个随机森林模型它产生的结果从统计角度来看对我来说完全没有意义因此我确信有些东西mustrandomForest 包的代码出现错误至少在模型的本次迭代中预测左侧变量是具有 3 种可能结果的政党 ID 民主党独立党共和
除非 POS 显式，否则 WordNetLemmatizer 不会返回正确的引理 - Python NLTK

我正在对 Ted 数据集成绩单进行词形还原我注意到一些奇怪的事情并非所有单词都被词形还原要说的是 selected gt select 哪个是对的然而 involved gt involve and horsing gt horse
TinyMCE：如何禁用代码重写？

我试图阻止 TinyMCE 在 Joomla 中重写代码添加删除移动标签和属性等我不想设置每个标签只需阻止 TinyMCE 更改我的代码即可 TinyMCE配置 verify html false 对我来说不起作用切换到源代码
Ubuntu 上的 Vim：文本渲染错误，奇怪地重复和消失

不久前我在 ubuntu 12 04 上安装了 vim 有时当我在代码上运行光标使用键盘而不是鼠标时文本会消失就好像渲染字符时出现问题一样当我再次运行光标时它通常会重新出现这似乎是随机发生的但通常足以让人恼火为了更清楚
测量以指定宽度包裹的文本高度

如何计算渲染以指定宽度包裹的文本所需的高度我在中找到了以下方法Graphics graphicsObj MeasureString text font width 但它需要一个实例Graphics当时我还没有图形实例事实上我更喜欢使用

随机推荐

按多个字段对对象列表进行排序[重复]

这个问题在这里已经有答案了我有一个 Java 对象列表我想根据多个字段对其进行排序 public class graduationCeremony String campus String faculty String building
声纳跑步者 404 本地主机

我正在尝试让 Sonar 在 OS X 机器上本地工作以进行一些概念验证工作我已经下载了以下内容声纳库 4 5 6 声纳跑步者 2 4 Sonarqube 配置为 sonar web host localhost sonar web c
如何使用外键从2个表中获取所有数据

这是将单个表分成两部分的结果 Table users user id pk ai email password last login Table data user id fk to users user id data 1 data 2
Linux中通过perf为未列出的函数添加动态跟踪点

我正在尝试跟踪功能zap pte range来自 mm memory c 使用perf 但功能并未在其中列出perf probe F 那么有没有办法动态追踪这个函数呢 IE 显式添加跟踪点并重新编译内核 perf probe a zap p
创建具有不同行尺寸的表

假设我有一张这样的表 data lt c 1 2 3 6 5 6 9 LC LC HC HC LC HC ALL attr data dim lt c 7 2 data 1 2 1 1 LC 2 2 LC 3 3 HC 4 6 HC 5 5
如何对向量中的每个项目进行操作并引用 Clojure 中的先前值？

Given def my vec a foo b 10 a bar b 13 a baz b 7 如何迭代每个元素以打印该元素的 a 以及到该点的所有 b 的总和那是 foo 10 酒吧 23 巴兹 30 我正在尝试这样的事情但无济于事
如何解决-无法在AWS lambda控制台中的模块外部使用导入语句

我正在 AWS lambda 控制台中尝试此操作我已经在终端上安装了 npm install aws sdk client kinesis 并使用压缩文件并创建了一个具有 client kinesis 的 lambda 层如果使用以下内
selenium.common.exceptions.WebDriverException：消息：尝试使用 Selenium 和 Python 单击元素时无法将数据转换为对象

我登录后尝试单击页面上的按钮该按钮是以下 HTML div div
使用 pymongo 读取和更新 mongodb 文档的最佳方法

我试图逐个读取 mongodb 集合文档以获取每条记录加密记录中的一些字段并将其放回数据库 for record in coll find modifying record here coll update record 这导致了一个严
将创建的文档结果转换为 POCO

我有以下代码调用 DocumentDB 并创建一个新的 Employee 文档然后如何将结果再次转换为员工文档基本上我想捕获创建的文档并将其转换为 Employee 对象 var result await client CreateD
在 Woocommerce 购物车结账和订单中禁用特定产品的商品名称链接

我希望禁用购物车中特定产品的产品页面的产品链接该产品是当购物车小计金额等于特定值时自动添加到购物车的礼品产品我知道可以对所有购物车商品执行此操作但我不太确定如何针对特定项目适用于的新答案所有产品类型对于已定义产品 ID 的数组请在
OWIN 无法启动，并显示“无法访问网络位置”

我尝试在 NET 4 5 控制台应用程序上运行以下代码 var app WebApp Start
使用 Sequelize ORM 插入/更新 PostGis 几何图形

我使用sequelize auto提取了一些PostGis图层的模型给出 module exports function sequelize DataTypes return sequelize define table id type
sbt 查找所请求依赖项的另一个版本

项目 plugins sbt addSbtPlugin org scala js sbt scalajs 0 6 28 addSbtPlugin ch epfl scala sbt scalajs bundler 0 15 0 build
是否可以使用基于父 div 大小而不是行数的 Dojo/Dijit DataGrid 自动高度功能？

我有一个定期更新的数据网格其中的行数随着时间的推移稳步增长它位于父 div 内部高度为屏幕的 60 如果我将自动高度设置为 5 行则该表可以正常工作添加第六行时数据网格中会出现一个滚动条我可以向上向下滚动并且标题保持固定在
进程退出时flock会自动释放吗？

在Linux 中的bash 脚本中我使用flock 命令flock 而不是系统调用flock 来实现文件锁定从而防止共享资源这是tmpfs 中的文件的并发访问我有陷阱处理程序来处理脚本的异常终止 trap rm rf LOCK r
禁用 CSRF SiteWide

有没有办法为所有控制器禁用 CSRF 或者是否必须在每个控制器上禁用它我仅使用 ruby on Rails 作为 API 不需要任何类型的 CSRF 因为请求不是基于会话的我想仅禁用 JSON 请求我相信这可能有效但我不确定 cla
如何通过路径为 QFileSystemModel 选择 QTreeView 中的文件？

我有一个显示文件系统模型的树视图我希望在启动时选择某个文件特别是当前目录这样用户就不会被迫沿着文件系统树一路向下查找它但是 QTreeView 和 QFileSystemModel 都没有任何按角色查找项目并检索其 QModelIn
python if语句字典与Series不兼容的索引器

这个脚本 for x in df index if df loc x medicament1 in dicoprix df loc x coutmed1 dicoprix df loc x medicament1 给出这个错误 File
如何使用 NLP 将非结构化文本内容分成不同的段落？

以下非结构化文本具有三个不同的主题史泰龙费城和美国革命但是您会使用哪种算法或技术将这些内容分成不同的段落分类器在这种情况下不起作用我还尝试使用 Jaccard 相似度分析器来查找连续句子之间的距离并尝试在连续句子之间的距离小于给

如何使用 NLP 将非结构化文本内容分成不同的段落？

如何使用 NLP 将非结构化文本内容分成不同的段落？ 的相关文章

随机推荐

热门标签

如何使用 NLP 将非结构化文本内容分成不同的段落？的相关文章