使用 NLTK 查找不完整句子中的主语

2023-12-24

我有一个产品列表，我试图将其分类。他们将用不完整的句子来描述，例如：

“固态硬盘外壳”

“硬盘驱动器电缆”

“1TB硬盘”

“500GB 硬盘，厂家翻新”

如何使用 python 和 NLP 获得诸如“Housing、Cable、Drive、Drive”之类的输出，或者描述哪个单词正在修改哪个单词的树？先感谢您

NLP 技术对于处理此类文本的能力相对较差。

换句话说：构建一个包含 NLP 流程的解决方案来实现所需的分类器是很有可能的，但增加的复杂性并不一定会在开发速度和分类器精度改进方面带来回报。
如果真的坚持使用 NLP 技术，词性标记及其识别名词的能力是最明显的想法，但分块和访问 WordNet 或其他词汇源是 NLTK 的其他合理用途。

相反，基于简单正则表达式和一些启发式的临时解决方案，例如NoBugs可能是解决问题的适当方法。当然，此类解决方案存在两个主要风险：

过度拟合在制定规则时审查/考虑的文本部分
如果引入太多规则和子规则，解决方案可能会变得混乱/复杂。

对要考虑的完整文本（或非常大的样本）运行一些简单的静态分析应该有助于指导一些启发式的选择，并避免过度拟合的问题。我非常确定与自定义字典相关的相对少量的规则应该足以生成具有适当精度以及速度/资源性能的分类器。

一些想法：

用手计算语料库中相当大一部分中的所有单词（可能还有所有二元组和三元组）。该信息可以通过允许将最多的努力和最严格的规则分配给最常见的模式来驱动分类器的设计。
manually introduce a short dictionary which associates the most popular words with:
- 它们的 POS 功能（这里主要是二元问题：即名词与修饰语和其他非名词。
- 他们的同义词根[如果适用]
- 他们的班级[如果适用]
如果该模式适用于大部分输入文本，请考虑使用文本结尾之前或第一个逗号之前的最后一个单词作为类选择的主键。如果该模式不成立，只需给予第一个和最后一个单词更多的权重即可。
考虑第一遍，其中文本被重写，用最常见的二元组替换为字典中的单个单词（甚至是人工代码词）
还可以考虑用相应的同义词根替换最常见的拼写错误或同义词。在输入中添加规律性有助于提高精度，还有助于在字典中制定一些规则/一些条目，从而获得很大的精度回报。
对于字典中找不到的单词，假设与数字混合和/或前面有数字的单词是修饰语，而不是名词。假设
考虑两层分类，其中无法合理分配类别的输入被放入“手动堆”中，以提示额外的审查，从而产生额外的规则和/或字典条目。经过几次迭代后，分类器需要的改进和调整应该越来越少。
寻找不明显的特征。例如，一些语料库是由多种来源组成的，但一些来源可能包括有助于识别来源和/或可用作分类提示的特定规律。例如，某些源可能仅包含大写文本（或文本通常长于 50 个字符，或末尾被截断的单词等）

我担心这个答案没有提供 Python/NLTK 片段作为解决方案的入门，但坦率地说，这种简单的基于 NLTK 的方法充其量可能会令人失望。此外，我们应该有一个更大的输入文本样本集来指导选择合理的方法，包括基于 NLTK 或 NLP 技术的方法。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 NLTK 查找不完整句子中的主语的相关文章

如何将本机 popcount 与 numba 一起使用

我正在使用 numba 0 57 1 我想在我的代码中利用本机 CPU popcount 我现有的代码太慢因为我需要运行它数亿次这是一个 MWE import numba as nb nb njit nb uint64 nb uint6
如何移动我的图像？ python 3.10.4 pygame

我会移动我的图像图像是matiskinfinal png 我尝试将像素添加到 x 或其他我不知道它是什么的东西因为我真的是 python 的初学者 pygame但是是 x x 变化但图像没有移动 import os import py
Python sqlite3参数化删除表

我在 python 中删除 sqlite3 表时遇到问题我正在使用标准sqlite3模块 self conn sqlite3 connect sql drop table self conn execute sql u table nam
蜘蛛内的Scrapyd jobid值

Scrapy 框架 Scrapyd 服务器我在获取蜘蛛内部的 jobid 值时遇到一些问题将数据发布到后http localhost 6800 schedule json http localhost 6800 schedule jso
Seaborn 热图中的自定义调色板间隔

我正在尝试绘制一个heatmap https seaborn pydata org generated seaborn heatmap html使用seaborn库绘图函数如下所示 def plot confusion matrix da
在 vim 折叠线中语法高亮 Python

我发现代码折叠 http en wikipedia org wiki Code folding帮助我更好地组织我的文件因此在我的底部 vimrc 我启用vim代码折叠 http vimdoc sourceforge net htmldo
如何为 C 分配的 numpy 数组注册析构函数？

我想在 C C 中为 numpy 数组分配数字并将它们作为 numpy 数组传递给 python 我可以做的PyArray SimpleNewFromData http docs scipy org doc numpy reference
使用 boto3 从 s3 下载时使用 filename 作为文件名

我正在使用 boto3 上传文件如下所示 client boto3 client s3 aws access key id id aws secret access key key client upload file tmp test
读取文件特定行号的有效方法。（奖励：Python 手册印刷错误）

我有一个 100 GB 的文本文件它是来自数据库的 BCP 转储当我尝试导入它时BULK INSERT 我在第 219506324 行上收到一个神秘错误在解决此问题之前我想看看这一行但可惜的是我最喜欢的方法 import line
如何删除 pandas 数据框中的唯一行？

我遇到了一个看似简单的问题在 pandas 数据框中删除唯一的行基本上相反drop duplicates https pandas pydata org pandas docs stable generated pandas Data
如何在数据框中绘制包含三列的无向图，形成 3 种不同类型的节点（三方）？

我正在尝试使用三个不同的列表绘制网络的可视化这三个列表形成 3 种类型的节点下面的代码正在运行如图所示需要两个列表用户 ID 评分但是我希望我的图表是三部分的即 user userId review ratings prod
检查多个 pd.DataFrame 是否相等

是否有一种 Pythonic 方式无循环或递归来检查是否超过两个pd DataFrames 例如 pd DataFrames 列表彼此相等吗就像是 all x equals dfs 0 for x in dfs with dfs数据
使用 Python 脚本打开特定文件类型？

如何使 Python 脚本成为特定文件类型例如 foo 的默认应用程序例如当我双击 Finder Explorer 中的文件时我希望该文件在 Python 脚本中打开这可以在 Win 和或 OS X 中实现吗如果重要的话该应
如何在 Sublime 2 REPL Mac 中运行 Python 3

我的问题如下我安装了 sublime 2 和 sublime repl 插件一切正常我唯一需要的是更改在控制台内置的 sublimerepl 上运行的 python 版本我的意思是我有 python 2 7 5 预先安装了 mav
如何修改 contenteditable 元素的innerHTML

我使用 Selenium 与 Chrome driver 和 python3 6 来测试网站我在网页中有代码片段如下 div class 3F6QL 2WovP div class 39LWd Type a message div div
如何加速 pandas 字符串函数？

我正在使用 pandas 矢量化 str split 方法来提取从上的拆分返回的第一个元素我还尝试使用 df apply 与 lambda 和 str split 来产生等效的结果使用 timeit 时我发现 df apply 的
Python：帮助（numpy）在退出时导致段错误

我遇到了一个奇怪的现象在 python 解释器中我执行以下操作 gt gt gt import numpy gt gt gt help numpy 帮助显示正确但一旦我按 q 返回解释器 Segmentation fault core
Python 队列 get()/task_done() 问题

我的消费者端队列 m queue get queue task done
如何可视化多维数据上的 kmeans 聚类

我在 mnist 数据集上使用 kmeans 聚类算法并希望可视化聚类后的图到目前为止我做了这个 from mnist import MNIST mndata MNIST Datasets X train y train mndata
Pip 突然使用了错误版本的 Python

在 os x 上使用 pip 时遇到一个奇怪的问题据我所知快速查看我的 bash history 似乎可以确认我最近没有对我的配置进行任何更改唉 pip 命令似乎突然使用了与以前不同的 python 版本到目前为止我使用命令 p

随机推荐

带图像的android网格视图（图像缩小并且看起来模糊）

I have to show 7 icons on the home screen of my application To do this i have arranged the icons on the grid view using
Google Maps API 3 fitBounds 填充 - 确保标记不会被重叠控件遮挡

我希望能够在调用后向地图视图添加填充map fitBounds https developers google com maps documentation javascript reference 因此无论地图控件或打开时会覆盖标记的滑动
在 ElasticSearch 中以微秒格式保存日期

我正在尝试使用 jdbc 输入插件和 Logstash 将一组事件从 MySQL 数据库保存到弹性搜索中数据库中的事件记录包含微秒格式的日期字段实际上数据库中存在几微秒之间的记录导入数据时 Elasticsearch 会将微秒日期格
如何在WinDbg中使用ba命令（Break on Access）？

我有一个非常小的 C 程序 include
docker：创建新用户后运行 npm install 时遇到问题

所以我还有另一个关于在 CoreOS 上的 Docker 下安装基于 node js 的框架的后续问题 per这个帖子 https stackoverflow com questions 21873789 docker installing
如何突然停止 akka 流 Runnable Graph？

我无法弄清楚如何立即停止 akka Stream Runnable Graph 如何使用killswitch来实现这一点我开始 akka Streams 才几天就我而言我正在从文件中读取行并在流程中执行一些操作并写入接收器我想做的是
如何从 TextView 获取样式文本

很简单的问题我有一些 TextView TextView textView TextView findViewById R id textView1 我设置了样式文本用 b 标签或任何其他标签 textView setText Html
Python 数组是只读的，无法追加值

我是Python新手以下代码在尝试将值附加到数组时会导致错误我究竟做错了什么 import re from array import array freq pattern re compile Frequency of Incident
可互换的键/值 HashMap Set 结构

背景使用两个操作数创建一系列 SQL JOIN 语句主操作数和辅助操作数 JOIN 语句的通用形式是 JOIN primary primary ON secondary id primary id Problem 该代码当前迭代主操作数
使用 __float128 编译 C++ 代码

我正在尝试使用 float128在我的 C 程序中但是我在编译它时遇到了麻烦这是简单的 C 代码 test cc include
在 Internet Explorer 中运行 Selenium 的问题

您好我正在尝试在 IE9 上运行我的 selenium webdriver 网络驱动程序版本 2 32 0 IE 9 IEDriverServer win32 2 32 3 windows7 下面是我的代码 File IEDriver n
ctypes/C++ 访问成员变量的段错误

我对 python ctypes 模块并不陌生但这是我第一次尝试将 C C 和 Python 组合到一个代码中我的问题似乎非常相似在 Python 和 C 中使用 ctypes 时出现段错误 https stackoverflow co
PDO::__construct()：服务器向客户端发送了未知的字符集 (255)。请向开发商举报

我正在尝试从 Symfony 3 应用程序连接到 MySQL 数据库但是当尝试从 Symfony 控制台命令创建 MySQL 模式时我收到此错误 PDO construct Server sent charset 255 unknown
通过 Web API 设置 Hudson 构建描述

我有一个在 Hudson 构建上运行的 Python 脚本并且希望能够以编程方式设置构建的描述我可以在构建页面上单击添加描述并填写表单如何将一些数据 POST 到与表单相同的 URL 想通了需要将以下内容作为表单数据内容类型a
无法使用 mocha 和 supertest 测试 DELETE 方法

我正在尝试为节点应用程序构建 RESTful API 我建立了路线一切都运行良好但是当我尝试测试它时它无法使 DELETE 方法工作尽管它在测试下正常工作这是服务器和测试的代码服务器 set up var express req
在 Java 中使用 Kotlin 类：找不到符号

我已经发现this https stackoverflow com questions 37946305 how to solve error cannot find symbol class after converting java c
构建后index.html中的相对路径

你好我有一个reactjs应用程序我用下面的命令构建我的项目 npm build 这是我的package json file scripts start react scripts start build react scripts b
Dagger2允许注入为空

所以简而言之我对同一个应用程序有很多口味但略有不同我想为所有口味独立添加一个导航器我使用的是 Dagger2 每种口味都有一个子组件我只为给定的口味注入东西所以我也想注入一个 Navigator 类诀窍是公共代码中的某些类
根据条件过滤并收集对象

在java 8中根据一些过滤条件收集emp对象在主课中 List
使用 NLTK 查找不完整句子中的主语

我有一个产品列表我试图将其分类他们将用不完整的句子来描述例如固态硬盘外壳硬盘驱动器电缆 1TB硬盘 500GB 硬盘厂家翻新如何使用 python 和 NLP 获得诸如 Housing Cable Drive Drive 之类

使用 NLTK 查找不完整句子中的主语

使用 NLTK 查找不完整句子中的主语 的相关文章

随机推荐

热门标签

使用 NLTK 查找不完整句子中的主语的相关文章