将 pandas 中的句子拆分为句子编号和单词

2024-04-14

我有一个像这样的熊猫数据框：

Text            start    end    entity     value
I love apple      7       11    fruit      apple
I ate potato      6       11    vegetable  potato

我尝试过使用 for 循环它运行缓慢，我认为这不是我们应该对熊猫做的事情。

我想基于此创建另一个 pandas 数据框，例如：

Sentence#         Word        Tag
  1                I         Object 
  1               love       Object
  1               apple      fruit
  2                I         Object
  2               ate        Object
  2               potato     vegetable

将文本列拆分为单词和句子编号。除实体词外，其他词将被标记为对象。

Use split, stack and map:

u = df.Text.str.split(expand=True).stack()

pd.DataFrame({
    'Sentence': u.index.get_level_values(0) + 1, 
    'Word': u.values, 
    'Entity': u.map(dict(zip(df.value, df.entity))).fillna('Object').values
})

   Sentence    Word     Entity
0         1       I     Object
1         1    love     Object
2         1   apple      fruit
3         2       I     Object
4         2     ate     Object
5         2  potato  vegetable

旁注：如果运行 v0.24 或更高版本，请用.to_numpy()代替.values https://stackoverflow.com/a/54508052/4909087.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

将 pandas 中的句子拆分为句子编号和单词的相关文章

如何使用 colorchecker 在 opencv 中进行颜色校准？

我有数码相机获取的色彩检查器图像我如何使用它来使用 opencv 校准图像按照以下颜色检查器图像操作您是想问如何进行颜色校准或如何使用 OpenCV 进行校准为了进行颜色校准您可以使用校准板的最后一行灰色调以下是您应该逐步进行
Pandas dataframe：每批行的操作

我有一个熊猫数据框df我想计算每批行的一些统计信息例如假设我有一个batch size 200000 对于每批batch sizerows 我想要一列的唯一值的数量ID我的数据框我怎样才能做这样的事情呢这是我想要的一个例子 prin
Python tkinter.filedialog Askfolder 干扰 clr

我主要在 Spyder 中工作构建需要弹出文件夹或文件浏览窗口的脚本下面的代码在spyder中完美运行在 Pycharm 中 askopenfilename工作良好同时askdirectory什么都不做卡住了但是如果在调试模式
小部件之间的自定义信号

尝试将信号从一个 gtk EventBox 子级发送到另一个在 init HeadMode 第 75 行上出现错误类型错误未知信号名称消息发送 why usr bin env python coding utf8 import p
如何使用正则表达式在 pandas 数据框中选择一行以及包含特定子字符串的行后面的固定行数

Problem 我有一个 pandas 数据框我试图从中提取特定行我感兴趣的行是包含日期的行以及紧随日期行之后的行重要的是我想将信息从日期后面的行移动到包含日期的行中的新列通过这样做我将在同一行上获得一个人的信息需要明确
ValueError：不支持连续[重复]

这个问题在这里已经有答案了我正在使用 GridSearchCV 进行线性回归的交叉验证不是分类器也不是逻辑回归我还使用 StandardScaler 对 X 进行标准化我的数据框有 17 个特征 X 和 5 个目标 y 观察约11
如何使用 javascript/jquery/AJAX 调用 Django REST API？

我想使用 Javascript jQuery AJAX 在前端调用 Django Rest API 请求方法是 POST 但当我看到 API 调用它的调用 OPTIONS 方法时所以我开始了解access control allow o
对使用 importlib.util 导入的对象进行酸洗

我在使用Python的pickle时遇到了一个问题我需要通过将文件路径提供给 importlib util 来加载一些 Python 模块如下所示 import importlib util spec importlib util sp
如何从 JSON 响应重定向？

所以我尝试使用 Flask 和 Javascript 上传器 Dropzone 上传文件并在上传完成后重定向文件上传正常但在烧瓶中使用传统的重定向 return redirect http somesite com 不执行任何操作页面
如何在Python中按AaB而不是ABa顺序对字符串进行排序

我正在尝试对字符串进行排序为 punnetsquare 制作基因型我目前的实现是 unsorted genotype ABaB sorted genotype sorted list unsorted genotype sorted s
Python、subprocess、call()、check_call 和 returncode 来查找命令是否存在

我已经弄清楚如何使用 call 让我的 python 脚本运行命令 import subprocess mycommandline lumberjack sleep all night work all day subprocess cal
如何在 Azure 数据工厂 - Databricks 中使用 continuation_token 获取 ADF Pipeline 运行详细信息的下一页？

我在用 adf client pipeline runs query by factory resourceGroupName 工厂名称过滤器参数的方法azure mgmt datafactory DataFactoryManageme
为什么我应该使用 WSGI？

使用 mod python 一段时间了我读了越来越多关于 WSGI 有多好的文章但没有真正理解为什么那么我为什么要切换到它呢有什么好处这很难吗学习曲线值得吗为了用 Python 开发复杂的 Web 应用程序您可能会使用更全面
Flask 应用程序的测试覆盖率不起作用

您好想在终端的 Flask 应用程序中测试删除路由我可以看到测试已经过去它说 test user delete test app LayoutTestCase ok 但是当我打开封面时它仍然是红色的这意味着没有覆盖它请有人向我
falcon，AttributeError：“API”对象没有属性“create”

我正在尝试测试我的猎鹰路线但测试总是失败而且看起来我把所有事情都做对了 my app py import falcon from resources static import StaticResource api falcon API
PIL - 需要抖动，但限制调色板会导致问题

我是 Python 新手正在尝试使用 PIL 来执行 Arduino 项目所需的解析任务这个问题涉及到Image convert 方法以及调色板抖动等选项我有一些硬件能够一次仅显示 16 种颜色的图像但它们可以指定为 RGB 三元
OSX 上的 locale.getlocale() 问题

我需要获取系统区域设置来执行许多操作最终我想使用 gettext 翻译我的应用程序我打算在 Linux 和 OSX 上分发它但我在 OSX Snow Leopard 上遇到了问题 python Python 2 5 2 r252 60
Python问题：打开和关闭文件返回语法错误

大家好我发现了这个有用的 python 脚本它允许我从网站获取一些天气数据我将创建一个文件和其中的数据集有些东西不起作用它返回此错误 File
python 日志记录会刷新每个日志吗？

当我使用标准模块将日志写入文件时logging 每个日志会分别刷新到磁盘吗例如下面的代码会将日志刷新 10 次吗 logging basicConfig level logging DEBUG filename debug log fo
tkinter：打开一个带有按钮提示的新窗口[关闭]

Closed 这个问题需要调试细节 help minimal reproducible example 目前不接受答案用户如何按下 tkinter GUI 中的按钮来打开新窗口我只需要非常简单的解决方案如果代码也能被解释那就太好了这

随机推荐

logger.debug 未写入 Rails 中的日志文件

我正在尝试在 Rails 中调试模型因此我使用以下代码 logger debug asasd 但是我正在追踪日志文件development log 但我没有看到它添加到该文件中我确信这个模块正在运行我已经确认运行时错误正在记录到该文
C# 导入 Adobe Illustrator (.AI) 文件渲染为位图？

任何人都知道如何加载 AI 文件 Adobe Illustrator 然后将矢量光栅化渲染为位图以便我可以生成例如是 JPG 还是 PNG 如果可能的话我想生成缩略图渲染带有PNG透明背景的大版本当然如果您知道 AI 的规格
PHP date() 外语 - 例如3 月 25 日 Aoû 09 [重复]

这个问题在这里已经有答案了我有一个脚本需要向国际观众显示日期数据例如于 2009 年 8 月 25 日星期二提交有没有一种更简单更干净的方法可以将其转换为法语等等效项 Mar 25 Ao 09 而不是设置常数LANG and
如何将 Jersey ExceptionMapper 与 Google Guice 结合使用？

我正在使用 Jersey Guice 并且需要配置自定义ExceptionMapper 我的模块如下所示 public final class MyJerseyModule extends JerseyServletModule Overr
在 R 的另一个函数中使用 data.table

使用列创建新变量时 data table 不允许带引号的列名称当在函数中使用 data table 时这会产生以下问题 library data table dt lt data table var1 c 1 10 var2 seq 2
TypeORM 为什么我的关系列未定义？外键未定义

我只是使用 TypeORM 并发现关系列未定义 Entity name person export class Person PrimaryGeneratedColumn uuid id string OneToOne gt User Jo
深层嵌套类型的Elasticsearch聚合

之前我问过this https stackoverflow com questions 31841542 elasticsearch metric aggregation number of elements in array 318464
等待循环结束

有没有办法在运行下一个函数之前确保 for 循环已完成我有一个场景向用户显示一个用户列表他们可以选择 X 个用户一旦他们为所选的每个用户按下完成我就会调用 REST API 服务来获取有关的更多信息要添加到用户数组中的选定用
枚举是引用类型还是值类型？

我在我的中使用了 Enum 属性实体框架 http msdn microsoft com en US data ef5级但在数据库中该字段可以为空 Visual Studio 给出错误指出该属性必须是可为 null 的属性我的问题是
为什么我们需要指定标准的 Lark 词法分析器才能捕获评论终端？

我正在开发一个基于 Lark 的项目我需要能够捕获正在解析的代码中的注释但是当使用标准词法分析器而不明确指定标准词法分析器时它不起作用我采取了第二个例子云雀食谱 https lark parser readthedocs io
ar-sa 文化的预期日期时间字符串是什么？

我有一个方法 DateToString DateTime datetime string format CultureInfo cultrueInfo return datetime ToString format cultureInfo
更改旋转箭头，Appcompat v21

i have activities which i themed with my custom theme but for spinner i choosed to style it with Appcompat v21 but i got
是否有适用于 Microsoft Edge 浏览器的 Selenium WebDriver？

截至本文发布之日 Microsoft Edge 这个名称刚刚被正式宣布为新 Windows 10 的默认浏览器现在问这个问题可能还为时过早但我想知道是否有新的 Selenium WebDriver 可用如果没有是否有任何说明我们可能
计算分数的Java程序

该程序的目的是获取一个分数的两个用户输入从用户接收一个运算符然后获取第二个分数的另外两个用户输入该程序必须检查两个分数中使用的数字是否在 0 99 之间并且分母非零该程序还必须确保用户输入有效的运算符我现在面临的唯一问题是我的变
是否有可以在 form_div_layout.html.twig 中使用的变量的完整列表？

我想获取Symfony表单主题文件form div layout html twig中可用的所有变量我阅读了Symfony官方文档并在网上搜索但找不到任何有用的信息有人可以帮助我吗那么您可以通过迭代上下文来获取每个块中的所有可用变
相同视图和浏览器版本中不同的 IE XML/XSL 行为，但使用不同的域用户帐户

我们的一位用户在尝试访问我们的 Web 应用程序视图之一时遇到问题 IE9 行为在 6 8 和 9 中显得一致但在域帐户之间不一致对于该特定用户的 Windows 域帐户无论使用哪些凭据来访问我们的应用程序或者使用哪台机器的浏览器
在 init 上创建 django 表单

如何在表单初始化函数中添加字段例如在下面的代码中我想添加一个配置文件字段 class StaffForm forms ModelForm def init self user args kwargs if user pk 1 self f
DocumentDb IN 子句中的最大项目数

我在文档中找不到任何地方提及 DocumentDb 中 IN 关键字支持的最大项目数我会假设有一个限制任何人都可以在引用的文档中指出吗 DocumentDB 实际上消除了所有限制将其提高到我们预计用户无法超越的水平因此不再记录它们
将 Team Foundation Server (TFS) 与 Xcode 连接

我是 Xcode 和 TFS 的新手有人可以解释一下如何将 TFS 2013 与 Xcode 连接来维护存储库或者给我一个从一开始就包含完整详细信息的链接吗这个想法是使用 Git 作为版本控制并将更改推送到 TFS 中托管的中央存储
将 pandas 中的句子拆分为句子编号和单词

我有一个像这样的熊猫数据框 Text start end entity value I love apple 7 11 fruit apple I ate potato 6 11 vegetable potato 我尝试过使用 for 循环

将 pandas 中的句子拆分为句子编号和单词

将 pandas 中的句子拆分为句子编号和单词 的相关文章

随机推荐

热门标签

将 pandas 中的句子拆分为句子编号和单词的相关文章