如果列表中的某个值匹配,如何创建新列(类似于获取虚拟值)

2024-01-09

我有一个像这样的 df:

text
hello how are you
hello people
hello stackoverflow

和这样的列表:

单词= [“你好”,“人们”,“stackoverflow”]

预期输出:

text                  Hello         people          stackoverflow
hello how are you       1             0                  0
hello people            1             1                  0
hello stackoverflow     1             0                  1

Use Series.str.get_dummies http://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.str.get_dummies.html with DataFrame.reindex http://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.reindex.html用于按列表过滤列(值必须小写才能匹配)和最后一个DataFrame.join http://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.join.html至原文:

words = ["hello","people", "stackoverflow"]
df1 = df.join(df['text'].str.get_dummies(' ').reindex(columns=words))

print (df1)
                  text  hello  people  stackoverflow
0    hello how are you      1       0              0
1         hello people      1       1              0
2  hello stackoverflow      1       0              1
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如果列表中的某个值匹配,如何创建新列(类似于获取虚拟值) 的相关文章

  • pycharm自动将制表符转换为空格

    我正在使用 pycharm IDE 进行 python 开发 它对于 django 代码来说工作得很好 因此怀疑将制表符转换为空格是默认行为 但是在 python IDE 中到处都会出现错误 因为它无法自动将制表符转换为空格 有没有办法实现
  • 如何仅选择从空间实体中提取的第一个实体?

    我正在尝试使用以下代码从 DataFrame 中可用的文本中提取实体 for i in df Text to list doc nlp i for entity in doc ents if entity label GPE 我需要存储第一
  • 如何从 gridsearchcv 绘制决策树?

    我试图绘制由 GridSearchCV 形成的决策树 但它给了我一个属性错误 AttributeError GridSearchCV object has no attribute n features 但是 如果我尝试在没有 GridSe
  • Python 文件打开并立即关闭

    尝试首先通过 powershell 然后通过 cmd 运行此代码 甚至简单地单击它 我正在输入 start python myfile py 来运行它 在每种情况下 文件都会在屏幕上闪烁并立即关闭 我查看它的唯一方法是将文件直接拖到cmd中
  • 在进程之间共享列表的正确方法?

    我想设置两个子流程 其中subprocess1不断生成数据 类型为list and subprocess2负责处理发来的数据subprocess1 I used multiprocessing Manager list 创建共享列表 但这是
  • 为什么线性读-混洗写并不比混洗读-线性写快?

    我目前正在尝试更好地了解内存 缓存相关的性能问题 我在某处读到 内存局部性对于读取比对于写入更重要 因为在前一种情况下 CPU 必须实际等待数据 而在后一种情况下 它可以将它们发送出去并忘记它们 考虑到这一点 我做了以下快速而肮脏的测试 我
  • 使用 ctypes 的 python 枚举模块

    之前enum模块已存在 c int或相关类型经常被用作替代枚举 但这没有也没有检查类型 现在 python 有一个enum模块 有没有办法直接使用它ctypes 是的 我们可以轻松创建自己的 CEnum 类 这要归功于 ctypes 允许我
  • 如何为 apache beam 数据流的输出 csv 添加标头?

    我注意到在java SDK中 有一个函数可以让你编写csv文件的标题 https cloud google com dataflow java sdk JavaDoc com google cloud dataflow sdk io Tex
  • 使用正则表达式在 Pandas Series 的各个单元格内分隔逗号分隔的值

    我有一个来自数据库的 csv 文件 我已将其转换为我正在尝试清理的 Pandas DataFrame 问题之一是多个值已输入到需要拆分的单个单元格中 复杂的因素是有一些字符串注释 也带有逗号 需要保持完整 下面的示例以系列形式说明了该问题
  • 使用 scipy 在 python 中读取 MatLab 文件

    我正在使用 python 和 scipy 包来读取 MatLab 文件 然而 它需要太长时间并且崩溃 The Dataset http realitycommons media mit edu RealityMining zip大小约为50
  • 如何在 pywebview 中使无框窗口可拖动?

    我最近一直在使用 pywebview 和 Flask 来开发桌面应用程序 我想使用无框窗口功能并创建自己的标题栏 但问题是我不知道如何使该无框窗口可拖动 文档说它可以通过拖动任何点来移动 但对我来说情况并非如此 有任何想法吗 拖动区域 ht
  • 如何在IDLE中同时运行两个模块

    我正在开发一个超级简单的套接字程序 我有客户端代码和服务器代码 如何同时运行这两个 py 文件以查看它们是否有效 您可以同时运行 IDLE Python shell 的多个实例 因此 打开 IDLE 并运行服务器代码 然后再次打开 IDLE
  • RuntimeError:期望后端 CUDA 对象,但获得后端 CPU 作为参数:ret = torch.addmm(torch.jit._unwrap_Optional(bias), input, Weight.t())

    当 的时候forward我的神经网络的功能 训练阶段完成后 正在执行 我正在经历RuntimeError Expected object of backend CUDA but got backend CPU for argument 4
  • pandas 支持 DataFrame 的哪些绘图后端?

    pandas 确实允许与第三方一起绘图绘制后端 https pandas pydata org pandas docs stable development extending html plotting backends 我知道matpl
  • 使用脚本取消设置 PDF 字体

    我正在使用 xhtml2pdf 库自动创建 PDF 几个月前我有过这个问题 https stackoverflow com questions 25203219 xhtml2pdf doesnt embed helvetica 库嵌入了我没
  • 传递到 Flask 的可能路线列表?

    我正在学习 Flask 有一个关于动态路由的问题 是否可以传入接受的路由列表 我注意到any转换器具有潜力 但很难找到使用中的示例 基本上我有不同的端点组 它们应该在它们之间触发相同的操作 这就是我的意思 cities New York L
  • 如何使用 TfIdfVectorizer 通过 SciKitLearn 对文档进行分类?

    以下示例展示了如何使用 Sklearn 20 新闻组数据训练分类器 gt gt gt from sklearn feature extraction text import TfidfVectorizer gt gt gt categori
  • Python,将 mongodump 的 bson 输出转换为 json 对象数组(字典)

    我已经使用转储了 mongodb 集合mongodump命令 输出是一个转储目录 其中包含以下文件 dump coll bson coll metadata json 如何将导出的文件打开到在 python 中工作的字典数组中 我尝试了以下
  • Scrapy在使用crawlerprocess运行时抛出错误

    我用 python 编写了一个脚本 使用 scrapy 来收集网站上不同帖子的名称及其链接 当我从命令行执行脚本时 它可以完美地工作 现在 我的意图是使用运行脚本CrawlerProcess 我在不同的地方寻找类似的问题 但我找不到任何直接
  • 调用exe中定义的函数

    我需要知道一种从 python 脚本调用 exe 中定义的函数的方法 我知道如何从 py 文件调用整个 exe 除非您的 EXE 是 COM 对象 或者像 dll 那样专门导出某些函数 否则这是不可能的 对于 COM 方法 请查看以下资源

随机推荐

  • 如何在NiFi中使用计数器的值

    在 NiFi 1 3 0 中 我创建了一个流程来分割 JSON 文件并使用名称更新计数器filenamecounter这样我就可以将每个拆分保存为不同的文件名 当我查看 NiFi 计数器窗格时 我看到计数器值已更新 但我怎样才能获取这个值呢
  • 如何在 Safari 中应用隐藏/远程源映射?

    我正在尝试调试我的 React 应用程序中的一个问题 该问题仅在 iOS 生产中发生 我想利用隐藏的源映射 这样我就可以在 Safari 中调试应用程序的缩小资源 而无需公开发布注释的源代码 hidden source map 与 sour
  • .Net 4.0 HttpClient 使用情况?

    我在 Net 4 0 中并尝试使用 HttpClient 我看到一些文章说4 0不再支持它 但你仍然可以使用它 我已经包括了System Net Http 程序集 但它不允许我向HttpClient 知道我该如何解决这个问题吗 我已经将发生
  • 编译时 -pthread 和 -lpthread 之间的区别

    有什么区别gcc pthread and gcc lpthread编译多线程程序时使用哪个 pthread告诉编译器链接 pthread 库并配置线程的编译 例如 下面显示了当 pthread选项在我的 Ubuntu 机器上安装的 GCC
  • 如何修复 Java 中 mediawiki-api 上的“readapidenied”错误

    我正在开发一个使用 mediawiki API 的项目 但出现以下错误 错误代码 readapidenied 信息 您需要读取权限才能使用此模块 INFOS 无法通过 API 检索 Mediawiki 版本 将假定 Mediawiki 1
  • Force GraphViz 节点之间的力距离

    我将 GraphViz 与以下点文件一起使用 digraph G rankdir LR subgraph commits 5c071a6b2c gt 968bda3251 gt 9754d40473 gt 9e59700d33 gt 2a3
  • 使用 spring data mongo 更新插入 Mongo 文档

    我有一个班级 Document public class MyDocument Id private String id private String title private String description private Str
  • Android 应用程序的加密受 EAR 监管

    我正在开发 Android 应用程序 作为一个完全次要的功能 它将允许用户加密一些字符串 我知道 AES 256 位 比 DES 56 位 更推荐使用 但是 如果我使用 AES 256 并在 Android Market 中发布我的应用程序
  • 最佳实践:使用flyway迁移脚本后如何修改

    我正在寻找以下案例的建议 我在生产环境中设置了 Flyway 迁移脚本 每次部署时 数据库都会迁移到当前版本 我已经创建了几个已应用于生产数据库的迁移脚本 最近我升级了我的 MySQL 开发工具 现在包括有关使用已弃用函数的警告和其他警告
  • 如何在yii2的gridView中创建自定义ActionColumn?

    我有一个 gridView 我设法让它包含我需要的数据 但我接下来需要做的是创建一个列 其中包含 has facebook 和 has twitter 的两个按钮
  • PHP 中禁止加载数据 LOCAL INFILE

    我正在尝试使用LOAD DATA INFILE将一些记录插入表中 不幸的是 它不起作用 这是一些细节 如果我使用这个指令 LOAD DATA INFILE file txt INTO TABLE table ex FIELDS TERMIN
  • Gradle:将源代码和 javadoc 附加到 IntelliJ Idea 中的本地文件

    我正在使用 gradle v1 9 和 IntelliJIdea v12 1 6 我有一个简单的java项目和一个build gradle文件 一个依赖项不依赖于 Maven Central 所以我将 jar 放在lib folder Pr
  • NodeJS/Mongoose/MongoDB - 拉取(从数组)不起作用

    我正在尝试从数组 子文档 中提取 删除值 示例文档 id 5150a1199fac0e6910000002 name some name items id 23 name item name 23 id 24 name item name
  • 用于验证输入的正则表达式正则表达式:两个单词之间有一个空格

    我需要使用正则表达式来验证 php 的字段 该字段必须有两个由空格分隔的单词 例如 First Last 但我找不到适合我目的的字段 有人可以帮助我吗 我做过的最好的事情是 a zA Z0 9 s 但有了这个 我就可以在字段中的任何地方拥有
  • 如何使用 SMTP 发送安全电子邮件

    我目前正在使用 Google Apps 发送 SMTP 电子邮件 如果我的项目部署了一些我要发送的信息将是保密的 我想确保传输是安全的 谁能告诉我我需要做什么才能确保我通过 google apps smtp 服务器使用 smtp 发送安全电
  • 在javafx中将节点对齐到Vbox的右侧

    我正在尝试使用 javafx 制作一个 chatBox 我希望来自客户端的消息向右对齐 其余的向左对齐 我正在使用一个Vbox 包裹在Scrollpane在该 Vbox 中 每条消息都包装在另一个 Vbox 中 但对齐内部 Vbox 不起作
  • 使用react-apollo自定义输入类型

    我正在尝试执行需要客户端上的自定义输入类型的突变查询 目前它看起来像这样 import graphql from react apollo const graphQuery graphql gql input UserSignUpInput
  • 原因:java.lang.OutOfMemoryError:位图大小超出VM预算

    在我的应用程序中 当我尝试启动它时强制关闭并且错误指向 setContentView R layout Menu 行的布局 在 XML 文件中 它在我的布局中显示 OutOfMemoryError 图像视图 我真的很困惑 请指导我进一步的行
  • 根据范围生成值的公式

    我想根据另一个单元格的范围填充一个单元格 就像独立单元格的值介于12 to 16那么依赖单元格将被填充为 2如果独立单元格的值介于16 to 20 then 1 and if 20 24 then N等等 Sample https i st
  • 如果列表中的某个值匹配,如何创建新列(类似于获取虚拟值)

    我有一个像这样的 df text hello how are you hello people hello stackoverflow 和这样的列表 单词 你好 人们 stackoverflow 预期输出 text Hello people