Pandas 数据框 groupby 出现在两列中的文本值

2023-12-30

我的数据框如下所示:

     v1           v2        distance
0   be          belong      0.666667
4   increase    decrease    0.666667
9   analyze     assay       0.666667
11  bespeak     circulate   0.769231
21  induce      generate    0.800000
24  decrease    delay       0.750000
26  cause       trip        0.666667
27  isolate     distinguish 0.750000
28  give        infect      0.666667
29  result      prove       0.800000
31  describe    explain     0.714286
33  report      circulate   0.666667
36  affect      expose      0.666667
40  explain     intercede   0.705882
41  suppress    restrict    0.833333

With v1 and v2是动词和distance是他们的相似之处。我想根据它们在数据框中的出现来创建相似单词的集群。

例如,这个词流通看起来与两者相似bespeak and report。所以我想要这三个词的簇。 Groupby 没有帮助,因为它们是字符串值。有人可以帮忙吗?


这看起来像是一个图表问题。

你可以尝试使用networkx https://networkx.org:

import networkx as nx

G = nx.from_pandas_edgelist(df, 'v1', 'v2')

clusters = nx.connected_components(G)

output:

[{'be', 'belong'}, {'delay', 'increase', 'decrease'}, {'analyze', 'assay'},
 {'report', 'bespeak', 'circulate'}, {'induce', 'generate'}, {'trip', 'cause'},
 {'distinguish', 'isolate'}, {'infect', 'give'}, {'prove', 'result'},
 {'intercede', 'describe', 'explain'}, {'affect', 'expose'}, {'restrict', 'suppress'}]

如图:

在 jupyter 中绘制图表的小函数:

def nxplot(G):
    from networkx.drawing.nx_agraph import to_agraph
    A = to_agraph(G)
    A.layout('dot')
    A.draw('/tmp/graph.png')
    from IPython.display import Image
    return Image(filename='/tmp/graph.png')
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Pandas 数据框 groupby 出现在两列中的文本值 的相关文章

  • 有什么好的适用于 Google App Engine 应用程序的 AJAX 框架吗? [关闭]

    Closed 这个问题正在寻求书籍 工具 软件库等的推荐 不满足堆栈溢出指南 help closed questions 目前不接受答案 我正在尝试在我的 Google App Engine 应用程序中实现 AJAX 因此我正在寻找一个好的
  • 如何在Python + Selenium中获取元素的值

    我在我的 Python 3 6 3 代码中得到了这个 HTML 元素 作为 Selenium网页元素当然 span class ocenaCzastkowa masterTooltip style color 000000 alt 5 sp
  • NumPy 数组与 SQLite

    我在 Python 中见过的最常见的 SQLite 接口是sqlite3 但是有什么东西可以很好地与 NumPy 数组或 rearray 配合使用吗 我的意思是 它可以识别数据类型 不需要逐行插入 并提取到 NumPy rec 数组中 有点
  • DataFrame.loc 的“索引器太多”

    我读了关于切片器的文档 http pandas pydata org pandas docs stable advanced html using slicers一百万次 但我从来没有理解过它 所以我仍在试图弄清楚如何使用loc切片Data
  • 为什么我会收到 ValueError:系列的真值不明确。使用 a.empty、a.bool()、a.item()、a.any() 或 a.all()

    以下代码给出了值错误 major males for row in recent grads if recent grads Men gt recent grads Women major males append recent grads
  • Python Apache Beam 端输入断言错误

    我对 Apache Beam Cloud Dataflow 还很陌生 所以如果我的理解不正确 我深表歉意 我正在尝试通过管道读取大约 30 000 行长的数据文件 我的简单管道首先从 GCS 打开 csv 从数据中提取标题 通过 ParDo
  • 右键单击 QPushButton 上的 contextMenu

    对于我的应用程序 我在 Qt Designer 中创建了一个 GUI 并将其转换为 python 2 6 代码 关于一些QPushButton 与设计器创建 我想添加右键单击上下文菜单 菜单选项取决于应用程序状态 如何实现这样的上下文菜单
  • Python FTP下载550错误

    我编写了一个 ftp 爬虫来下载特定文件 它会一直工作 直到找到要下载的特定文件 然后抛出此错误 ftplib error perm 550 该文件存在于我的下载文件夹中 但文件大小为 0 kb 我需要转换某些内容才能下载吗 我可以访问 f
  • 如何在 python 中使用交叉验证执行 GridSearchCV

    我正在执行超参数调整RandomForest如下使用GridSearchCV X np array df features all features y np array df gold standard labels x train x
  • matplotlib vlines 图中未应用 y 轴的最小值

    我正在 matplotlib 中绘制 vlines 图 数据集中的所有 y 值如下 gt 0 我希望 y 轴最底部的刻度能够读取0 但相反 我得到 500 这是代码 usr bin env python import numpy as np
  • 为什么 pip 已经是最新的了却要求我升级?

    我全新安装了 python 3 7 1 64 位 并使用最新的 pyCharm 作为我的 IDE 我在这台机器上没有安装其他 python 我去安装 numpy 并收到以下消息 venv C Users John PycharmProjec
  • 在python中使用编解码器utf-8打开文件错误

    我在 windows xp 和 python 2 6 4 上执行以下代码 但它显示 IOError 如何打开名称带有 utf 8 编解码器的文件 gt gt gt open unicode txt euc kr encode utf 8 T
  • Django 1.7:如何使用 html/css 文件作为模板发送电子邮件

    从 Django 1 7 开始 可以send email 使用新参数 html message 不幸的是 没有关于如何使用它的全面指南 新手友好 或者至少我找不到它 我需要使发送的电子邮件变得漂亮 因此 我试图弄清楚如何将我的消息包含到 h
  • Python GTK3 Treeview 向上或向下移动选择

    如何在树视图中向上或向下移动所选内容 我的想法是 我可以使用向上和向下按钮将选择向上移动一行或向下移动一行 我的 Treeview 使用 ListStore 不确定这是否重要 首先 我将使用我熟悉的 C 代码 如果您在将其翻译为 Pytho
  • 如何将 pandas DataFrame 转换为 TimeSeries?

    我正在寻找一种将 DataFrame 转换为 TimeSeries 而不拆分索引和值列的方法 有任何想法吗 谢谢 In 20 import pandas as pd In 21 import numpy as np In 22 dates
  • python 中的 F 字符串前缀给出语法错误[重复]

    这个问题在这里已经有答案了 我有一个名为 method 的变量 它的值是 POST 但是当我尝试运行时print f method method is used 它不断在最后一个双引号处给出语法错误 我找不到它这样做的原因 我正在使用 py
  • 将二进制数据视为文件对象?

    在此代码片段 由另一个人编写 中 self archive是一个大文件的路径并且raw file是以二进制数据形式读取的文件内容 with open self archive rb as f f seek offset raw file s
  • Rasa core 和 Rasa nlu 之间的区别

    我试图理解之间的区别拉莎核心 https core rasa ai and Rasa NLU https nlu rasa ai installation html从官方文档看的 但我不太明白 我的理解是Rasa core用于引导对话流程
  • 为数据集生成随机 JSON 结构排列

    我想生成 JSON 结构的许多不同排列作为同一数据集的表示 最好不需要对实现进行硬编码 例如 给定以下 JSON name smith occupation agent enemy humanity nemesis neo 应该产生许多不同
  • 将二进制数转换为包含每个二进制数的数组

    我试图将二进制值转换为每个 1 0 的列表 但我得到默认的二进制值而不是列表 我有一个字符串 我将每个字符转换为二进制 它给了我一个列表 其中每个字符都有一个字符串 现在我试图将每个字符串拆分为值为 0 1 的整数 但我什么也得不到 if

随机推荐

  • 如何向 R 中的 data.frame 添加文档?

    我已经使用 R 一段时间了 我意识到如果您可以附加 data frame 中包含的描述数据 将会有很大帮助 因为您可以在 Rdata 文件中收集所有有用的研究信息 我想添加到我的数据帧信息 就像 iris 显示的信息 描述 iris 数据帧
  • 如何使用 OpenAPI-3.0 表达 JSON-API 稀疏字段集

    我正在为我的 API 实现 OpenAPI 3 0 规范 并且我计划使用稀疏字段集 https jsonapi org format fetching sparse fieldsets作为 GET 的参数 的例子参数 https githu
  • 如何在 Android 中更改 ProgressDialog Spinner 颜色? [复制]

    这个问题在这里已经有答案了 我正在尝试添加自定义的ProgressDialog to my Activity 我成功更改了ProgressDialog字体和背景颜色 但我不知道如何在不使用小部件的情况下更改微调器颜色 谁能帮我 这是我的Ac
  • 是否可以让 Ingress 指向另一个命名空间中的服务?

    我想做的是在default我的其他命名空间中的命名空间和入口指向该服务 我尝试实现如下所示的服务和 Ingress 但没有成功 kind Service apiVersion v1 metadata name serviceX namesp
  • deviceready 处理程序未被调用 ios PhoneGap 3.3.3

    索引 html Phonegap 3 3 3 设备就绪处理程序未被调用 确保您已在 html 中包含phonegap js 或co
  • 为什么类成员的名称不能与其嵌套类之一相同?

    或者为什么以下是不可能的 class Material class Keys Material Keys Keys get set Illegal 我没有看到任何可能的歧义 当被实例访问时 返回该属性 静态访问时 返回类 或者我错过了什么
  • 红宝石中的位敲击

    我想创建一个位 其中包含给定用户的安全权限 在 C 中 我会通过创建一个枚举来完成此操作 然后我会对二进制值进行一些操作 通过与 来查看它是否会产生 TRUE 值 我怎样才能在 Ruby 中做到最好 如果底层值很重要 那么您可以创建一个像枚
  • 作业:使用指针创建数组

    我有一个家庭作业问题正在解决 我和其他一些学生很确定我们的老师说错了 但也许没有 我已经检查了这里的一些问题 并且无法真正找到一种使用指针来创建本质上是数组的方法 说明如下 重写以下程序以使用指针而不是数组 代码是这样的 int main
  • macOS 文档图标模板? [关闭]

    Closed 这个问题正在寻求书籍 工具 软件库等的推荐 不满足堆栈溢出指南 help closed questions 目前不接受答案 下面最初的问题已经被时间所取代 现在 您不再需要为文档提供图标或图标集 因为 macOS 将从您的应用
  • 如何使 WordPress 永久链接忽略自定义 url 重写

    我目前正在开发一个 WordPress 网站 该网站需要提供法语版本 当我添加查询字符串变量时 我找到了一种使主题与 fr FR po 和 mo 文件一起使用的方法l i e site tld将产生普通的英语网站 而site tld l f
  • .NET 4 无法安装,因为 SECUREREPAIR 无法 CreateContentHash 文件 SetupResources.dll:用于计算哈希错误:997

    我在 Windows 7 x64 计算机上安装任何 NET Framework 时遇到问题 我不断收到以下日志文 件 这可能是什么原因造成的 OS Version 6 1 7601 Platform 2 Service Pack 1 OS
  • 分支预测会使我的程序崩溃吗?

    浏览这本书的第 3 章 称为计算机系统架构 程序员的视角 https rads stackoverflow com amzn click com 0136108040 据说像这样的实现 testl eax eax cmovne eax ed
  • 为什么我无法删除代码中的中间变量?

    我目前正在使用扩展语法并遇到了一个意外的问题 下面的代码片段有效 如预期 并且不会引发任何错误 const arr 1 2 3 4 create array of numbers const copy arr make a shallow
  • 如何使用 ngRepeat 获取 angularFire 对象来 orderBy?

    我的 firebase 中当前的数据集如下所示 JZ7b name bob has slack JZ7a name connie has slack 如果我使用类似的东西 ul li li ul I get JZ7a康妮有松弛 JZ7b 鲍
  • Java:组件中 setPreferredSize() 和 setSize() 方法的区别

    之间的主要区别是什么setSize and setPreferredSize 有时我用setSize http docs oracle com javase 6 docs api java awt Component html setSiz
  • 删除 Python 注释/文档字符串的脚本

    是否有可用的 Python 脚本或工具可以从 Python 源代码中删除注释和文档字符串 它应该处理以下情况 aas def f m u x u y faake docstring if 1 string gt gt m if 2 stri
  • Howler.js 无法识别音频文件的 src 路径

    使用 HTML5 内置音频标签成功播放音频文件后 我尝试切换到使用嚎叫者 js反而 我已经验证 howler js 已正确安装 并且正在使用 console log 调用创建 播放我的歌曲的方法 但我很困惑为什么此处无法识别该路径 new
  • Spring数据JPA配置

    我最近正在使用 Spring Data JPA 开发一个 Spring Web 应用程序 我在持久性配置方面遇到问题 Configuration EnableTransactionManagement PropertySource reso
  • 在 asp.net 中获取机器的唯一信息

    所以我有一个获取IP地址的aspx 但如果我有多台来自同一个 IP 地址的机器 我需要一些信息来区分每台机器 你会用什么 这个问题有点模糊 但在大多数情况下 我认为 cookies 可以解决问题 尽管它们区分用户 浏览器和机器的组合 而不仅
  • Pandas 数据框 groupby 出现在两列中的文本值

    我的数据框如下所示 v1 v2 distance 0 be belong 0 666667 4 increase decrease 0 666667 9 analyze assay 0 666667 11 bespeak circulate