在 pandas 中的列元素旁边添加数值

2024-04-18

这是我问的问题的进一步部分here https://stackoverflow.com/questions/51574485/match-keywords-in-pandas-column-with-another-list-of-elements?noredirect=1#comment90132834_51574485。所以我决定把它作为另一个问题。

有什么方法可以让我在列中每个匹配列表名称旁边添加相关值matched_list_names。所以相关性值的公式是(number of matched words from list/total number of words in that list)*100为了获得哪个列表名称最相关。因此,对于政治相关性的第一行将是(1/3)*100=30%即政治列表中总共 3 个单词中的 1 个单词与体育相同,这将是(1/3)*100=0.3对于杂项值是100-(sum of total value) i.e (100-(30+30)。所以,输出会是这样的:-

    word_list                                          matched_list_names
['nuclear','election','usa','baseball']            politics 30,sports 30,miscellaneous 40
['football','united','thriller']                   sports 30,movies 30,miscellaneous 40               
['marvels','spiderman','hockey']                   movies 60,sports 30

....................                               .....................
....................                               .....................
....................                               ....................

Use:

movies=['spiderman','marvels','thriller']
sports=['baseball','hockey','football']
politics=['election','china','usa']
d = {'movies':movies, 'sports':sports, 'politics':politics}
d1 = {k: oldk for oldk, oldv in d.items() for k in oldv}

def f(x):
    a = Counter([d1.get(y, 'miscellaneous') for y in x])
    return ', '.join(['{} {}'.format(k, v / sum(a.values())* 100 ) for k, v in a.items()])

df['matched_list_names'] = df['word_list'].apply(f)
print (df)
                            word_list  \
0  [nuclear, election, usa, baseball]   
1        [football, united, thriller]   
2     [marvels, hollywood, spiderman]   

                                  matched_list_names  
0     miscellaneous 25.0, politics 50.0, sports 25.0  
1  sports 33.33333333333333, miscellaneous 33.333...  
2  movies 66.66666666666666, miscellaneous 33.333...  
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

在 pandas 中的列元素旁边添加数值 的相关文章

随机推荐

  • 在 C++ 中创建可修改的字符串文字

    是否可以在 C 中创建可修改的字符串文字 例如 char foo foo foo char afoo foo 0 afoo 2 g access violation 这会产生访问冲突 因为 foo 是在只读内存中分配的 我相信是 rdata
  • 什么时候应该使用各个线程同步对象?

    在什么情况下应该使用以下每个同步对象 读写锁 信号 Mutex 由于每次调用 post 时 wait 都会返回一次 因此信号量是一种基本的生产者 消费者模型 除了信号之外最简单的线程间消息形式 使用它们是为了让一个线程可以告诉另一个线程发生
  • 格式字符串参数不足

    我在Python中有这样的代码 def send start self player for p in self players player socket send cmd
  • 类型错误:“未定义”不是函数(评估“sinon.spy()”)

    我正在尝试使用sinon js http sinonjs org 在测试骨干应用程序时 但不幸的是 由于错误 我无法使用间谍方法 TypeError undefined is not a function evaluating sinon
  • 如何将 WPF 用户控件的宽度拉伸到其窗口?

    我有一个带有用户控件的窗口 我想让用户控件宽度等于窗口宽度 怎么做 用户控件是一个水平菜单 包含一个包含三列的网格
  • 系统windows窗体定时器参数

    如何将参数传递给System Windows Forms Timer private System Windows Forms Timer timer timer Interval 1000 timer Tick new EventHand
  • 如何将数据绑定到Spring表单中的列表

    我有一个带有支撑物体的弹簧形式 形式是这样的
  • 什么是 .htaccess 文件?

    我是 Zend 框架的初学者 我想了解更多关于 htaccess 文件及其用途 有人可以帮助我吗 我找到了一个这样的例子 htaccess 文件 AuthName Member s Area Name AuthUserFile path t
  • 转换为具体类并调用 Java 中的方法

    假设我们有一个名为A和一些子类 B C D ETC 大多数子类都有这个方法do 但基类没有 班级AA提供了一个方法叫做getObject 这将创建一个类型的对象B or C or D等 但将对象作为类型返回A 如何将返回的对象转换为具体类型
  • 如何使用salsa20计数器随机数?

    我不确定我是否做对了 消息计数器可以用作 代替随机数 我的意思是这样的消息 标头 2 字节 计数器 8字节 正文 n 字节加密 HMAC SHA1 计数器 1 63位 0 可以吗 我知道我不应该两次使用相同的密钥和相同的随机数 当新的连接启
  • 为什么Qt在qobject_cast、事件类型等方面重新实现RTTI?

    为什么 Qt 费心去重新实现相当于自定义 RTTI 系统和他们自己的系统 dynamic cast in the QObject层次结构 在QEvent etc 首先 Qt 中只有少数类层次结构实际上需要 RTTI 当您生成嵌入式代码时 您
  • 直接在Scipy稀疏矩阵上使用Intel mkl库以更少的内存计算A点A.T

    我想打电话mkl mkl scsrmultcsr https software intel com en us node 468640来自蟒蛇 目标是计算稀疏矩阵 C压缩稀疏行 http docs scipy org doc scipy 0
  • numpy.float64 不可迭代

    我正在尝试打印一个使用 numpy 数组和列表中的多个参数的函数 但我不断收到错误 numpy float 64 对象不可迭代 我在论坛上查看了关于这个主题的几个问题 并尝试了不同的答案 但似乎都不起作用 或者我可能做错了什么 我仍然是 p
  • Laravel查看路径错误

    当我更新视图文件时 我从旧路径获取视图文件 我有一个指向 IP vps 的域 我在其中安装了 laravel 让我们称之为 123 com 当我访问该域时 我会得到旧的视图路径 即我从中复制 Laravel 安装的文件夹的路径 该文件夹名为
  • 指定不同访问器中静态局部变量的构造/销毁顺序

    我遇到了崩溃cxa finalize运行一个程序 这是一个程序 而不是其中的库 ac test exe Assertion failed AcLock cpp 54 AcLock libc abi dylib terminate calle
  • 面试 - 查找数组中的幅度极点

    幅度极点 数组中左侧元素小于或等于它且右侧元素大于或等于它的元素 输入示例 3 1 4 5 9 7 6 11 期望的输出 4 5 11 我在面试中被问到这个问题 我必须返回元素的索引 并且只返回第一个满足条件的元素 My logic 取两个
  • 在 C# 中使用布尔标志来停止线程运行是否安全

    我主要关心的是布尔标志 在没有任何同步的情况下使用它是否安全 我在几个地方读到它是原子的 包括文档 class MyTask private ManualResetEvent startSignal private CountDownLat
  • 在存在 PDF iframe 的情况下选择文本后,文本输入开始向后输入

    预期的行为是什么 用户应该始终以正确的方向输入 即使他们以这种方式进行文本选择 什么地方出了错 如果我通过从右向左拖动鼠标并以 PDF iframe 结尾来选择输入 文本区域的文本 那么如果我开始键入 字符会向后插入 视频示例 https
  • 异步 servlet 不异步运行

    我有一个 servlet 它接受请求并写入长响应 响应位于使用 Thread sleep 1000 模拟长时间运行操作的循环中 我试图在这里设置一个异步请求 如代码所示 但它不起作用 当我向 servlet 调用多个请求时 它们都是连续执行
  • 在 pandas 中的列元素旁边添加数值

    这是我问的问题的进一步部分here https stackoverflow com questions 51574485 match keywords in pandas column with another list of elemen