将列表元素映射到字典中的键以获取Python中的十进制值

2024-01-10

我有一个单词列表如下。

mylist = ['cat', 'yellow', 'car', 'red', 'green', 'jeep', 'rat','lorry']

我还有数据集中每篇文章的列表列表，其中包含“mylist”的值，如下面的示例所示（即，如果“mylist”单词出现在文章中，它会生成 0-1 之间的值）。

[[0,0.7,0,0,0,0.3,0,0.6], [0.2,0,0,0,0,0,0.8,0]]

换句话说，

[0,0.7,0,0,0,0.3,0,0.6] says that this only has values 'yellow', 'jeep', 'lorry'

现在我有一个类别字典如下。

mydictionary = {'colour': ['red', 'yellow', 'green'], 'animal': ['rat','cat'], 
'vehicle': ['car', 'jeep']}

现在，通过使用“mydictionary”键值，我想按如下方式转换列表列表（也就是说，如果“mylist”的一个或多个值为 1，我将该键标记为average分数的值）。

[[0.7, 0, 0.45], [0, 0.5, 0]]

换句话说，

[0.7, 0, 0.45] says that;
0.7 - average value for elements in 'colours' = 0.7/1 = 0.7
0 - no elements in 'animals'
0.45 - average value for elements in 'vehicles' = (0.3+0.6)/2 = 0.45

所以我的输出应该是上面提到的列表的列表 -> [[0.7, 0, 0.45], [0, 0.5, 0]]

我有兴趣知道是否可以使用 pandas 数据框来做到这一点。

您确实应该重新考虑您的数据结构。你将面临的一个问题是dict本质上是无序的。因此，首先，通过将值放入有序容器（alist工作正常）：

>>> vals = [mydictionary['colour'], mydictionary['animal'], mydictionary['vehicle']]

现在是论文：

>>> essays = [[0,0.7,0,0,0,0.3,0,0.6], [0.2,0,0,0,0,0,0.8,0]]

然后，一个简单的循环，从构建地图mylist到每篇文章的权重，并使用statistics包一个mean功能：

>>> import statistics as stats
>>> result = []
>>> for essay in essays:
...     map = dict(zip(mylist, essay))
...     result.append([stats.mean(map[e] for e in v) for v in vals])
...
>>> result
[[0.2333333333333333, 0, 0.15], [0, 0.5, 0]]

老实说，不确定是否pandas是最好的工具，但我想你可以使用DataFrame像这样：

>>> df = pd.DataFrame({'essay{}'.format(i):essay for i, essay in enumerate(essays)}, index=mylist)
>>> df
        essay0  essay1
cat        0.0     0.2
yellow     0.7     0.0
car        0.0     0.0
red        0.0     0.0
green      0.0     0.0
jeep       0.3     0.0
rat        0.0     0.8
lorry      0.6     0.0

然后，制作石斑鱼映射：

>>> grouper  = {v: k for k, vv in mydictionary.items() for v in vv}

然后使用pd.DataFrame.groupby:

>>> df.groupby(grouper).mean()
           essay0  essay1
animal   0.000000     0.5
colour   0.233333     0.0
vehicle  0.150000     0.0

Edit

评论之后，修复非常简单，只需将权重具体化到一个列表中，过滤 0 即可，如下所示：[map[e] for e in v if map[e]]，然后取mean该列表中的。但是，您必须注意该列表不为空。只需定义一个辅助函数来检查或返回默认值 0：

>>> def mean_default(seq):
...     if seq:
...         return stats.mean(seq)
...     else:
...         return 0
...

然后简单地：

>>> result = []
>>> for essay in essays:
...     map = dict(zip(mylist, essay))
...     result.append([mean_default([map[e] for e in v if map[e]]) for  in vals])

For pandas，正如@IanS所示，只需替换0 with np.nan.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

将列表元素映射到字典中的键以获取Python中的十进制值的相关文章

计算温度的偏导数（温度的水平平流）

我想知道哪种方法计算x和y方向温度的偏导数温度的水平平流最正确第二个代码使用温度纬向风和经向风的数据矩阵提取温度 T 纬向风分量 u 和经向风分量 v 的数据 import matplotlib pyplot as plt imp
cv2.face.mindistancepredictcollector() 错误

我已经安装了带有额外模块的 opencv 3 1 0 但是当我尝试使用 gt gt gt s cv2 face MinDistancePredictCollector 它返回一个错误 Traceback most recent call l
地图与星图的性能？

我试图对两个序列进行纯Python 没有外部依赖逐元素比较我的第一个解决方案是 list map operator eq seq1 seq2 然后我发现starmap函数来自itertools 这看起来和我很相似但事实证明在最坏的情
Accel 无法在 gedit 3 插件中工作

我试图为 Gedit 3 编写一个使用 GObject 自省的小插件下面显示的代码的相关部分只是为了建立一个环境然后我可以将函数放入按钮的回调中但是该按钮的加速器不起作用这段代码有什么问题我正在使用教程here http www
确定Python模块中的函数是否可用

我正在研究一些使用Python套接字的代码socket fromfd http docs python org library socket html socket fromfd功能但是此方法并非在所有平台上都可用因此我正在编写一些后
Weasyprint 在调用 write_pdf 时获得未定义的属性：“AttributeError：‘PosixPath’对象没有属性‘read_text’”

我正在 ubuntu 18 04 上运行 weasyprint 项目并尝试创建一个 pdf 当我尝试设置页脚图像时问题就开始了我正在 python 3 6 7 上运行这是我调用 weasyprint 的代码 import sys i
Python MySQL 模块

我正在开发一个需要与 MySQL 数据库交互的 Web 应用程序但我似乎找不到任何真正适合 Python 的模块我特别寻找快速模块能够处理数十万个连接和查询所有这些都在短时间内完成而不会对速度产生重大影响我想我的答案将是游戏领
Python 函数可能会引发哪些异常？ [复制]

这个问题在这里已经有答案了 Python 中有什么方法可以确定内置函数可能引发哪些异常例如文档 http docs python org lib built in funcs html http docs python org li
按字段名称对命名元组列表进行排序的 Pythonic 方法

我想对命名元组列表进行排序而不必记住字段名的索引我的解决方案看起来相当尴尬希望有人能有一个更优雅的解决方案 from operator import itemgetter from collections import namedtu
在 Ubuntu 上使用 Python 获取显示器分辨率

对于 Ubuntu win32api 中是否有与 GetSystemMetrics 相当的代码我需要获取显示器的宽度和高度以像素为单位我可以建议一些可以使用的方法不过我还没有使用过 xlib 版本 1 xlib Python 程序的
将 csv 文件按多列拆分为 panda 数据框

我有一个包含多列的 tsv 文件有 10 多列但对我来说重要的列是名称为 user name shift id url id 的列我想创建一个数据框首先根据用户名分隔整个 csv 文件即只有具有相同用户名的行才会分组在一起从该块
如何在树莓派上更新到最新的 python 3.5.1 版本？

我昨天拿到了 Raspberry Pi 我已经在尝试用它来编写代码了我有一个计划在其上运行的程序但它仅与 Python 版本 3 5 0 或 3 5 1 兼容并且我在互联网上找到的所有内容似乎都已经过时与 Python 2 有关或
import numpy 和 import numpy as np 之间的区别

我明白如果可能的话应该使用 import numpy as np 这有助于避免由于命名空间引起的任何冲突但我注意到虽然下面的命令有效 import numpy f2py as myf2py 以下不 import numpy as np
具有条件的重复行 pandas dataframe python

我的数据框有问题我的 df 是 product power brand product 1 3 x 1500W brand A product 2 2x1000W 1x100W product 3 1x1500W 1x500W brand
收到的标签值 1 超出了 [0, 1) 的有效范围 - Python、Keras

我正在使用具有张量流背景的 keras 开发一个简单的 cnn 分类器 def cnnKeras training data training labels test data test labels n dim print Initiat
在 Django/python 中，如何将内存缓存设置为无限时间？

cache set key value 9999999 但这并不是无限的时间 def get memcache timeout self timeout Memcached deals with long gt 30 days timeou
Beautiful Soup 获取动态表数据

我有以下代码 url https www basketball reference com leagues NBA 2017 standings html all expanded standings html urlopen url so
Python 类方法的示例用例是什么？

我读了Python 中的类方法有什么用 https stackoverflow com questions 38238 what are class methods in python for但那篇文章中的例子很复杂我正在寻找 Pytho
Networkx 中 Louvain 分区的可视化

请帮助我更改 Louvain 聚类算法结果的可视化我从网站上获取了代码https github com taynaud python louvain https github com taynaud python louvain我可以重写
将 pandas 数据框中的多列更改为日期时间

我有一个 13 列和 55 000 行的数据框我正在尝试将其中 5 行转换为日期时间现在它们返回类型对象我需要转换这些数据以进行机器学习我知道如果我这样做 data birth date pd to datetime data b

随机推荐

如何在 Windows 上安装 lxml

我正在尝试安装lmxl在我的 Windows 8 1 笔记本电脑上使用 Python 3 4 并惨遭失败首先我尝试了简单明了的解决方案 pip install lxml 然而这并没有奏效它是这样说的 Downloading unpa
通过生成迁移将索引：unique 添加到 ruby on Rails 中的列

我知道我可以触摸迁移并添加 add index table name column name unique gt true 但是正确的 Rails 迁移命令如何生成它呢 rails g migration add index to colu
/proc/kallsyms 中的 T 和 t 有什么区别

这是 System map 文本文件的一部分 proc kallsyms ffffffff8106c260 T leave mm ffffffff8106c340 t do flush tlb all ffffffff8106c390 t
使用Guava进行高性能线程安全缓存

我正在尝试实现高性能线程安全缓存这是我已经实现的代码我不需要任何按需计算我可以使用cache asMap 并安全地检索值吗即使缓存设置有softValues import java io IOException import jav
为什么 ruby 定义变量，即使它从不执行变量赋值代码？

给出以下代码 a true let s assign a a value and let s test if calling b an unassigned variable throws an error begin puts The v
如何使用 ng-Flow 在 ASP.NET 中分块上传文件

我正在尝试实现 ng flowhttps github com flowjs ng flow用于文件上传它以块的形式上传文件我在客户端成功设置了此设置但我不确定如何在 Web api 方法内处理后端的文件 public void Up
无法安装命令行工具，“xcode-select --install”不起作用

我不知道如何在 OSX Mavericks 上安装命令行工具或者更好我知道怎么做我刚刚在另一台 MacBook 上做了但这次出了点问题发生了什么我在 OSX Mavericks 上安装 Homebrew Homebrew 要求我
托管在 IIS 上的 ASP.NET 5 项目

我想在 Amazon 免费微型实例上托管我的 ASP NET 5 项目该项目使用 MVC 6 和 Entity Framework 7 我找不到任何有关如何在 IIS 上托管 ASP NET 5 项目的分步手册所有材料都只是提到这是可能
切换div问题

我试图切换一些 div 但它不起作用这是 js
java full gc 花费太长时间

我有一个 Java 客户端它消耗来自服务器的大量数据如果客户端没有以足够快的速度跟上数据流服务器将断开套接字连接我的客户每天都会断线几次我运行 jconsole 来查看内存使用情况堆空间图看起来像一个定义相当明确的锯齿图案在大
将同一 10 倍数范围内的数组值分组

我有一个数组例如 var arr 2 4 7 11 25 608 65 109 99 100 504 606 607 我需要这样做以便将低于其十的倍数和高于其十的倍数范围内的每个值分组在一起例如 2 4 7 介于 0 和 10 之间
使用zipfile解压后文件权限丢失

我已经提取了一个 zip 文件 hisat2 2 2 0 Linux x86 64 zip from https cloud biohpc swmed edu index php s hisat2 220 Linux x86 64 down
如何在我的应用程序中获得与苹果地图相同的搜索提示

我在 iOS 应用程序中实现了搜索栏我想获得与 Apple 地图应用程序相同的部分结果搜索提示我试图找出苹果是如何实现它的但我在谷歌或 stackoverflow 上都没有成功我的 UITableView searchHintT
使用 Future 和 @Aync 时休眠两个开放会话

我正在尝试在我的应用程序中使用多线程来执行一些需要几分钟才能完成的任务我的想法是我有 n 个对象所以我希望并行处理这些对象而不会让用户网络应用程序等待它们完成因为这需要几分钟另外在其他情况下当对象的数量为 1 时我想等到
如何从 NodeJs API 渲染 HTML 页面？

运行http server后我尝试访问URL http 127 0 0 1 8080 http 127 0 0 1 8080 但我得到的不是我写的每次我尝试时都会显示 Node js v8 11 4 欣喜若狂的服务器正在运行 127
WebStorm 将重构范围限制为仅当前文件

编辑这是我创建的问题的链接 https youtrack jetbrains com issue WEB 21956 https youtrack jetbrains com issue WEB 21956 是否可以将 WebStorm
如何在 Xcode 中将图像添加到 C++ 项目

我想在 Xcode 中将图像添加到我的 C 项目中以便我可以读取该图像并用它执行某些操作如何将图像包含到我的项目中尝试将两者复制粘贴到我的项目和包含我的 c 源的文件夹中在 Xcode 10 中我无法将图像与可执行文件放在同一文件
PyQt 不规则形状的窗口（例如没有边框/装饰的圆形）

如何在 PyQt 中创建不规则形状的窗口 I found 这个C 解决方案 https stackoverflow com questions 1333610 displaying translucent irregular shaped
Electron 主进程和渲染进程调试配置

我正在使用那个仓库https github com SimulatedGREG electron vue https github com SimulatedGREG electron vue并尝试像这样设置 VS Code 调试配置 ma
将列表元素映射到字典中的键以获取Python中的十进制值

我有一个单词列表如下 mylist cat yellow car red green jeep rat lorry 我还有数据集中每篇文章的列表列表其中包含 mylist 的值如下面的示例所示即如果 mylist 单词出现在文章中

将列表元素映射到字典中的键以获取Python中的十进制值

Edit

将列表元素映射到字典中的键以获取Python中的十进制值 的相关文章

随机推荐

热门标签

将列表元素映射到字典中的键以获取Python中的十进制值的相关文章