在 python 或 javascript 中正确使用折叠或减少函数来处理从长到宽的数据？

2024-03-03

尝试学习更多地像函数式程序员一样思考——我想用我认为的折叠或归约操作来转换数据集。在 R 中，我将其视为重塑操作，但我不确定如何转化这种想法。

我的数据是一个 json 字符串，如下所示：

s = 
'[
{"query":"Q1", "detail" : "cool", "rank":1,"url":"awesome1"},
{"query":"Q1", "detail" : "cool", "rank":2,"url":"awesome2"},
{"query":"Q1", "detail" : "cool", "rank":3,"url":"awesome3"},
{"query":"Q#2", "detail" : "same", "rank":1,"url":"newurl1"},
{"query":"Q#2", "detail" : "same", "rank":2,"url":"newurl2"},
{"query":"Q#2", "detail" : "same", "rank":3,"url":"newurl3"}
]'

我想把它变成这样的东西，其中查询是定义“行”的主键，嵌套与“排名”值和“url”字段相对应的唯一“行”：

'[
{ "query" : "Q1",
    "results" : [
        {"rank" : 1, "url": "awesome1"},
        {"rank" : 2, "url": "awesome2"},
        {"rank" : 3, "url": "awesome3"}        
    ]},
{ "query" : "Q#2",
    "results" : [
        {"rank" : 1, "url": "newurl1"},
        {"rank" : 2, "url": "newurl2"},
        {"rank" : 3, "url": "newurl3"},        
    ]}
]'

我知道我可以迭代，但我怀疑有一个函数操作可以进行这种转换，对吧？

我也很想知道如何获得更像这样的版本2：

'[
{ "query" : "Q1",
    "Common to all results" : [
        {"detail" : "cool"}
    ],
    "results" : [
        {"rank" : 1, "url": "awesome1"},
        {"rank" : 2, "url": "awesome2"},
        {"rank" : 3, "url": "awesome3"}        
    ]},
{ "query" : "Q#2",
    "Common to all results" : [
        {"detail" : "same"}
    ],
    "results" : [
        {"rank" : 1, "url": "newurl1"},
        {"rank" : 2, "url": "newurl2"},
        {"rank" : 3, "url": "newurl3"}        
    ]}
]'

在第二个版本中，我想获取同一查询下重复的所有数据，并将其推入“其他内容”容器中，其中“排名”下唯一的所有项目都将位于“结果”容器中。

我正在 mongodb 中处理 json 对象，并且可以使用 python 或 javascript 来尝试这种转换。

任何建议，例如此转换的正确名称，在大型数据集上执行此转换的最快方法是什么，我们将不胜感激！

EDIT

结合下面@abarnert的优秀解决方案，尝试为解决同类问题的其他人提供上面的版本2，需要在一个级别下分叉一些键，在另一个级别下分叉其他键......

这是我尝试过的：

from functools import partial
groups = itertools.groupby(initial, operator.itemgetter('query'))
def filterkeys(d,mylist):
    return {k: v for k, v in d.items() if k in mylist}

results = ((key, map(partial(filterkeys, mylist=['rank','url']),group)) for key, group in groups)
other_stuff = ((key, map(partial(filterkeys, mylist=['detail']),group)) for key, group in groups)

???

Oh no!

我知道这不是您要求的折叠式解决方案，但我会这样做itertools，它同样具有功能性（除非你认为 Haskell 的功能性不如 Lisp……），而且也可能是解决这个问题的最 Pythonic 方法。

这个想法是将您的序列视为一个惰性列表，并对它应用一系列惰性转换，直到获得所需的列表。

这里的关键步骤是groupby http://docs.python.org/2/library/itertools.html#itertools.groupby:

>>> initial = json.loads(s)
>>> groups = itertools.groupby(initial, operator.itemgetter('query'))
>>> print([key, list(group) for key, group in groups])
[('Q1',
  [{'detail': 'cool', 'query': 'Q1', 'rank': 1, 'url': 'awesome1'},
   {'detail': 'cool', 'query': 'Q1', 'rank': 2, 'url': 'awesome2'},
   {'detail': 'cool', 'query': 'Q1', 'rank': 3, 'url': 'awesome3'}]),
 ('Q#2',
  [{'detail': 'same', 'query': 'Q#2', 'rank': 1, 'url': 'newurl1'},
   {'detail': 'same', 'query': 'Q#2', 'rank': 2, 'url': 'newurl2'},
   {'detail': 'same', 'query': 'Q#2', 'rank': 3, 'url': 'newurl3'}])]

只需一步，您就可以看到我们已经有多接近了。

要重组每个键，请将对分组为您想要的字典格式：

>>> groups = itertools.groupby(initial, operator.itemgetter('query'))
>>> print([{"query": key, "results": list(group)} for key, group in groups])
[{'query': 'Q1',
  'results': [{'detail': 'cool',
               'query': 'Q1',
               'rank': 1,
               'url': 'awesome1'},
              {'detail': 'cool',
               'query': 'Q1',
               'rank': 2,
               'url': 'awesome2'},
              {'detail': 'cool',
               'query': 'Q1',
               'rank': 3,
               'url': 'awesome3'}]},
 {'query': 'Q#2',
  'results': [{'detail': 'same',
               'query': 'Q#2',
               'rank': 1,
               'url': 'newurl1'},
              {'detail': 'same',
               'query': 'Q#2',
               'rank': 2,
               'url': 'newurl2'},
              {'detail': 'same',
               'query': 'Q#2',
               'rank': 3,
               'url': 'newurl3'}]}]

但是等等，您仍然需要删除那些额外的字段。简单的：

>>> groups = itertools.groupby(initial, operator.itemgetter('query'))
>>> def filterkeys(d):
...     return {k: v for k, v in d.items() if k in ('rank', 'url')}
>>> filtered = ((key, map(filterkeys, group)) for key, group in groups)
>>> print([{"query": key, "results": list(group)} for key, group in filtered])
[{'query': 'Q1',
  'results': [{'rank': 1, 'url': 'awesome1'},
              {'rank': 2, 'url': 'awesome2'},
              {'rank': 3, 'url': 'awesome3'}]},
 {'query': 'Q#2',
  'results': [{'rank': 1, 'url': 'newurl1'},
              {'rank': 2, 'url': 'newurl2'},
              {'rank': 3, 'url': 'newurl3'}]}]

唯一剩下要做的就是打电话json.dumps代替print.

对于您的后续操作，您希望采用具有相同值的每一行中相同的所有值query并将它们分组为otherstuff，然后列出剩余的内容results.

因此，对于每个组，首先我们想要获得公共密钥。我们可以通过迭代组中任何成员的键来做到这一点（任何不在第一个成员中的东西不能在所有成员中），所以：

def common_fields(group):
    def in_all_members(key, value):
        return all(member[key] == value for member in group[1:])
    return {key: value for key, value in group[0].items() if in_all_members(key, value)}

或者，或者……如果我们把每个成员变成set键值对，而不是字典，我们可以intersect商场。这意味着我们终于可以使用reduce，所以让我们尝试一下：

def common_fields(group):
    return dict(functools.reduce(set.intersection, (set(d.items()) for d in group)))

我认为之间的来回转换dict and set可能会降低可读性，并且这也意味着您的值必须是可散列的（对于您的示例数据来说这不是问题，因为这些值都是字符串）......但它肯定更简洁。

当然，这将始终包括query作为一个公共领域，但我们稍后会处理这个问题。（另外，你想要otherstuff成为一个list与一个dict，所以我们会在它周围添加一对额外的括号）。

同时，results与上面相同，除了filterkeys过滤掉所有公共字段，而不是过滤掉除此之外的所有字段rank and url。把它放在一起：

def process_group(group):
    group = list(group)
    common = dict(functools.reduce(set.intersection, (set(d.items()) for d in group)))
    def filterkeys(member):
        return {k: v for k, v in member.items() if k not in common}
    results = list(map(filterkeys, group))
    query = common.pop('query')
    return {'query': query,
            'otherstuff': [common],
            'results': list(results)}

所以，现在我们只使用该函数：

>>> groups = itertools.groupby(initial, operator.itemgetter('query'))
>>> print([process_group(group) for key, group in groups])
[{'otherstuff': [{'detail': 'cool'}],
  'query': 'Q1',
  'results': [{'rank': 1, 'url': 'awesome1'},
              {'rank': 2, 'url': 'awesome2'},
              {'rank': 3, 'url': 'awesome3'}]},
 {'otherstuff': [{'detail': 'same'}],
  'query': 'Q#2',
  'results': [{'rank': 1, 'url': 'newurl1'},
              {'rank': 2, 'url': 'newurl2'},
              {'rank': 3, 'url': 'newurl3'}]}]

这显然不像原始版本那么简单，但希望这一切仍然有意义。只有两个新技巧。首先，我们必须迭代groups多次（一次查找公共密钥，然后再次提取剩余密钥）

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

javascript

python

functionalprogramming

reshape

fold

在 python 或 javascript 中正确使用折叠或减少函数来处理从长到宽的数据？的相关文章

从 python 发起 SSH 隧道时出现问题

目标是在卫星服务器和集中式注册数据库之间建立 n 个 ssh 隧道我已经在我的服务器之间设置了公钥身份验证因此它们只需直接登录而无需密码提示怎么办我试过帕拉米科它看起来不错但仅仅建立一个基本的隧道就变得相当复杂尽管代码示例将受
JavaScript 中数组的 HTML 数据列表值

我有一个简单的程序它必须从服务器上的文本文件中获取值然后将数据列表填充为输入文本字段中的选择为此我想要采取的第一步是我想知道如何动态地将 JavaScript 数组用作数据列表选项我的代码是
如何解决使用 Spark 从 S3 重新分区大量数据时从内存中逐出缓存的表分区元数据的问题？

在尝试从 S3 重新分区数据帧时我收到一个一般错误 Caused by org apache spark SparkException Job aborted due to stage failure Task 33 in stage 1
如果链接包含特定文本，jQuery 将类添加到 href

我的网站上的列表中有一些动态填充的链接这些链接链接到文件是否可以使用 jQuery 查看文件名是否以 pdf 结尾并在 href 或类似的链接文本以 mp3 结尾时添加一个类例如我的列表中有以下链接文件1 pdf 歌曲1 mp3
Javascript - 将值从下拉框传递到 Google Maps API

我正在使用 Google 地图 API 为一家出租车公司创建报价表目前用户在 2 个文本框中输入出发点和接载点 API 会计算两点之间的距离以及行程费用我正在尝试添加两个具有设定位置的下拉框以便用户可以选择这些位置之一或使用文本框输
如何设置 Celery 来调用自定义工作器初始化？

我对 Celery 很陌生我一直在尝试设置一个具有 2 个独立队列的项目一个用于计算另一个用于执行到目前为止一切都很好我的问题是执行队列中的工作人员需要实例化一个具有唯一 object id 的类每个工作人员一个 id 我想知
将 2D NumPy 数组按元素相乘并求和

我想知道是否有一种更快的方法专用 NumPy 函数来执行 2D NumPy 数组的元素乘法然后对所有元素求和我目前使用np sum np multiply A B 其中 A B 是相同维度的 NumPy 数组m x n 您可以使用np
在d3.js中将2D形状转换为3D，并根据ANGULAR中的值调整高度

我正在使用 d3 js v6 创建以下 2D 图表表示的 3D 图表这个圆圈中有多个正方形每个正方形都根据值分配了一种颜色值越大正方形越暗现在我想将其转换为 3D 形状其中当值变高时只有特定正方形的高度会增加因此结果在某种程
如何在 Angular 中从父组件访问子组件？

I have mat paginator在子组件a中如下所示子组件 html
Python 将日志滚动到变量

我有一个使用多线程并在服务器后台运行的应用程序为了无需登录服务器即可监控应用程序我决定包括Bottle http bottlepy org为了响应一些HTTP端点并报告状态执行远程关闭等我还想添加一种查阅日志文件的方法我可以使用以
创建嵌套字典单行

您好我有三个列表我想使用一行创建一个三级嵌套字典 i e l1 a b l2 1 2 3 l3 d e 我想创建以下嵌套字典 nd a 1 d 0 e 0 2 d 0 e 0 3 d 0 e 0 b a 1 d 0 e 0 2 d 0
使用 NumPy 将非均匀数据从文件读取到数组中

假设我有一个如下所示的文本文件 33 346 1223 10 23 11 23 12 23 13 23 14 23 15 23 16 24 10 24 11 24 12 24 13 24 14 24 15 24 16 25 14 25 15
如何在 OSX 上安装 numpy 和 scipy？

我是 Mac 新手请耐心等待我现在使用的是雪豹 10 6 4 我想安装numpy和scipy 所以我从他们的官方网站下载了python2 6 numpy和scipy dmg文件但是我在导入 numpy 时遇到问题 Library F
为什么“tbody”不设置表格的背景颜色？

我在用 tbody 作为 CSS 选择器来设置background color在一个表中我这样做是因为我有多个 tbody 表内的部分它们具有不同的背景颜色我的问题是当使用border radius在细胞上细胞不尊重backgro
数据表日期范围过滤器

如何添加日期范围过滤器 like From To 我开始进行常规搜索和分页等工作但我不知道如何制作日期范围过滤器我正在使用数据表 1 10 11 版本 My code var oTable function callFilesTable
限制 django 应用程序模型中的单个记录？

我想使用模型来保存 django 应用程序的系统设置因此我想限制该模型使其只能有一条记录极限怎么办尝试这个 class MyModel models Model onefield models CharField The fiel
从 Twitter API 2.0 获取 user.fields 时出现问题

我想从 Twitter API 2 0 端点加载推文并尝试获取标准字段作者文本和一些扩展字段尤其是用户字段端点和参数的定义工作没有错误在生成的 json 中我只找到标准字段但没有找到所需的 user fields 用户
在 Javascript 中减少/分组数组

基于this https stackoverflow com a 40774906 3254598例如我想以稍微不同的方式按对象进行分组结果应该如下 key audi items make audi model r8 year 2012
迭代 pandas 数据框的最快方法？

如何运行数据框并仅返回满足特定条件的行必须在之前的行和列上测试此条件例如 1 2 3 4 1 1 1999 4 2 4 5 1 2 1999 5 2 3 3 1 3 1999 5 2 3 8 1 4 1999 6 4 2 6 1 5 1
您可以使用关键字参数而不提供默认值吗？

我习惯于在 Python 中使用这样的函数方法定义 def my function arg1 None arg2 default do stuff here 如果我不供应arg1 or arg2 那么默认值None or default

随机推荐

升级默认的 python 版本或在 Linux 中安装另一个 python 版本

我想升级 python 的默认版本即 usr bin python在Linux中我安装了多个 python 版本 usr bin python2 7 usr bin python3 3 然而 python命令仍然返回python2 7
在 WindowsFormsHost 之上呈现 WPF 控件

我知道默认的 WPF 行为是渲染 WPF 控件然后在顶部渲染 WinForms 但是有什么方法可以在顶部渲染 WPFWindowsFormsHost Edit 我也找到了一个临时黑客当wpf控件重叠时WindowsFormsHost 我
如何制作一个定时器？

我想做一个Timer等待 400 MSc 然后打印 hi 例如我知道如何通过javax swing Timer ActionListener action new ActionListener Override public void a
如何在 Scala 中调用 Function1[_, String]？

我回答了一个关于函数映射的问题在 Scala 中定义从字符串到函数的映射 https stackoverflow com questions 4617660 defining a map from string to function in
使用 XSLT 删除重复元素

我需要使用特定节点 ItemID 消除 XML 中的重复元素我的 XML 如下所示
升级到 gradle 2.1.0 导致 – Could not Expand ZIP 错误

我最近将 Android 项目的 gradle 插件更新为2 1 0 from 2 1 0 alpha4 但现在我看到我的所有构建都失败了并显示如下消息 Error Execution failed for task App compil
使用 CSVHelper 将流输出到浏览器

我正在尝试使用 CSVHelper 生成 CSV 文件并将其发送回浏览器以便用户可以选择保存位置和文件名并保存数据该网站是基于 MVC 的这是我用来进行调用的 jQuery 按钮代码数据是 DTO 列表的某种序列化 Json 表示形
如何在

在 python 或 javascript 中正确使用折叠或减少函数来处理从长到宽的数据？

EDIT

在 python 或 javascript 中正确使用折叠或减少函数来处理从长到宽的数据？ 的相关文章

随机推荐

在 python 或 javascript 中正确使用折叠或减少函数来处理从长到宽的数据？的相关文章