Pandas 找到行的子集，在其他列约束下最小化列的总和

2024-04-09

我有一个非常简单的想法，即找到行的子集，使一列的总和最小化，而另一列的总和必须大于某个值。

Example:

df = pd.DataFrame({'Names': ['a', 'b', 'c', 'd', 'e', 'f'],
               'Target': [35, 15, 12, 8, 7, 5],
               'Cost': [15, 40, 30, 30, 25, 10]})




    Names   Target  Cost
0   a       35      15
1   b       15      40
2   c       12      30
3   d       8       30
4   e       7       25
5   f       5       10

在上面的示例中，我希望找到使 Cost 列最小化的行子集，而 Target 之和必须大于 40。

在此示例中，我要构建的函数将返回 ['a', 'f']，因为满足约束 35 + 5 >= 40，并且成本 15 + 10 = 25 不能低于任何其他函数满足约束条件时的行组合。

我正在寻找哪些库或想法来解决这个问题？

我们可以将其设置为约束优化问题，它有四个部分：

创建变量：我们将用布尔向量表示我们对行选择的选择。第 k 个条目中的 True 意味着我们选择了第 k 行，而 False 则意味着我们没有选择。
指定约束：我们需要确保目标行的总和大于阈值。通过计算目标列和所选行向量之间的点积来完成。
指定目标函数。这里的目标函数是所选行的成本之和，即成本列与所选行向量的点积。
在这种情况下求解是最小化受约束的目标函数。

有几个 Python 运筹学库，即或图书馆 https://www.xiang.dev/python-or/用于解决此类问题。该解决方案使用Google OR 工具 https://developers.google.com/optimization这是一个“用于优化的开源软件套件”。

我们表明，使用优化包进行求解比对所有可能的行选择执行详尽搜索的替代解决方案要快得多。穷举搜索的计算复杂度呈指数级，O(2^nrows)，因此仅适用于少量行（即

Code

import numpy as np 
import pandas as pd

# Google or-tools solver
from ortools.sat.python import cp_model

import timeit

def solve(df, threshold):
    '''
    Uses or-tools module to solve optimization

    '''
    weights = df['Target']
    cost = df['Cost']
    names = df['Names']

    # Creates the model.
    model = cp_model.CpModel()

    # Step 1: Create the variables
    # array containing row selection flags i.e. True if row k is selected, False otherwise
    # Note: treated as 1/0 in arithmeetic expressions
    row_selection = [model.NewBoolVar(f'{i}') for i in range(df.shape[0])]

    # Step 2: Define the constraints
    # The sum of the weights for the selected rows should be >= threshold
    model.Add(weights.dot(row_selection) >= threshold)

    # Step 3: Define the objective function
    # Minimize the total cost (based upon rows selected)
    model.Minimize(cost.dot(row_selection))

    # Step 4: Creates the solver and solve.
    solver = cp_model.CpSolver()
    solver.Solve(model)

    # Get the rows selected
    rows = [row for row in range(df.shape[0]) if solver.Value(row_selection[row])]

    return names[rows]


# Setup
df = pd.DataFrame({'Names': ['a', 'b', 'c', 'd', 'e', 'f'],
               'Target': [35, 15, 12, 8, 7, 5],
               'Cost': [15, 40, 30, 30, 25, 10]})

print(solve(df, 40))

# Output:
0    a
5    f
Name: Names, dtype: object

表现

当前解决方案（基于 OR-Tools）

%timeit main(df, 40)
3.13 ms ± 111 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

与穷举搜索算法相比，例如斯科特·波士顿解决方案 https://stackoverflow.com/questions/69473985/pandas-find-subset-of-rows-minimizing-the-sum-of-a-column-under-other-column-con/69474411#69474411.

from itertools import combinations, chain
    
df = pd.DataFrame(
        {
            "Names": ["a", "b", "c", "d", "e", "f"],
            "Target": [35, 15, 12, 8, 7, 5],
            "Cost": [15, 40, 30, 30, 25, 10],
        }
    )
    
    
def powerset(iterable):
        "powerset([1,2,3]) --> () (1,) (2,) (3,) (1,2) (1,3) (2,3) (1,2,3)"
        s = list(iterable)
        return chain.from_iterable(combinations(s, r) for r in range(len(s) + 1))
    
    
%timeit min( (df.loc[list(i)] for i in powerset(df.index) if df.loc[list(i), "Target"].sum() >= 40), key=lambda x: x["Cost"].sum(),)

64.4 ms ± 1.88 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

因此，使用 OR-Tools 比穷举搜索快约 20 倍（即 3.13 毫秒与 64.4 毫秒）

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

constraints

minimize

Pandas 找到行的子集，在其他列约束下最小化列的总和的相关文章

LibreOffice 并行将 .docx 转换为 .pdf 效果不佳

我有很多 docx 文件需要转换为 pdf 将它们一一转换需要很长时间所以我编写了一个 python 脚本来并行转换它们 from subprocess import Popen import time import os os chdi
将 yerr/xerr 绘制为阴影区域而不是误差线

在 matplotlib 中如何将误差绘制为阴影区域而不是误差条例如而不是忽略示例图中各点之间的平滑插值这需要进行一些手动插值或者只是获得更高分辨率的数据您可以使用pyplot fill between https matpl
如何删除 PyCharm 中的项目？

如果我关闭一个项目然后删除该项目文件夹则在 PyCharm 重新启动后会再次创建一个空的项目文件夹只需按顺序执行以下步骤即可他们假设您当前在 PyCharm 窗口中打开了该项目单击文件 gt 关闭项目关闭项目在 PyCha
尝试从网页Python和BeautifulSoup获取编码

我试图从网页检索字符集这会一直改变目前我使用 beautifulSoup 来解析页面然后从标题中提取字符集这工作正常直到我遇到一个网站到目前为止我的代码以及与其他页面一起使用的代码是 def get encoding soup
是否有一个包可以维护所有带有符号的货币列表？

是否有一个 python 包提供所有或相当完整货币的列表与符号如美元的有优秀的pycountry 贪财的 https github com limist py moneyed and ccy http code google com
python celery -A 的无效值无法加载应用程序

我有一个以下项目目录 azima init py main py tasks py task py from main import app app task def add x y return x y app task def mul
如何使用 opencv python 计算乐高积木上的孔数？

我正在开发我的 python 项目我需要计算每个乐高积木组件中有多少个孔我将从输入 json 文件中获取有关需要计算哪个程序集的信息如下所示 img 001 red 0 blue 2 white 1 grey 1 yellow 1 r
如何在 Python 中的函数入口、内部和退出处进行日志记录

我希望能够使用 Python 日志记录工具在我的代码中进行简单且一致的日志记录我能够执行以下操作我希望所有现有未来的模块和函数都有输入和完成日志消息我不想添加相同的代码片段来定义日志记录参数如下所示don t want t
Python MySQL 操作错误：1045，“用户 root@'localhost' 的访问被拒绝

我试图通过以下方式从我的 python 程序访问数据库 db mysql connect host localhost user Max passwd maxkim db TESTDB cursor db cursor 但是我在第一行代码
在 Mac OSX 上从 Python 3.6 运行 wine 命令

我正在尝试用 Python 编写一个打开的脚本wine然后发送代码到wine终端打开一个 exe程序这 exe程序也是命令驱动的我可以打开wine 但我无法进一步 import shlex subprocess line usr bin
在 Mac OS X 上安装 libxml2 时出现问题

我正在尝试在我的 Mac 操作系统 10 6 4 上安装 libxml2 我实际上正在尝试在 Python 中运行 Scrapy 脚本这需要我安装 Twisted Zope 现在还需要安装 libxml2 我已经下载了最新版本 2 7 7
NumPy 相当于 Keras 函数 utils.to_categorical

我有一个使用 Keras 进行机器学习的 Python 脚本我正在构建 X 和 Y 它们分别是特征和标签标签的构建方式如下 def main depth 10 nclass 101 skip True output True video
App Engine 实体到字典

将 google app engine 实体在 python 中复制到字典对象的好方法是什么我正在使用 db Expando 对象所有属性均为扩展属性 Thanks 有一个名为foo尝试 foo dict
使用seaborn绘制简单线图

我正在尝试使用seaborn python 绘制ROC曲线对于 matplotlib 我只需使用该函数plot plt plot one minus specificity sensitivity bs where one minus s
为正则表达式编写解析器

即使经过多年的编程我很羞愧地说我从未真正完全掌握正则表达式一般来说当问题需要正则表达式时我通常可以在一堆引用语法之后想出一个合适的正则表达式但我发现自己越来越频繁地使用这种技术所以自学并理解正则表达式properly 我决
将字符串中的随机字符转换为大写

我尝试随机附加文本字符串这样就不只是有像这样的输出 gt gt gt david 我最终会得到类似的东西 gt gt gt DaViD gt gt gt dAviD 我现在的代码是这样的 import random import stri
确定分割形状几何体的“左”侧和“右”侧

我的问题是我怎样才能确定哪一个Aside and Bside的侧面已经分割的旋转矩形几何体 http nbviewer jupyter org urls dl dropbox com s ll3mchnx0jwzjnf determine
numpy polyfit 中使用的权重值是多少以及拟合误差是多少

我正在尝试对 numpy 中的某些数据进行线性拟合 Ex 其中 w 是该值的样本数即对于点 x 0 y 0 我只有 1 个测量值该测量值是2 2 但对于这一点 1 1 我有 2 个测量值值为3 5 x np array 0 1 2 3
PyQt5：如何使QThread返回数据到主线程

I am a PyQt 5 4 1 1初学者我的Python是3 4 3 这是我尝试遵循的many https mayaposch wordpress com 2011 11 01 how to really truly use qthr
将时间添加到日期时间

我有一个像这样的日期字符串然后使用strptime 所以就像这样 my time datetime datetime strptime 07 05 15 m d Y 现在我想添加 23 小时 59 分钟my time 我努力了 timed

随机推荐

“此帐户缺乏足够的权限”DocuSign

不确定这里有多少人使用 docusign 但当我发送此 xml 文件时我在创建和发送信封以及发送到 docusign 时遇到了一些问题
错误175：在配置中找不到指定的存储提供程序，或者指定的存储提供程序无效

我刚刚加入一个项目并在 64 位计算机上安装了 Microsoft Visual Studio Professional 2012 版本 11 0 51106 01 和 Microsoft SQL Server 2008 R2 另一个团队
为什么静态 NSString 会泄漏？

我有以下代码来检索 iOS 应用程序上的文件路径 static const NSString fullPathFromRelativePath NSString relPath do not convert a path starting
使用 Python (matplotlib) 的自定义标记

我想知道如何为图中所示的黑色线生成标记来源 NCEP 和 NOAA 它是标准天气地图中风暴或飓风的标记我也许可以生成标记符号的图像文件但是我不知道如何告诉 matplotlib 使用图像作为标记标记看起来像一个6 如果是这种情况
在 Windows 上获取目录分隔符？（'\'， '/'， ETC。）

tl dr 如何询问 Windows 系统上当前目录分隔符是什么不同版本的 Windows 似乎表现不同例如 and 两者都适用于英文版本日文版显然是韩文版显然是 http blogs msdn com b oldnewthing
如何从视图内的 JavaScript 函数更改模型属性？

有什么方法可以通过视图内的 javascript 函数更改我的模型属性吗具体来说我有一个编辑视图需要使用以下命令访问字符串属性值函数 SomeJSFunction var somevar 然后对 somevar 进行一些更改并将模型
SQL Server默认是否在表的所有列上创建非聚集索引

sql server 会创建任何默认的非聚集索引吗我们真的应该把所有FK都作为非聚集索引吗这里的权衡是什么不 SQL Server 不会自动创建非聚集索引聚集索引是根据主键自动创建的除非您CREATE TABLE声明另有说明是的
Hugo HTML 模板的 Prettier 和 Visual Code 设置

我通常喜欢将 Prettier 与 Visual Code 结合使用然而在为 Hugo 编辑 HTML 模板时 Prettier 让我抓狂因为它不会保留读者友好的格式 with Site Params author end hugo
我可以在 Javascript 中为我创建的对象创建自定义事件吗？

假设我有一个带有返回自身的成员函数的对象 Object 1 function Object1 this me new Image 10 10 this me src someImgUrl jpg this publish function
将 SLF4J 日志重定向到 JavaFX 中的 TextArea

我想显示 SLF4J 记录的错误TextArea在JavaFX中到目前为止我所拥有的是appender in logback test xml
R：序列化文本的 Base64 编码/解码不完全匹配

in my 上一个问题 https stackoverflow com questions 3114043 r creating a csv out of serialized objects关于使用serialize 创建对象的CSV 我
网站和网络应用程序有什么区别？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我很难自己找出网站和网络应用程序之间的区别在我看来网站指向特定页面而 Web 应用程序更像是内容和信息的某种门户但我遇到的问题是仍然
所有其他 Visual Studio“运行测试”尝试都会导致“无法启动程序 QTAgent32.exe”

每当我运行测试然后尝试再次运行测试时都会收到以下错误无法对测试运行进行排队无法启动程序 C Program Files x86 Microsoft Visual Studio 10 0 Common7 IDE QTAgent32 e
不幸的是应用程序已停止工作

我是 Android 应用程序开发新手我正在做这个教程应用程序这是一个非常简单的应用程序它从计数器中加一并减一当我在模拟器中运行它时它说不幸的是教程已停止工作代码中没有错误 API 级别是 17 请帮助我 java代码 pub
jquery isotope 具有无限滚动和图像预加载器

我正在使用 jquery 同位素和无限滚动并且想要使用图像预加载器我使用的图像预加载器是这样的图像预加载器 http code google com p img preloader image preloader loader ima
在 Swift 上设置计时器

我尝试重复执行函数 pepe 我没有收到错误但它不起作用这是我的代码 public class MyClass var timer Timer objc func pepe gt String let hola hola return
对 Firebase Auth 帐户的密码实施自定义规则

当用户创建帐户时有什么方法可以设置密码的自定义规则吗 Firebase 似乎没有提供编辑密码规则的方法我知道我可以在前端设置密码规则但就像弗兰克范普费伦 https stackoverflow com a 36319652 6516
Firefox 在重新加载时保留表单数据

I have a big problem with the functionality in Firefox that keeps data that the user have filled in on reload F5 If i us
从ini文件中读取数据

我有一个需要输入文件名的 vbscript 代码是 Dim tsout Set tsout gofs CreateTextFile C csv Dim tsin Set tsin gofs OpenTextFile C csv 我该如何配置
Pandas 找到行的子集，在其他列约束下最小化列的总和

我有一个非常简单的想法即找到行的子集使一列的总和最小化而另一列的总和必须大于某个值 Example df pd DataFrame Names a b c d e f Target 35 15 12 8 7 5 Cost 15 40

Pandas 找到行的子集，在其他列约束下最小化列的总和

Pandas 找到行的子集，在其他列约束下最小化列的总和 的相关文章

随机推荐

热门标签

Pandas 找到行的子集，在其他列约束下最小化列的总和的相关文章