Python 上每个系数具有特定约束的多元线性回归

2024-05-11

我目前正在数据集上运行多元线性回归。起初，我没有意识到我需要限制自己的体重；事实上，我需要有特定的正权重和负权重。

更准确地说，我正在做一个评分系统，这就是为什么我的一些变量应该对音符产生积极或消极的影响。然而，当运行我的模型时，结果不符合我的预期，我的一些“正”变量得到负系数，反之亦然。

举个例子，假设我的模型是：

y = W0*x0 + W1*x1 + W2*x2

当 x2 是一个“正”变量时，我想对 W2 施加一个约束使其为正！

我已经对这个问题进行了很多研究，但我没有发现任何关于特定权重/系数的限制，我发现的只是将所有系数设置为正或将它们求和为一。

我正在使用 ScikitLearn 包开发 Python。这就是我获得最佳模型的方法：

def ridge(Xtrain, Xtest, Ytrain, Ytest, position):
    param_grid={'alpha':[0.01 , 0.1, 1, 10, 50, 100, 1000]}
    gs = grid_search.GridSearchCV(Ridge(), param_grid=param_grid, n_jobs=-1, cv=3)
    gs.fit(Xtrain, Ytrain)
    hatytrain = gs.predict(Xtrain)
    hatytest = gs.predict(Xtest)

知道如何对特定变量的系数分配约束吗？定义每个约束可能会很麻烦，但我不知道该怎么做。

Scikit-learn 不允许对系数进行此类限制。

但是您可以对系数施加任何限制并使用以下方法优化损失坐标下降 if you 实现你自己的估算器。在无约束的情况下，坐标下降在合理的迭代次数下产生与 OLS 相同的结果。

我编写了一个类，对线性回归系数施加上限和下限。如果您愿意，您可以将其扩展为使用 Ridge 或 evel Lasso 惩罚：

from sklearn.linear_model.base import LinearModel
from sklearn.base import RegressorMixin
from sklearn.utils import check_X_y
import numpy as np

class ConstrainedLinearRegression(LinearModel, RegressorMixin):

    def __init__(self, fit_intercept=True, normalize=False, copy_X=True, nonnegative=False, tol=1e-15):
        self.fit_intercept = fit_intercept
        self.normalize = normalize
        self.copy_X = copy_X
        self.nonnegative = nonnegative
        self.tol = tol

    def fit(self, X, y, min_coef=None, max_coef=None):
        X, y = check_X_y(X, y, accept_sparse=['csr', 'csc', 'coo'], y_numeric=True, multi_output=False)
        X, y, X_offset, y_offset, X_scale = self._preprocess_data(
            X, y, fit_intercept=self.fit_intercept, normalize=self.normalize, copy=self.copy_X)
        self.min_coef_ = min_coef if min_coef is not None else np.repeat(-np.inf, X.shape[1])
        self.max_coef_ = max_coef if max_coef is not None else np.repeat(np.inf, X.shape[1])
        if self.nonnegative:
            self.min_coef_ = np.clip(self.min_coef_, 0, None)

        beta = np.zeros(X.shape[1]).astype(float)
        prev_beta = beta + 1
        hessian = np.dot(X.transpose(), X)
        while not (np.abs(prev_beta - beta)<self.tol).all():
            prev_beta = beta.copy()
            for i in range(len(beta)):
                grad = np.dot(np.dot(X,beta) - y, X)
                beta[i] = np.minimum(self.max_coef_[i], 
                                     np.maximum(self.min_coef_[i], 
                                                beta[i]-grad[i] / hessian[i,i]))

        self.coef_ = beta
        self._set_intercept(X_offset, y_offset, X_scale)
        return self

例如，您可以使用此类使所有系数非负

from sklearn.datasets import load_boston
from sklearn.linear_model import LinearRegression
X, y = load_boston(return_X_y=True)
model = ConstrainedLinearRegression(nonnegative=True)
model.fit(X, y)
print(model.intercept_)
print(model.coef_)

这会产生类似的输出

-36.99292986145538
[0.         0.05286515 0.         4.12512386 0.         8.04017956
 0.         0.         0.         0.         0.         0.02273805
 0.        ]

您可以看到大多数系数为零。普通的 LinearModel 会使它们变为负值：

model = LinearRegression()
model.fit(X, y)
print(model.intercept_)
print(model.coef_)

它将返回给你

36.49110328036191
[-1.07170557e-01  4.63952195e-02  2.08602395e-02  2.68856140e+00
 -1.77957587e+01  3.80475246e+00  7.51061703e-04 -1.47575880e+00
  3.05655038e-01 -1.23293463e-02 -9.53463555e-01  9.39251272e-03
 -5.25466633e-01]

您还可以为您选择的任何系数施加任意范围 - 这就是您所要求的。例如，在此设置中

model = ConstrainedLinearRegression()
min_coef = np.repeat(-np.inf, X.shape[1])
min_coef[0] = 0
min_coef[4] = -1
max_coef = np.repeat(4, X.shape[1])
max_coef[3] = 2
model.fit(X, y, max_coef=max_coef, min_coef=min_coef)
print(model.intercept_)
print(model.coef_)

你会得到一个输出

24.060175576410515
[ 0.          0.04504673 -0.0354073   2.         -1.          4.
 -0.01343263 -1.17231216  0.2183103  -0.01375266 -0.7747823   0.01122374
 -0.56678676]

Update。该解决方案可以适应对系数线性组合（例如它们的总和）的约束 - 在这种情况下，每个系数的单独约束将在每个步骤中重新计算。这个 Github 要点 http://gist.github.com/avidale/6668635c318aceebe0142de013a4cf77提供了一个例子。

UPDATE由于这个问题很受欢迎，我创建了一个包含约束线性回归实现的包：https://github.com/avidale/constrained-线性-回归 https://github.com/avidale/constrained-linear-regression。你可以安装它pip install constrained-linear-regression。欢迎请求请求！

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Python 上每个系数具有特定约束的多元线性回归的相关文章

如果值已经是字符串，我是否应该避免转换为字符串？

有时您必须使用列表理解将所有内容转换为字符串包括字符串本身 b str a for a in l 但我必须这样做 b a if type a str else str a for a in l 我想知道是否str在字符串上已经足够优化no
BeautifulSoup 不适用于某些网站

我有这个脚本 import urrlib2 from bs4 import BeautifulSoup url http www shoptop ru page urllib2 urlopen url read soup Beautiful
Pandas：根据其他多级列对最里面的列进行分组排序

考虑下面的 df In 3771 df pd DataFrame A a 11 B b 11 C C1 C1 C2 C1 C3 C3 C2 C3 C3 C2 C2 D D1 D2 D1 D3 D3 D2 D4 D4 D1 D2 D3 E v
如果新文件不存在则写入新文件，如果存在则追加到文件

我有一个程序可以写入用户的highscore到一个文本文件该文件由用户选择时命名playername 如果具有该特定用户名的文件已经存在那么程序应该附加到该文件以便您可以看到多个highscore 如果具有该用户名的文件不存在例如
如何在 django 表单中设置自定义 HTML 属性？

我有一个 Django 表单它是页面的一部分假设我有一个字段 search input forms CharField u Search word required False 我只能通过模板访问它 form search input
django/whitenoise 存储后端导致错误

我在调试关闭时在 heroku 上运行 django 应用程序时遇到了 500 错误使用 rollbar 了解发生错误的原因后它报告了以下内容 ValueError The file media img 1 jpg could not
使用 selenium 在 python 中切换到弹出窗口

如何在下面的 selenium 程序中切换到弹出窗口我已经查找了所有可能的解决方案但无法解决它们请帮忙 from selenium import webdriver from splinter import Browser from
如何在 Google App Engine 中为模型定义唯一属性？

我需要一些独特的属性我怎样才能实现这个目标有没有类似的东西unique True 我正在使用适用于 Python 的 Google App Engine Google 提供了执行此操作的函数 http code google com a
检查对象是否是字符串列表的列表？

是什么elegant检查对象是否是字符串列表列表的方法没有嵌套循环也许这里必须是构造结构化迭代的常规方法 UPD 像这样的东西 l a b c d 1 3 e 2 f def recurse iterable levels result
类型错误：无法连接“str”和“instance”对象（python urllib）

写一个python程序我在使用时遇到了这个错误urllib urlopen功能 Traceback most recent call last File ChurchScraper py line 58 in
如何让MagicMock返回多个值

我想模拟一个图书馆 matplotlib对于它的价值并且遇到一个问题当调用模拟并期望返回元组时它会失败有一个更好的方法吗 Python 3 7 2 default Jan 13 2019 12 50 15 Clang 10 0 0
如何将文本文件中的十六进制行转换为数组（Python）？

我有一个文本文件每行包含一个十六进制明文我的文件如下所示 7a8e5dc390781eab8df2c090bf4bebca dbac0fba55d3d4fc177161bfe24dc7fb 82e5a7a021197f6fbe94a86
Python：选择多个已安装模块版本之一

在我的系统上我多次安装了多个模块举个例子 numpy 1 6 1安装在标准路径中 usr lib python2 7 dist packages 我有一个更新版本numpy 1 8 0安装于 local python lib pytho
如何使用 Python Flask-Security 使用 bcrypt 加密密码？

我正在尝试使用 Flask Security 文档中的标准基本示例并使其正常工作除了密码以明文形式存储之外我知道这一行 user datastore create user email email protected cdn cgi
SQL查询中的Python列表作为参数[重复]

这个问题在这里已经有答案了我有一个 Python 列表比如说 l 1 5 8 我想编写一个 SQL 查询来获取列表中所有元素的数据例如 select name from students where id IN THE LIST l
Anaconda (Python) - Windows 10 上的 Cmder 集成

我在 Windows 10 64 位上通过 Anaconda 让 Cmder 使用 Python 时遇到了一些麻烦我让 Anaconda 工作得很好测试过用 matplotlib 绘制一些东西它与 Anaconda Prompt 一起
将glade接口放入python中

我在 Glade 中制作了一个 gui 我想将其放入 python 程序中我正在调整我在网上找到的教程中的说明以将其加载到我的林间空地文件中 http www pygtk org articles pygtk glade gui Cre
通过 Tweepy 在 Twitter 上更新状态时的回溯

我一直在尝试使用 Twitter 在 Twitter 上发布我的 Rpi 读数tweepy 但首先我想检查一下是否tweepy本来可以正常工作但事实并非如此我正确安装了软件包但是当我尝试运行简单的代码来发布某些内容时出现错误是的
Mac 上的 PythonXY？

如何在 Mac OS X Lion 上安装 Python 我开始了它应该能够通过 macports 但无论如何我找不到 mac ports 网站上所述的端口 pythonXY 我对 MAC 和 pythonXY 都不太了解但在 pyth
媒体文件上的 404 - Django

昨晚我将项目上传到 pythonanywhere com 我想在那里测试我的项目生产设置在我允许的模型之一中用户上传JPG 团队徽标上传过程运行良好文件位于我的 MEDIA ROOT 中问题是当我尝试在模板中访问它以将其显示在页

随机推荐

获取所有参数作为列表

R 是否提供对象函数方法关键字来获取所有函数参数使用一个例子 function a b default 会提供a and b也在函数环境内有没有类似的说法list 这还包括a and b在结果中或者换一种方式简写list a
递归累积函数

我需要在 R 中编写一个累积求和函数但我一直碰壁该函数具有以下结构 a x1 a x2 a 2 x1 a x3 a 2 x2 a 3 x1 a x4 a 2 x3 a 3 x2 a 4 x1 等等 cumsum 似乎不适用于此类功能有
jquery 在元素之间包裹内容

我有一些内容由 hr 标记我需要做的是将开始标记和结束标记之间的所有内容包装起来鉴于此标记 hr class begin some content
如何避免在matplotlib中调用latex（输出到pgf）

我使用 matplotlib 及其 pgf 后端来生成包含在 LaTeX 投影仪文档中的绘图当我使用未定义的乳胶命令时我遇到了麻烦但对于我的应用程序我不需要 matplotlib 来使用 Latex 生成标签或注释我只想要正确的
无法使用 docker-compose 在 Dockerfile 中运行 rake db:create

我有一个Dockerfile and docker compose yml就像在tutorial https docs docker com compose rails 除非我从现有的应用程序开始 My docker compose yml
Kotlin 中的枚举类对于 Android 来说是否像 Java 中那样“昂贵”？

Are EnumKotlin 中的类对于 Android 来说昂贵就像 Java 一样还可以用吗 IntDefs or StringDefs在科特林当我将 Kotlin Enum 类反编译为 Java 类时底层仍然使用了 Java
TSQL - 创建从日期表，同时忽略带条件的中间步骤

我在 MS SQL 服务器中有以下表结构现在我想根据以下规则获取每个 id 的 in 日期如果第二天 23 59 出和 00 00 进则忽略这些如果同一天有 out 和 in 请忽略这些例如我应该得到以下结果 id in ou
删除嵌套属性不起作用

我似乎无法使用删除项目accepts nested attributes for命令但我已经按照本教程 http railscasts com episodes 196 nested model form revised以及相关的git
将 Selenium 与 PyCharm CE 结合使用

我正在尝试将 Selenium 与 PyCharm CE 一起使用我已经使用 pip install Selenium 安装了 Selenium 并且可以通过终端使用它但是当我尝试将它与 PyCharm 一起使用时出现导入错误 Imp
C# 中 PKCS11Interop 库的线程安全使用 [已关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我正在使用 PKCS11Interop 在 HSM 内执行密钥管理操作我使用的 HSM 是 Thales PCI Express 下面是
AFNetworking 2.0 可达性不起作用

我在使 AFNetworking Reachability 模块正常工作时遇到一些问题我已经使用 ReachabilityStatusChangeBlock 设置了 AFHTTPRequestOperationManager 但它从未被调
查找 JavaScript 中函数参数的数量[重复]

这个问题在这里已经有答案了可能的重复获取函数的元数 https stackoverflow com questions 4848149 get a functions arity 假设我有 function a x function b
Django：CSRF验证失败

我试图将非 ssl 包装页面提交到 ssl 包装页面但收到此错误 CSRF verification failed Request aborted Reason given for failure Referer checking fai
我可以将 char 或 DateTime 设置为 null 吗？

我可以将 null 设置为char数据类型并且DateTime在 C 中多谢你们这是不可能的它是一个值类型使用 char myChar null DateTime myDate null 这相当于 Nullable
Git：man 命令不起作用

在 Git Bash 中他们给了我一个error用于返回 man command man git bash man command not found 我的 Git 版本 git version git version 2 18 0 wi
Jquery 自动完成通配符

我正在使用jquery ui autocomplete插件但我注意到当它搜索时它使用像这样的通配符 value 我正在使用邮政编码的自动完成功能我认为这会让像这样的通配符更有意义 value 因此当您开始输入时它只会过滤掉以您已输
运行 Django 测试时如何将 DEBUG 设置为 True？

我目前正在运行一些 Django 测试看起来DEBUG False默认情况下有没有办法运行我可以设置的特定测试DEBUG True在命令行还是在代码中对于测试用例内的特定测试您可以使用 override settings 装饰器 f
我无法设置顶级标题

我想为 TopLevel 设置标题但 TopLevel 显示 Root 的标题我认为我的下一个脚本与 TkInter 文档中的示例相对应但给了我不好的结果你能解释一下为什么我的设置master title 顶部 in 应用程序顶部
从发布的文件中删除 PDB 引用

在使用任何 IDE 调试和创建文件后我总是会查看最终的二进制可执行文件或 DLL 现在我正在尝试 Visual C 2010 寻找最佳版本没有垃圾或不必要的引用因此我创建了一个包含两个项目的新解决方案一个可执行文件及其 DLL V
Python 上每个系数具有特定约束的多元线性回归

我目前正在数据集上运行多元线性回归起初我没有意识到我需要限制自己的体重事实上我需要有特定的正权重和负权重更准确地说我正在做一个评分系统这就是为什么我的一些变量应该对音符产生积极或消极的影响然而当运行我的模型时结果不符合我

Python 上每个系数具有特定约束的多元线性回归

Python 上每个系数具有特定约束的多元线性回归 的相关文章

随机推荐

热门标签

Python 上每个系数具有特定约束的多元线性回归的相关文章