从一个函数在 Pandas Dataframe 中创建多列

2024-04-11

我是一个Python新手，所以我希望我的两个问题是清楚和完整的。我在下面发布了实际代码和 csv 格式的测试数据集。

我已经能够构建以下代码（主要是在 StackOverflow 贡献者的帮助下）来使用 Newton-Raphson 方法计算期权合约的隐含波动率。该过程在确定隐含波动率时计算 Vega。尽管我可以使用 Pandas DataFrame apply 方法为隐含波动率创建新的 DataFrame 列，但我无法为 Vega 创建第二列。当函数一起返回 IV 和 Vega 时，有没有办法创建两个单独的 DataFrame 列？

I tried:

return iv, vega从函数
df[['myIV', 'Vega']] = df.apply(newtonRap, axis=1)
Got ValueError: Shape of passed values is (56, 2), indices imply (56, 13)

还尝试过：

return iv, vega从函数
df['myIV'], df['Vega'] = df.apply(newtonRap, axis=1)
Got ValueError: Shape of passed values is (56, 2), indices imply (56, 13)

此外，计算过程很慢。我导入了 numba 并实现了 @jit(nogil=True) 装饰器，但我只看到性能提高了 25%。测试数据集是性能测试，有近90万条记录。运行时间为 2 小时 9 分钟（不使用 numba 或使用 numba，但不使用 nogil=True）。使用 numba 和 @jit(nogil=True) 时的运行时间为 1 小时 32 分钟。我可以做得更好吗？

from datetime import datetime
from math import sqrt, pi, log, exp, isnan
from scipy.stats import norm
from numba import jit


# dff = Daily Fed Funds (Posted rate is usually one day behind)
dff = pd.read_csv('https://research.stlouisfed.org/fred2/data/DFF.csv', parse_dates=[0], index_col='DATE')
rf = float('%.4f' % (dff['VALUE'][-1:][0] / 100))
# rf = .0015                        # Get Fed Funds Rate https://research.stlouisfed.org/fred2/data/DFF.csv
tradingMinutesDay = 450             # 7.5 hours per day * 60 minutes per hour
tradingMinutesAnnum = 113400        # trading minutes per day * 252 trading days per year
cal = USFederalHolidayCalendar()    # Load US Federal holiday calendar


@jit(nogil=True)                                # nogil=True arg improves performance by 25%
def newtonRap(row):
    """Estimate Implied Volatility (IV) using Newton-Raphson method

    :param row (dataframe):  Options contract params for function
        TimeStamp (datetime): Close date
        Expiry (datetime): Option contract expiration date
        Strike (float): Option strike
        OptType (object): 'C' for call; 'P' for put
        RootPrice (float): Underlying close price
        Bid (float): Option contact closing bid
        Ask (float): Option contact closing ask

    :return:
        float: Estimated implied volatility
    """
    if row['Bid'] == 0.0 or row['Ask'] == 0.0 or row['RootPrice'] == 0.0 or row['Strike'] == 0.0 or \
       row['TimeStamp'] == row['Expiry']:
        iv, vega = 0.0, 0.0         # Set iv and vega to zero if option contract is invalid or expired
    else:
        # dte (Days to expiration) uses pandas bdate_range method to determine the number of business days to expiration
        #   minus USFederalHolidays minus constant of 1 for the TimeStamp date
        dte = float(len(pd.bdate_range(row['TimeStamp'], row['Expiry'])) -
                    len(cal.holidays(row['TimeStamp'], row['Expiry']).to_pydatetime()) - 1)
        mark = (row['Bid'] + row['Ask']) / 2
        cp = 1 if row['OptType'] == 'C' else -1
        S = row['RootPrice']
        K = row['Strike']
        # T = the number of trading minutes to expiration divided by the number of trading minutes in year
        T = (dte * tradingMinutesDay) / tradingMinutesAnnum
        # TODO get dividend value
        d = 0.00
        iv = sqrt(2 * pi / T) * mark / S        # Closed form estimate of IV Brenner and Subrahmanyam (1988)
        vega = 0.0
        for i in range(1, 100):
            d1 = (log(S / K) + T * (rf - d + iv ** 2 / 2)) / (iv * sqrt(T))
            d2 = d1 - iv * sqrt(T)
            vega = S * norm.pdf(d1) * sqrt(T)
            model = cp * S * norm.cdf(cp * d1) - cp * K * exp(-rf * T) * norm.cdf(cp * d2)
            iv -= (model - mark) / vega
            if abs(model - mark) < 1.0e-9:
                break
        if isnan(iv) or isnan(vega):
            iv, vega = 0.0, 0.0
    # TODO Return vega with iv if add'l pandas column possible
    # return iv, vega
    return iv


if __name__ == "__main__":
    # test function from baseline data
    get_csv = True

    if get_csv:
        csvHeaderList = ['TimeStamp', 'OpraSymbol', 'RootSymbol', 'Expiry', 'Strike', 'OptType', 'RootPrice', 'Last',
                         'Bid', 'Ask', 'Volume', 'OpenInt', 'IV']
        fileName = 'C:/tmp/test-20150930-56records.csv'
        df = pd.read_csv(fileName, parse_dates=[0, 3], names=csvHeaderList)
    else:
        pass

    start = datetime.now()
    # TODO Create add'l pandas dataframe column, if possible, for vega
    # df[['myIV', 'Vega']] = df.apply(newtonRap, axis=1)
    # df['myIV'], df['Vega'] = df.apply(newtonRap, axis=1)
    df['myIV'] = df.apply(newtonRap, axis=1)
    end = datetime.now()
    print end - start

测试数据：C:/tmp/test-20150930-56records.csv

2015-09-30 16:00:00,AAPL151016C00109000,AAPL,2015-10-16 16:00:00,109,C,109.95,3.46,3.6,3.7,1565,1290,0.3497 2015-09-30 16:00:00,AAPL151016P00109000,AAPL,2015-10-16 16:00:00,109,P,109.95,2.4,2.34,2.42,3790,3087,0.3146 2015-09-30 16:00:00,AAPL151016C00110000,AAPL,2015-10-16 16:00:00,110,C,109.95,3,2.86,3,10217,28850,0.3288 2015-09-30 16:00:00,AAPL151016P00110000,AAPL,2015-10-16 16:00:00,110,P,109.95,2.81,2.74,2.8,12113,44427,0.3029 2015-09-30 16:00:00,AAPL151016C00111000,AAPL,2015-10-16 16:00:00,111,C,109.95,2.35,2.44,2.45,6674,2318,0.3187 2015-09-30 16:00:00,AAPL151016P00111000,AAPL,2015-10-16 16:00:00,111,P,109.95,3.2,3.1,3.25,2031,3773,0.2926 2015-09-30 16:00:00,AAPL151120C00110000,AAPL,2015-11-20 16:00:00,110,C,109.95,5.9,5.7,5.95,5330,17112,0.3635 2015-09-30 16:00:00,AAPL151120P00110000,AAPL,2015-11-20 16:00:00,110,P,109.95,6.15,6.1,6.3,3724,15704,0.3842

如果我理解正确，你应该做的是从你的函数返回一个系列。就像是：

return pandas.Series({"IV": iv, "Vega": vega})

如果要将结果放入同一输入 DataFrame 的新列中，只需执行以下操作：

df[["IV", "Vega"]] = df.apply(newtonRap, axis=1)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

从一个函数在 Pandas Dataframe 中创建多列的相关文章

如何使用 pandas 选择所有非 NaN 列和非 NaN 最后一列？

如果标题有点令人困惑请原谅我假设我有test h5 下面是使用读取该文件的结果df read hdf test h5 testdata 0 1 2 3 4 5 6 0 123 444 111 321 NaN NaN NaN 1 12 2
Pyenv 无法在 Cygwin 上安装 python: ModuleNotFoundError: No module named '_ctypes'

我正在尝试设置 Cygwin 环境以使用 pyenv 来管理 python 版本我没有管理员权限所以我使用以下命令运行设置 no admin flag 我使用 Cygwin 包管理器应用程序解决了一些依赖关系但我被困在了这一点上 Mo
帮助需要在可选条件下编写正则表达式[关闭]

我有一个日志文件包含如下内容 log Using data from yyyy mm dd 2011 8 3 0 files queued for scanning Warning E test H ndler pdf File not F
Python 小数.InvalidOperation 错误

当我运行这样的东西时我总是收到此错误 from decimal import getcontext prec 30 b 2 3 Decimal b Error Traceback most recent call last File Te
我怎样才能在python cgi中找到上传的文件名

我制作了如下简单的网络服务器 import BaseHTTPServer os cgi import cgitb cgitb enable html
Python 使用 M2Crypto 通过 S/MIME 对消息进行签名

我现在花了几个小时但找不到我的错误我想要一个简单的例程来创建 S MIME 签名消息稍后可以与 smtplib 一起使用这是我到目前为止所拥有的 usr bin python2 7 coding utf 8 from future
使用opencv计算深度视差图

我无法使用 opencv 从视差图计算深度我知道两个立体图像中的距离是用以下公式计算的z baseline focal disparity p 但我不知道如何使用地图计算视差我使用的代码如下为我提供了两个图像的视差图 import n
理解@property装饰器和继承[重复]

这个问题在这里已经有答案了这里是 Python 3 以防万一它很重要我试图正确理解如何实现继承 property使用我已经搜索了 StackOverflow 并阅读了大约 20 个类似的问题但无济于事因为他们试图解决的问题略有不同
向 Python 2.6 添加 SSL 支持

我尝试使用sslPython 2 6 中的模块但我被告知它不可用安装OpenSSL后我重新编译2 6 但问题仍然存在有什么建议么您安装了 OpenSSL 开发库吗我必须安装openssl devel例如在 CentOS 上在
如何使用 python 操作系统更改驱动器？

我正在尝试更改当前目录C to Y 我试过 import os os chdir Y 但我不断收到错误消息提示无法找到驱动器本质上我正在寻找相当于 cd d cmd 中的命令你确定吗Y 确实是有效的驱动器号吗 Try os chdir
如何使用 msgpack 进行读写？

如何序列化反序列化字典data with msgpack http msgpack org The Python 文档 http msgpack python readthedocs io en latest badge latest似乎
x11 - 导入错误：没有名为“kivy.core.window.window_x11”的模块

目前我正在尝试构建一个我通过 buildozer 用 Python 和 Kivy 编写的应用程序无论我在做什么我都会遇到 window x11 的问题即使我在代码中注释掉所有与 Windows 相关的内容或执行本文中描述的所有操作这
请求response.iter_content()获取不完整的文件（1024MB而不是1.5GB）？

您好我一直在使用此代码片段从网站下载文件到目前为止小于 1GB 的文件都很好但我注意到 1 5GB 文件不完整 s is requests session object r s get fileUrl headers headers
如何将 pytest 装置与 django TestCase 一起使用

我如何在TestCase方法类似问题的几个答案似乎暗示我的例子应该有效 import pytest from django test import TestCase from myapp models import Category py
从 csv 中读取 pandas 数据帧，以非固定标头开始

我有许多数据文件是由我的实验室中使用的一些相当黑客的脚本生成的该脚本非常有趣因为它在标头之前附加的行数因文件而异尽管它们具有相同的格式并具有相同的标头我正在编写一个批处理来将所有这些文件处理为数据帧如果我不知道位置如何让 pan
psutil：测量特定进程的CPU使用率

我正在尝试测量进程树的 cpu 使用率目前获取进程没有子进程的 cpu usage 就可以了但我得到了奇怪的结果 import psutil p psutil Process PID p cpu percent 还给我float g
Jupyter Notebook 中的多处理与线程

我试图测试这个例子here https ipywidgets readthedocs io en stable examples Widget 20Asynchronous html将其从线程更改为多处理在 jupyter Noteboo
django 组合对两个不同基本模型的查询

我有两个不同的查询集我想将两个查询集合并 q1 tbl nt 123 objects values list id value geometry filter restriction height exclude condition id
使 matplotlib 图形默认看起来像 R？

Is there a way to make matplotlib behave identically to R or almost like R in terms of plotting defaults For example R t
如何动态创建 Luigi 任务

我正在为 Luigi Tasks 构建一个包装器但遇到了一个障碍Register http luigi readthedocs io en stable modules luigi task register html Register该

随机推荐

如何将数据从 sinatra 应用程序中的类传递到 websocket-rack？

我在 sinatra 应用程序中有一个 websocket rack 的工作配置旨在用于具有多个屏幕的物理安装有一些功能可以正常工作消息可以通过 websocket 来回传递我的问题是这样的我有一个带有标准 Web 表单即不是
Android 中按钮组的 onLongClick 监听器

在我的 Android 应用程序中我想创建一个像键盘一样工作的片段我有一个功能哪个手柄onClick对于所有 9 个键我想知道有没有办法只写一个函数来处理长按时对于所有这 9 个键也是如此这是布局 xml
在 Android 移动浏览器上调用 Window.scrollTo() 会导致 TypeError: 未找到与提供的签名匹配的函数

我有一个 React 项目我正在附加一个onClick滚动到页面上特定元素的标题导航链接我正在生成 React refs 并使用元素的 Y 位置输入到Window scrollTo 函数调用这是代码 class Component e
在 Shell 中连接字符串

我在连接字符串 Linux shell 脚本时遇到这个问题 apphome cd dirname 0 pwd cd gt dev null echo APP Home echo apphome libdir apphome lib echo
如何将范围从一个工作表复制到另一个工作表由单元格值指定的区域？

我正在尝试将数据从一个工作表复制到另一个工作表我有一本包含大约 62 个工作表选项卡的工作簿对我来说特别棘手的部分是数据需要复制到的工作表并不总是相同的我有一个下拉菜单列出了 62 种不同的设备这显示在名为 HOME 的工作表的
寻找 Greasemonkey 脚本编写基础知识/教程 [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我已经在互联网上搜索了好几天试图找出如何编写自己的脚本一个比 Hello World 脚本更复杂的
为什么 Iterable 和 Collection 接口中都存在迭代器方法？ [复制]

这个问题在这里已经有答案了 The Iterable接口有以下方法 Iterator
URLSearchParams 对于第一个查询字符串返回 null

为什么时间段为空 const url http example com timeperiod lasttwentyeightdays pagesize 20 const args new URLSearchParams url alert
如何通过 postgres 过程中的 arg 文本更改架构

CREATE OR REPLACE FUNCTION newfunction Schema1 text Schema2 text RETURNS integer LANGUAGE plpgsql SECURITY DEFINER AS fu
如何从 VS 2008 命令行更新 Web 参考？

我们的 VS 2008 解决方案中有 Web 参考我们不签入生成的文件我需要更新巡航控制服务器上生成的文件因此我需要一个命令行方法来更新网络引用有没有办法强制 devenv 这样做没有可以从命令行传递到 Visual Studio
当我着色时，绘画算法在边缘留下白色像素[重复]

这个问题在这里已经有答案了我正在创建一个绘图应用程序当我选择一种非常暗的颜色并在熊猫的脸部内部进行绘制时边缘呈白色我希望我的代码为边框内的整个区域着色这是LINK http colorpeutic com product php
安全异常：尝试将沙盒 jar 作为可信库打开

我试图通过网页运行小程序但这样做会出现错误 java lang reflect InvocationTargeException at com sun deploy util DeployAWTUtil invokeAndWait Dep
为什么 Sleep(1) 的睡眠时间在 Windows 中似乎是可变的？

上周我需要测试一些不同的算法函数为了让自己轻松起来我添加了一些人工睡眠并简单地测量了时钟时间像这样的东西 start clock for int i 0 i lt 10000 i Sleep 1 end clock 由于 Sleep
javax.annotations.Nonnull 上的 TypeNotPresentException

我已将 Maven Surefire 插件 2 17 添加到我们的项目中但构建失败并出现以下错误 Error injecting org apache maven plugin surefire SurefirePlugin java l
Scala 中功能最强大且易于使用的 SWT API 是什么？

是否有一个 Scala SWT 包装器 API 具有最多的功能并且最容易使用我看到一些看似非正式的包装但无法判断它们是否得到维护另外我在多个地方看到一两个但我不确定它们的规范位置在哪里我一直在使用 Dave Orme 的XSca
使用锚标记和 IE7 进行标头位置重定向

嘿这是我的问题它可能只是浏览器问题但任何帮助想法都会很棒几乎我有以下重定向 header Location page php images 在大多数现代浏览器中它会毫无问题地重定向到 page php images 但在 IE
如何使用 ngModel 在 div 的 insidehtml 属性上实现 2 路数据绑定？

在我的角度组件 ts 文件中我有一个模型其属性的值为 html 格式的文本文本使用组件 html 文件中 div 的内部 html 属性显示在 UI 中通过设置 editable 属性使 div 可编辑代码片段 div div 这
如何使用 jenkins 在管理模式下运行 powershell 命令？

我有一个 ps1文件需要在管理模式下运行才能工作但不幸的是我找不到使用詹金斯来做到这一点的方法目前我正在 Jenkins 上运行此 powershell 命令并使用所有可能的选项执行批处理命令但这不起作用解决这个问题的简单方法确
在 Unity 中的类型之间共享生命周期管理器？

我在 Unity 文档中看到的示例让您通过输入来指定生命周期管理器new LifetimeManager 排队所以我有这个代码 container RegisterType
从一个函数在 Pandas Dataframe 中创建多列

我是一个Python新手所以我希望我的两个问题是清楚和完整的我在下面发布了实际代码和 csv 格式的测试数据集我已经能够构建以下代码主要是在 StackOverflow 贡献者的帮助下来使用 Newton Raphson 方法计算

从一个函数在 Pandas Dataframe 中创建多列

从一个函数在 Pandas Dataframe 中创建多列 的相关文章

随机推荐

热门标签

从一个函数在 Pandas Dataframe 中创建多列的相关文章