使用 Spark 结构化流进行实时数据标准化/归一化

2024-04-22

在实现机器学习算法时，标准化/归一化数据即使不是关键，也是至关重要的一点。使用 Spark 结构化流以实时方式执行此操作是过去几周我一直试图解决的问题。

使用StandardScaler估计器((value(i)-mean) /standard deviation)历史数据证明是伟大的，在我的用例中，它是最好的，以获得合理的聚类结果，但我不确定如何适合StandardScaler具有实时数据的模型。结构化流不允许这样做。任何建议将不胜感激！

换句话说，如何在 Spark 结构化流中拟合模型？

我对此得到了答案。目前还不可能使用 Spark 结构化流进行实时机器学习，包括标准化；然而，对于某些算法来说，如果构建/拟合了离线模型，则可以进行实时预测。

Check:

JIRA - 向 ML Pipeline API 添加对结构化流的支持 https://issues.apache.org/jira/browse/SPARK-16424

Google DOC - 结构化流媒体机器学习 https://docs.google.com/document/d/1snh7x7b0dQIlTsJNHLr-IxIFgP43RfRV271YK2qGiFQ/edit

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 Spark 结构化流进行实时数据标准化/归一化的相关文章

sqlite3-ruby gem：无法构建 gem 本机扩展

Update 看看这个后续问题 Windows 上的 Gem 更新它坏了吗 https stackoverflow com questions 134581 gem update on windows is it broken 在 Win
ListItem 附加自定义值

我在asp net中使用dropdownlist 它有代表下拉列表项目的ListItem集合每个ListItem只有两个字段来保存数据 Value和Text字段但这些还不够我想保存更多数据对于每个项目假设附加字段中有 Text1 和
Excel 2013 数据透视表不会更改当前页面，除非手动导航到

我们有一小段 VBA 代码多年来一直完美运行本质上是 Me PivotTables APivot PivotFields AField CurrentPage Some text 这种方法一直有效直到 Excel 2013 该行将失败
将带有星号的注册表项传递给测试路径

我想通过以下方式运行此注册表路径Test Path在 PowerShell 中但它包含一个星号该星号在注册表中有效但在 Windows 路径中无效问题是当我通过它时 Test Path将星号视为通配符因此这需要非常非常长的时间
如何从 Magento One Page Checkout 获取发布数据？

为了在 Magento Checkout 中添加客户评论字段我在相应的模板文件中添加了一个文本字段并使用如下观察器将评论添加到订单中 comment strip tags Mage app gt getRequest gt getPar
如何在 iOS 中注册自定义文件类型

我目前正在创建一个应用程序我想让用户在其中备份他们的文件 plist m4a 我压缩文件并将扩展名更改为自定义扩展名专门针对我的应用程序例如 MyBackup 然后用户可以通过电子邮件或 iTunes 文件共享进行导出我已经阅读过
多边形内的 SQL 地理点在 STIntersect 上不返回 true（但使用 Geometry 返回 true）

我不想仅仅为了在 STIntersect 中返回 true 而将地理数据转换为几何图形下面是 SQL 中的代码 DECLARE point GEOGRAPHY GEOGRAPHY Point 1 1 4326 DECLARE polygo
如何将变量插入 PHP 数组？

我在网上查了一些答案但都不是很准确我希望能够做到这一点 id result id info array id Example echo info 0 这有可能吗您需要的是不推荐 info array id Example varia
如何获得 JavaScript 阶乘程序的循环来显示所使用的工作？

你好我面临着用 JavaScript 编写一个程序的挑战尽管我对它不太了解但它要求用户输入一个数字然后计算该数字的阶乘我使用了已经提出的问题并设法使计算正常工作但无法获得所需的输出我必须在以下输出中获取它而不使用任何花哨的库
用javascript调用外部网页（跨域）

我正在尝试使用以下网络服务来验证提要这个问题 https stackoverflow com questions 11996430 check if a url is a valid feed 但浏览器不允许我向另一台服务器发送 ajax
如何将十六进制字符串转换为无符号长整型？

我有以下十六进制值 CString str str T FFF000 如何将其转换为unsigned long 您可以使用strtol作用于常规 C 字符串的函数它使用指定的基数将字符串转换为 long long l strtol str
在Python中停止ThreadPool中的进程

我一直在尝试为控制某些硬件的库编写一个交互式包装器用于 ipython 有些调用对 IO 的影响很大因此并行执行任务是有意义的使用 ThreadPool 几乎效果很好 from multiprocessing pool import
Jackson 将单个项目反序列化到列表中

我正在尝试使用一项服务该服务为我提供了一个带有数组字段的实体 id 23233 items name item 1 name item 2 但是当数组包含单个项目时将返回该项目本身而不是包含一个元素的数组 id 43567 item
我可以将 MongoDB 与实体框架一起使用吗？

实体框架有可能支持MongoDB数据库吗有人写过实体框架MongoDB Provider吗简短的回答不这肯定是可能的但不合理 MongoDB 是文档数据库不支持集合之间的任何物理关系 EF 非常适合 SQL MySQL 等关系数
我可以让 swagger-php 在查询字符串上使用数组吗？

我使用 Swagger php 当我定义查询字符串上的参数时它可以是一个数组但据我所知它不支持这种查询字符串 https api domain tld v1 objects q 1 q 5 q 12 我相信这会被设定in the co
使用 IIS 发布：找不到服务器 DNS

我正在尝试使用 IIS 发布我的项目我能够通过 Visual Studio 发布它 La aplicaci n web se public correctamente file D www plataformafantasy com Co
在 Google 地图上绘制线条/路径

我很长一段时间都在忙于寻找如何在 HelloMapView 中的地图上的两个 GPS 点之间画一条线但没有运气谁能告诉我该怎么做假设我使用扩展 MapView 的 HelloMapView 我需要使用叠加层吗如果是这样我是否必须重
OpenCV SIFT 描述符关键点半径

我正在深入研究OpenCV的SIFT描述符提取的实现 https github com Itseez opencv blob master modules nonfree src sift cpp 我发现了一些令人费解的代码来获取兴趣点邻域
窗口未定义 - Next.js 13 - 服务器组件中的客户端组件 - [重复]

这个问题在这里已经有答案了 Leaflet 被导入到一个导入到客户端组件的文件中那么为什么服务器运行它并抛出此错误呢它实际上在重试后确实有效并最终使网站正常运行我尝试在内部使用动态导入useEffect 没有骰子 Reference
谓词对于列表中的所有元素都必须为 true

我有一组事实 likes john mary likes mary robert likes robert kate likes alan george likes alan mary likes george mary likes har

随机推荐

Python Dask - 2 个 DataFrame 的垂直串联

我正在尝试垂直连接两个 Dask DataFrame 我有以下 Dask DataFrame d A B C D E F 1 4 8 1 3 5 6 6 2 2 0 0 9 4 5 0 6 35 0 1 7 10 9 4 0 7 2 6 1
Angular Digest 循环正在运行，但 ng-bind 值未更新

我有一个包含导航栏的父视图在该视图内部我有一个 div 渲染我所在的任何子视图的元素我想根据子视图的路线有条件地显示隐藏父视图中的导航栏现在我有这个 div
在 gdb 中设置应用程序关联

有没有一种简单的方法可以设置我正在调试的应用程序的亲和力而无需将 gdb 锁定到同一核心我问的原因是应用程序以实时优先级运行并且需要在单核上运行目前我使用这个命令行 taskset c 3 gdbserver 1234 app ou
AngularJS 中的 jQuery .one() 相当于什么？

如何创建一个仅触发一次并在之后自毁的事件发射器相当于 jQuery 的 one 函数实际上您可以通过 jqLit e 库在 AngularJS 中使用 one jsLite 是 jQuery 的精简版本是支持 Angular 所需的
最好的文档类型是什么？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
更新 KB 2687323 后，VB6 IDE 无法加载 MSCOMCTL.OCX

Windows 更新安装安全更新后KB2687323 http support microsoft com kb 2687323 我的 VB6 项目无法加载显示的错误消息是无法加载 project vbp path MSCOMCTL O
向 ElasticSearch 术语聚合添加其他字段

索引文档如下 id 1 title Blah platform id 84 url http facebook com title Facebook 我想要的是按平台计数和输出统计数据为了计数我可以使用术语聚合platform id作为
Eclipse 3.7 的 JProbe 插件

如何将 jprobe 插件添加到 Eclipse 3 7 中我还下载了 Quest Eclipse Plug in 901 但不知道现在该怎么办 Maybe or JProbe Eclipse 插件安装 http www quest co
在网页上获取 POST 答案的 cUrl 替代方案

我想获取特定表单提交的结果网页此表单使用 POST 因此我当前的目标是能够将 POST 数据发送到 url 并在变量中获取结果的 HTML 内容我的问题是我无法使用 cUrl 未启用这就是为什么我要求您了解是否可以使用其他解决方案提
PyCharm - 如何自动将项目中的所有标识符重命名为snake_case？

我有一个相当大的 Python 项目略多于 3000 行不幸的是语法不尊重现在需要的 PEP8 我正在特别寻找重命名所有函数的方法camelCase风格为snake case style 到目前为止我只发现这个答案 https int
jquery div元素的索引

我有以下 html div class rows div class row div div
如何使用SqlAlchemy通过id查询数据库？

我需要通过其查询 SQLAlchemy 数据库id类似的东西 User query filter by username peter 但对于身份证我该怎么做呢通过 Google 和 SO 搜索没有帮助查询有一个获取函数 https d
将第 3 方库添加到 Eclipse 插件

在 Eclipse 插件中包含附加 JAR 文件的正确方法是什么我自己的插件需要 apache commons io 我将 JAR 复制到我的插件目录中并通过插件清单的依赖项选项卡添加它这对我有用但我的插件的其他用户将必须手动下
在 IE 中可以打开文件输入对话框并上传 onchange 吗？

这基本上是我现在所拥有的简化
诗农假服务器不自动响应

您好我正在使用 fetch 测试一个集合当我调用它时只有在调用 server response 后假服务器才没有应答我得到了所需的结果这是为什么 My code beforeEach function server sinon
无法在 Ubuntu 14.04 LTS 上的 wget 上建立 SSL 连接

我尝试通过 wget 下载图像但出现错误无法建立 SSL 连接 wget https www website com image jpg 2015 02 26 01 30 17 https www website com image j
如何修复 CI/CD 上的 SSH Webpack 构建超时 (Gitlab)

我已经创建了与 Gitlab 的 CI CD 集成并且在运行 CI CD 时一直拖延 webpack 和资产的最终编译这是针对 Linux 16 04 t2 small AWS 实例的我很好奇这是否是内存处理器问题尽管如果我通过
Spring Security @PreAuthorize 基于自定义布尔属性值[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我有一个应用程序用户在其中输入自定义角色名称和权限例如用户可以创建一个名为 Human Resources 具有以下属性 sho
PHP - 检查命名空间内是否存在全局类

如果您位于另一个类的命名空间内如何通过 class exists 检查全局类是否存在例如
使用 Spark 结构化流进行实时数据标准化/归一化

在实现机器学习算法时标准化归一化数据即使不是关键也是至关重要的一点使用 Spark 结构化流以实时方式执行此操作是过去几周我一直试图解决的问题使用StandardScaler估计器 value i mean standard de

使用 Spark 结构化流进行实时数据标准化/归一化

使用 Spark 结构化流进行实时数据标准化/归一化 的相关文章

随机推荐

热门标签

使用 Spark 结构化流进行实时数据标准化/归一化的相关文章