在实现机器学习算法时,标准化/归一化数据即使不是关键,也是至关重要的一点。使用 Spark 结构化流以实时方式执行此操作是过去几周我一直试图解决的问题。
使用StandardScaler
估计器((value(i)-mean) /standard deviation)
历史数据证明是伟大的,在我的用例中,它是最好的,以获得合理的聚类结果,但我不确定如何适合StandardScaler
具有实时数据的模型。结构化流不允许这样做。任何建议将不胜感激!
换句话说,如何在 Spark 结构化流中拟合模型?
我对此得到了答案。目前还不可能使用 Spark 结构化流进行实时机器学习,包括标准化;然而,对于某些算法来说,如果构建/拟合了离线模型,则可以进行实时预测。
Check:
JIRA - 向 ML Pipeline API 添加对结构化流的支持 https://issues.apache.org/jira/browse/SPARK-16424
Google DOC - 结构化流媒体机器学习 https://docs.google.com/document/d/1snh7x7b0dQIlTsJNHLr-IxIFgP43RfRV271YK2qGiFQ/edit
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)