Spark MLLib 存在问题，导致概率和预测对于所有内容都相同

2024-04-29

我正在学习如何将机器学习与 Spark MLLib 结合使用，目的是对推文进行情感分析。我从这里得到了一个情感分析数据集：http://thinknook.com/wp-content/uploads/2012/09/Sentiment-Analysis-Dataset.zip http://thinknook.com/wp-content/uploads/2012/09/Sentiment-Analysis-Dataset.zip

该数据集包含 100 万条被分类为正面或负面的推文。该数据集的第二列包含情绪，第四列包含推文。

这是我当前的 PySpark 代码：

import csv
from pyspark.sql import Row
from pyspark.sql.functions import rand
from pyspark.ml.feature import Tokenizer
from pyspark.ml.feature import StopWordsRemover
from pyspark.ml.feature import Word2Vec
from pyspark.ml.feature import CountVectorizer
from pyspark.ml.classification import LogisticRegression

data = sc.textFile("/home/omar/sentiment-train.csv")
header = data.first()
rdd = data.filter(lambda row: row != header)

r = rdd.mapPartitions(lambda x : csv.reader(x))
r2 = r.map(lambda x: (x[3], int(x[1])))

parts = r2.map(lambda x: Row(sentence=x[0], label=int(x[1])))
partsDF = spark.createDataFrame(parts)
partsDF = partsDF.orderBy(rand()).limit(10000)

tokenizer = Tokenizer(inputCol="sentence", outputCol="words")
tokenized = tokenizer.transform(partsDF)

remover = StopWordsRemover(inputCol="words", outputCol="base_words")
base_words = remover.transform(tokenized)

train_data_raw = base_words.select("base_words", "label")

word2Vec = Word2Vec(vectorSize=100, minCount=0, inputCol="base_words", outputCol="features")

model = word2Vec.fit(train_data_raw)
final_train_data = model.transform(train_data_raw)
final_train_data = final_train_data.select("label", "features")

lr = LogisticRegression(maxIter=10, regParam=0.3, elasticNetParam=0.8)
lrModel = lr.fit(final_train_data)

lrModel.transform(final_train_data).show()

我使用以下命令在 PySpark 交互式 shell 上执行此操作：

pyspark --master yarn --deploy-mode client --conf='spark.executorEnv.PYTHONHASHSEED=223'

（仅供参考：我有一个 HDFS 集群，有 10 个虚拟机，带有 YARN、Spark 等）

最后一行代码的结果是：

>>> lrModel.transform(final_train_data).show()
+-----+--------------------+--------------------+--------------------+----------+
|label|            features|       rawPrediction|         probability|prediction|
+-----+--------------------+--------------------+--------------------+----------+
|    1|[0.00885206627292...|[-0.0332030500349...|[0.4917,0.5083000...|       1.0|
|    1|[0.02994908031541...|[-0.0332030500349...|[0.4917,0.5083000...|       1.0|
|    1|[0.03443818541709...|[-0.0332030500349...|[0.4917,0.5083000...|       1.0|
|    0|[0.02838905728422...|[-0.0332030500349...|[0.4917,0.5083000...|       1.0|
|    1|[0.00561632859171...|[-0.0332030500349...|[0.4917,0.5083000...|       1.0|
|    0|[0.02029798456545...|[-0.0332030500349...|[0.4917,0.5083000...|       1.0|
|    1|[0.02020387646293...|[-0.0332030500349...|[0.4917,0.5083000...|       1.0|
|    1|[0.01861085715063...|[-0.0332030500349...|[0.4917,0.5083000...|       1.0|
|    1|[0.00212163510598...|[-0.0332030500349...|[0.4917,0.5083000...|       1.0|
|    0|[0.01254413221031...|[-0.0332030500349...|[0.4917,0.5083000...|       1.0|
|    0|[0.01443821341672...|[-0.0332030500349...|[0.4917,0.5083000...|       1.0|
|    0|[0.02591390228879...|[-0.0332030500349...|[0.4917,0.5083000...|       1.0|
|    1|[0.00590923184063...|[-0.0332030500349...|[0.4917,0.5083000...|       1.0|
|    0|[0.02487089103516...|[-0.0332030500349...|[0.4917,0.5083000...|       1.0|
|    0|[0.00999667861365...|[-0.0332030500349...|[0.4917,0.5083000...|       1.0|
|    0|[0.00416736607439...|[-0.0332030500349...|[0.4917,0.5083000...|       1.0|
|    0|[0.00715923445144...|[-0.0332030500349...|[0.4917,0.5083000...|       1.0|
|    0|[0.02524911996890...|[-0.0332030500349...|[0.4917,0.5083000...|       1.0|
|    1|[0.01635813603934...|[-0.0332030500349...|[0.4917,0.5083000...|       1.0|
|    0|[0.02773649083489...|[-0.0332030500349...|[0.4917,0.5083000...|       1.0|
+-----+--------------------+--------------------+--------------------+----------+
only showing top 20 rows

如果我对手动创建的较小数据集执行相同操作，它就会起作用。我不知道发生了什么，一整天都在处理这个问题。

有什么建议么？

谢谢你的时间！

TL;DR对于任何现实生活中的应用程序来说，十次迭代都太低了。在大型且重要的数据集上，可能需要数千次或更多次迭代（以及调整剩余参数）才能收敛。

二项式LogisticRegressionModel https://spark.apache.org/docs/latest/api/python/pyspark.ml.html?highlight=logisticregressionmodel.summary#pyspark.ml.classification.LogisticRegressionModel has summary https://spark.apache.org/docs/latest/api/python/pyspark.ml.html?highlight=logisticregressionmodel.summary#pyspark.ml.classification.LogisticRegressionModel.summary属性，它可以让您访问LogisticRegressionSummary https://spark.apache.org/docs/latest/api/python/pyspark.ml.html?highlight=logisticregressionmodel.summary#pyspark.ml.classification.LogisticRegressionSummary目的。除其他有用的指标外，它还包含objectiveHistory可用于调试训练过程：

import matplotlib.pyplot as plt

lrm = LogisticRegression(..., family="binomial").fit(df)
plt.plot(lrm.summary.objectiveHistory)

plt.show()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Spark MLLib 存在问题，导致概率和预测对于所有内容都相同的相关文章

为什么 pandas 在简单的数学运算上比 numpy 更快？

最近我观察到 pandas 的乘法速度更快我在下面的例子中向您展示了这一点如此简单的操作怎么可能做到这一点这怎么可能呢 pandas 数据帧中的底层数据容器是 numpy 数组测量我使用形状为 10k 10k 的数组数据框 i
如何在 QTableView 标题中单击鼠标右键单击上下文菜单？

下面的示例代码很大程度上受到here http www saltycrane com blog 2007 12 pyqt 43 qtableview qabstracttablemodel 有一个右键单击上下文菜单当用户单击表中的单元格
在推送到容器注册表之前如何对构建的映像运行测试？

从 gitlab 文档中可以看出如何使用 kaniko 创建 docker 镜像 build stage build image name gcr io kaniko project executor debug entrypoint sc
如何在seaborn热图标签中使用科学计数法？

我正在尝试在 python 中使用seaborn 获取热图不幸的是即使数字非常大它也没有使用科学记数法我想知道是否有任何简单的方法可以转换为科学记数法或任何其他合理的格式这是显示问题的一段代码 import seaborn as
计算熊猫数据帧几个月的总和

我有一个 pandas 数据框如下所示 ID Year R1 R1 f KAR1 20201001 1 5 KAR1 20201101 2 6 KAR1 20201201 3 7 KAR1 20210101 4 8 KAR1 202102
当我从本地计算机更改为虚拟主机时，从 python 脚本调用 pdftotext 不起作用

我编写了一个小的 python 脚本来解析提取 PDF 中的信息我在本地机器上测试了它我有 python 2 6 2 和 pdftotext 版本 0 12 4 我正在尝试在我的虚拟主机服务器 dreamhost 上运行它它有 py
将多索引转换为行式多维 NumPy 数组。

假设我有一个类似于以下示例的 MultiIndex DataFrame多索引文档 http pandas pydata org pandas docs stable advanced html gt gt gt df 0 1 2 3 fir
打印一份拥有多个家庭的人员名单，每个家庭都有多个电话号码

我有一类 Person 它可以有多个 Home 每个 Home 都有一个或多个电话号码我已经定义了类但现在我正在尝试创建一个视图其中列出每个人的所有家庭以及每个家庭地址的所有电话号码类似于 john smith 123 fake s
如何将 Pyspark Dataframe 标题设置到另一行？

我有一个如下所示的数据框 col1 col2 col3 id name val 1 a01 X 2 a02 Y 我需要从中创建一个新的数据框使用 row 1 作为新的列标题并忽略或删除 col1 col2 等行新表应如下所示 id na
Bokeh 中单独的节点和边缘悬停工具？

我正在尝试为 Bokeh 中的节点和边缘获取单独的悬停工具提示但未能使其正常工作有人可以指出我做错了什么吗我相信代码应该如下所示 from bokeh io import show output notebook from bokeh
Jupyter笔记本突然变得很慢

我以前在anaconda环境下运行jupyter运行得很好显示警告后 IOPub data rate exceeded The notebook server will temporarily stop sending output to
使用 Windows 任务计划程序安排 [Virtualenv 相关] Python 脚本

I want to schedule a python script to start at 3AM and break at 5PM every weekday However the problem arises when I need
在 pygame 中，我如何创建一个数据结构来跟踪调整大小事件和对象的坐标？

我希望在调整屏幕大小后使鼠标事件与对象保持同步有人告诉我需要创建一个数据结构来跟踪调整事件大小新坐标以匹配调整大小如何使用简单的代数方程来完成此操作并将其集成到调整大小事件中以进行准确更新反过来做创建一个虚拟游戏地图在绘制场景
Spark DataFrame 序列化为无效 json

TL DR 当我倾倒 Spark 时DataFrame作为 json 我总是得到类似的结果 key1 v11 key2 v21 key1 v12 key2 v22 key1 v13 key2 v23 这是无效的 json 我可以手动编辑转储
将 Python Selenium 输出写入 Excel

我编写了一个脚本来从在线网站上抓取产品信息目标是将这些信息写入 Excel 文件由于我的Python知识有限我只知道如何在Powershell中使用Out file导出但结果是每个产品的信息都打印在不同的行上我希望每种产品都有一条
无法将matplotlib安装到pycharm

我最近开始使用Python速成课程学习Python编程我陷入困境因为我无法让 matplotlib 在 pycharm 中工作我已经安装了pip 我已经通过命令提示符使用 pip 安装了 matplotlib 现在当我打开 pych
有没有办法拉伸整个显示图像以适应给定的分辨率？

我最近一直在使用pygame制作游戏遇到了一个小问题基本上我希望能够将屏幕上的整个图像我已经传输到它的所有内容拉伸到用户将窗口大小调整到的分辨率我在 pygame 和堆栈溢出的文档中搜索了很多但我似乎找不到答案这可能吗我的
通过新数据更新绘图，而不是在 Jupyter 笔记本中制作新绘图

我有一些问题希望你能帮我解决我需要使用下拉小部件创建交互式绘图我可以在其中选择并绘制感兴趣的数据我通过以下方式做到这一点 import plotly graph objects as go import ipywidgets as
Python RE（总之检查第一个字母是否区分大小写，其余部分不区分大小写）

在下面的情况下我想匹配字符串 Singapore 其中 S 应始终为大写其余单词可能为小写或大写但在下面的字符串 s 是小写的它在搜索条件中匹配任何人都可以让我知道如何实施吗 import re st Information in
避免“散点/点/蜂群”图中的数据点重叠

使用绘制点图时matplotlib 我想偏移重叠的数据点以使它们全部可见例如如果我有 CategoryA 0 0 3 0 5 CategoryB 5 10 5 5 10 我想要每一个CategoryA 0 数据点并排设置而不是彼此重叠

随机推荐

在 Firebase 函数中验证 reCAPTCHA v3 导致 CORS 问题

我有以下代码可以验证谷歌验证码 v3在我的 Firebase 函数中导致CORS issue const functions require firebase functions const nodemailer require nodem
AMD plaidml 与 CPU Tensorflow - 意外结果

我目前正在运行一个简单的脚本来训练mnist数据集通过 Tensorflow 通过我的 CPU 运行训练给了我49us sample和使用以下代码的 3e 纪元 CPU import tensorflow as tf mnist tf k
.Net MVC4 文化设置正确，但验证仍然是英语

我有一个非常基本的 MVC 网站使用丹麦语我可以在页面开头设置文化 Layout null Culture da DK 但它已经是正确的所以我怀疑它是否重要然后我有我的输入字段 Html EditorFor model gt mod
使用 Pyodbc + UnixODBC + FreeTDS 设置连接设置

我使用 Pyodbc UnixODBC 和 FreeTDS 进行了设置但在其中的某个地方设置了一些选项但我不知道在哪里根据 SQL Server Management Studio 我的程序在打开连接时发送一些设置 set quote
我需要 TURN 服务器吗？

在什么情况下我应该使用 TURN 服务器现在我有一个运行完美的 WebRTC 应用程序该应用程序即将发布我是否需要设置自己的 TURN 服务器或者可能仅适用于主要应用程序 WebRTC 可以通过多种方式进行连接并且当它在第一个选择
运行 BFG Repo Cleaner 后如何更新/缩小 github 存储库的大小

我已经清理了我的仓库BFG 回购清理器 https rtyley github io bfg repo cleaner 使用以下内容程序 https rtyley github io bfg repo cleaner usage git c
VIM：有没有一种简单的方法可以从 Vim 管理 Visual Studio 解决方案/makefile 项目？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我尝试使用 Visual Studio 而不是 VIM 插件但说实话 VS 相对于 VIM 的唯一优势是它能够自动管理我的项目我知道 VS
跳转到文件行c#

我如何跳到文件中的某些行例如 c text txt 中的第 300 行 using var reader new StreamReader c test txt for int i 0 i lt 300 i reader ReadLine
启用 JavaScript 时，Azure B2C 中的自定义模板在 IE11 中不起作用

I have a SignIn V2 policy in Azure Active Directory B2C I also enabled JavaScript Because I use it to manipulate some el
Pytorch CUDA 错误：没有内核映像可用于在带有 cuda 11.1 的 RTX 3090 设备上执行

如果我运行以下命令 import torch import sys print A sys version print B torch version print C torch cuda is available print D torc
mvc3中如何通过ajax调用局部视图

我需要通过ajax调用部分视图我已尝试以下操作但我不确定如何完成 UserName change function var userid UserName val var ProvincialStateID State val var
在视图上按下按键时不会调用 onKeyDown

我有一个包含两个视图的活动一个视图重写 onDraw 并正确处理 onTouchEvent 但是当我尝试检索第二个视图的 onKeyDown 时它没有给我任何结果相反当我按下后退按钮或任何其他键盘按钮时会调用 onKeyDown
Android 中的 GPS 超时

在黑莓中我们使用超时来获取位置这样如果它在这么长时间内没有重新调整位置我们就会知道但是在Android中没有超时的概念任何人都可以告诉我们替代方案我们可以发现在这么长时间之后 GPS没有位置更新您可以使用两个线程来实现此超
如何设置pdf的标题名称。查看文档时（新选项卡）[重复]

这个问题在这里已经有答案了我们如何更改pdf的标题名称查看文档时我没有使用任何控制器是模态的我只是在 href 标签中传递 url 但我想更改标题名称 a target blank href class icon btn blu
绩效评估的惯用方式？

我正在评估我的项目的网络渲染工作负载程序不断运行主循环 while true doSomething drawSomething doSomething2 sendSomething 主循环每秒运行超过 60 次我想查看性能细分每个
如何将 Blazor 应用程序作为插件/嵌入到另一个域中加载？

我花了很多时间来让 blazor 插件正常工作我的应用程序用作插件嵌入到另一个域的网页中它有效但该方法有一些严重的缺点我希望有人找到更好的方法只是为了澄清我在做什么我的网站位于右侧另一个网站需要调用我的插件的代码位于左侧我
用 C 语言制作查找表的最佳方法是什么？

我正在开发一个嵌入式 C 项目我有一个 LCD 显示屏每个字符都有一个 5x7 点阵要显示特定字符您必须移动与要打开的点相关的 5 个字节所以我需要制作某种带有键的查找表我可以在其中传递 ASCII 字符并返回一个 5 字节的
将一组 Java 对象转换为另一组对象的最佳方式是什么？

这是一个真正的新手提出的基本 Java 问题我有一组实现某个接口接口 MyIfc 的Java对象属于 MyClass 类我有一组这些对象存储在我的类中的私有变量中声明如下 protected Set
如何从后台代码访问 ViewModelLocator 中的 MainViewModel？

使用 MVVM light 为我的视图模型构建 WP7 应用程序我正在使用当您通过 NuGet 添加库时添加的 ViewModelLocator 效果很好但现在我需要从代码访问 ViewModel 在我的代码中用户单击一个按钮我需要
Spark MLLib 存在问题，导致概率和预测对于所有内容都相同

我正在学习如何将机器学习与 Spark MLLib 结合使用目的是对推文进行情感分析我从这里得到了一个情感分析数据集 http thinknook com wp content uploads 2012 09 Sentiment Ana

Spark MLLib 存在问题，导致概率和预测对于所有内容都相同

Spark MLLib 存在问题，导致概率和预测对于所有内容都相同 的相关文章

随机推荐

热门标签

Spark MLLib 存在问题，导致概率和预测对于所有内容都相同的相关文章