将 CountVectorizer 和 TfidfTransformer 稀疏矩阵转换为单独的 Pandas 数据帧行

2023-12-20

问题：将 sklearn 的 CountVectorizer 和 TfidfTransformer 产生的稀疏矩阵转换为 Pandas DataFrame 列的最佳方法是什么？每个二元组及其相应的频率和 tf-idf 分数都有一个单独的行？

管道：从 SQL DB 引入文本数据，将文本拆分为二元组，并计算每个文档的频率和每个文档每个二元组的 tf-idf，将结果加载回 SQL 数据库。

当前状态：

引入两列数据（number, text). text被清洗以产生第三根柱cleanText:

   number                               text              cleanText
0     123            The farmer plants grain    farmer plants grain
1     234  The farmer and his son go fishing  farmer son go fishing
2     345            The fisher catches tuna    fisher catches tuna

该 DataFrame 被输入到 sklearn 的特征提取中：

cv = CountVectorizer(token_pattern=r"(?u)\b\w+\b", stop_words=None, ngram_range=(2,2), analyzer='word')
dt_mat = cv.fit_transform(data.cleanText)

tfidf_transformer = TfidfTransformer()
tfidf_mat = tfidf_transformer.fit_transform(dt_mat)

然后将矩阵转换为数组后反馈到原始 DataFrame 中：

data['frequency'] = list(dt_mat.toarray())
data['tfidf_score']=list(tfidf_mat.toarray())

Output:

   number                               text              cleanText  \
0     123            The farmer plants grain    farmer plants grain   
1     234  The farmer and his son go fishing  farmer son go fishing   
2     345            The fisher catches tuna    fisher catches tuna   

               frequency                                        tfidf_score  

0  [0, 1, 0, 0, 0, 1, 0]  [0.0, 0.707106781187, 0.0, 0.0, 0.0, 0.7071067...  
1  [0, 0, 1, 0, 1, 0, 1]  [0.0, 0.0, 0.57735026919, 0.0, 0.57735026919, ...  
2  [1, 0, 0, 1, 0, 0, 0]  [0.707106781187, 0.0, 0.0, 0.707106781187, 0.0...

问题：

特征名称（即二元组）不在 DataFrame 中
The frequency and tfidf_score每个二元组不在单独的行上

期望的输出：

       number                    bigram         frequency      tfidf_score
0     123            farmer plants                 1              0.70  
0     123            plants grain                  1              0.56
1     234            farmer son                    1              0.72
1     234            son go                        1              0.63
1     234            go fishing                    1              0.34
2     345            fisher catches                1              0.43
2     345            catches tuna                  1              0.43

我设法使用以下代码将数字列之一分配给 DataFrame 的单独行：

data.reset_index(inplace=True)
rows = []
_ = data.apply(lambda row: [rows.append([row['number'], nn]) 
                         for nn in row.tfidf_score], axis=1)
df_new = pd.DataFrame(rows, columns=['number', 'tfidf_score'])

Output:

    number  tfidf_score
0      123     0.000000
1      123     0.707107
2      123     0.000000
3      123     0.000000
4      123     0.000000
5      123     0.707107
6      123     0.000000
7      234     0.000000
8      234     0.000000
9      234     0.577350
10     234     0.000000
11     234     0.577350
12     234     0.000000
13     234     0.577350
14     345     0.707107
15     345     0.000000
16     345     0.000000
17     345     0.707107
18     345     0.000000
19     345     0.000000
20     345     0.000000

但是，我不确定如何对两个数字列执行此操作，并且这不会引入二元组（功能名称）本身。另外，此方法需要一个数组（这就是我首先将稀疏矩阵转换为数组的原因），并且由于性能问题以及随后我必须删除无意义的行的事实，我希望尽可能避免这种情况。

任何见解都将不胜感激！非常感谢您花时间阅读这个问题 - 对于篇幅，我深表歉意。如果我可以做些什么来改进问题或澄清我的流程，请告诉我。

可以使用以下命令捕获二元组名称CountVectorizer's get_feature_names() http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html#sklearn.feature_extraction.text.CountVectorizer.get_feature_names。从那里开始，这只是一系列melt and merge运营：

print(data)

   number                               text              cleanText
0     123            The farmer plants grain    farmer plants grain
1     234  The farmer and his son go fishing  farmer son go fishing
2     345            The fisher catches tuna    fisher catches tuna

from sklearn.feature_extraction.text import CountVectorizer, TfidfTransformer

cv = CountVectorizer(token_pattern=r"(?u)\b\w+\b", stop_words=None, ngram_range=(2,2), analyzer='word')
dt_mat = cv.fit_transform(data.cleanText)

tfidf_transformer = TfidfTransformer()
tfidf_mat = tfidf_transformer.fit_transform(dt_mat)

The CountVectorizer在这种情况下，功能名称是二元组：

print(cv.get_feature_names())

[u'catches tuna',
 u'farmer plants',
 u'farmer son',
 u'fisher catches',
 u'go fishing',
 u'plants grain',
 u'son go']

CountVectorizer.fit_transform()返回稀疏矩阵。我们可以将其转换为密集表示，将其包装在DataFrame，然后将功能名称附加为列：

bigrams = pd.DataFrame(dt_mat.todense(), index=data.index, columns=cv.get_feature_names())
bigrams['number'] = data.number
print(bigrams)

   catches tuna  farmer plants  farmer son  fisher catches  go fishing  \
0             0              1           0               0           0   
1             0              0           1               0           1   
2             1              0           0               1           0   

   plants grain  son go  number  
0             1       0     123  
1             0       1     234  
2             0       0     345

要从宽格式变为长格式，请使用melt() http://pandas.pydata.org/pandas-docs/stable/generated/pandas.melt.html.
然后将结果限制为二元匹配（query() http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.query.html在这里很有用）：

bigrams_long = (pd.melt(bigrams.reset_index(), 
                       id_vars=['index','number'],
                       value_name='bigram_ct')
                 .query('bigram_ct > 0')
                 .sort_values(['index','number']))

    index  number        variable  bigram_ct
3       0     123   farmer plants          1
15      0     123    plants grain          1
7       1     234      farmer son          1
13      1     234      go fishing          1
19      1     234          son go          1
2       2     345    catches tuna          1
11      2     345  fisher catches          1

现在重复该过程tfidf:

tfidf = pd.DataFrame(tfidf_mat.todense(), index=data.index, columns=cv.get_feature_names())
tfidf['number'] = data.number

tfidf_long = pd.melt(tfidf.reset_index(), 
                     id_vars=['index','number'], 
                     value_name='tfidf').query('tfidf > 0')

最后合并bigrams and tfidf:

fulldf = (bigrams_long.merge(tfidf_long, 
                             on=['index','number','variable'])
                      .set_index('index'))

       number        variable  bigram_ct     tfidf
index                                             
0         123   farmer plants          1  0.707107
0         123    plants grain          1  0.707107
1         234      farmer son          1  0.577350
1         234      go fishing          1  0.577350
1         234          son go          1  0.577350
2         345    catches tuna          1  0.707107
2         345  fisher catches          1  0.707107

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

将 CountVectorizer 和 TfidfTransformer 稀疏矩阵转换为单独的 Pandas 数据帧行的相关文章

帮助需要在可选条件下编写正则表达式[关闭]

我有一个日志文件包含如下内容 log Using data from yyyy mm dd 2011 8 3 0 files queued for scanning Warning E test H ndler pdf File not F
Pip install 导致此错误“ cl.exe' failed with exit code 2 ”

我已经阅读了有关此错误的所有其他问题但令人沮丧的是没有一个给出有效的解决方案如果我跑pip install sentencepiece在命令行中它给出了以下输出 src sentencepiece sentencepiece wra
如何在 Django 管理中以表格格式显示添加模型？

我刚刚开始使用 Django 编写我的第一个应用程序为我的家庭设计的家务图表管理器在本教程中它向您展示了如何添加相关对象 http docs djangoproject com en dev intro tutorial02 cust
引发 RuntimeError(f"目录 '{directory}' 不存在") RuntimeError: 导入 fitz 时目录 'static/' 不存在

当我运行 extract img py 文件时出现此错误 RuntimeError f 目录 directory 不存在运行时错误导入 fitz 时不存在目录 static 我不明白为什么这会给我发回此错误消息我之前看到过关于这个话题
Python 使用 M2Crypto 通过 S/MIME 对消息进行签名

我现在花了几个小时但找不到我的错误我想要一个简单的例程来创建 S MIME 签名消息稍后可以与 smtplib 一起使用这是我到目前为止所拥有的 usr bin python2 7 coding utf 8 from future
可移植的非关系数据库

我想尝试尝试非关系数据库最好的解决方案是便携式这意味着它不需要安装理想情况下只需将目录复制粘贴到某个地方即可使其工作我不介意第一次使用时是否需要编辑一些配置文件或运行配置工具可从 python 访问适用于 Windows
在加载“cv2”二进制扩展期间检测到递归

我有一个小程序在 pyinstaller 编译后返回 opencv 错误但无需编译即可工作我在 Windows 10 上使用 Python 3 8 10 Program 导入 pyautogui将 numpy 导入为 np导入CV2
在 keras 中使用自定义张量流操作

我在张量流中有一个脚本其中包含自定义张量流操作我想将代码移植到 keras 但我不确定如何在 keras 代码中调用自定义操作我想在 keras 中使用tensorflow 所以到目前为止我发现的教程描述了与我想要的相反的内容 htt
向 Python 2.6 添加 SSL 支持

我尝试使用sslPython 2 6 中的模块但我被告知它不可用安装OpenSSL后我重新编译2 6 但问题仍然存在有什么建议么您安装了 OpenSSL 开发库吗我必须安装openssl devel例如在 CentOS 上在
如何使用 python 操作系统更改驱动器？

我正在尝试更改当前目录C to Y 我试过 import os os chdir Y 但我不断收到错误消息提示无法找到驱动器本质上我正在寻找相当于 cd d cmd 中的命令你确定吗Y 确实是有效的驱动器号吗 Try os chdir
如何使用python读取最后一行的特定位置

我有一个太大的 txt 文件并且有几行类似的行如下所示字1 字2 字3 字4 553 75 我对位置 4 值感兴趣即最后一行 553 75 我的文件文本 word1 word2 word3 word4 553 20 word1 w
InvalidArgumentException：消息：无效参数：“using”必须是字符串

我对 python 很陌生试图创建可重用的代码当我尝试通过传递 Login 类下使用的所有参数来调用 test main py 中的 Login 类和函数 login user 时我收到错误 InvalidArgumentExcept
如何使用 msgpack 进行读写？

如何序列化反序列化字典data with msgpack http msgpack org The Python 文档 http msgpack python readthedocs io en latest badge latest似乎
如何在matplotlib中基于x轴更改直方图颜色

我有根据 pandas 数据框计算出的直方图我想根据 x 轴值更改颜色例如 If the value is 0 the color should be green If the value is gt 0 the color shoul
PyQt - 如何检查 QDialog 是否可见？

我有个问题我有这个代码 balls Ball for i in range 1 10 因此当我说 Ball 时这将在 QDialog 上绘制一个球然后当这完成后我正在移动球QDialog无限循环中我想说类似的话while QDi
从 Python 中编译的正则表达式中提取命名组正则表达式模式

我有一个 Python 正则表达式其中包含多个命名组但是如果先前的组已匹配则可能会错过与一组匹配的模式因为似乎不允许重叠举个例子 import re myText sgasgAAAaoasgosaegnsBBBausgisego
在 scrapy 中将基本 url 与结果 href 结合起来

下面是我的蜘蛛代码 class Blurb2Spider BaseSpider name blurb2 allowed domains www domain com def start requests self yield self ma
Jinja2中获取请求参数

如何检索请求参数a在 Jinja2 模板中 http foo bar a 1 我这个答案有点晚了但其他解决方案并没有真正考虑到您对 Flask 的使用事实上您将 Flask 与 Jinja2 一起使用这使得您的情况与其他框架有点不同
使 matplotlib 图形默认看起来像 R？

Is there a way to make matplotlib behave identically to R or almost like R in terms of plotting defaults For example R t
如何使用 Python 将我的 GoPro Hero 4 相机直播连接到 openCV？

我在尝试从我的新 GoPro Hero 4 相机捕获实时流并使用 openCV 对其进行一些图像处理时遇到麻烦这是我的试用创建的窗口上没有显示任何内容 import cv2 import argparse import time imp

随机推荐

引用 jssc 库的可运行 jar 无法满足链接错误

我们正在创建一个可运行的 java jar 来在 beagleboneblack 运行 ubuntu 上运行我们创建了一个可运行的 jar 它可以在我们的 mac 和 pc windows 上运行良好但不能在 ubuntu 系统上运行
Skype for Business URI 而不是 Skype

因为我们可以选择通过提供 URI 来打开 Skype 中的链接 skype xyz call 我们可以做类似的事情来实现相同的功能但它会在 Skype for Business 中打开吗请告诉我 Cheers 经过大量研究后找到了解决方
为什么Linq GroupBy在OrderBy之后驳回了订单操作？

我有一个Action模型与Session导航属性考虑这段代码 var x db Actions OrderBy p gt p Session Number ThenBy p gt p Date it s OK x 是一个有序的 Actio
在 JasperReports 中以任意角度旋转文本

我在用iReport生成pdf 我需要以任意角度旋转文本正如我在文档中读到的那样 iReport可以将文本旋转 90 180 270 和 360 度我也想要它的动态值为此我尝试了这些过程但没有得到预期的结果使用自定义 jar 旋
删除列表项时出现意外的索引错误[重复]

这个问题在这里已经有答案了我是 Python 初学者我以前学过其他语言比如C 初学者和JQuery 但我发现 python 中的循环非常混乱好吧我想实现一个简单的结果程序将循环遍历单词列表然后删除与first两个字母与列表中
带有 MVC4 模型绑定的 Angular JS 因日期/日期时间而失败？

当使用 Angular JS 将复杂对象的日期时间和日期时间回发到服务器时值未正确绑定我尝试过 JSON stringify 无济于事我已经发布了一个相关问题但可能太笼统了我真正需要知道的是如何正确传递这些日期我目前正在做的是使
检测 NSString 中的电话号码

我想从 NSString 中提取电话号码例如在字符串中致电约翰 994 456 9966 我想提取994 456 9966 我尝试过类似的代码 NSString nameRegex d 3 s d 3 s d 4 NSPredicate
使用 IIS7 URL 重写模块强制使用 HTTPS 并避免重复的 URL

我需要强制每个请求https www mysite com https www mysite com 始终带有 https 和 www 该网站托管在 GoDaddy 中我需要通过 IIS7 URL 重写模块来完成此操作我已经能够使用以下
维护asp.net、C#中Fileupload控件的值

我在更新面板中使用 Fileupload 和 3 个下拉控件 3 个下拉列表将在下拉所选索引更改事件上回发即国家州和城市根据国家州和城市从数据库获取值问题是回发时文件名路径将从文件上传控件中消失如预期或默认属性我正在将
DocuSign Connect Webhook 不包括 HMAC 标头

我已经参考过this https stackoverflow com questions 56673644 docusign connect webhook call did not include hmac header x docusi
Inno Setup 和 VC Redistributable 并优雅地处理退出代码 3010

In my CurStepChanged我有一些安装 Visual Studio Redistributable 的代码如果需要代码片段 if bVcRedist64BitNeeded then begin if Exec Expand
如何将栅格更改为特定的空间分辨率？

我想更改光栅的分辨率例如我们以此 Landsat 7 图像分辨率约为 30m library terra gt terra 1 5 21 f lt system file tif L7 ETMs tif package stars r
Maven 在发布时不会复制未跟踪的资源

我的问题是关于使用 maven 进行发布时要包含在 jar 文件中的资源我正在使用 Maven 来构建我的项目当我运行时 mvn package 资源包含在输出 jar 中但当我跑步时 mvn release prepare mvn
ASP.NET 4 MVC 的身份模拟未按预期工作

我正在为我们的分析师构建一个 Intranet MVC 4 应用程序目标是允许内部用户访问此应用程序而无需登录因为他们是我们内部网络的一部分当他们访问应用程序时我希望能够捕获他们的 Windows 用户名并使用 LDAP 检查活动
document.getElementById()如何搜索DOM树？

我知道有些浏览器现在大多数会用一个 ID 来创建所有元素的哈希表因此在这种情况下对 document getElementById 的调用只能搜索哈希表但是在 DOM 树的上下文中它将如何执行此操作例如它是深度优先搜索吗我这
在解析 XAML 之前将静态 ResourceDictionary 添加到 UserControls

我有一个 WPF 控件我想在我的 WinForms 应用程序中的多个位置使用 ElementHost 使用该控件 gt 该控件的多个实例此外我希望 UserControl 的所有实例共享一个 ResourceDictionary 实
围绕非托管 DLL 的 C# 包装器库要求非托管 DLL 在构建期间位于同一目录中

通常当引用使用 PInvoke 包装非托管 DLL 的托管 DLL 时必须分别引用这两个 DLL 托管 DLL 作为标准
激活配置文件时在 Maven 子模块中添加依赖项

我和家长有一个项目pom xml定义配置文件以及debug轮廓
如何禁用 jQuery Mobile 中的链接按钮？

我有一个 jQuery Mobile Beta 1 网站其中包含 jQuery 1 6 1 链接按钮如下所示 a href TEST a 在 document ready 中我设置了点击事件 subselection livequery
将 CountVectorizer 和 TfidfTransformer 稀疏矩阵转换为单独的 Pandas 数据帧行

问题将 sklearn 的 CountVectorizer 和 TfidfTransformer 产生的稀疏矩阵转换为 Pandas DataFrame 列的最佳方法是什么每个二元组及其相应的频率和 tf idf 分数都有一个单独的行

将 CountVectorizer 和 TfidfTransformer 稀疏矩阵转换为单独的 Pandas 数据帧行

将 CountVectorizer 和 TfidfTransformer 稀疏矩阵转换为单独的 Pandas 数据帧行 的相关文章

随机推荐

热门标签

将 CountVectorizer 和 TfidfTransformer 稀疏矩阵转换为单独的 Pandas 数据帧行的相关文章