如何在 scikit-learn 中正确地将数字特征与文本（词袋）结合起来？

2024-02-14

我正在为网页编写一个分类器，因此我混合了数字特征，并且我还想对文本进行分类。我正在使用词袋方法将文本转换为（大）数值向量。代码最终是这样的：

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
import numpy as np

numerical_features = [
  [1, 0],
  [1, 1],
  [0, 0],
  [0, 1]
]
corpus = [
  'This is the first document.',
  'This is the second second document.',
  'And the third one',
  'Is this the first document?',
]
bag_of_words_vectorizer = CountVectorizer(min_df=1)
X = bag_of_words_vectorizer.fit_transform(corpus)
words_counts = X.toarray()
tfidf_transformer = TfidfTransformer()
tfidf = tfidf_transformer.fit_transform(words_counts)

bag_of_words_vectorizer.get_feature_names()
combinedFeatures = np.hstack([numerical_features, tfidf.toarray()])

这可行，但我担心准确性。请注意，有 4 个对象，并且只有两个数字特征。即使是最简单的文本也会产生具有九个特征的向量（因为语料库中有九个不同的单词）。显然，对于真实文本，将有数百或数千个不同的单词，因此最终的特征向量将是 1000 个基于单词的特征向量。

因此，分类器 (SVM) 是否会以 100 比 1 的系数对单词和数字特征进行加权？如果是这样，我该如何补偿以确保词袋与数字特征的权重相等？

我认为你的担忧是完全正确的，因为稀疏文本标记以一种天真的方式（作为多热向量）产生了更高的维度。您至少可以通过以下两种方法来解决这个问题。它们都会从文本中生成一个低维向量（例如 100 维）。当你的词汇量增加时，维度不会增加。

with 特征散列 https://scikit-learn.org/stable/modules/feature_extraction.html#feature-hashing。这适用于您的词袋模型。
with 词嵌入 https://en.wikipedia.org/wiki/Word_embedding (an 用法示例 https://stackoverflow.com/questions/55198750/using-pretrained-glove-word-embedding-with-scikit-learn与 scikit-learn 一起使用）或更高级的文本编码器，例如通用句子编码器 https://ai.googleblog.com/2019/07/multilingual-universal-sentence-encoder.html或任何最先进的变体BERT编码器 https://ai.googleblog.com/2018/11/open-sourcing-bert-state-of-art-pre.html.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何在 scikit-learn 中正确地将数字特征与文本（词袋）结合起来？的相关文章

Python argparse 作为函数

以这种方式获取命令行参数有什么本质上的错误吗我的意思是把参数解析放入它自己的函数中它会被认为是非 Pythonic 或更严重吗 usr bin python import argparse def getArgs argv None p
使用 JPype - 如何访问 JDBC 元数据函数

我在用着杰德贝API https launchpad net jaydebeapi它使用 JPype 加载 FileMaker 的 JDBC 驱动程序并提取数据但我也希望能够获取所有表的列表在数据库中 In the JDBC 文档 ht
使用 pdfkit 和 FastAPI 下载 PDF 文件

我将使用 FastAPI 创建一个 API 将HTML页面到 PDF 文件使用pdfkit 但是它将文件保存到我的本地磁盘当我在线提供此API后用户如何将该PDF文件下载到他们的计算机上 from typing import Opt
在 Python 中比较浮点数是否几乎相等的最佳方法是什么？

众所周知由于舍入和精度问题比较浮点数是否相等有点繁琐例如比较浮点数 2012 年版 https randomascii wordpress com 2012 02 25 comparing floating point number
使用 Python 将列名称与 CSV 文件中的数据对齐

这是我用来将数据写入 csv 文件的代码 with open temp csv a as fp a csv writer fp delimiter t data faceXpos faceYpos faceHeight faceWidth
如何使用 django Rest 框架保存多对多字段对象

我有博客发布标签三个模型在博客模型中我将字段 postedin 作为发布模型的外键将标签作为标签模型的许多字段模型 py class Posted models Model name models CharField Pos
使用 scipy、python、numpy 进行非线性 e^(-x) 回归

下面的代码为我提供了一条最佳拟合线的平坦线而不是沿着 e x 模型的一条适合数据的漂亮曲线谁能告诉我如何修复下面的代码以使其适合我的数据 import numpy as np import matplotlib pyplot as pl
使用 Python 打开新窗口时，selenium window_handles 不正确

我想使用 selenium 和 Python 在一个浏览器中打开多个选项卡并通过多个选项卡同时抓取实时投注赔率网站主页生成游戏列表但是除非您找到游戏元素并使用 click 该网站是 ajax 密集型否则无法获取游戏链接这会在同一
我可以在pycharm中的断点处进入交互模式吗

我是一个相当新的 Pycharm 3 用户正在从事 django 项目我可以在 pycharm3 中的断点处进入交互模式吗这可能吗当程序在断点处停止时我尝试过工具 gt 打开调试命令行但我没有看到控制台打开我怎样才能让它发挥作
LogRecord 没有预期的字段

在使用 logging 模块的Python中文档承诺LogRecord实例将具有许多属性这些属性在文档中明确列出然而情况似乎并不总是如此当我不使用日志记录模块的 basicConfig 方法时下面的程序显示属性 asctime
Python3 - 如何将字符串转换为十六进制

我正在尝试将字符串逐个字符转换为十六进制但我无法在Python3中弄清楚它在较旧的 python 版本中我的以下内容有效 test This is a test for c in range 0 len test print 0x s
将具有多个时区的 pandas 列转换为单个时区

Problem 我在 pandas DataFrame 中有一个列其中包含带有时区的时间戳此列中有两个不同的时区我需要确保只有一个这是该列末尾的输出 260003 2019 05 21 12 00 00 06 00 260004 2
无法使用 wxPython 打开在 folium 中生成的本地 HTML 文件

我目前正在尝试将 GPS 坐标绘制为地图上的标记并在 wxPython 中显示结果我使用 folium 绘制坐标标记并生成 HTML 文件 import folium fmap folium Map 43 5321 172 6362 z
NumPy 根据另一个数组中的值对第三个数组中的每个匹配元素求和一个数组

我有两个 numpy 数组一个包含值另一个包含每个值类别 values np array 1 2 3 4 5 6 7 8 9 10 valcats np array 101 301 201 201 102 302 302 202 102
Python 中的 Firebase 身份验证时出现 KeyError：“databaseURL”

相信你做得很好我是 firebase 的新手正在尝试进行用户身份验证我已经安装了pyrebase4并在firebase控制台上创建了一个项目我还启用了使用电子邮件和密码登录并尝试连接我的应用程序下面是我正在尝试的代码 impo
__author__ 的起源是什么？

使用私有元数据变量的约定在哪里 author 一个模块内部从何而来 This http mail python org pipermail python dev 2001 March 013328 htmlPython 邮件列表线程似乎暗示
Python：Factory Boy 生成对象创建时指定长度的列表

我正在尝试使用 Factoryboy 在创建时指定长度的对象中创建一个列表我可以创建列表但由于提供的长度大小的惰性性质每次尝试创建具有指定长度的列表都会导致问题这是我到目前为止所拥有的 class FooFactory facto
Tensorflow `tf.layers.batch_normalization` 不会向 `tf.GraphKeys.UPDATE_OPS` 添加更新操作

以下代码复制粘贴可运行说明了如何使用tf layers batch normalization import tensorflow as tf bn tf layers batch normalization tf constant
如何将动态数据传递给装饰器

我正在尝试编写一个基本的 CRUD 控制器类来执行以下操作下列的 class BaseCrudController model field validation template dir expose self template dir
类unix系统中的python和python3命令有什么区别？

我通读了每个命令的描述但每个命令的描述都是完全相同的所以我不明白这两个命令在类 Unix 系统中的工作方式有何不同谁能解释其中的区别吗 Python3命令的引入是因为python命令指向了python2 从那时起 Python3 已成

随机推荐

AutoMapper：如果源 == null，则创建目标类型的实例

如果源对象为 null 是否可以将 AutoMapper 配置为返回目标类型的新实例 Source source null Dest d1 AutoMapper Mapper Map
Azure ServiceBus QueueClient.OnMessage 是否在不同的线程上执行

QueueClient OnMessage 方法是否始终在不同线程上执行回调参数我假设如果 MaxConcurrentCalls 设置为 10 那么queueClient 将最多启动 10 个线程来并行处理消息如果传入 MaxConcu
.py 文件在浏览器中显示代码而不是运行

我正在尝试开始使用 Python 但无法为 localhost 正确设置我的服务器使用 Ampps Python 通过 IDLE 和命令行运行得很好但是当我在浏览器中打开文件时代码会显示但不会运行我跟着这个http www iml
如何在 Azure 中选择 blob 块大小

我想在 Azure 存储中使用追加 blob 当我上传 blob 时我应该选择块大小选择块大小时应该考虑什么如果我上传的文件大小大于块大小我看不出有什么区别如何选择合适的块大小根据你的描述我做了一些研究你可以参考它以更好地理
运行 Hadoop 示例在伪分布式模式下停止

在独立模式下一切都运行良好当进入伪分布式模式时 HDFS 运行良好我可以将文件放入 HDFS 并浏览它我还检查了活动节点列表中是否有一个 DataNode 然而当我跑步时bin hadoop jar hadoop examples
如何更新控制中心的播放位置？

这是我从指挥中心观察变化的方式 commandCenter playCommand addTarget self action selector play commandCenter pauseCommand addTarget self
如何通过点击号码从 webviewclient 打开拨号器活动？

我正在我的应用程序中实现网络视图现在当用户单击电话号码时它会显示净 ERR UNKNOWN URL SCHEME 但如果我使用铬它会带来带有该电话号码的拨号器应用程序我的应用程序中需要完全相同的东西当在 Web 视图中单击电话号
我在表视图中显示 JSON 图像时遇到问题

我正在尝试显示来自 API 的图像这些图像位于 URL 内我想用所有数组填充表视图但它在表视图中只显示一张图像这是我的代码 struct Autos let Marca String let Modelo String let Pr
INSERT INTO 因节点 mysql 失败

我正在尝试使用 node js 插入一些数据我编写了以下代码并通过 npm 安装了 MySQL 支持但我失败了INSERT INTO桌子这是我的代码 var mysql require mysql function BD var co
尝试从视图中删除片段会在 mNextAnim 上出现 NullPointerException

我有 3 个片段 1 个 NavigationDrawer 1 个 MapFragment 和 1 个用户定义的 MapInfoFragment 我希望 MapInfoFragment 在某些事件中在 MapFragment 顶部显示为半透
如何防止 NC_CALCSIZE 调整我的表单大小？ C＃

我正在创建一个自定义表单 C Windows Forms Vista Windows7 并重写 WndProc 来捕获 WM NCPAINT WM NCCALCSIZE 和 WM NCHITTEST 以绘制自定义框架我快完成了但有一个问
如何解决“ruby安装缺少psych”错误？

我使用rvm安装ruby 1 9 3 即使安装成功它还是抱怨 libyaml 现在每次我想安装 gem 比如 Rails 时都会出现此警告 It seems your ruby installation is missing psych
drop_duplicates 在 pandas 中不起作用？

我的代码的目的是导入 2 个 Excel 文件比较它们并将差异打印到新的 Excel 文件中然而在连接所有数据并使用drop duplicates函数代码被控制台接受但是当打印到新的 Excel 文件时当天仍保留重复项我错
iTunes Connect 开发人员拒绝 - 删除不需要的构建/二进制文件

我将二进制更新上传到新的 iTunesConnect 但尚未提交我发现了一个错误并尝试删除现有的二进制文件找不到方法来做到这一点然后我提交了审查但立即被拒绝了仍然找不到删除它并上传新的方法如何上传我的新版本或者如何取消更新并
Activity 泄露了 IntentReceiver android.widget.ViewFlipper

我正在添加一个ViewFlipper从布局资源膨胀为ListView as a Footer 这是我的鳍状肢布局为简洁起见省略了详细信息
跟踪 malloc 分配了多少内存

在快速浏览了 SO 上的相关问题后我推断没有函数可以检查 malloc 分配给指针的内存量我正在尝试使用 C 中的简单 char 来复制一些 std string 基本功能主要是动态大小并且不想一直调用 realloc 我想我需要跟
Android studio gradle与firebase同步错误：响应204：无内容没有内容

从今天早上开始我在 android studio 中同步我的 android 项目时遇到了麻烦当我尝试这样做时我每次都会遇到相同的错误部分错误 https i stack imgur com bD3S0 png 所有这些错误都是由同
Scala 不可变对象和具有 val 字段的特征

我想仅使用不可变对象构建我的域模型但我也想将特征与 val 字段一起使用并将一些功能移至特征请看下面的例子 trait Versionable val version 0 def incrementVersion copy versi
为什么我会收到“没有此类方法异常”？

这是我的代码看起来没问题但是当我编译程序时我得到 No Such method 异常 import java io IOException public class Invoked public static String celeb
如何在 scikit-learn 中正确地将数字特征与文本（词袋）结合起来？

我正在为网页编写一个分类器因此我混合了数字特征并且我还想对文本进行分类我正在使用词袋方法将文本转换为大数值向量代码最终是这样的 from sklearn feature extraction text import CountV

如何在 scikit-learn 中正确地将数字特征与文本（词袋）结合起来？

如何在 scikit-learn 中正确地将数字特征与文本（词袋）结合起来？ 的相关文章

随机推荐

热门标签

如何在 scikit-learn 中正确地将数字特征与文本（词袋）结合起来？的相关文章