自定义词汇上的 Sklearn Countvectorizer

2024-01-28

我有一组网页，我正在获取网页计数矩阵。我尝试使用标准计数向量化器 https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html来自 sklearn 但没有得到所需的结果。示例代码如下：

from sklearn.feature_extraction.text import CountVectorizer
corpus = ['www.google.com www.google.com', 'www.google.com www.facebook.com', 'www.google.com', 'www.facebook.com']
vocab = {'www.google.com':0, 'www.facebook.com':1}
vectorizer = CountVectorizer(vocabulary=vocab)
X = vectorizer.fit_transform(corpus)
print(vectorizer.get_feature_names())
print(X.toarray())

它给

['www.google.com', 'www.facebook.com']
[[0 0]
 [0 0]
 [0 0]
 [0 0]]

但需要的结果是

['www.google.com', 'www.facebook.com']
[[2 0]
 [1 1]
 [1 0]
 [0 1]]

我们如何在这样的自定义词汇表上应用 countvectorizer？

根据来自的输入相关问题 https://stackoverflow.com/questions/24007812/can-i-control-the-way-the-countvectorizer-vectorizes-the-corpus-in-scikit-learn?rq=1，由于分词器而出现此问题。编写了一个客户标记器，现在它可以工作了。

def mytokenizer(text):
    return text.split()

from sklearn.feature_extraction.text import CountVectorizer
corpus = ['www.google.com www.google.com', 'www.google.com www.facebook.com', 'www.google.com', 'www.facebook.com']
vocab = {'www.google.com':0, 'www.facebook.com':1}
vectorizer = CountVectorizer(vocabulary=vocab, tokenizer = mytokenizer)
X = vectorizer.fit_transform(corpus)
print(vectorizer.get_feature_names())
print(X.toarray())

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

自定义词汇上的 Sklearn Countvectorizer 的相关文章

如何防止 Keras 在训练期间计算指标

我正在使用 Tensorflow Keras 2 4 1 并且有一个无监督的自定义指标它将我的几个模型输入作为参数例如 model build model returns a tf keras Model object my met
支持向量机或人工神经网络进行文本处理？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案对于某些文本处理项目我们需要在支持向量机和快速人工神经网络之间做出选择它包括上下文拼写纠正然后将文本标记为某些短语及其同义词哪种方
Keras 中的损失函数和度量有什么区别？ [复制]

这个问题在这里已经有答案了我不清楚 Keras 中损失函数和指标之间的区别该文档对我没有帮助损失函数用于优化您的模型这是优化器将最小化的函数指标用于判断模型的性能这仅供您查看与优化过程无关
保存具有自定义前向功能的 Bert 模型并将其置于 Huggingface 上

我创建了自己的 BertClassifier 模型从预训练开始然后添加由不同层组成的我自己的分类头微调后我想使用 model save pretrained 保存模型但是当我打印它并从预训练上传时我看不到我的分类器头代码如下
Encog - 如何加载神经网络的训练数据

The NeuralDataSet我在实际中看到的对象除了 XOR 之外什么都没有它只是两个小数据数组我无法从文档中找出任何内容MLDataSet 似乎所有内容都必须立即加载但是我想循环遍历训练数据直到到达 EOF 然后将其算作
如何使用 pytorch 同时迭代两个数据加载器？

我正在尝试实现一个接收两张图像的暹罗网络我加载这些图像并创建两个单独的数据加载器在我的循环中我想同时遍历两个数据加载器以便我可以在两个图像上训练网络 for i data in enumerate zip dataloaders1
mlflow 如何使用自定义转换器保存 sklearn 管道？

我正在尝试使用 mlflow 保存 sklearn 机器学习模型这是一个包含我定义的自定义转换器的管道并将其加载到另一个项目中我的自定义转换器继承自 BaseEstimator 和 TransformerMixin 假设我有 2 个项
梯度下降有哪些替代方案？

梯度下降存在局部极小值问题我们需要运行梯度下降指数次来找到全局最小值谁能告诉我梯度下降的任何替代方案及其优缺点 Thanks See 我的硕士论文 https arxiv org pdf 1707 09725 pdf page 96对于
Fine-Tuning DistilBertForSequenceClassification：不是学习，为什么loss没有变化？权重没有更新？

我对 PyTorch 和 Huggingface transformers 比较陌生并对此尝试了 DistillBertForSequenceClassificationKaggle 数据集 https www kaggle com c
如何确定 Keras Conv2D 函数中的“filter”参数

我刚刚开始我的 ML 之旅并且已经完成了一些教程对我而言不清楚的一件事是如何为 Keras Conv2D 确定过滤器参数我读过的大多数资料只是将参数设置为 32 没有任何解释这只是经验法则还是输入图像的尺寸起作用例如 CIF
预测测试图像时出现错误 - 无法重塑大小数组

我正在尝试使用 TensorFlow 和 Keras 在 Python 中进行图像识别并且我已经关注了下面的博客 https stackabuse com image recognition in python with tensorfl
kmeans 对分组数据进行聚类

目前我尝试在分组数据中找到簇的中心通过使用示例数据集和问题定义我能够创建kmeans每个组内的集群然而当涉及到给定组的集群的每个中心时我不知道如何获取它们 https rdrr io cran broom man kmeans
ValueError：请使用“Layer”实例初始化“TimeDistributed”层

我正在尝试构建一个可以在音频和视频样本上进行训练的模型但出现此错误ValueError Please initialize TimeDistributed layer with a Layer instance You passed Te
McNemar 在 Python 中的测试以及分类机器学习模型的比较 [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案有没有用 Python 实现的好的 McNemar 测试我在 Scipy stats 或 Scikit
如何将标记化中的多单词名称保留在一起？

我想使用 TF IDF 特征对文档进行分类一种方法是 from sklearn feature extraction text import TfidfVectorizer import string import re import n
如何在 scikit 中加载 CSV 数据并将其用于朴素贝叶斯分类

尝试加载自定义数据以在 Scikit 中执行 NB 分类需要帮助将示例数据加载到 Scikit 中然后执行 NB 如何加载目标的分类值使用相同的数据进行训练和测试或使用完整的数据集进行测试 Sl No Member ID Membe
使用 NLP 进行地址分割

我目前正在开发一个项目该项目应识别地址的每个部分例如来自 str Jack London 121 Corvallis ARAD ap 1603 973130 输出应如下所示 street name Jack London no 121
PHP 和 NLP：嵌套括号（解析器输出）到数组？

想要将带有嵌套括号的文本转换为嵌套数组以下是 NLP 解析器的输出示例 TOP S NP PRP I VP VBP love NP NP DT a JJ big NN bed PP IN of NP NNS roses 原文我喜欢一大床
用枢轴点拟合曲线 Python

我有下面的图我想用 2 条线来拟合它使用 python 我设法适应上半部分 def func x a b x np array x return a x b popt pcov curve fit func up x up y 我想用另
Keras：多类 NLP 任务中 model.evaluate 与 model.predict 的准确性差异

我正在使用以下代码在 keras 中为 NLP 任务训练一个简单模型训练集测试集和验证集的变量名称是不言自明的该数据集有 19 个类因此网络的最后一层有 19 个输出标签也是 one hot 编码的 nb classes 19 m

随机推荐

ImportError：无法从“google.cloud”（未知位置）导入名称“aiplatform”

我想知道这个错误是从哪里来的必须另外安装该软件包google cloud 没那么简单只需做pip install google cloud aiplatform
如何修改长时间运行的脚本，使其不会冻结 Inno Setup GUI？

我有一个 Inno Setup 安装它执行一些耗时的 AfterInstall 操作当执行此操作时安装 GUI 完全冻结似乎它的主事件循环未处理这不是一个愉快的最终用户体验所以也许这个操作可能不冻结 GUI 就像在单独的线程中执
即使在 ssh-agent 启动后，“无法打开与您的身份验证代理的连接”，ssh-add 错误

我需要添加多个 ssh 密钥所以我需要执行ssh add 但我得到的错误Could not open a connection to your authentication agent 我读了很多帖子比如无法打开与您的身份验证代理的连接
android：在新终端窗口中找不到命令

在我安装了android环境并将路径放入这个问题中后我遇到了一个奇怪的问题link https stackoverflow com questions 10969753 android command not found 我写命令 and
Common Lisp 类型与类的区别

在帖子中Common Lisp 类层次结构 https stackoverflow com questions 42514204 common lisp class hierarchy Rainer Joswig 和 Joshua Tayl
使用 Anko 从 Activity 访问视图

我知道我可以使用id使用 Anko 属性来标识视图 class MainActivityUI AnkoComponent
从 MongoDB“集合”中获取所有“文档”

我需要检索 MongoDB 中我的集合中的所有文档但我不知道如何操作我已经这样宣布我的收藏了 private static IMongoCollection
使用facet_wrap更改ggplot中的y限制以混合对数和常规比例

我有一个数据集其中一组的值范围很广使用 ggplot 的facet wrap 我将以对数刻度绘制一组具有最宽值范围的组的 y 轴和另一组的常规轴下面是一个可重现的示例 set seed 123 FiveLetters lt LET
Android：使用 Kotlin 时进度条不能为 null

我正在解雇一个进度条在我的应用程序中进行 webService 调用后但它因这个异常而崩溃 IllegalStateException search progress bar must not be null 我正在使用科特林这是我的布
复制简单结构时 memcpy 和 '=' 之间的区别[重复]

这个问题在这里已经有答案了考虑复制一个不需要特殊复制语义的简单结构 struct A char i int i long l double b maybe more member struct A a a c a skip other m
在 Mercurial 中，我如何查看过去 24 小时内推送到存储库的修订？

我有一个 Mercurial 存储库几个人从他们自己的本地存储库推送到该存储库我希望能够查询这个中央存储库以获取所有更改到达该存储库在过去 24 小时内特别是not just的变化是坚定的在过去 24 小时内 The hg 日志日期
在 PowerShell 中共享文件夹并设置权限

我需要一个在 Vista Ultimate 上运行的脚本来共享外部驱动器并将完全控制权分配给每个人我有一个批处理文件来创建共享net share 但似乎没有办法更改权限我认为这在 PowerShell 中一定是可能的但我不知道从哪里开
如何在C#中使用EPPLUS的一个对象多次写入excel

参考一些EPPLUS示例代码只为一项活动创建一个epplus对象 ex using ExcelPackage package new ExcelPackage newFile activity 这意味着活动完成后对象将被自动处理接下来
尝试为 GreenDAO 运行 DaoGenerator 时出现 NoClassDefFoundError

我有一个 Android 项目使用 Android Studio 2 3 它使用 GreenDAO 生成与 SQLite 数据库交互的类 DaoGenerator 项目以前一直有效但今天我只需要向实体添加 2 列属性每当我尝试运行生
在u-boot中，kernel_entry指向哪个函数？

这是 u boot 的函数 static void boot jump linux bootm headers t images int flag ifdef CONFIG ARM64 void kernel entry void fdt
使用 virtualenv pip 安装 Matplotlib 错误

我正在尝试在新的 virtualenv 中安装 matplotlib 当我做 pip install matplotlib or pip install http sourceforge net projects matplotlib fi
Firebase 消息传递无法在现代 Android 即时应用程序中运行 - DisplayNotificationRequired？

我已经阅读了所有相关的 SO 问题其中大部分是在 2017 年或 2018 年初回答的当时 Google 简化了即时应用程序的创建方式就我而言我创建了一个即时启用的应用程序包此处描述 https developer androi
使用 lambda getter 和 setter 创建属性

我有这样的事情 class X def init self self name None def process value self value do something pass def get name self return sel
使用纯 JavaScript 设置样式[重复]

这个问题在这里已经有答案了我想在没有 jQuery 的情况下设置正文的背景 Jquery代码 body css background red 为什么下面的代码在纯 JavaScript 中不起作用 document getElements
自定义词汇上的 Sklearn Countvectorizer

我有一组网页我正在获取网页计数矩阵我尝试使用标准计数向量化器 https scikit learn org stable modules generated sklearn feature extraction text CountVe

自定义词汇上的 Sklearn Countvectorizer

自定义词汇上的 Sklearn Countvectorizer 的相关文章

随机推荐

热门标签