添加对 CountVectorizer (sklearn) 的词干支持

2024-03-27

我正在尝试使用 sklearn 将词干添加到 NLP 中的管道中。

from nltk.stem.snowball import FrenchStemmer

stop = stopwords.words('french')
stemmer = FrenchStemmer()


class StemmedCountVectorizer(CountVectorizer):
    def __init__(self, stemmer):
        super(StemmedCountVectorizer, self).__init__()
        self.stemmer = stemmer

    def build_analyzer(self):
        analyzer = super(StemmedCountVectorizer, self).build_analyzer()
        return lambda doc:(self.stemmer.stem(w) for w in analyzer(doc))

stem_vectorizer = StemmedCountVectorizer(stemmer)
text_clf = Pipeline([('vect', stem_vectorizer), ('tfidf', TfidfTransformer()), ('clf', SVC(kernel='linear', C=1)) ])

当将此管道与 sklearn 的 CountVectorizer 一起使用时，它可以工作。如果我手动创建这样的功能，它也可以工作。

vectorizer = StemmedCountVectorizer(stemmer)
vectorizer.fit_transform(X)
tfidf_transformer = TfidfTransformer()
X_tfidf = tfidf_transformer.fit_transform(X_counts)

EDIT:

如果我在 IPython Notebook 上尝试此管道，它会显示 [*] 并且没有任何反应。当我查看终端时，出现以下错误：

Process PoolWorker-12:
Traceback (most recent call last):
  File "C:\Anaconda2\lib\multiprocessing\process.py", line 258, in _bootstrap
    self.run()
  File "C:\Anaconda2\lib\multiprocessing\process.py", line 114, in run
    self._target(*self._args, **self._kwargs)
  File "C:\Anaconda2\lib\multiprocessing\pool.py", line 102, in worker
    task = get()
  File "C:\Anaconda2\lib\site-packages\sklearn\externals\joblib\pool.py", line 360, in get
    return recv()
AttributeError: 'module' object has no attribute 'StemmedCountVectorizer'

Example

这是完整的例子

from sklearn.pipeline import Pipeline
from sklearn import grid_search
from sklearn.svm import SVC
from sklearn.feature_extraction.text import CountVectorizer, TfidfTransformer
from nltk.stem.snowball import FrenchStemmer

stemmer = FrenchStemmer()
analyzer = CountVectorizer().build_analyzer()

def stemming(doc):
    return (stemmer.stem(w) for w in analyzer(doc))

X = ['le chat est beau', 'le ciel est nuageux', 'les gens sont gentils', 'Paris est magique', 'Marseille est tragique', 'JCVD est fou']
Y = [1,0,1,1,0,0]

text_clf = Pipeline([('vect', CountVectorizer()), ('tfidf', TfidfTransformer()), ('clf', SVC())])
parameters = { 'vect__analyzer': ['word', stemming]}

gs_clf = grid_search.GridSearchCV(text_clf, parameters, n_jobs=-1)
gs_clf.fit(X, Y)

如果您从参数中删除词干，它将起作用，否则它将不起作用。

UPDATE:

问题似乎出在并行化过程中，因为当删除n_职位=-1问题消失。

您可以将可调用对象传递为analyzer to the CountVectorizer构造函数提供自定义分析器。这似乎对我有用。

from sklearn.feature_extraction.text import CountVectorizer
from nltk.stem.snowball import FrenchStemmer

stemmer = FrenchStemmer()
analyzer = CountVectorizer().build_analyzer()

def stemmed_words(doc):
    return (stemmer.stem(w) for w in analyzer(doc))

stem_vectorizer = CountVectorizer(analyzer=stemmed_words)
print(stem_vectorizer.fit_transform(['Tu marches dans la rue']))
print(stem_vectorizer.get_feature_names())

打印出：

  (0, 4)    1
  (0, 2)    1
  (0, 0)    1
  (0, 1)    1
  (0, 3)    1
[u'dan', u'la', u'march', u'ru', u'tu']

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

NLP

scikitlearn

添加对 CountVectorizer (sklearn) 的词干支持的相关文章

为什么Python有最大递归深度？

Python有最大递归深度但没有最大迭代深度为什么递归受到限制把递归当成迭代来对待而不限制递归调用的次数不是更自然吗我只想说这个问题的根源来自于尝试实现流参见这个问题 https stackoverflow com questi
Celery计划任务中的打印语句不会出现在终端中

当我跑步时celery A tasks2 celery worker B我想看到每秒打印芹菜任务目前没有打印任何内容为什么这不起作用 from app import app from celery import Celery from
如何使用 pandas 选择所有非 NaN 列和非 NaN 最后一列？

如果标题有点令人困惑请原谅我假设我有test h5 下面是使用读取该文件的结果df read hdf test h5 testdata 0 1 2 3 4 5 6 0 123 444 111 321 NaN NaN NaN 1 12 2
Python 小数.InvalidOperation 错误

当我运行这样的东西时我总是收到此错误 from decimal import getcontext prec 30 b 2 3 Decimal b Error Traceback most recent call last File Te
将打开关闭的 Google Chrome 浏览器添加到 Selenium linkedin_scraper 代码中

我正在尝试抓取一些知名人士的 LinkedIn 个人资料该代码获取一堆 LinkedIn 个人资料 URL 然后使用Selenium and scrape linkedin收集信息并将其作为 json 文件保存到文件夹中我遇到的问题是
引发 RuntimeError(f"目录 '{directory}' 不存在") RuntimeError: 导入 fitz 时目录 'static/' 不存在

当我运行 extract img py 文件时出现此错误 RuntimeError f 目录 directory 不存在运行时错误导入 fitz 时不存在目录 static 我不明白为什么这会给我发回此错误消息我之前看到过关于这个话题
通过鼻子测试检查某个函数是否发出警告

我正在使用编写单元测试nose http somethingaboutorange com mrl projects nose 0 11 2 我想检查函数是否引发警告该函数使用warnings warn 这是很容易就能做到的事情吗 def
十六进制数的按位异或

我们如何在 Python 中对十六进制数进行异或例如我想要异或 ABCD and 12EF 答案应该是 B922 我使用了下面的代码但它给出了错误的结果 xor two strings of different lengths def
可移植的非关系数据库

我想尝试尝试非关系数据库最好的解决方案是便携式这意味着它不需要安装理想情况下只需将目录复制粘贴到某个地方即可使其工作我不介意第一次使用时是否需要编辑一些配置文件或运行配置工具可从 python 访问适用于 Windows
对图像使用 Pixellib 自定义训练时出现 input_image 元形状错误

我正在使用 Pixellib 来训练自定义图像实例分割我创建了一个数据集可以在下面的链接中看到数据集 https drive google com drive folders 1MjpDNZtzGRNxEtCDcTmrjUuB1ics
Python 字典 - 在 2 个字符的字符串中查找第二个字符，该字符产生最小值

我想提交密钥的第一部分并返回该密钥的剩余部分以最小化值并从第一部分开始例如 d ab 100 ac 200 ad 500 如果我要进去 a I would like to return b min d s s for s in d i
Selenium Webdriver - Python - leboncoin - pb 选择带重音的按钮

我正在尝试在以下网站上自动填写表格 https www leboncoin fr https www leboncoin fr 我用 Selenium IDE 录制了一个脚本我有一个通过单击 Se 连接器按钮并填写我的密码和用户名来自动
在函数调用之间保存数据的Pythonic方式是什么？

对我来说上下文是我需要在调用修改该值的函数之间保留的单个 int 的信息我可以使用全局但我知道这是不鼓励的现在我使用了包含 int 的列表形式的默认参数并利用了可变性以便在调用之间保留对值的更改如下所示 def increm
在 MATLAB 中创建共享库

一位研究人员在 MATLAB 中创建了一个小型仿真我们希望其他人也能使用它我的计划是进行模拟清理一些东西并将其变成一组函数然后我打算将其编译成C库并使用SWIG https en wikipedia org wiki SWIG创建一
Python 垃圾收集有时在 Jupyter Notebook 中不起作用

我的一些 Jupyter 笔记本经常出现 RAM 不足的情况而且我似乎无法释放不再需要的内存这是一个例子 import gc thing Thing result thing do something thing None gc col
如何在 Python 中仅列出 zip 存档中的文件夹？

如何仅列出 zip 存档中的文件夹这将列出存档中的每个文件夹和文件 import zipfile file zipfile ZipFile samples sample zip r for name in file namelist pr
在Python中计算结构体的CRC

我有以下结构来自 C 中的 NRPE 守护程序代码 typedef struct packet struct int16 t packet version int16 t packet type uint32 t crc32 value
在 scrapy 中将基本 url 与结果 href 结合起来

下面是我的蜘蛛代码 class Blurb2Spider BaseSpider name blurb2 allowed domains www domain com def start requests self yield self ma
测试中的模型 - Django 1.7 问题

我正在尝试将我的项目移植为使用 Django 1 7 除了一件事之外一切都很好测试文件夹内的模型 Django 1 7 新迁移在内部运行 migrate 命令在运行syncdb之前这意味着如果模型未包含在迁移中它将不会填充到数据库
使 matplotlib 图形默认看起来像 R？

Is there a way to make matplotlib behave identically to R or almost like R in terms of plotting defaults For example R t

随机推荐

初始化类成员向量的大小失败

我是 C 新手遇到了这个问题这是我的代码 class A std vector
在为项目构建不同的 Eclipse CDT 共享资源文件夹中

我有一组 Eclipse c 项目它们都引用公共共享代码库同一文件夹中的 c 和 h 文件的混合但会根据每个项目以不同的方式构建该代码可以在每个项目内编辑公共代码库但这些编辑将是在所有项目中进行的修复除了通过定义的构建选项之外
Flask 结构——无法从 __init__.py 导入应用程序

我是 python 的初学者并且在使用设置应用程序的结构时遇到了很多麻烦 init py即使在搜索了几个教程之后目前我当前的目录结构如下所示 parent myapp init py views py virtualenv 以前我有
Java 8 Lambda，过滤HashMap，无法解析方法

我对 Java 8 的新功能有点陌生我正在学习如何按条目过滤地图我看过本教程 http www leveluplunch com java examples filter map by value and 这个帖子 https stac
有界上下文共享相同的聚合

DDD 公开了有界上下文领域模型聚合但我经常错过业务规则的关键点我想知道业务规则如何集成到这种方法中这是一个例子假设您在一家信贷公司中有 2 个有界上下文一项用于追偿债务另一项用于提前退款这些背景嵌入了真正的业务特性从概
Term::ReadKey，原始模式下的非阻塞读取：检测到 EOF？

当我将内容通过管道传输到程序中时它似乎没有获得任何像 0x4 这样的字符来指示 EOF echo abc map cat saw a x61 saw b x62 saw c x63 saw x0A zzzbc C 我必须按 Ctrl C
如何直接从我的 Gitlab 存储库部署到 Heroku

在我的团队中我们使用 Gitlab 作为远程存储库因此我们正在寻找一种解决方案来将应用程序自动部署到 Heroku 我们找到了 Codeship 用于从 Github 自动将应用程序部署到 Heroku 有小费吗技巧如果您不准备使用
波特油炸的去梗

为什么波特词干算法在线 http text processing com demo stem http text processing com demo stem stem fried to fri并不是fry 我不记得任何以以下结尾的单词
Mjpeg 在最近的 Mobile Safari 上损坏了？

我正在处理来自 IP 摄像机的实时 mjpeg 流发现最近发布的 Mobile Safari 似乎对 mjpeg 的支持被破坏了我正在使用一个带有嵌入图像的简单 HTML 测试页面如下所示 img src http ip addres
使用流复制文件

以下示例演示如何使用流复制文件 private void copyWithStreams File aSourceFile File aTargetFile boolean aAppend log Copying files with st
Android底部导航视图项目图标大小[重复]

这个问题在这里已经有答案了 I need to do a bottom navigation view in Android like this I tried and now I have something like this 如何增加
在 Clojure 中实现 cron 类型调度程序

我正在寻找任何可以在给定时间触发事件的 clojure 方法例如我希望一个特定的进程在上午 9 30 启动然后我可以触发另一个进程在半小时后开始运行等等提前致谢更新2 感谢 arthur ulfeoldt 和 unknown p
是否可以将 Camera2 与 Google Vision API 一起使用

是否可以仅使用 Camera2 和 Google Vision API 来检测人脸我找不到整合它的方法是的可以将 Camera2 API 与 Google Vision API 一起使用首先 Google Vision API 人脸
使用 SDK 在 azure 函数中将 Azure blob 存储转换为 JSON

我正在尝试创建一个计时器触发器 azure 函数该函数从 blob 获取数据聚合数据并将聚合结果放入 cosmosDB 中我之前尝试使用 azure 函数中的绑定来使用 blob 作为输入但我被告知这是不正确的请参阅此线程 Az
如何以编程方式读取 EF DbContext 元数据？

我有使用 EF CodeFirst 5 的应用程序 dll 版本 4 4 0 0 在 net 4 0 上我需要能够读取实体元数据以便我可以针对给定的条目类型获取以下信息哪些属性是一对多关系引用实体哪些属性是多对一关系引用当前实体
从 SQL Server 中的日期时间字段中获取“日期”

我有一个日期列其中日期以格式显示2009 11 18 10 55 28 370 我只想从该值中获取日期而不是时间我怎么做如果您使用的是 SQL Server 2008 则现在有 DATE 数据类型让它变得更加自然 SELECT C
PHP Curl 收到 502：错误网关错误

在浏览器中该 url 有效当我尝试使用 PHP curl 时我得到了 502 Bad Gateway error 这是我的代码 ch curl init curl setopt ch CURLOPT URL url query str
popen vs system：popen 和 system 一样邪恶吗？

popen 缓冲输出而系统则不缓冲这是唯一的区别吗据我所知 popen 和 system 都通过 shell 运行命令然而 popen 是evil http www cplusplus com forum articles 1115
使用“using”关键字使继承的构造函数公开[重复]

这个问题在这里已经有答案了我正在尝试测试我的类的受保护方法和构造函数为此我尝试对其进行子类化并使用 C 11 将其成员重新导出为 publicusing关键词 class Foo protected Foo int i void r
添加对 CountVectorizer (sklearn) 的词干支持

我正在尝试使用 sklearn 将词干添加到 NLP 中的管道中 from nltk stem snowball import FrenchStemmer stop stopwords words french stemmer French

添加对 CountVectorizer (sklearn) 的词干支持

添加对 CountVectorizer (sklearn) 的词干支持 的相关文章

随机推荐

热门标签

添加对 CountVectorizer (sklearn) 的词干支持的相关文章