Sklearn CountVectorizer：将表情符号保留为单词

2024-03-22

我正在使用 SklearnCountVectorizer在字符串上但是CountVectorizer丢弃文本中的所有表情符号。

例如，???? Welcome应该给我们：["\xf0\x9f\x91\x8b", "welcome"]

但是，运行时：

vect = CountVectorizer()
test.fit_transform(['???? Welcome'])

我只得到：["welcome"]

这与token_pattern它不将编码的表情符号算作一个单词，但是有一个自定义的token_pattern处理表情符号？

是的你是对的！token_pattern必须改变。我们可以将其设置为，而不仅仅是字母数字字符除空格之外的任何字符.

尝试这个！

from sklearn.feature_extraction.text import TfidfVectorizer
s= ['???? Welcome', '???? Welcome']

v = TfidfVectorizer(token_pattern=r'[^\s]+')
v.fit(s)
v.get_feature_names()

# ['welcome', '????']

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

scikitlearn

NLP

countvectorizer

Sklearn CountVectorizer：将表情符号保留为单词的相关文章

Python 3 中的递归搜索 JSON/DICT

我在 Python 3 中实现了一些 API 这些 API 允许我根据班级代码接收有关学校的信息但我想知道如何通过类代码获取信息例子我输入代码GF528S我希望程序告诉我班级 3C INF 地址 Address 1 Milan 如果可
为什么 python 允许没有“pass”语句的空函数（带有文档字符串）主体？

class SomeThing object Represents something def method one self This is the first method will do something useful one da
如何计算总和的平方和？

我有一笔款项需要加快处理速度在一种情况下是 S x y k l Fu ku Fv lv Fx kx Fy ly 另一种情况是 S x y S k l Fu ku Fv lv Fx kx Fy ly 2 注意 S indices 是这些索引
用于在 Windows 中自动执行桌面活动的 Python 代码

我想使用 Python 在 Windows 环境中自动化桌面活动怎样才能做到呢一些例子也会有帮助我所说的桌面活动是指控制鼠标和键盘访问活动窗口属性双击桌面上的图标最小化和最大化窗口通过键盘向输入弹出窗口输入数据等操作看一下S
无法在 python 中导入名称 GoogleMaps

我使用下面的代码来获取地址的纬度和经度 from googlemaps import GoogleMaps gmaps GoogleMaps api key address Constitution Ave NW 10th St NW Wa
防止脚本目录被添加到Python 3中的sys.path

有没有办法阻止脚本的目录被添加到python3中的sys path 由于导入在 python 中是相对的因此我遇到了导入冲突我正在处理的一个遗留项目有一个名为logger py在与内置冲突的脚本的根目录中logger 我使用的自定义构建
有没有办法清理 jinja2 生成的 html？

我们使用 jinja2 来创建 html 但是由于我们在 jinja 中执行许多循环和其他操作来生成 html 所以 html 看起来很丑注意这只是为了美观我们可以做些什么来清理 html 吗除了清理我们的 jinja2 代码之
在 pandas 数据框中按列应用 Seaborn 热图

我试图在枢轴熊猫数据帧上使用seaborn的热图就像在超链接中一样有效 df pd DataFrame np random randint 1 100 size 3 2 df columns A B df sns heatmap df a
如何为 apscheduler 指定“记录器”

我正在尝试学习如何使用 Python 的 apscheduler 包但它会定期抛出以下错误 No handlers could be found for logger apscheduler scheduler 该消息似乎与计划作业中的错
使用 PRAW 帮助获取 Reddit 帖子链接到的 URL

我正在尝试使用 Praw 获取 Reddit 提交标题中链接的帖子例如提交 http www reddit com r AdviceAnimals comments 1adu71 apparently people still need
尽管 Matplotlib FuncAnimation(...,repeat=False) 保存的动画图不断循环

我想使用制作动画matplotlib进行 Powerpoint 演示动画应该只播放一次在我的代码中参数repeat of FuncAnimation 被设置为 false 因为我需要将图导入到powerpoint中所以我使用保存它a
self.assertRaises 作为上下文管理器，但 msg 参数未按预期工作

请检查以下代码 import unittest CORRECT MESSAGE Correct message WRONG MESSAGE Wrong message def fn raise KeyError CORRECT MESSAG
如何在海龟图形中将多个按键绑定在一起？

我正在尝试制作一个连接点的 python 游戏我希望游戏记录 2 次按钮按下操作示例如果用户按向上和向右箭头键乌龟将向东北方向移动 45 度这是我的代码 import turtle flynn turtle Turtle win
Jupyter 笔记本中未显示绘图

我正在尝试为 Anscombe 数据集创建 2x2 图加载数据集并分离数据集中的每个类 import seaborn as sns import matplotlib pyplot as plt anscombe sns load dat
在 Python 中进行模糊键查找的最佳方法？

我遇到一个问题我需要在哈希映射中进行模糊查找即返回与最接近查询的键相对应的值在我的例子中是通过 Levenshtein 距离测量的我目前的方法是子类化dict使用特殊的查找方法计算所有键的编辑距离然后返回得分最低的键的值基本上是
django REST框架多源领域

假设我的 models py 中有这些 models py class Theme models Model An theme is an asset of multiple levels adventure models ForeignK
Python range() 和 zip() 对象类型

我了解功能如何range and zip 可以在 for 循环中使用然而我期望range 输出一个列表很像seq在 Unix shell 中如果我运行以下代码 a range 10 print a 输出是range 10 表明它不是一
如何在 Python 中将 .docx 转换为 .txt

我想将大量 MS Word 文件转换为纯文本格式我不知道如何在 Python 中做到这一点我在网上找到了以下代码我的路径是本地路径所有文件名都类似于 cx xxx 即 c1 000 c1 001 c2 000 c2 001 等 fr
使 flake8 区分未定义函数和星型导入

我有一个相当大的项目我试图在发布之前清理它但是当我运行 flake8 时我得到了大量的 F405
从受密码保护的 Excel 文件到 pandas DataFrame

我可以使用以下命令打开受密码保护的 Excel 文件 import sys import win32com client xlApp win32com client Dispatch Excel Application print Exce

随机推荐

如何使用 Dapper ORM 获取子对象的值？

我正在使用以下内容检索个人资料详细信息 var profiles connection Query
GitHub自动合并后出现致命错误

我在 GitHub 上有一个存储库位于here https github com dapphp securimage 我为某人创建了一个工作分支他们分叉了存储库对工作分支进行了一些更改并提交了拉取请求我尝试了这些更改一切都很好而
在javascript中调用php函数而不等待响应

我知道如何使用 ajax 我有一个 Codeigniter 项目所以我只需调用 url 这一切都很好但 ajax 等待响应我只想像您在浏览器中输入的那样调用该网址我不想等待响应因为控制器会进行重定向然后加载视图我还需要能够通过
Pandas 将 Series/DataFrame 限制为一列的值范围

我想要一个函数 df out df in val min val max 它通过选择一列中的值在定义范围内的行来从另一个系列数据帧中生成排序的系列数据帧例如如果 df in 看起来像这样 Name Age John 13 Jack
Laravel 8 迁移“一般错误：1215 无法添加外键约束”

我正在尝试在 Laravel 8 上创建迁移这是我的表 class CreateProductVariationOrderTable extends Migration Run the migrations return void pub
动态更改打印数据

我正在寻找一种方法来操纵发送到打印机目前是喷墨打印机可能是 HP 2460 的数据我想在打印机每次尝试打印时动态更改数据 IE 在点 1 处打印的页面将正常保留但纸张可能会改变其位置因此我正在寻找一种旋转输入图像以抵消纸张旋转的
如何在 Android 中创建带有虚线/点线分隔线的 ListView？

我设法通过创建一个名为的文件来弄清楚如何创建自定义形状带有虚线 dash xml里面的应用程序 res drawable folder
Jenkins 工件插件不归档空目录

我使用 Jenkins 工件插件来向下流使用我的问题是尽管我付出了一切努力但空文件夹并未被存档显然 svn 文件也没有存档首先你是对的空目录不能被归档因为目录作为 Jenkins 中的工件并没有真正的意义如果您要将工件复制
OAuth2（授权代码授予类型）的重定向 URI 中是否应该存在动态查询参数

诸如此类的来源Okta 赞助网站 https www oauth com oauth2 servers redirect uris redirect uri registration 参见按请求定制部分提到授权请求的redirect
将文件添加到文件夹时运行 Google 脚本

我希望每次将文件添加到特定文件夹时运行谷歌脚本这可以做到吗目前我有一个触发器使脚本每分钟运行一次但这并不总是足够快 function mainFunction const folderID folderID provide here
使用 pymssql 连接到 SQL Server 实例

我正在尝试使用 pymssql 版本 2 0 0b1 dev 20111019 使用 Python 2 7 1 从 Windows 机器连接到 SQL Server 实例我已经从控制台尝试了最基本的方法 import pymssql c
将 GLEW 与 CMake 链接

如何使用 CMake 将 GLEW 链接到项目我们已经尝试使用 CMake 将 GLEW 链接到我们的项目至少 3 个小时但没有成功因此接受任何帮助我正在使用 CMake 3 1 0 附带的 FindGLEW cmake CMake
WPF 中动画宽度与实际宽度？

在 WPF 中如何将元素的宽度从 0 动画到其实际宽度我试过这个
RegEx Tokenizer：将文本拆分为单词、数字、标点符号和空格（不要删除任何内容）

I almost找到了这个问题的答案这个线程 https stackoverflow com questions 5214177 regex tokenizer to split a text into words digits and p
为什么继承类的实例无法访问不同包中基类的受保护成员

我有 3 个 A B C 类 package com training protectedclass A public class A protected int value package com training protectedcl
iText7 将 HTML 转换为 PDF“System.NullReferenceException”。

旧标题 iTextSharp 将 HTML 转换为 PDF 该文档没有页面我正在使用 iTextSharp 和 xmlworker 将 html 从视图转换为 ASP NET Core 2 1 中的 PDF 我尝试了在网上找到的许多代码片
无法格式化操作栏标题

这可能是一个非常简单的问题但目前我无法对其进行排序我的行动设置如下 get action bar ActionBar actionBar getSupportActionBar set up the action bar layout
在 C++ 中触发事件并在 C# 中处理它们

我有一台带有一些数字 I O 引脚的工业计算机制造商提供了一些C 库和示例来处理引脚状态变化我需要将此事件集成到 C 应用程序中据我所知执行此操作的最简单方法是为制造商库创建一个托管 C CLI 包装器当从 DIO 引脚发出中断
python pickle 给出“AttributeError: 'str' 对象没有属性 'write'”

当我尝试腌制某些东西时我会得到一个AttributeError str object has no attribute write 一个例子 import pickle pickle dump a dict True a file pic
Sklearn CountVectorizer：将表情符号保留为单词

我正在使用 SklearnCountVectorizer在字符串上但是CountVectorizer丢弃文本中的所有表情符号例如 Welcome应该给我们 xf0 x9f x91 x8b welcome 但是运行时 vect Count

Sklearn CountVectorizer：将表情符号保留为单词

Sklearn CountVectorizer：将表情符号保留为单词 的相关文章

随机推荐

热门标签

Sklearn CountVectorizer：将表情符号保留为单词的相关文章