单词和表情符号计数器

2024-04-28

我有一个包含“clear_message”列的数据框，并且创建了一个用于计算每行中所有单词的列。

history['word_count'] = history.clear_message.apply(lambda x: Counter(x.split(' ')))

例如，如果行消息是：Hello my name is Hello那么他所在行的计数器将是Counter({'Hello': 2, 'is': 1, 'my': 1, 'name': 1})

问题

我的文本中有表情符号，我还想要一个表情符号计数器。

例如：

test = '????????????????????here sasdsa'
test_counter = Counter(test.split(' '))

输出是：

Counter({'sasdsa': 1, '????????????????????here': 1})

但我想要：

Counter({'sasdsa': 1, '????': 5, 'here':1})

显然问题是我正在使用split(' ').

我的想法是：

在表情符号前后添加一个空格。喜欢：

test = '???? ???? ???? ???? ???? here sasdsa'

然后使用 split，这样就可以了。

不确定这种方法是最好的。
不知道该怎么做。（我确实知道如果i是一个表情符号，那么if i in emoji.UNICODE_EMOJI将返回 true （emoji包裹））。

我认为你在每个表情符号后面添加一个空格的想法是一个好方法。如果表情符号和下一个字符之间已经有空格，您还需要去除空格，但这很简单。就像是：

def emoji_splitter(text):
    new_string = ""
    for char in text:
        if char in emoji.UNICODE_EMOJI:
            new_string += " {} ".format(char)
        else:
            new_string += char
    return [v for v in map(lambda x: x.strip(), new_string.split(" ")) if v != ""]

也许您可以通过使用滑动窗口来检查表情符号后面的空格并仅在必要时添加空格来改进这一点，但这会假设只有一个空格，因为此解决方案应考虑表情符号之间的 0 到 n 个空格。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

string

pandas

Counter

emoji

单词和表情符号计数器的相关文章

来自多元 t 分布的样本 python

我想知道Python中是否有一个从多元学生t分布中采样的函数我有包含 14 个元素的均值向量 14x14 协方差矩阵和自由度我想从这个 t 分布中采样一个向量对于一维情况我使用 stats t rvs df loc scale 并且
打开文件路径在 python 中不起作用[重复]

这个问题在这里已经有答案了我正在编写一个数据库程序 personica 是我的测试主题我通常在文件路径的位置有一个变量但出于测试和演示的目的我只有一个字符串在我的计算机上的这个确切位置有一个文本文件顺便说一句因为我很偏执所以
以编程方式结束/退出粘合作业

我正在使用 Glue 书签来处理数据我的工作是每天安排的但也可以手动启动由于我使用书签有时胶水作业可以在没有新数据要处理的情况下启动然后读取的数据帧为空在这种情况下我想好好地结束我的工作因为它没有什么关系我试过 if
NLTK：包错误？朋克和泡菜？

基本上我不知道为什么会收到此错误只是为了获得更多图像这里有一个代码格式的类似消息由于是最新的该帖子的答案已经在消息中提到 Preprocessing raw texts LookupError Traceback most rec
使用 scipy、python、numpy 进行非线性 e^(-x) 回归

下面的代码为我提供了一条最佳拟合线的平坦线而不是沿着 e x 模型的一条适合数据的漂亮曲线谁能告诉我如何修复下面的代码以使其适合我的数据 import numpy as np import matplotlib pyplot as pl
我可以在pycharm中的断点处进入交互模式吗

我是一个相当新的 Pycharm 3 用户正在从事 django 项目我可以在 pycharm3 中的断点处进入交互模式吗这可能吗当程序在断点处停止时我尝试过工具 gt 打开调试命令行但我没有看到控制台打开我怎样才能让它发挥作
液体字符串中的转义字符

我正在尝试将包含各种尺寸的标签列表放在一起在 Shopify 中使用 Liquid 尺寸使用单引号和双引号表示英寸和英尺因为它同时使用两者所以会导致字符串正确关闭的问题我尝试过使用标准转义字符但这似乎不起作用是否可以在 Liqu
如何在 Django 中像应用程序一样从配置中注册 Flask 蓝图？

如何从我的配置中注册 Flask 蓝图就像 Django 中的应用程序一样我想在配置文件中定义蓝图它将自动注册 config py BLUEPRINTS news files 实际上我一直在一个暂定名为的项目中勾勒出类似的东西臀部口袋
如何检查discord.py中的所有者

我试图让这个命令只有所有者才能运行它是否有办法检查服务器的最高角色或创建者我尝试了 commands is owner 但这仅检查某人是否是机器人的所有者 Guild owner https discordpy readthedocs
自动创建带有文件输出的目录[重复]

这个问题在这里已经有答案了假设我想制作一个文件 filename foo bar baz txt with open filename w as f f write FOOBAR 这给出了一个IOError since foo bar不存
Python：Factory Boy 生成对象创建时指定长度的列表

我正在尝试使用 Factoryboy 在创建时指定长度的对象中创建一个列表我可以创建列表但由于提供的长度大小的惰性性质每次尝试创建具有指定长度的列表都会导致问题这是我到目前为止所拥有的 class FooFactory facto
如何将 Django 数据库中的模板标签解释/渲染为 HTML

我正在尝试添加带有来自 Django 管理站点的图像的帖子但安全自动转义关闭过滤器无法解释 Django 的模板标签 My input and page look like 复制图像地址给出http 127 0 0 1 8000 7B
Python struct.pack() 'struct.error: bad char in struct format' 尝试保存字节顺序时

我正在尝试打包一个字符串和字符串的长度 fmt
Pandas 数据框可对多列和要列出的值进行字典

我有一个数据框 id key a1 1 a2 1 a3 1 a4 2 a5 2 a6 3 我想创建一本字典key作为机器号并且id列作为列表 like 1 a1 a2 a3 2 a4 a5 3 a6 我可以先使用 groupby 然后再使
`numpy.diff` 和 `scipy.fftpack.diff` 在微分时给出不同的结果

我正在尝试计算一些数据的导数并且正在尝试比较有限差分的输出和谱方法的输出但结果却截然不同我无法弄清楚到底为什么考虑下面的示例代码 import numpy as np from scipy import fftpack as sp
在不同进程之间共享列表？

我有以下问题我编写了一个函数它将列表作为输入并为列表中的每个元素创建一个字典然后我想将这本字典附加到一个新列表中这样我就得到了一个字典列表我正在尝试为此生成多个进程我的问题是我希望不同的进程访问由其他进程更新的字典列表例如
如何使用多阶段构建减小 python (docker) 图像大小？

我正在寻找一种使用 python 和 Dockerfile 创建多阶段构建的方法例如使用以下图像第一张图片安装所有编译时要求并安装所有需要的 python 模块第二张图片将所有已编译构建的包从第一个映像复制到第二个映像而不
收到 Python 错误“来自：无法读取 /var/mail/Bio”

我正在运行一个 bio python 脚本这会导致以下错误 from can t read var mail Bio 由于我的脚本与邮件没有任何关系我不明白为什么我的脚本在 var mail 中查找这里似乎有什么问题我怀疑这会有帮助
将 scanf 与 NSString 一起使用

我希望用户输入一个字符串然后将输入分配给 NSString 现在我的代码如下所示 NSString word scanf s word The scanf http www cplusplus com reference clibrary
我可以以某种方式“编译”一个Python脚本以在没有安装Python的PC上运行吗？

所以我有一个Python脚本 myscript py 我是这样执行的 python D myscript py 但是我必须安装 Python 并将其包含在PATH使其工作的环境变量是否有可能以某种方式将 Python 可执行文件与 Py

随机推荐

make: *** 没有规则可以创建“all”所需的目标“gcc”。停止

我正在通过一个eg pgm 来创建一个make 文件 http mrbook org tutorials make http mrbook org tutorials make 我的文件夹eg make creation包含以下文件 des
为什么 lambda 可以将函数调用转换为 Actions？

在此代码片段中 List
TinyIoC、Xamarin.iOS、链接器设置

我正在尝试让 TinyIoC 在 Xamarin iOS 上运行但运气不太好我的项目链接器设置设置为仅链接 SDK 程序集我实际上正在做这么简单的事情 public interface IPerson int age get pub
带输入的 R闪亮仪表板可折叠菜单项

我正在尝试实施一个fileInput using library shinydashboard 为用户提供上传文件的选项就像完成的那样 here https shiny rstudio com articles upload html具有
检索多行最后插入的 id

当将数据插入具有自动递增 PK 的表时我需要获取该密钥以在另一个语句中使用正如许多问题所示这可以在 PHP 中使用mysql insert id 但是我一直将插入内容分组在一起因此一次插入不止一行我这样做是因为我猜测可能会存在一
MATLAB：解包函数

我正在与 Mathworks 的某人讨论 unwrap http www mathworks com access helpdesk help techdoc ref unwrap html函数中对于以外的跳跃容差有一个 bug 并且希望
如何取消 Vim 中的粘贴操作？

每当我不小心在 Putty 中右键单击打开 Vim 时我的剪贴板上就有相当多的文本并且 Vim 启动了粘贴操作该操作已经持续了大约十分钟我不想丢失未保存的工作有没有办法指示 Vim 停止粘贴文本 If you re in nor
LDAP中超时的实现

我一直在处理我们正在使用的应用程序LDAP获取用户详细信息有时获取用户详细信息需要更多时间我想实施time out获取详细信息的方法以便我们可以避免在最坏的情况下在服务器中挂起事务这里我们使用的是LdapUtil我们在其中配置的类L
应用程序在 iPhone 上运行时崩溃，违规为例外

Thread 1 Crashed 0 libsystem kernel dylib 0x1e81a458 abort with payload 24 1 libsystem kernel dylib 0x1e817dd9 system se
在 PHP 中用星号 (*) 提示或部分隐藏电子邮件地址

我有这个邮件地址 email protected cdn cgi l email protection 如何将其转换为该邮件地址a email protected cdn cgi l email protection 我尝试使用strpos
Spring数据异常处理

我正在使用 Spring Data JPA 开发一个项目我需要处理 JpaRepository 方法调用中的一些异常在下面的代码中我需要拦截主键违规错误但无法直接捕获异常就我而言当发生此类异常时存储库层 JpaReposito
com.android.builder.packaging.DuplicateFileException：在 APK META-INF/maven/com.fasterxml.jackson.core/jackson-databind/pom.xml 中复

我正在创建一个使用 Rest API 来获取数据的应用程序对于该操作我使用 Retrofit2 okhttp3 和 jackson 将 json 解析为对象我的应用程序还使用 Firebase Cloud Messaging 当我编译
规划 git 迁移的存储库布局

我目前有一个大型 30K 提交 SVN 存储库正在将其转换为 git 我们的代码库当前拥有一组通用核心代码以及两个独立的基础 Java 和 NET 这使我们能够共享通用代码并且当我们将构建推送给仅支持两种语言之一的客户时我们可以
通过站点到站点 VPN 将 Azure 网站连接到本地数据库

我的目标是运行一个天蓝色的网站该网站可以访问我们本地公司数据库中的数据我按照网络上的教程设置了一个 Azure 虚拟网络并通过站点到站点 VPN 将其连接到我们本地公司网络在天蓝色门户中我可以看到连接实际上正在工作并且数据已被接
如何限制打字稿中的枚举字符串值

我有具有可能的行动价值的类型 type PersistentAction park retry skip stop 然后我想用动作定义枚举 enum persistentActions PARK park RETRY retry SKIP
在我自己的文件夹结构中的 Sequelize 中的迁移

我是新来的Sequelize我当前的项目要求我将它与迁移一起使用我熟悉迁移的内容和方式我来自Django背景每个子应用程序在同一文件夹中都有模态视图 api url 和迁移我喜欢这个结构并希望在我的 Nodejs 应用程序中保持
将 Azure Blob 与 Azure 网站连接

我正在尝试将 Azure 网站连接到 Azure blob 我打算在容器中托管一些文件然后从我的网站获取它们我从本教程开始 http azure microsoft com en us documentation articles we
自定义列表视图的选择器“更改 ListView 背景 - 奇怪的行为”

我正在用这个教程 http www androidpeople com android custom listview tutorial example part 2 我想为此列表视图添加选择器我尝试了一些代码但它不起作用我该怎么做
Python相对导入导致语法错误：无效语法

我正在尝试安装这个很棒的 python 模块Python Chrono http oss codepoet no python chrono wiki Home我的 python 环境但至少在 python 2 4 3 和 2 6 6 中
单词和表情符号计数器

我有一个包含 clear message 列的数据框并且创建了一个用于计算每行中所有单词的列 history word count history clear message apply lambda x Counter x split

单词和表情符号计数器

单词和表情符号计数器 的相关文章

随机推荐

热门标签

单词和表情符号计数器的相关文章