Python 标记化

2023-12-12

我是 Python 新手，我有一个标记化作业输入是一个包含句子的 .txt 文件输出是带有令牌的 .txt 文件，当我说令牌时，我的意思是：简单的单词，'，'，'！' ，'？' ，'。' '''

我有这个功能：输入： Elemnt 是一个带或不带标点符号的单词，可以是这样的单词：嗨或说：或说“ StrForCheck ：是一个标点符号数组，我想将其与单词分开 TokenFile：是我的输出文件

def CheckIfSEmanExist(Elemnt,StrForCheck, TokenFile):

FirstOrLastIsSeman = 0

for seman in StrForCheck:
    WordSplitOnSeman = Elemnt.split(seman)
    if len(WordSplitOnSeman) > 1:
        if Elemnt[len(Elemnt)-1] == seman:
            FirstOrLastIsSeman = len(Elemnt)-1
        elif Elemnt[0] == seman:
            FirstOrLastIsSeman = 1

if FirstOrLastIsSeman == 1:
    TokenFile.write(Elemnt[0])
    TokenFile.write('\n')
    TokenFile.write(Elemnt[1:-1])
    TokenFile.write('\n')

elif FirstOrLastIsSeman == len(Elemnt)-1:
    TokenFile.write(Elemnt[0:-1])
    TokenFile.write('\n')
    TokenFile.write(Elemnt[len(Elemnt)-1])
    TokenFile.write('\n')

elif FirstOrLastIsSeman == 0:
    TokenFile.write(Elemnt)
    TokenFile.write('\n')

代码在标点符号数组上循环，如果他找到一个，我检查标点符号是单词中的第一个字母还是最后一个字母，然后在我的输出文件中将单词和标点符号分别写入不同的行

但我的问题是，除了这些词之外，它对整个文本都效果很好：工作岗位”、创建“、公共”、警察“

注意

for l in open('some_file.txt', 'r'):
    ...

迭代每一行，因此您只需要考虑在一行内做什么。

考虑以下函数：

def tokenizer(l):
    prev_i = 0
    for (i, c) in enumerate(l):
        if c in ',.?!- ':
            if prev_i != i:
                yield l[prev_i: i]
            yield c
            prev_i = i + 1
    if prev_i != 0:
        yield l[prev_i: ]

它在运行时会“吐出”令牌。你可以这样使用它：

l = "hello, hello, what's all this shouting? We'll have no trouble here"
for tok in tokenizer(l):
    print tok

hello
,

hello
,

what's

all

this

shouting
?

We'll

have

no

trouble

here

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

tokenize

Python 标记化的相关文章

python future 和元组解包

实现像使用 future 进行元组解包这样的事情的优雅惯用的方法是什么我有这样的代码 a b c f x y g a b z h y c 我想将其转换为使用期货理想情况下我想写一些类似的东西 a b c ex submit f x y
python 中的代表

我实现了这个简短的示例来尝试演示一个简单的委托模式我的问题是这看起来我已经理解了委托吗 class Handler def init self parent None self parent parent def Handle self
在 Tensorflow tf.nn.nce_loss 中出现 TypeError：'Mul' Op 的输入 'y' 的类型为 float32，与参数 'x' 的 int32 类型不匹配

我正在研究 Tensor Flow 中的 Bag of Words 实现并得到了类型错误 Mul Op 的输入 y 的类型为 float32 与参数 x 的 int32 类型不匹配在 tf nn nce loss 中我尝试查看 tf
从 ffmpeg 获取实时输出以在进度条中使用（PyQt4，stdout）

我已经查看了很多问题但仍然无法完全弄清楚我正在使用 PyQt 并且希望能够运行ffmpeg i file mp4 file avi并获取流式输出以便我可以创建进度条我看过这些问题 ffmpeg可以显示进度条吗 https stack
Django 模型在模板中不可迭代

我试图迭代模型以获取列表中的第一个图像但它给了我错误即模型不可迭代以下是我的模型和模板的代码我只需要获取与单个产品相关的列表中的第一个图像模型 py class Product models Model title models
从零开始的 numpy 形状意味着什么

好的我发现数组的形状中可以包含 0 对于将 0 作为唯一维度的情况这对我来说是有意义的它是一个空数组 np zeros 0 但如果你有这样的情况 np zeros 0 100 让我很困惑为什么这么定义呢据我所知这只是表达空数组的
忽略 Mercurial hook 中的某些 Mercurial 命令

我有一个像这样的善变钩子 hooks pretxncommit myhook python path to file myhook 代码如下所示 def myhook ui repo kwargs do some stuff 但在我的例子中
切片 Dataframe 时出现 KeyError

我的代码如下所示 d pd read csv Collector Output csv df pd DataFrame data d dfa df copy dfa dfa rename columns OBJECTID Object ID
以同步方式使用 FastAPI，如何获取 POST 请求的原始正文？

在中使用 FastAPIsync not async模式我希望能够接收 POST 请求的原始未更改的正文我能找到的所有例子都显示async代码当我以正常同步方式尝试时 request body 显示为协程对象当我通过发布一些内容来
使用 OLS 回归预测未来值（Python、StatsModels、Pandas）

我目前正在尝试在 Python 中实现 MLR 但不确定如何将我找到的系数应用于未来值 import pandas as pd import statsmodels formula api as sm import statsmodels
Python urllib.request.urlopen：AttributeError：'bytes'对象没有属性'data'

我正在使用 Python 3 并尝试连接到dstk 我收到错误urllib包裹我对SO进行了很多研究但找不到与这个问题类似的东西 api url self api base street2coordinates api body jso
从 python 发起 SSH 隧道时出现问题

目标是在卫星服务器和集中式注册数据库之间建立 n 个 ssh 隧道我已经在我的服务器之间设置了公钥身份验证因此它们只需直接登录而无需密码提示怎么办我试过帕拉米科它看起来不错但仅仅建立一个基本的隧道就变得相当复杂尽管代码示例将受
Seaborn Pairplot 图例不显示颜色

我一直在学习如何在Python中使用seaborn和pairplot 这里的一切似乎都工作正常但由于某种原因图例不会显示相关的颜色我无法找到解决方案因此如果有人有任何建议请告诉我 x sns pairplot stats2 hue
在 Pandas 中使用正则表达式的多种模式

我是Python编程的初学者我正在探索正则表达式我正在尝试从描述列中提取一个单词数据库名称我无法给出多个正则表达式模式请参阅下面的描述和代码描述 Summary AD1 Low free DATA space in data
创建嵌套字典单行

您好我有三个列表我想使用一行创建一个三级嵌套字典 i e l1 a b l2 1 2 3 l3 d e 我想创建以下嵌套字典 nd a 1 d 0 e 0 2 d 0 e 0 3 d 0 e 0 b a 1 d 0 e 0 2 d 0
使用yield 进行字典理解

作为一个人为的例子 myset set a b c d mydict item yield join item s for item in myset and list mydict gives as cs bs ds a None b N
如何在 OSX 上安装 numpy 和 scipy？

我是 Mac 新手请耐心等待我现在使用的是雪豹 10 6 4 我想安装numpy和scipy 所以我从他们的官方网站下载了python2 6 numpy和scipy dmg文件但是我在导入 numpy 时遇到问题 Library F
无法在前端使用 JavaScript Fetch API 将文件上传到 FastAPI 后端

我正在尝试弄清楚如何将图像发送到我的 API 并验证生成的token那是在header的请求到目前为止这就是我所处的位置 app post endreProfilbilde async def endreProfilbilde requ
Elastic Beanstalk 中的 enum34 问题

我正在尝试在 Elastic Beanstalk 中设置 django 环境当我尝试通过requirements txt 文件安装时我遇到了python3 6 问题 File opt python run venv bin pip li
检查字典键是否有空值

我有以下字典 dict1 city name yass region zipcode phone address tehsil planet mars 我正在尝试创建一个基于 dict1 的新字典但是它不会包含带有空字符串的键它不会包

随机推荐

使用 HTML 表单验证仅验证可见字段？

我有两组表单字段每组中都有一些具有必填属性的字段但是根据用户选择的内容一组可能会被隐藏并且这些字段不应包含在 HTML 表单验证中到目前为止如果我的表单中只有一个可见容器并且我填充了所有必填字段我的表单将不会提交由于某种原
Apache POI：如何添加对角边框

我想用Apache POI画画Diagonal Border但我找不到任何函数可以支持该功能我试过这个设置边框对角线但它不起作用 XSSFSheetConditionalFormatting my cond format layer my
Cakephp：插入tinyint字段时。仅获取“0”或“1”

我是 cakephp 的菜鸟从事开源项目问题是当我为某个表插入一个值 is adjusted tinyint 时我的 php 代码成功执行但该表仅采用 0 或 1 作为其值示例代码 reward ta customer rewa
使用 iPhone 进行移动设备管理

任何人都可以给我提供一些有关 iOS4 的 iphone 设备管理的信息吗 1 如何实现它以及它将如何工作 2 它是否可以仅与企业许可证持有者一起使用或者我们可以简单地实施开发人员许可证 3 任何具体文档或帮助 Thanks 1 如何实现
Swift：将图像添加到 CAShapeLayer

我有一个带有填充颜色的 CAShapeLayer 并且想要在此形状的中心添加一个图标 var shape CAShapeLayer shape fillColor UIColor white 0 90 alpha 1 CGColor var
如何将按位运算应用于 JS 数字的实际 IEEE 754 表示？

在 JavaScript 中每当您执行按位运算时例如x lt lt 2 在实际发生移位之前 64 位浮点表示形式会转换为 32 位无符号整数我有兴趣将这种转换应用于实际的未改变的 IEEE 754 位表示这怎么可能您可以尝试先将
生成 ASCII 艺术文本的 PHP 库 [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南目前不接受答案我正在尝试制作一个与使用 ASCII 艺术文本的其他系统不同的验证码系统类似可以查到的here 有谁知道可以生成类似内容的库您链接使用的 ASC
Codeigniter - 在特定视图上加载特定的 JS 库

我正在尝试加载谷歌地图 API 即
如何在 django 模板中执行查询过滤

我需要从 django 模板中执行过滤查询以获取与视图中的 python 代码等效的一组对象 queryset Modelclass objects filter somekey foo 在我的模板中我想做 for object in d
无法解析绑定。敲除错误

这是我学习淘汰赛的第二天尝试附加 deleteItem 以进行按钮单击它给出以下错误 Error 未捕获的错误无法解析绑定消息 ReferenceError deleteItem 未定义绑定值点击 deleteItem Java
无法从本地 App Engine 开发服务器访问 BigQuery

这具体是一个与 python Google App Engine 应用程序和 Google BigQuery 之间的服务器到服务器身份验证相关的问题但可能与其他云服务相关太棒了是否可以让 App Engine 本地开发服务器通过远程
如何使用 GatsbyJS 根据路由渲染组件？

我在用着GatsbyJS我正在尝试渲染一个不同的header根据URL的路由例子 mydomain com gt 应该渲染HeaderLanding mydomain com blog gt 应该渲染HeaderMain 有谁知道创建条件
尝试后 sys.exit 无法按预期工作：

我尝试了以下脚本我的本意是如果下面代码段中的命令 command a 执行成功则程序结束否则它会执行附加处理 usr bin python import subprocess try command command a subpro
如何创建 JSON 以匹配/序列化到 WCF Rest 服务中的 DataContract

界面 namespace SQRT WCF DataContract public class PlaceOrder DataMember public string claimID get set DataMember public st
JQuery 3.5.1 并拒绝执行内联脚本，因为它违反了以下内容安全策略指令：

我将 jQuery 从 2 1 1 升级到 3 5 1 我开始在 jQuery 中看到这个问题拒绝执行内联脚本因为它违反了以下规定内容安全策略指令 script src self 随机数 YURLOAQRrIwdGEqYSSpHx9Y
IBM Watson 视觉识别 - API 密钥无效

我正在尝试通过 IBM Watson 的 API 来使用视觉识别这是我发送的 POST 请求 https gateway a watsonplatform net visual recognition api v3 classify ap
MATLAB：选择给定范围之外的所有数组

我想对不属于特定范围的数组内容执行指标例如我有一个 1000 行 2 列的数组我想对一列假设为第 2 列中不属于第 50 150 250 300 400 700 和 900 950 行的所有元素执行mean 计算因此平均值应根
使用多个帐户登录时，如何一一避免 Changes.list 缩略图上出现 404 错误？

当我登录多个帐户并对changes list 进行API 调用时我收到图像缩略图的404 错误重现该问题的完整步骤如下使用两个帐户登录一个是个人 Gmail 帐户一个是 Google Apps 帐户分别为 User gmail
如何在缩放的图像上绘图？

我有一个图片框Size我的应用程序中为 400X400 这SizeMode图片框的设置为Zoomed 我在图片框中加载了一张700X446的png图像我有以下问题尽管我沿着红色路径绘制一条黑色直线但实际上它是沿着加载的图像以透视方式显
Python 标记化

我是 Python 新手我有一个标记化作业输入是一个包含句子的 txt 文件输出是带有令牌的 txt 文件当我说令牌时我的意思是简单的单词我有这个功能输入 Elemnt 是一个带或不带标点符号的单词可以是这样的单词嗨或说

Python 标记化

Python 标记化 的相关文章

随机推荐

热门标签

Python 标记化的相关文章