Python 标记化

2023-12-12

我是 Python 新手,我有一个标记化作业 输入是一个包含句子的 .txt 文件 输出是带有令牌的 .txt 文件,当我说令牌时,我的意思是:简单的单词,',','!' ,'?' ,'。' '''

我有这个功能: 输入: Elemnt 是一个带或不带标点符号的单词,可以是这样的单词:嗨或说:或说“ StrForCheck :是一个标点符号数组,我想将其与单词分开 TokenFile:是我的输出文件

def CheckIfSEmanExist(Elemnt,StrForCheck, TokenFile):

FirstOrLastIsSeman = 0

for seman in StrForCheck:
    WordSplitOnSeman = Elemnt.split(seman)
    if len(WordSplitOnSeman) > 1:
        if Elemnt[len(Elemnt)-1] == seman:
            FirstOrLastIsSeman = len(Elemnt)-1
        elif Elemnt[0] == seman:
            FirstOrLastIsSeman = 1

if FirstOrLastIsSeman == 1:
    TokenFile.write(Elemnt[0])
    TokenFile.write('\n')
    TokenFile.write(Elemnt[1:-1])
    TokenFile.write('\n')

elif FirstOrLastIsSeman == len(Elemnt)-1:
    TokenFile.write(Elemnt[0:-1])
    TokenFile.write('\n')
    TokenFile.write(Elemnt[len(Elemnt)-1])
    TokenFile.write('\n')

elif FirstOrLastIsSeman == 0:
    TokenFile.write(Elemnt)
    TokenFile.write('\n')

代码在标点符号数组上循环,如果他找到一个,我检查标点符号是单词中的第一个字母还是最后一个字母,然后在我的输出文件中将单词和标点符号分别写入不同的行

但我的问题是,除了这些词之外,它对整个文本都效果很好: 工作岗位”、创建“、公共”、警察“


注意

for l in open('some_file.txt', 'r'):
    ...

迭代每一行,因此您只需要考虑在一行内做什么。

考虑以下函数:

def tokenizer(l):
    prev_i = 0
    for (i, c) in enumerate(l):
        if c in ',.?!- ':
            if prev_i != i:
                yield l[prev_i: i]
            yield c
            prev_i = i + 1
    if prev_i != 0:
        yield l[prev_i: ]

它在运行时会“吐出”令牌。你可以这样使用它:

l = "hello, hello, what's all this shouting? We'll have no trouble here"
for tok in tokenizer(l):
    print tok

hello
,

hello
,

what's

all

this

shouting
?

We'll

have

no

trouble

here
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Python 标记化 的相关文章

  • python future 和元组解包

    实现像使用 future 进行元组解包这样的事情的优雅 惯用的方法是什么 我有这样的代码 a b c f x y g a b z h y c 我想将其转换为使用期货 理想情况下我想写一些类似的东西 a b c ex submit f x y
  • python 中的代表

    我实现了这个简短的示例来尝试演示一个简单的委托模式 我的问题是 这看起来我已经理解了委托吗 class Handler def init self parent None self parent parent def Handle self
  • 在 Tensorflow tf.nn.nce_loss 中出现 TypeError:'Mul' Op 的输入 'y' 的类型为 float32,与参数 'x' 的 int32 类型不匹配

    我正在研究 Tensor Flow 中的 Bag of Words 实现 并得到了 类型错误 Mul Op 的输入 y 的类型为 float32 与参数 x 的 int32 类型不匹配 在 tf nn nce loss 中 我尝试查看 tf
  • 从 ffmpeg 获取实时输出以在进度条中使用(PyQt4,stdout)

    我已经查看了很多问题 但仍然无法完全弄清楚 我正在使用 PyQt 并且希望能够运行ffmpeg i file mp4 file avi并获取流式输出 以便我可以创建进度条 我看过这些问题 ffmpeg可以显示进度条吗 https stack
  • Django 模型在模板中不可迭代

    我试图迭代模型以获取列表中的第一个图像 但它给了我错误 即模型不可迭代 以下是我的模型和模板的代码 我只需要获取与单个产品相关的列表中的第一个图像 模型 py class Product models Model title models
  • 从零开始的 numpy 形状意味着什么

    好的 我发现数组的形状中可以包含 0 对于将 0 作为唯一维度的情况 这对我来说是有意义的 它是一个空数组 np zeros 0 但如果你有这样的情况 np zeros 0 100 让我很困惑 为什么这么定义呢 据我所知 这只是表达空数组的
  • 忽略 Mercurial hook 中的某些 Mercurial 命令

    我有一个像这样的善变钩子 hooks pretxncommit myhook python path to file myhook 代码如下所示 def myhook ui repo kwargs do some stuff 但在我的例子中
  • 切片 Dataframe 时出现 KeyError

    我的代码如下所示 d pd read csv Collector Output csv df pd DataFrame data d dfa df copy dfa dfa rename columns OBJECTID Object ID
  • 以同步方式使用 FastAPI,如何获取 POST 请求的原始正文?

    在中使用 FastAPIsync not async模式 我希望能够接收 POST 请求的原始 未更改的正文 我能找到的所有例子都显示async代码 当我以正常同步方式尝试时 request body 显示为协程对象 当我通过发布一些内容来
  • 使用 OLS 回归预测未来值(Python、StatsModels、Pandas)

    我目前正在尝试在 Python 中实现 MLR 但不确定如何将我找到的系数应用于未来值 import pandas as pd import statsmodels formula api as sm import statsmodels
  • Python urllib.request.urlopen:AttributeError:'bytes'对象没有属性'data'

    我正在使用 Python 3 并尝试连接到dstk 我收到错误urllib包裹 我对SO进行了很多研究 但找不到与这个问题类似的东西 api url self api base street2coordinates api body jso
  • 从 python 发起 SSH 隧道时出现问题

    目标是在卫星服务器和集中式注册数据库之间建立 n 个 ssh 隧道 我已经在我的服务器之间设置了公钥身份验证 因此它们只需直接登录而无需密码提示 怎么办 我试过帕拉米科 它看起来不错 但仅仅建立一个基本的隧道就变得相当复杂 尽管代码示例将受
  • Seaborn Pairplot 图例不显示颜色

    我一直在学习如何在Python中使用seaborn和pairplot 这里的一切似乎都工作正常 但由于某种原因 图例不会显示相关的颜色 我无法找到解决方案 因此如果有人有任何建议 请告诉我 x sns pairplot stats2 hue
  • 在 Pandas 中使用正则表达式的多种模式

    我是Python编程的初学者 我正在探索正则表达式 我正在尝试从 描述 列中提取一个单词 数据库名称 我无法给出多个正则表达式模式 请参阅下面的描述和代码 描述 Summary AD1 Low free DATA space in data
  • 创建嵌套字典单行

    您好 我有三个列表 我想使用一行创建一个三级嵌套字典 i e l1 a b l2 1 2 3 l3 d e 我想创建以下嵌套字典 nd a 1 d 0 e 0 2 d 0 e 0 3 d 0 e 0 b a 1 d 0 e 0 2 d 0
  • 使用yield 进行字典理解

    作为一个人为的例子 myset set a b c d mydict item yield join item s for item in myset and list mydict gives as cs bs ds a None b N
  • 如何在 OSX 上安装 numpy 和 scipy?

    我是 Mac 新手 请耐心等待 我现在使用的是雪豹 10 6 4 我想安装numpy和scipy 所以我从他们的官方网站下载了python2 6 numpy和scipy dmg文件 但是 我在导入 numpy 时遇到问题 Library F
  • 无法在前端使用 JavaScript Fetch API 将文件上传到 FastAPI 后端

    我正在尝试弄清楚如何将图像发送到我的 API 并验证生成的token那是在header的请求 到目前为止 这就是我所处的位置 app post endreProfilbilde async def endreProfilbilde requ
  • Elastic Beanstalk 中的 enum34 问题

    我正在尝试在 Elastic Beanstalk 中设置 django 环境 当我尝试通过requirements txt 文件安装时 我遇到了python3 6 问题 File opt python run venv bin pip li
  • 检查字典键是否有空值

    我有以下字典 dict1 city name yass region zipcode phone address tehsil planet mars 我正在尝试创建一个基于 dict1 的新字典 但是 它不会包含带有空字符串的键 它不会包

随机推荐

  • 使用 HTML 表单验证仅验证可见字段?

    我有两组表单字段 每组中都有一些具有必填属性的字段 但是 根据用户选择的内容 一组可能会被隐藏 并且这些字段不应包含在 HTML 表单验证中 到目前为止 如果我的表单中只有一个可见容器并且我填充了所有必填字段 我的表单将不会提交 由于某种原
  • Apache POI:如何添加对角边框

    我想用Apache POI画画Diagonal Border但我找不到任何函数可以支持该功能 我试过这个设置边框对角线但它不起作用 XSSFSheetConditionalFormatting my cond format layer my
  • Cakephp:插入tinyint字段时。仅获取“0”或“1”

    我是 cakephp 的菜鸟 从事开源项目 问题是 当我为某个表插入一个值 is adjusted tinyint 时 我的 php 代码成功执行 但该表仅采用 0 或 1 作为其值 示例代码 reward ta customer rewa
  • 使用 iPhone 进行移动设备管理

    任何人都可以给我提供一些有关 iOS4 的 iphone 设备管理的信息吗 1 如何实现它以及它将如何工作 2 它是否可以仅与企业许可证持有者一起使用 或者我们可以简单地实施开发人员许可证 3 任何具体文档或帮助 Thanks 1 如何实现
  • Swift:将图像添加到 CAShapeLayer

    我有一个带有填充颜色的 CAShapeLayer 并且想要在此形状的中心添加一个图标 var shape CAShapeLayer shape fillColor UIColor white 0 90 alpha 1 CGColor var
  • 如何将按位运算应用于 JS 数字的实际 IEEE 754 表示?

    在 JavaScript 中 每当您执行按位运算时 例如x lt lt 2 在实际发生移位之前 64 位浮点表示形式会转换为 32 位无符号整数 我有兴趣将这种转换应用于实际的 未改变的 IEEE 754 位表示 这怎么可能 您可以尝试先将
  • 生成 ASCII 艺术文本的 PHP 库 [关闭]

    Closed 此问题正在寻求书籍 工具 软件库等的推荐 不满足堆栈溢出指南 目前不接受答案 我正在尝试制作一个与使用 ASCII 艺术文本的其他系统不同的验证码系统 类似可以查到的here 有谁知道可以生成类似内容的库 您链接使用的 ASC
  • Codeigniter - 在特定视图上加载特定的 JS 库

    我正在尝试加载谷歌地图 API 即
  • 如何在 django 模板中执行查询过滤

    我需要从 django 模板中执行过滤查询 以获取与视图中的 python 代码等效的一组对象 queryset Modelclass objects filter somekey foo 在我的模板中我想做 for object in d
  • 无法解析绑定。敲除错误

    这是我学习淘汰赛的第二天 尝试附加 deleteItem 以进行按钮单击 它给出以下错误 Error 未捕获的错误 无法解析绑定 消息 ReferenceError deleteItem 未定义 绑定值 点击 deleteItem Java
  • 无法从本地 App Engine 开发服务器访问 BigQuery

    这具体是一个与 python Google App Engine 应用程序和 Google BigQuery 之间的服务器到服务器身份验证相关的问题 但可能与其他云服务相关 太棒了 是否可以让 App Engine 本地开发服务器通过远程
  • 如何使用 GatsbyJS 根据路由渲染组件?

    我在用着GatsbyJS我正在尝试渲染一个不同的header根据URL的路由 例子 mydomain com gt 应该渲染HeaderLanding mydomain com blog gt 应该渲染HeaderMain 有谁知道创建条件
  • 尝试后 sys.exit 无法按预期工作:

    我尝试了以下脚本 我的本意是如果下面代码段中的命令 command a 执行成功 则程序结束 否则 它会执行附加处理 usr bin python import subprocess try command command a subpro
  • 如何创建 JSON 以匹配/序列化到 WCF Rest 服务中的 DataContract

    界面 namespace SQRT WCF DataContract public class PlaceOrder DataMember public string claimID get set DataMember public st
  • JQuery 3.5.1 并拒绝执行内联脚本,因为它违反了以下内容安全策略指令:

    我将 jQuery 从 2 1 1 升级到 3 5 1 我开始在 jQuery 中看到这个问题 拒绝执行内联脚本 因为它违反了以下规定 内容安全策略指令 script src self 随机数 YURLOAQRrIwdGEqYSSpHx9Y
  • IBM Watson 视觉识别 - API 密钥无效

    我正在尝试通过 IBM Watson 的 API 来使用视觉识别 这是我发送的 POST 请求 https gateway a watsonplatform net visual recognition api v3 classify ap
  • MATLAB:选择给定范围之外的所有数组

    我想对不属于特定范围的数组内容执行指标 例如 我有一个 1000 行 2 列的数组 我想对一列 假设为第 2 列 中不属于第 50 150 250 300 400 700 和 900 950 行的所有元素执行mean 计算 因此 平均值应根
  • 使用多个帐户登录时,如何一一避免 Changes.list 缩略图上出现 404 错误?

    当我登录多个帐户并对changes list 进行API 调用时 我收到图像缩略图的404 错误 重现该问题的完整步骤如下 使用两个帐户登录 一个是个人 Gmail 帐户 一个是 Google Apps 帐户 分别为 User gmail
  • 如何在缩放的图像上绘图?

    我有一个图片框Size我的应用程序中为 400X400 这SizeMode图片框的设置为Zoomed 我在图片框中加载了一张700X446的png图像 我有以下问题 尽管我沿着红色路径绘制一条黑色直线 但实际上它是沿着加载的图像以透视方式显
  • Python 标记化

    我是 Python 新手 我有一个标记化作业 输入是一个包含句子的 txt 文件 输出是带有令牌的 txt 文件 当我说令牌时 我的意思是 简单的单词 我有这个功能 输入 Elemnt 是一个带或不带标点符号的单词 可以是这样的单词 嗨或说