在Python中写入打开的文件时的分割函数[重复]

2024-01-26

所以我有一个程序，我应该在其中获取一个外部文件，用 python 打开它，然后分隔每个单词和每个标点符号，包括逗号、撇号和句号。然后我应该将该文件保存为文本中每个单词和标点符号出现时的整数位置。

例如：- 我喜欢编码，因为编码很有趣。计算机的骨架。

在我的程序中，我必须将其另存为：-

1,2,3,4,5,6,3,4,7,8,9,10,11,12,13,14

（不懂的请帮忙） 1-I、2-类似、3-到、4-代码、5-(,)、6-因为、7-是、8-乐趣 9-(.)、10-A、11-计算机、12-( '), 13-s, 14-骨架

所以这已经显示了每个单词的位置，即使重复，它也显示同一个单词的第一个出现的位置

抱歉这么长的解释，但这是我的实际问题。到目前为止我已经这样做了：-

    file = open('newfiles.txt', 'r')
    with open('newfiles.txt','r') as file:
        for line in file:
            for word in line.split():
                 print(word)

这是结果：-

  They
  say
  it's
  a
  dog's
  life,.....

不幸的是，这种分割文件的方法不能将单词与标点符号分开，并且不能水平打印。 .split 不适用于文件，有谁知道我可以分割文件的更有效方法 - 来自标点符号的单词？然后将分开的单词和标点符号一起存储在一个列表中？

内置字符串方法.split只能使用简单的分隔符。没有争论，它只是分裂空白。对于更复杂的分割行为，最简单的方法是使用正则表达式：

>>> s = "I like to code, because to code is fun. A computer's skeleton."
>>> import re
>>> delim = re.compile(r"""\s|([,.;':"])""")
>>> tokens = filter(None, delim.split(s))
>>> idx = {}
>>> result = []
>>> i = 1
>>> for token in tokens:
...     if token in idx:
...         result.append(idx[token])
...     else:
...         result.append(i)
...         idx[token] = i
...         i += 1
...
>>> result
[1, 2, 3, 4, 5, 6, 3, 4, 7, 8, 9, 10, 11, 12, 13, 14, 9]

另外，我认为您不需要根据您的规范逐行迭代文件。你应该这样做：

with open('my file.txt') as f:
    s = f.read()

这会将整个文件作为字符串放入s。注意，我没用过open之前with声明，没有任何意义。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

list

split

position

在Python中写入打开的文件时的分割函数[重复] 的相关文章

重新索引错误没有意义

I have DataFrames大小在 100k 到 2m 之间我正在处理这个问题的框架是如此之大但请注意我必须对其他框架执行相同的操作 gt gt gt len data 357451 现在这个文件是通过编译许多文件创建的所以它
如何为 Intellij/PyCharm 设置 PYTHONSTARTUP 脚本

我尝试添加PYTHONSTARTUP环境变量我还尝试了自定义启动脚本但更令人惊讶的是这also没有工作 npa别名无法识别出于一点绝望我什至尝试添加到interpreter options 那什么也没做实际上是什么Interpr
使用 Python 在 Google Cloud Storage 存储桶中创建/上传新文件

如何使用 Python 和可用的客户端库在 Google Cloud Storage 中创建新的空文件或者如何使用 blob 函数 upload from filename 将新文件上传到选定的存储桶要初始化 blob 对象我们应该在
Python sqlite3参数化删除表

我在 python 中删除 sqlite3 表时遇到问题我正在使用标准sqlite3模块 self conn sqlite3 connect sql drop table self conn execute sql u table nam
Django 未在 404 页面上应用应用程序中的 CSS 文件

姜戈3 0 8 Python 3 7 x 我有一个包含一些应用程序的 Django 项目我正在尝试为 400 403 404 500 错误制作一些默认错误页面我已经这样做了并显示了适当的模板但没有任何样式或 JS 在 404 错
在 vim 折叠线中语法高亮 Python

我发现代码折叠 http en wikipedia org wiki Code folding帮助我更好地组织我的文件因此在我的底部 vimrc 我启用vim代码折叠 http vimdoc sourceforge net htmldo
使用 boto3 从 s3 下载时使用 filename 作为文件名

我正在使用 boto3 上传文件如下所示 client boto3 client s3 aws access key id id aws secret access key key client upload file tmp test
类型错误：需要 Future 或协程

我尝试在 asyncssh 上自动重新连接 ssh 客户端 SshConnectManager 必须留在后台并在需要时进行 ssh 会话 class SshConnectManager object def init self host u
python-polars 通过分隔符将字符串列拆分为许多列

在 pandas 中以下代码会将 col1 中的字符串拆分为许多列有没有办法在极地做到这一点 d col1 a b c d a b c d df pd DataFrame data d df a b c d df col1 str sp
使用 3d 对象作为 3d 散点图中的标记 - Python

使用下面的代码我尝试模拟一个用罐头制成的碗我希望每个标记都是一个罐头最好的方法是什么我真的很感激任何建议谢谢 import pylab import numpy as np from math import pi sin cos
python：是否有用于对输入流进行分块的库函数？

我想对输入流进行分块以进行批处理给定一个输入列表或生成器 x in 1 2 3 4 5 6 我想要一个能够返回该输入块的函数说如果chunk size 4 then x chunked 1 2 3 4 5 6 这是我一遍又一遍地做的事
如何删除 pandas 数据框中的唯一行？

我遇到了一个看似简单的问题在 pandas 数据框中删除唯一的行基本上相反drop duplicates https pandas pydata org pandas docs stable generated pandas Data
Python，多线程，获取网页，下载网页

我想在一个站点批量下载网页我的 urls txt 文件中有 5000000 个 url 链接大约有300M 如何让多线程链接这些网址并下载这些网页或者如何批量下载这些网页我的想法 with open urls txt r as f
如何在交互式绘图（Python）中获得鼠标指向的（x，y）位置？

我使用 ipython 笔记本带有魔法 matplotlib nbagg 我正在审查matplotlib widget Cursor但仅查看光标widgets Cursor http matplotlib org 1 4 3 exampl
使 np.loadtxt 使用多个可能的分隔符

我有一个程序可以读取数据文件用户可以选择他们想要使用的列我希望它对于输入文件更加通用有时列可能如下所示 10 34 24 58 8 284 6 121 有时它们可能看起来像这样 10 34 24 58 8 284 6 121 我希
Powershell - 将字符串拆分为由开始和结束字符串划分的数组

我有一个多行字符串来自 json 例如 somekey somevalue somekey somevalue somekey somevalue somekey somenumber somekey null 我想将字符串拆分为一个数组
检查多个 pd.DataFrame 是否相等

是否有一种 Pythonic 方式无循环或递归来检查是否超过两个pd DataFrames 例如 pd DataFrames 列表彼此相等吗就像是 all x equals dfs 0 for x in dfs with dfs数据
Celery：每个工作人员的 task_acks_late 的不同设置/向 celery 添加自定义选项

这个问题是后续问题django celery 禁用一个工作者的预取有错误吗 https stackoverflow com questions 58290045 django celery disable prefetch for one
使用 statsmodels.formula.api 中的 ols - 如何删除常数项？

我正在遵循第一个例子statsmodels教程 http statsmodels sourceforge net devel http statsmodels sourceforge net devel 如何指定在 ols 中不使用常数项进
通过 ManyToManyField = Value 对 django 查询集进行排序

如果有一些模型例如 class Tag models Model name models CharField class Thing models Model title models CharField tags models Many

随机推荐

如何识别用户何时开始和停止在 android 中说话？（Android 中的语音识别）

我已经进行了大量的研发并使用了大量的资源来解决我的问题但我未能找到任何适当的解决方案我已经开发了一个应用程序现在我想添加基于语音的功能 to it 所需的功能是 1 when USER开始说话应该录制音频视频 and 2 当用户停
StreamSubscription.cancel 与 StreamController.close 在内存泄漏方面的比较

是否打电话StreamController close自动取消StreamSubscription并删除所有引用我认为这是有道理的但我无法在文档中找到它来确定我有以下代码 dispose context bloc blocSubscr
Netsuite Suitescript可以修改文件柜中的文件吗？

我有一个很大的产品列表需要生成它的静态文件并让该文件可以在我的网站中访问目前我生成列表并将其上传到文件柜我希望自动化这个过程我想安排一个 SuiteScript 每晚运行并生成此列表并更新文件柜中的文件这可以做到吗 than
HTTP 直播 MPEG TS 段

我使用 FFMPEG 和免费分段器 Carson Mcdonald s 来生成我的 ts 片段然后将其保存到网络服务器并通过播放 m3u8 来使用 Quicktime 进行播放如果我有段 1 2 3 4 和另一个包含段 1 2 3 4
解释一下莫名其妙的死锁

首先我不明白我怎么能得到any根本没有死锁因为我没有使用显式锁定所以只涉及一个表每个进程都有一个单独的进程来插入选择和更新行一次只插入或更新一行并且每个进程很少也许一分钟一次完全运行这是一个电子邮件队列 CREATE T
从 Visual Studio 在 Linux docker 容器中调试 nunit 测试

我正在尝试更改我们的 NET Core 3 0 应用程序以在 Linux 容器中运行我已经到了可以在容器内恢复和构建的地步但测试失败了这是预期的该应用程序中的某些内容仅适用于 Windows 计算机我想从 Windows 上的 V
配置 Play 1.x/JPA 以顺序生成实体 ID？

强制 Play JPA 使实体 ID 连续的最佳方法是什么他们不是 https stackoverflow com questions 9771532 are jpa ids sequential 一种想法是将 play db jpa M
谁能告诉我当我尝试添加syncfusion_flutter_pdfviewer包时flutter中的这个错误是什么

当我在 yaml 文件中添加syncfusion flutter pdfviewer 包时出现以下错误谁能告诉我那个错误状态是什么 C src flutter pub cache hosted pub dartlang org sync
如何在Docker中使用“绑定挂载”

运行此命令后我在日志中收到错误 docker run d p 3000 80 name Feedback app v 反馈 app feedback v WorkSpace d data volumes 03 adj node code
如何在Linux命令行中运行jar文件

如何将类路径设置为当前目录并运行名为的 jar 文件load jar通过提供参数作为当前目录中的内容load 2从 Linux 命令行我确实尝试按如下方式运行该 jar 但它从其他目录执行类 java cp load jar CLASSP
通过多线程访问文件

我想通过10个线程访问一个大文件文件大小可能从30MB到1GB不等然后通过10个线程处理文件中的每一行并将它们写入另一个文件如果我只使用一个线程访问IO 其他线程就会被阻塞该处理花费的时间几乎相当于从文件系统读取一行代码还有一个限
Python 如何实现其类型对象，即类型类型始终是类型？

我知道Python中的所有东西都是一个对象并且这些对象的类型或类是类型另外类型的类型也是类型本身正如解释得很好here http www cafepy com article python types and objects
Whatsapp://send?text 将字符串从“&”字符剪切到末尾？ [复制]

这个问题在这里已经有答案了我正在尝试添加可在 WhatsApp 中共享的链接例如 whatsapp send text http www example com products women dresses sessionid 3456
为什么调用 DataTable().draw() 时 columns.render 不执行？

我很困惑为什么列渲染 https datatables net reference option columns render不包含在执行管道中数据表 draw https datatables net reference api dra
如何在 GWT 中深度复制任意对象？

我有一个标记为可序列化的任意对象它有各种可变的子对象表示货币金额集合等我希望能够克隆这个对象这样如果用户修改它然后恢复他们的操作我可以用新的克隆替换该克隆这意味着我需要深层复制因为我不希望用户对原始对象上出现的子对象进行更改
UNIQUE 约束失败：auth_user.username

我试图将名字和姓氏直接从 Facebook API 存储到用户身份验证模型使用 FacebookProfile 模型扩展包含 webpull id 和year formed 模型 py class FacebookProfile mod
使用 PHP 或 Javascript 检查 iOS 版本是否为 3.0 或更高版本

我需要检查访问我网站的 iOS 设备是否安装了 iOS 3 0 或更高版本我可以这样做吗如果您想检查哪些浏览器移动设备正在访问您的网站那么答案是您可以使用读取 userAgent 字符串并搜索操作系统和号码例如 Mozilla 5
django 中带有 django 表单的预选复选框

我试图在中显示预先选定的复选框Django option forms BooleanField required False initial True but the checkbox显示已检查我正在使用django 1 3 beta 我
我已经注册了应用程序 ID，但仍然显示您没有适用于 iOS 应用程序的合格捆绑包 ID。在这里注册一个

我已经注册了App ID 使用通配符和不使用通配符都有这不是我第一次创建应用程序 ID 并将其提交到应用程序商店但是在developer apple com上注册appID后当我尝试在 itunesconnect apple com
在Python中写入打开的文件时的分割函数[重复]

这个问题在这里已经有答案了所以我有一个程序我应该在其中获取一个外部文件用 python 打开它然后分隔每个单词和每个标点符号包括逗号撇号和句号然后我应该将该文件保存为文本中每个单词和标点符号出现时的整数位置例如我喜欢编码

在Python中写入打开的文件时的分割函数[重复]

在Python中写入打开的文件时的分割函数[重复] 的相关文章

随机推荐

热门标签