Python-按前两个单词对行进行分组

2023-12-02

我想按文件中的前两个单词对文件进行分组（然后重新排列和打印）

我想做

   lines=file.readlines()
   i=0
   for line in lines:
    word1=line.split()[0]
    word2=line.split()[1]
    if word1==lines[i+1].split()[0] and word1==lines[i-1].split()[0] :
        if word2=lines[i-1].split()[1] and word2==lines[i--1].split()[0]:
              print line
    else:
       print "***new block of lines \n***"

但这是一个非常糟糕的解决方案，因为它不适用于第一行或最后一行，并且总体上效果不佳。非常感谢更好的解决方案

如果您尝试对共享文件中前两个单词的连续行进行分组，那么这是一个用例itertools.groupby, eg:

from itertools import groupby

with open('somefile') as fin:
    lines = ((line.split(None, 2)[:2], line) for line in fin if line.strip())
    for k, g in groupby(lines, lambda L: L[0]):
        lines = [el[1] for el in g]

Here k是分组键（最多前两个单词）并且lines将是文件中共享该密钥的行。

Example somefile input:

one two three four five
one two five six seven
three four something
three four something else
one two start of new one two block

的结果print k, lines:

['one', 'two'] ['one two three four five\n', 'one two five six seven\n']
['three', 'four'] ['three four something\n', 'three four something else\n']
['one', 'two'] ['one two start of new one two block\n']

从列表中排除前两个单词line, use:

with open('somefile') as fin:
    lines = (line.split(None, 2) for line in fin if line.strip())
    for k, g in groupby(lines, lambda L: L[:2]):
        lines = [el[2] for el in g]

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Python-按前两个单词对行进行分组的相关文章

sklearn 估计器管道的参数无效

我正在实现 O Reilly 书中的一个示例 Python 机器学习简介使用 Python 2 7 和 sklearn 0 16 我正在使用的代码 pipe make pipeline TfidfVectorizer LogisticRe
如何在 Debian 上的 virtualenv 中安装 numpy？

注参见这另一篇文章 https stackoverflow com questions 6442754 how to install h5py numpylibhdf5 as non root on a debian linux syst
如何使用一个模型中间层的输出作为另一个模型的输入？

我训练一个模型A并尝试使用中间层的输出name layer x 作为模型的附加输入B 我尝试像 Keras 文档一样使用中间层的输出https keras io getting started faq how can i obtain th
键入的完整命令行

我想获得输入时的完整命令行 This join sys argv 在这里不起作用删除双引号另外我不想重新加入已解析和拆分的内容有任何想法吗你太迟了当键入的命令到达 Python 时您的 shell 已经发挥了它的魔力例如引
Flask 中“缺少 CSRF 令牌”，但它在模板中呈现

问题当我尝试登录使用 Flask login 时我得到Bad Request The CSRF session token is missing但令牌正在呈现在模板中 secret key 已设置并且我在本地运行localhost
django 模板 - 如何动态访问变量？

假设我有一个具有以下上下文的 django 模板 data1 this is data1 data2 this is data2 data name data2 现在我知道了data name 假设它是 data2 是否可以用它来访问变量d
查找正在导入哪些 python 模块

从应用程序中使用的特定包中查找所有 python 模块的简单方法是什么 sys modules是将模块名称映射到模块的字典您可以检查其键以查看导入的模块 See http docs python org library sys html
在linux上安装python ssl模块，无需重新编译

是否可以在已经安装了 OpenSSL 的 Linux 机器上安装 python 的 SSL 模块而无需重新编译 python 我希望它就像复制几个文件并将它们包含在库路径中一样简单 Python版本是2 4 3 谢谢是否可以在已经安装了
Django 多对多关系（类别）

我的目标是向我的 Post 模型添加类别我希望以后能够按不同类别有时是多个类别查询所有帖子模型 py class Category models Model categories 1 red 2 blue 3 black title
Python - Unicode 到 ASCII 的转换

我无法在不丢失数据的情况下将以下 Unicode 转换为 ASCII u ABRA xc3O JOS xc9 I tried encode and decode他们不会这么做有人有建议吗 Unicode 字符u xce0 and u xc
设置高亮大括号的 vim 颜色主题

如何更改突出显示大括号的 vim 配色方案我希望实际编辑 vim 主题文件以使更改永久生效问候克雷格匹配括号的自动高亮颜色称为MatchParen 您可以通过执行以下操作来更改 vimrc 中的颜色 highlight MatchP
使用 subprocess.Popen() 或 subprocess.check_call() 时程序卡住

我想从 python 运行一个程序并找到它的内存使用情况为此我正在使用 l a out lt in txt gt out txt p subprocess Popen l shell False stdout subprocess PI
Python：在字典中查找具有唯一值的键？

我收到一个字典作为输入并且想要返回一个键列表其中字典值在该字典的范围内是唯一的我将用一个例子来澄清假设我的输入是字典 a 构造如下 a dict a cat 1 a fish 1 a dog 2 lt unique a bat 3
无法使用 python rasterio、gdal 打开 jp2 （来自哨兵）

我试图在 python 中将 jp2 栅格产品作为栅格打开但当我们使用 raterio 和 gdal 包时没有成功我收到此错误 RasterioIOError b4 jp2 not recognized as a supported f
如何通过 Python Requests 库使用基本 HTTP 身份验证？

我正在尝试在 Python 中使用基本的 HTTP 身份验证我正在使用Requests https docs python requests org 图书馆 auth requests post http hostname auth HT
如何展平解析树并存储在字符串中以进行进一步的字符串操作 python nltk

我正在尝试从树结构中获取扁平树如下所示我想将整个树放在一个字符串中就像没有检测到坏树错误一样 S NP SBJ NP DT The JJ high JJ seven day PP IN of NP DT the CD 400 NNS
无需访问 Internet 即可部署 Django 的简单方法？

我拥有的是使用 Django 开发的 Intranet 站点的开发版本以及放置在 virtualenv 中的一些外部库它运行良好我可以在任何具有互联网连接的计算机上使用相同的参数使用 pip 轻松设置 virtualenv 但是不幸
如何使用 enumerate 来倒数？

letters a b c 假设这是我的清单在哪里for i letter in enumerate letters 将会 0 a 1 b 2 c 我怎样才能让它向后枚举如 2 a 1 b 0 c 这是一个很好的解决方案并且工作完美 i
如何使用 Python/Django 在 Facebook 中获取（和使用）扩展权限

我正在尝试编写一个简单的应用程序让用户授予我的代码写入其页面的 Facebook 流的权限据我了解它应该很简单让用户单击一个按钮启动一个弹出窗口其中包含我的 Facebook 应用程序中的页面在该页面中他们单击授予的内容流发
Biopython 可以执行 Seq.find() 来解释歧义代码吗

我希望能够在 Seq 对象中搜索考虑歧义代码的子序列 Seq 对象例如以下内容应该是正确的 from Bio Seq import Seq from Bio Alphabet IUPAC import IUPACAmbiguousDNA

随机推荐

应用程序被终止后 Android 服务停止

我想创建一个service即使应用程序从任务管理器关闭它也会运行我创建了一个服务然后记录一条消息以检查它是否正在运行我注意到它仅在应用程序正在运行或在前台运行时才有效服务等级 public class CallService ex
具有多选下拉菜单的数据表特定列过滤器

我在 Datatable API 中看到了这种可能性可以使用 Drop down 进行特定列过滤 Ref https datatables net examples api multi filter select html 但对我来说它
Android 上的浮动应用程序（窗口应用程序）

有谁知道如何创建浮动窗口下图显示了我的意思源代码我在各种网站上读到为了做到这一点应用程序必须作为服务运行而该服务又应该使用 TYPE SYSTEM ALERT 作为活动运行如果上述是或不是真的我仍然不知道如何实现代码有人可
使用 python 缓慢上传到 azure blob 存储

Api 接收文件然后尝试创建唯一的 blob 名称然后我将 4MB 的块上传到 blob 每个块大约需要 8 秒这正常吗我的上传速度是110Mbps 我尝试上传一个 50MB 的文件花了将近 2 分钟我不知道azure blob
如何使用ajax保存到数据库

我有一个工作正常的代码但数据无法保存到数据库我想通过 Ajax 将 cost currency rate profit rate 和 pprice 插入数据库这是javascript和update php的代码我尝试修改代码以保存在
如何使用批处理文件分割字符串？

如何使用批处理脚本分割字符串设置java path C Program Files Java jdk1 6 0 31 上面是我的字符串我只想要 java path 中的 C Program Files 如何得到它您可以按字符位置拆分字
使用 Log4j 的每个用户都有不同的日志

我有一个 Web 应用程序我想为每个用户使用不同的日志这样我就可以获得用户在系统上执行的操作的历史记录这是我到目前为止所拥有的 import java io File import java io IOException impor
将单词列表转换为数组[关闭]

Closed 这个问题需要细节或清晰度目前不接受答案我试图查看是否有任何脚本可以将单词列表转换为数组但我似乎找不到有人知道我在哪里可以找到一个吗 Input Dog Cat Hamster 转换为 Dog Cat Hamster 不
cURL 错误 58：SSL：无法加载证书“...”及其私钥：Mac 上的 OSStatus -25299

该代码在 Ubuntu vagrant box 上运行良好但在本地 MacO 上它不会加载证书说 cURL error 58 SSL Can t load the certificate and its private key OSSt
如何像矩阵乘法一样将行向量添加到列向量

我有一个 nx1 向量和一个 1xn 向量我想以一种特殊的方式添加它们例如以有效的方式矢量化矩阵乘法 Example A 1 2 3 B 4 5 6 A odd add B 1 4 1 5 1 6 2 4 2 5 2 6 3 4 3
命名空间::变量的多重定义，甚至使用 ifndef

我知道我在这里一定做错了什么 rank h ifndef RANK H define RANK H namespace mmi int chunk void rank int my rank endif rank cpp include r
如何检测 Python 是否作为 64 位应用程序运行？ [复制]

这个问题在这里已经有答案了我正在对 Windows 注册表进行一些工作根据 Python 运行为 32 位还是 64 位某些键值会有所不同如何检测 Python 是作为 64 位应用程序运行还是作为 32 位应用程序运行我对检测
在悬停时添加边框时如何防止移动？（透明边框不是解决方案）[重复]

这个问题在这里已经有答案了我想在悬停时为 div 添加边框但是添加边框时 div 稍微有点拉屎这是一个众所周知的问题常见的解决方案是添加透明边框例如但是我的 div 中有一张包含一些文本的图像我希望该图像占据 div 的全宽
正则表达式西班牙语和阿拉伯语单词

如何编写匹配所有有效的西班牙语和阿拉伯语单词的正则表达式用我知道的英语来说它是a zA z 在希伯来语中是俄语我使用 JavaScript 范围a zA Z因为英语单词的简单和天真令人难以接受它省略了所有带有重音符号的字母以及在借
过渡到 vim。存在缩进问题

我正在从手术中恢复因此我正在过渡到 VIM 作为起点我选择使用 vim sensible 插件作为我的配置的基础此外我还安装了 vim rails 和 vim ruby 插件这些都是通过 Pathogen 加载的无论出于何种原
序列化 JFrame 并通过网络发送

我想做的是通过套接字发送 JFrame 问题是在我发送表格并按下按钮查看它之后我得到以下异常 package ds3 import java io IOException import java io ObjectInputStream
Android - 在 UI Fragment 中保留对象

在我的项目中我最初使用的是这个方案活动A UI gt 片段B 非 UI gt 适配器 AsyncTask B保留与setRetainInstance true 并更新A UI A实例化B with getFragmentManager
在 .NET 中按换行符拆分字符串

我需要在 NET 中将字符串拆分为换行符我知道拆分字符串的唯一方法是使用Split方法然而这不允许我轻松地在换行符上拆分那么最好的方法是什么要分割字符串您需要使用采用字符串数组的重载 string lines theText
jQuery Mobile 站点中所有页面通用的弹出窗口

我正在尝试使用 jQuery Mobile 制作一个网站它由 HTML 文件中的许多页面组成有些只有一页有些有多个页面使用它们的多页功能该网站将有一些通知弹出窗口它们在所有页面上看起来都一样我正在使用他们的弹出窗口新的弹出功能
Python-按前两个单词对行进行分组

我想按文件中的前两个单词对文件进行分组然后重新排列和打印我想做 lines file readlines i 0 for line in lines word1 line split 0 word2 line split 1 if wo

Python-按前两个单词对行进行分组

Python-按前两个单词对行进行分组 的相关文章

随机推荐

热门标签

Python-按前两个单词对行进行分组的相关文章