citespace数据处理：用python对Ref文档进行去重

2023-11-17

首先将txt文档提取到Excel表格中筛选出重复项，并且整理到txt中：
在这里插入图片描述
需要去重的目标txt也准备好：

在这里插入图片描述

接下来运行代码，注意代码中的路径需要自己按实际情况修改：

#coding:utf-8
#__author__ ='pig'

# 实现去重功能

import re
# 需要去重的标题列表
title_need_delete = []

f0 = open('D:\Desktop\数据\\need_delete.txt',encoding='utf-8')
for line in f0.readlines():
    title_need_delete.append(line)
#print(title_need_delete)
# 一键多值字典0
dict={}

# 标题列表
title_list = []

f1=open('D:\Desktop\数据\\sum.txt',encoding='utf-8')
data=f1.readlines()
# print data1
f1.close()
num = 0
# 第一次遍历：构建字典，能看出每篇文章出现的次数
for index,line in enumerate(data):
    if line[0:2] == 'T1':
        num+=1
        title = line[3:]
        if title not in title_list:
            # 向字典中添加新key
            dict.setdefault(title,[]).append(1)
            title_list.append(title)

        else:
            # 修改该文章出现的次数
            dict[title][0] += 1

#print(dict)
print("原数据量："+str(num))

f2 = open('after_delete.txt', 'w', encoding='utf-8')

delete_num = 0
after_num = 0
# 第二次遍历：将文本写入新文件（每篇文章数据整段写入），对于每篇文章，若出现在黑名单中，则需要跳过，直到最后一次出现才写入
for index,line in enumerate(data):
    # 每篇文章先判定
    if line[0:2] == 'RT':
        # 定位至标题行
        index_1 = index
        while(data[index_1][0:2] != 'T1'):
            index_1 += 1
        # 提取标题
        title = data[index_1][3:]
        # 如果在黑名单里且不是最后一次出现,则跳过此文章，并将字典中次数-1
        if title in title_need_delete and dict[title][0] > 1:
            # print('跳过：'+ title)
            dict[title][0] -= 1
            delete_num += 1
            # 跳过
            continue
        else :
            # 不在黑名单中则正常写
            f2.writelines(data[index])
            after_num += 1
            index += 1
            while(data[index][0:2] != 'RT'):
                f2.writelines(data[index])
                index += 1
                if index == len(data):
                    break
print("去重完成！")
print("删除重复数据：" + str(delete_num))
print("剩余数据：" + str(after_num))
f2.close()

运行结果：
在这里插入图片描述

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

机器学习

数据分析

人工智能

citespace数据处理：用python对Ref文档进行去重的相关文章

使用 python requests 模块时出现 HTTP 503 错误

我正在尝试发出 HTTP 请求但当前可以从 Firefox 浏览器访问的网站响应 503 错误代码本身非常简单在网上搜索一番后我添加了user Agent请求参数但也没有帮助有人能解释一下如何消除这个 503 错误吗顺便说一句
如何使用 opencv.omnidir 模块对鱼眼图像进行去扭曲

我正在尝试使用全向模块 http docs opencv org trunk db dd2 namespacecv 1 1omnidir html用于对鱼眼图像进行扭曲处理Python 我正在尝试适应这一点C 教程 http docs op
将html数据解析成python列表进行操作

我正在尝试读取 html 网站并提取其数据例如我想查看公司过去 5 年的 EPS 每股收益基本上我可以读入它并且可以使用 BeautifulSoup 或 html2text 创建一个巨大的文本块然后我想搜索该文件我一直在使用
Python 中的舍入浮点问题

我遇到了 np round np around 的问题它没有正确舍入我无法包含代码因为当我手动设置值而不是使用我的数据时返回有效但这是输出 In 177 a Out 177 0 0099999998 In 178 np rou
Pandas/Google BigQuery：架构不匹配导致上传失败

我的谷歌表中的架构如下所示 price datetime DATETIME symbol STRING bid open FLOAT bid high FLOAT bid low FLOAT bid close FLOAT ask open
Python getstatusoutput 替换不返回完整输出

我发现了这个很棒的替代品getstatusoutput Python 2 中的函数在 Unix 和 Windows 上同样有效不过我觉得这个方法有问题output被构建它只返回输出的最后一行但我不明白为什么任何帮助都是极好的 def
跟踪 pypi 依赖项 - 谁在使用我的包

无论如何是否可以通过 pip 或 PyPi 来识别哪些项目在 Pypi 上发布可能正在使用我的包也在 PyPi 上发布我想确定每个包的用户群以及可能尝试积极与他们互动预先感谢您的任何答案即使我想做的事情是不可能的这实际上是不
删除flask中的一对一关系

我目前正在使用 Flask 开发一个应用程序并且在删除一对一关系中的项目时遇到了一个大问题我的模型中有以下结构 class User db Model tablename user user id db Column db String
YOLOv8获取预测边界框

我想将 OpenCV 与 YOLOv8 集成ultralytics 所以我想从模型预测中获取边界框坐标我该怎么做呢 from ultralytics import YOLO import cv2 model YOLO yolov8n pt
如何在 Python 中解析和比较 ISO 8601 持续时间？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我正在寻找一个 Python v2 库它允许我解析和比较 ISO 8601 持续时间may处于不同单
为什么 PyYAML 花费这么多时间来解析 YAML 文件？

我正在解析一个大约 6500 行的 YAML 文件格式如下 foo1 bar1 blah name john age 123 metadata whatever1 whatever whatever2 whatever stuff thi
Python 2：SMTPServerDisconnected：连接意外关闭

我在用 Python 发送电子邮件时遇到一个小问题 me my email address you recipient s email address me email protected cdn cgi l email protectio
从Python中的字典列表中查找特定值

我的字典列表中有以下数据 data I versicolor 0 Sepal Length 7 9 I setosa 0 I virginica 1 I versicolor 0 I setosa 1 I virginica 0 Sepal
从 NumPy ndarray 中选择行

我只想从 a 中选择某些行NumPy http en wikipedia org wiki NumPy基于第二列中的值的数组例如此测试数组的第二列包含从 1 到 10 的整数 gt gt gt test numpy array nump
如何在 pygtk 中创建新信号

我创建了一个 python 对象但我想在它上面发送信号我让它继承自 gobject GObject 但似乎没有任何方法可以在我的对象上创建新信号您还可以在类定义中定义信号 class MyGObjectClass gobject GO
在本地网络上运行 Bokeh 服务器

我有一个简单的 Bokeh 应用程序名为app py如下 contents of app py from bokeh client import push session from bokeh embed import server do
使用for循环时如何获取前一个元素？ [复制]

这个问题在这里已经有答案了可能的重复 Python 循环内的上一个和下一个值 https stackoverflow com questions 1011938 python previous and next values inside
Scipy Sparse：SciPy/NumPy 更新后出现奇异矩阵警告

我的问题是由大型电阻器系统的节点分析产生的我基本上是在设置一个大的稀疏矩阵A 我的解向量b 我正在尝试求解线性方程A x b 为了做到这一点我正在使用scipy sparse linalg spsolve method 直到最近一切都
Pandas 每周计算重复值

我有一个Dataframe包含按周分组的日期和 ID df date id 2022 02 07 1 3 5 4 2022 02 14 2 1 3 2022 02 21 9 10 1 2022 05 16 我想计算每周有多少 id 与上周重
Kivy - 单击按钮时编辑标签

我希望 Button1 在单击时编辑标签 etykietka 但我不知道如何操作你有什么想法吗 class Zastepstwa App def build self lista WebOps getList layout BoxLayo

随机推荐

开发者须知，App和小程序须备案，否则面临清退！

备案并不陌生前端开发的老铁肯定熟悉若你的网站未备案情况下在国内的服务器是无法访问的所谓备案通常指的就是ICP备案需要把你经营的信息给相关部门进行报备简而言之就是网络上的营业执照这么做的目的就是维护网络的安全防止在网
JDK源码阅读之AbstractStringBuilder类

AbstractStringBuilder类源码阅读 AbstractStringBuilder类的作用 AbstractStringBuilder类的类图 AbstractStringBuilder类的重点方法属性变量构造方法精华方
StringUtils常用方法+StringUtils详细介绍

StringUtils用法 StringUtils详细介绍博文来源 http yijianfengvip blog 163 com blog static 175273432201212221935832 public static vo
anaconda64位环境切换为32位，切换64位和32位python的方法

今天需要调用一个dll动态函数库但是本地的python是64位的 dll是32位的直接调用会报错 OSError WinError 193 1 不是有效的 Win32 应用程序 1 python版本 3 6 anaconda对于pyth
Python学习（三）条件运算

Python学习三条件运算之前讲解了Python中的一些基本语法今天我们来讲一下Python中的条件运算一条件运算符在Python中我们可以用条件运算符进行最基本的条件判断基本语法为语句1 if 条件判断式 else 语句
git上传项目到Github（详细版）

第一步下载git 官网 Git Downloads 第二步再需要上传到github的项目右键打开git的命令行界面第三步查看当前分支所在的分支就是代码上传的地方 git branch 如果需要切换分支则执行以下语句切换到主分
浅析java基本数据类型

java中的基本数据类型4类8种四种整数类型 byte short int long 两种浮点数类型 float double 一种字符类型 char 一种布尔类型 boolean true 真和 false 假所谓数据类型在数据结
若依免登录进首页

现象在启动若依后输入验证码登录至首页然后关掉idea中的前后端再打开idea重启前后端然后发现若依免登录直接进入到首页应是login vue中设置了Cookie 如下图所示这里验证码的答案因为已经缓存到Redis中了因而在该
mpu6050数据，mqtt订阅实时存mysql数据库

import json import paho mqtt client as mqtt import pymysql import time HOST mqtt域名 PORT mqtt端口号 KEEPALIVE 60 topic MPU60
linux系统架构与目录解析

1 当有两个硬盘都装有linux时居然可以直接跳进另一个操作系统不用重启使用命令chroot 做一些简单的操作因为linux kernel差不多 2 linux本地启动过程为grub gt kernel gt initrd gt i
RIP的防环机制：水平分割、毒性反转、触发更新

RIP的防环机制水平分割毒性反转触发更新 RIP Routing Information Protocol 路由信息协议一种距离矢量路由协议属于IGP协议适用于中小型网络使用UDP进行路由信息的交互端口号520 为了防止产生
计网学习记录，burp抓包等学习记录

攻防实验室网安学习记录 1 学习到html的基础架构及其简单用法 1 html基础架构 2 table 定义表格 2 学会用phpstudy创建网站 3 用wordpress对phpstudy创建的网站进行了编辑修改 4 仅通过phpst
Android日志分析02-am篇

Android日志分析02 am篇在日常分析bug时免不了和系统ActivityManagerService打交道根据日志去查看各个Activity的生命周期从而判断是否出现Activity生命周期异常先使用adb logcat和
for in / for of / forEach 循环

目录 1 for 循环 2 for in 循环 3 forEach 循环 4 for of循环 5 const 在 for in 或者for of 中的使用 1 for 循环 for 循环的最大缺点是需要跟踪计数器和退出条件虽然 for
nginx解决端口问题含配置步骤---反向代理

centos7下安装nginx博客链接 https blog csdn net qq 41357211 article details 99694744 nginx配置反向代理步骤在文章下面 nginx安装在服务器后例如服务器的域名为
android接口加密实现方案

Fiddler抓包工具配置 android接口如何防抓取 Windows下使用OpenSSL生成RSA证书文中使用的加密库 1 程序主类 import android os Bundle import android support v7
QTreeWidget表头拉伸宽度自适应导致长度显示有遮挡

对QTreeWidget 设置 header gt setSectionResizeMode 0 QHeaderView ResizeToContents 后由于控件的拉伸属性再为其设置setColumnWidth 0 200 将不再生效
CE+OD外挂制作实战 [提高篇]

人造指针基址实验目标通过向游戏注入一段特殊汇编代码实现自动获取动态地址省略找基址的麻烦为什么会出现人造指针 1 基址偏移层数太多很难找 2 有些游戏根本找不到基址人造指针有什么优缺点 1 人造指针就算游戏更新也无需去重复找基
Numpy 通过矩阵操作避免for循环之 [None, :, :]运用

我们知道python中 for 循环的效率是不高的相比之下直接运用矩阵向量操作如点乘可以让代码运行更快因为在复现paper时候遇到了这样的问题在这里总结一下我的解决方法 None 介绍通过None indexing 可以将一个
citespace数据处理：用python对Ref文档进行去重

首先将txt文档提取到Excel表格中筛选出重复项并且整理到txt中需要去重的目标txt也准备好接下来运行代码注意代码中的路径需要自己按实际情况修改 coding utf 8 author pig 实现去重功能 import re

citespace数据处理：用python对Ref文档进行去重

citespace数据处理：用python对Ref文档进行去重 的相关文章

随机推荐

热门标签

citespace数据处理：用python对Ref文档进行去重的相关文章