Python 中的重复数据删除

2023-11-25

在浏览 Python 中用于重复数据删除的 Dedupe 库的示例时，我发现它创建了一个集群 ID输出文件中的列，根据文档，该列指示哪些记录相互引用。虽然我无法找出两者之间的任何关系集群 ID这对查找重复记录有什么帮助？如果有人对此有见解，请向我解释一下。这是重复数据删除的代码。

# This can run either as a python2 or python3 code
from future.builtins import next

import os
import csv
import re
import logging
import optparse

import dedupe
from unidecode import  unidecode


input_file = 'data/csv_example_input_with_true_ids.csv'
output_file = 'data/csv_example_output1.csv'
settings_file = 'data/csv_example_learned_settings'
training_file = 'data/csv_example_training.json'

# Clean or process the data


def preProcess(column):

    try:
        column = column.decode('utf-8')
    except AttributeError:
        pass
    column = unidecode(column)
    column = re.sub(' +', ' ', column)
    column = re.sub('\n', ' ', column)
    column = column.strip().strip('"').strip("'").lower().strip()

    if not column:
        column = None
    return column


# Read in the data from CSV file:


def readData(filename):

    data_d = {}
    with open(filename) as f:
        reader = csv.DictReader(f)
        for row in reader:
            clean_row = [(k, preProcess(v)) for (k, v) in row.items()]
            row_id = int(row['Id'])
            data_d[row_id] = dict(clean_row)

    return data_d

print('importing data ...')
data_d = readData(input_file)

if os.path.exists(settings_file):
    print('reading from', settings_file)
    with open(settings_file, 'rb') as f:
        deduper = dedupe.StaticDedupe(f)
else:
    fields = [
        {'field' : 'Site name', 'type': 'String'},
        {'field' : 'Address', 'type': 'String'},
        {'field' : 'Zip', 'type': 'Exact', 'has missing' : True},
        {'field' : 'Phone', 'type': 'String', 'has missing' : True},
        ]
    deduper = dedupe.Dedupe(fields)
    deduper.sample(data_d, 15000)

    if os.path.exists(training_file):
        print('reading labeled examples from ', training_file)
        with open(training_file, 'rb') as f:
            deduper.readTraining(f)

    print('starting active labeling...')

    dedupe.consoleLabel(deduper)

    deduper.train()

    with open(training_file, 'w') as tf:
        deduper.writeTraining(tf)

    with open(settings_file, 'wb') as sf:
        deduper.writeSettings(sf)

threshold = deduper.threshold(data_d, recall_weight=1)

print('clustering...')
clustered_dupes = deduper.match(data_d, threshold)

print('# duplicate sets', len(clustered_dupes))


cluster_membership = {}
cluster_id = 0
for (cluster_id, cluster) in enumerate(clustered_dupes):
    id_set, scores = cluster
    cluster_d = [data_d[c] for c in id_set]
    canonical_rep = dedupe.canonicalize(cluster_d)
    for record_id, score in zip(id_set, scores):
        cluster_membership[record_id] = {
            "cluster id" : cluster_id,
            "canonical representation" : canonical_rep,
            "confidence": score
        }

singleton_id = cluster_id + 1

with open(output_file, 'w') as f_output, open(input_file) as f_input:
    writer = csv.writer(f_output)
    reader = csv.reader(f_input)

    heading_row = next(reader)
    heading_row.insert(0, 'confidence_score')
    heading_row.insert(0, 'Cluster ID')
    canonical_keys = canonical_rep.keys()
    for key in canonical_keys:
        heading_row.append('canonical_' + key)

    writer.writerow(heading_row)

    for row in reader:
        row_id = int(row[0])
        if row_id in cluster_membership:
            cluster_id = cluster_membership[row_id]["cluster id"]
            canonical_rep = cluster_membership[row_id]["canonical representation"]
            row.insert(0, cluster_membership[row_id]['confidence'])
            row.insert(0, cluster_id)
            for key in canonical_keys:
                row.append(canonical_rep[key].encode('utf8'))
        else:
            row.insert(0, None)
            row.insert(0, singleton_id)
            singleton_id += 1
            for key in canonical_keys:
                row.append(None)
        writer.writerow(row)

提前致谢

你说得对，Cluster ID不用于任何用途。

你应该看看Cluster ID作为重复数据删除执行的输出。 Dedupe 对合并您的记录不感兴趣。它的核心重点是尝试识别那些likely相似的。

它通过分配它认为相似的行来实现这一点Cluster ID.

作为软件工程师，您的工作就是以智能的方式使用该数据并决定如何合并该数据（如果有的话）。

如果我的输入如下：

我的输出将类似于以下内容：

因此，请记住，您输入的记录数应始终与重复数据删除输出的记录数相匹配。区别仅在于您有一个新列“集群 ID”，您现在可以使用它来“分组”可能的重复项。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

duplicates

pythondedupe

dedupeplugin

Python 中的重复数据删除的相关文章

tensorflow Protobuf编译问题

我想为 google 对象检测 API 编译 protobuf 库我按照官方教程输入protoc object detection protos proto python out 然后我得到的是 object detection prot
如何在 Windows 10 上使用 python 3.7 的 anaconda 包？

我使用的是 Windows 10 Pro 64 位版本我从此页面下载Anaconda3 2019 03 Windows x86 64 exe https www anaconda com distribution https www an
如何将本机 popcount 与 numba 一起使用

我正在使用 numba 0 57 1 我想在我的代码中利用本机 CPU popcount 我现有的代码太慢因为我需要运行它数亿次这是一个 MWE import numba as nb nb njit nb uint64 nb uint6
Pandas 字符串提取所有匹配项

我正在学习 pandas 系列字符串方法中的正则表达式操作我能够从字符串中提取第一个数字但我的正则表达式与第二个数字不匹配如何捕获这两个数字注意第二行第二个元素在这里是 NAN CODE import pandas as pd d
如何为 Intellij/PyCharm 设置 PYTHONSTARTUP 脚本

我尝试添加PYTHONSTARTUP环境变量我还尝试了自定义启动脚本但更令人惊讶的是这also没有工作 npa别名无法识别出于一点绝望我什至尝试添加到interpreter options 那什么也没做实际上是什么Interpr
如何移动我的图像？ python 3.10.4 pygame

我会移动我的图像图像是matiskinfinal png 我尝试将像素添加到 x 或其他我不知道它是什么的东西因为我真的是 python 的初学者 pygame但是是 x x 变化但图像没有移动 import os import py
turtle.Screen().screensize() 未输出正确的屏幕尺寸[重复]

这个问题在这里已经有答案了我编写了一些代码来在屏幕周围随机放置点但是它并没有覆盖整个屏幕 import turtle import random t turtle Turtle color red green blue pink ye
使用 boto3 从 s3 下载时使用 filename 作为文件名

我正在使用 boto3 上传文件如下所示 client boto3 client s3 aws access key id id aws secret access key key client upload file tmp test
是否有更矢量化的方法来沿轴执行 numpy.outer ？

gt gt gt x np array a0 a1 b0 b1 gt gt gt y np array x0 x1 y0 y1 gt gt gt iterable np outer x i y i for i in xrange x sha
如何为 Python 中的应用程序设置专用屏幕区域？

MS OneNote 就是一个很好的例子它可以选择固定在屏幕的一侧并将所有其他窗口推到一侧当最大化或调整其他窗口大小时它们只能扩展到 OneNote 的边缘 Python 使用 Tkinter 或其他模块是否具有此功能感谢您的帮助
pandas to_sql sqlalchemy 与 secure_transport 的连接

我正在尝试将数据发送到具有 require secure transport ON 的服务器上的 mysql 数据库当我尝试使用以下代码连接到它时 import pandas as pd import pymysql from sqlal
如何删除 pandas 数据框中的唯一行？

我遇到了一个看似简单的问题在 pandas 数据框中删除唯一的行基本上相反drop duplicates https pandas pydata org pandas docs stable generated pandas Data
Python，多线程，获取网页，下载网页

我想在一个站点批量下载网页我的 urls txt 文件中有 5000000 个 url 链接大约有300M 如何让多线程链接这些网址并下载这些网页或者如何批量下载这些网页我的想法 with open urls txt r as f
如何在交互式绘图（Python）中获得鼠标指向的（x，y）位置？

我使用 ipython 笔记本带有魔法 matplotlib nbagg 我正在审查matplotlib widget Cursor但仅查看光标widgets Cursor http matplotlib org 1 4 3 exampl
检查多个 pd.DataFrame 是否相等

是否有一种 Pythonic 方式无循环或递归来检查是否超过两个pd DataFrames 例如 pd DataFrames 列表彼此相等吗就像是 all x equals dfs 0 for x in dfs with dfs数据
如何使用 pygame.mixer 重复音乐？

我创建了以下使用 pygame mixer 播放 mp3 音乐的代码然而音乐不会重复有什么想法可以让音乐重复播放吗这是代码 playlist list playlist append put music here mp3 playl
Pip 突然使用了错误版本的 Python

在 os x 上使用 pip 时遇到一个奇怪的问题据我所知快速查看我的 bash history 似乎可以确认我最近没有对我的配置进行任何更改唉 pip 命令似乎突然使用了与以前不同的 python 版本到目前为止我使用命令 p
Flask 扩展未在 app.extensions 中注册

我想访问在我的 Flask 应用程序上注册的一些扩展我尝试使用app extensions 但我初始化的一些扩展不在字典中 from flask import current app current app extensions get
Matplotlib 中的 TwoSlopeNorm 未按预期工作

我正在尝试创建一个具有发散颜色图的绘图该颜色图在零附近不对称 In this https stackoverflow com a 20146989 6288682例如 DivergingNorm函数被使用并产生我想要的然而我使用的是更
部署 Flask 应用程序时如何检测额外文件的更改并重新加载应用程序？ [关闭]

Closed 这个问题需要调试细节 help minimal reproducible example 目前不接受答案我在 Flask 中构建了一个小型 Web 应用程序并尝试将其部署在 Pythonanywhere 上在开发过程中

随机推荐

在 Swift 中对 PDF 进行注释/绘图

我正在编写一个应用程序其中包含多个 PDF 文档我将根据用户的输入在屏幕上显示这些文档显示后我希望允许用户在 PDF 上绘图注释然后我想保存带有绘图注释的 PDF 以供以后使用我一直在无休止地搜索有关 PDF 注释的教程但
文本提取 - 逐行

我正在使用 Google Vision API 主要是为了提取文本我工作得很好但对于我需要 API 扫描输入行的特定情况在移动到下一行之前吐出文本然而该 API 似乎正在使用某种逻辑使其从左侧从上到下扫描然后移动到右侧并进行从
NGINX：如何在一台服务器或域名中设置多个端口？

我是 Nginx 新手我的设置遇到问题我希望我的服务器在公共上使用多个端口运行例如 server listen 443 ssl server name
D 中异常处理的开销

在 D2 编程语言中使用异常处理对性能有何影响尤其如果我不写异常处理代码怎么办如果我这样做了但没有抛出任何异常怎么办如果我这样做并且抛出异常怎么办异常处理是否会导致错过任何优化机会是否可以像许多大多数 C 实现中那样禁用异
无法在“ApplicationUser”上配置密钥，因为它是派生类型，但 ApplicationUser 上没有密钥配置

我正在尝试使用 ApplicationUser 自定义 IdentityUser 我按照微软文章中的步骤操作但是当我运行应用程序时我在方法上收到此错误base OnModelCreating modelBuilder System In
ES6 对象中的方法：使用箭头函数

在 ES6 中这两个都是合法的 var chopper owner Zed getOwner function return this owner 并且作为简写 var chopper owner Zed getOwner return
如何使用 mongo Java 驱动程序 3.0+ 检查文档是否存在于集合中

使用新的3 0 java驱动程序来自 mongo 检查文档是否存在于集合中的最佳方法是什么我看过here并尝试做类似的事情我只做到了这一点 FindIterable
如何仅删除字符串中的 html 标签？

我已经编写了删除 HTML 标签的代码但它也删除了a
除了日志记录和事务管理之外，AOP 还有哪些实际应用？

我理解这些原理但我很难看出实际应用在哪些地方请赐教询问任何支持人员日志记录是notAOP的一个很好的应用他们不关心应用程序内部调用什么方法他们关心应用程序正在执行的重要操作并需要以他们理解的方式呈现该信息要创建像样的日志您
3DSv2 Sagepay 直接集成基础知识

协议 4 00 的文档可能会更有帮助对于每个努力让 3DSV2 工作的人来说我希望任何已经设法让 3DSV2 工作的人能够详细阐述基础知识我将根据我的理解总结流程请大家帮忙纠正必要的地方并添加任何问题例如从 VPSTx Id 中删
如何在 pyspark pandas_udf 中记录/打印消息？

我已经测试过logger and print无法打印消息pandas udf 无论是在集群模式还是客户端模式测试代码 import sys import numpy as np import pandas as pd from pyspa
具有任意类型值的 C++ 关联数组

在 C 中为每个键创建具有任意值类型的关联数组的最佳方法是什么目前我的计划是创建一个值类其中包含我期望类型的成员变量例如 class Value int iValue Value int v iValue v std string
如何禁用底部的反应本机警告消息

我正在开发一个react native IOS应用程序这个应用程序有时会引发一条警告消息 setState 只能更新已安装或正在安装的组件我明白该消息的含义这是由于长时间的AJAX调用造成的考虑到这个警告不会对APP造成任何严重的问
HTTP 错误 500.19 - 内部服务器错误？

我正在将一个非常基本的站点从 Win 2003 迁移到 Win 2008 R2 该网站出现下面列出的错误我该如何诊断这个问题我在这两台服务器之间移动了许多其他站点这是唯一收到此错误的站点我看过有关此问题的其他帖子但没有一个列出适合
使用 Nhibernate 过滤通过聚合根返回的子集合

我正在尝试在使用 Nhibernate 加载聚合根时过滤它的子集合向客户加载所有已发货的订单这可能吗那么您可以公开在地图中过滤的属性如下所示
如何在 processStartInfo 中传递多个参数？

我想运行一些cmd命令来自c 代码我关注了一些博客和教程并得到了答案但我有点困惑即我应该如何传递多个参数我使用以下代码 System Diagnostics Process process new System Diagnostic
Python美汤表单输入解析

我的目标是获取所有输入名称和值的列表将它们配对并提交表格名称和值是随机的 from bs4 import BeautifulSoup parsing html
可以设置Python对象的任何属性[重复]

这个问题在这里已经有答案了例如这段代码是Python a object a b 3 throws AttributeError object object has no attribute b 但是这段代码 class c objec
将 sonar.test.exclusions 与 Sonarqube 6.3 一起使用

我目前正在评估 Sonarqube 6 3 对我当前的 5 5 实例进行了重大升级并且在尝试找出该功能的过程中我感到很困惑声纳测试排除环境有这样一个问题 Sonar Maven 插件如何排除测试源目录这似乎表明它用于从分析中排除
Python 中的重复数据删除

在浏览 Python 中用于重复数据删除的 Dedupe 库的示例时我发现它创建了一个集群 ID输出文件中的列根据文档该列指示哪些记录相互引用虽然我无法找出两者之间的任何关系集群 ID这对查找重复记录有什么帮助如果有人对此有见解

Python 中的重复数据删除

Python 中的重复数据删除 的相关文章

随机推荐

热门标签

Python 中的重复数据删除的相关文章