如何使用 SSIS 从平面文件中删除重复行?

2023-11-22

首先我要说的是,能够从平面文件中获取 1700 万条记录,推送到远程机器上的数据库并花费 7 分钟,这真是太神奇了。 SSIS 确实太棒了。但现在我已经有了这些数据,如何删除重复项呢?

更好的是,我想获取平面文件,从平面文件中删除重复项,然后将它们放回到另一个平面文件中。

我正在考虑一个:

Data Flow Task

  • 文件源(具有关联的文件连接)
  • for 循环容器
  • 包含一些逻辑来判断另一行是否存在的脚本容器

谢谢您,这个网站上的每个人都知识渊博。

Update: 我找到了这个链接,可能有助于回答这个问题


使用排序组件。

只需选择您希望对加载的行进行排序的字段,您将在左下角看到一个用于删除重复项的复选框。此框仅根据排序条件删除任何重复的行 因此,在下面的示例中,如果我们仅对第一个字段进行排序,则行将被视为重复:

1 | sample A |
1 | sample B |
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何使用 SSIS 从平面文件中删除重复行? 的相关文章

  • 删除计算中的重复行?

    我在 openoffice calc 中有一个专栏 其中包含一组代码 例如 B1 B1 Br Bh Ht C3 C3 所以我想做的是删除所有重复项 这样我就只剩下 Br Bh Ht 非常感谢任何帮助 Cheers 选择包含要过滤的数据的整个
  • SQL Server递归查询显示父级路径

    我正在使用 SQL Server 语句并有一张表 例如 item value parentItem 1 2test 2 2 3test 3 3 4test 4 5 1test 1 6 3test 3 7 2test 2 我想使用 SQL S
  • 将 5 gig 文件导入表时出错

    我正在尝试批量插入表 use SalesDWH go BULK INSERT dbo npi FROM S tmp npi csv WITH FIELDTERMINATOR ROWTERMINATOR n lastrow 200 first
  • 如何在没有聚合函数的情况下在sql server中创建枢轴查询

    我正在使用 MS SQL SERVER 2008 并且有以下数据 select from account PERIOD ACCOUNT VALUE 2000 Asset 205 2000 Equity 365 2000 Profit 524
  • 如何删除实体框架6中的多对多关系

    如果将项目连接为多对多关系 则从数据库中删除项目时会出现问题 我的数据库看起来像 Project lt JobInProject gt Job ProjectID JobInProjectID JobID ProjectID JobID 主
  • 使用 MVC5、Ajax、C# 和 MSSQL Server 级联 DropdownList

    我对来自 Windows 窗体和三层架构的 MVC 非常陌生 我试图找出使用从数据库填充的级联下拉列表 DDL 我使用 MS SQL Server 2012 VS 2013 目前我正在研究用户调查问卷 用户可以从 DDL 的多个答案中进行选
  • SQL 查询中的可选参数在检查 NULL 时非常慢

    我有许多已连接的表 最大行数约为 400 万条记录 我们正在存储过程中搜索该表 并且有一个默认值为 NULL 的可选参数 下面是我们正在运行的编辑示例 连接涉及更多表 但只有 1 个字段具有 WHERE 子句 DECLARE OwnerId
  • SQL最近的命令?微软SQL

    我只是编写一个查询来查看我的客户数据库并列出他们下了多少订单等 我正在努力添加到此查询中的是只显示该电子邮件的最新 OrderID 有任何想法吗 这是我的查询 select top 1000 BuyerEMail COUNT HowMany
  • INSERT 失败,因为以下 SET 选项设置不正确:“QUOTED_IDENTIFIER”

    在执行存储过程时 我们有时会收到以下消息 之后无需任何更改 删除并重新执行存储过程 它就可以正常工作 DBCORE INSERT 失败 因为以下 SET 选项设置不正确 QUOTED IDENTIFIER 验证 SET 选项是否正确用于索引
  • SQL Server 2016-临时表-如何识别用户

    是否可以获得有关修改历史表中数据的用户 连接的信息 我读到了审计场景 其中我可以使用时态表 并且可以检测谁更改了数据 但我怎样才能做到这一点呢 一个看似无懈可击的审核解决方案 它给出了进行每个更改的登录用户的名称 并且对我的之前的回答 ht
  • 需要在SQL Server 2012中自动递增字符串

    考虑 SQL Server 2012 中的表 789 0000000 上面的数字在 SQL Server 2012 中将被视为字符串 但每当我更新记录时 我都需要增加到 1 例如 当我更新记录 1 时 它应该增加到789 0000001 当
  • T-SQL 插入或更新

    我有一个关于 SQL Server 性能的问题 假设我有一张桌子persons包含以下列 id name surname 现在 我想在此表中插入一个新行 规则如下 If id表中不存在 则插入该行 If id存在 然后更新 我这里有两个解决
  • 我可以采取哪些措施来提高 SQL Server 中纯用户定义函数的性能?

    我制作了一个简单但计算相对复杂的 UDF 用于查询很少更改的表 在典型用法中 该函数会在一个非常小的参数域上从 WHERE 子句中多次调用 如何才能更快地使用 UDF 我的想法是应该有某种方式告诉 SQL Server 我的函数使用相同的参
  • 在关联数组中查找重复值并将它们添加到计数中

    您好 我正在尝试计算关联数组中重复值的数量 如下所示 array 3 0 gt array 3 Title gt string 25 hello Price gt int 50 Count gt int 1 1 gt array 3 Tit
  • SQL Server 内部级联更新/删除如何工作?

    好吧 我相信这个问题还不清楚 这里我用另一种方式重写它 假设我创建两个表 table1 c1 int PRIMARY KEY table2 table1c11 int 之间存在关系table1 and table2 i e table1 c
  • 将 varbinary 数据插入 SQL Server 数据库

    我有这张表
  • 使用实用程序批量复制将所有表从 SQL Server 数据库导出到文件中

    我想将数据库中的所有表 bcp 到文件中 SELECT EXEC xp cmdshell bcp bcp QUOTENAME DB NAME database name QUOTENAME SCHEMA NAME SCHEMA ID sch
  • 在 ms-sql 中查找最近的位置

    我将这些参数发送给我的脚本 纬度 41 0186 经度 28 964701 它是示例 我想找到最近的位置的名称 这个怎么做 查询必须更改代码的位置 sql查询 SELECT Name FROM Location WHERE Latitude
  • 连接到 SQL Server 数据库 C#-WinForms

    我正在制作一个桌面应用程序 我希望用户必须登录才能充分使用该程序 我已经在 www winhost com 我的网站的托管位置 上创建了一个数据库 但现在我不知道该怎么办 我一直在使用 google 和 msdn 我想知道如何以编程方式将新
  • 关于数据库变更的通知

    我正在尝试一种场景 其中我想使用任何用户提交的更改来更新在不同 PC 上运行的桌面 UI 例如 Application1 安装在 PC1 PC2 和 PC3 上 假设所有 PC 都运行此应用程序 假设 PC1 上的用户 1 更改数据并提交到

随机推荐

  • 如何基于 stanford-nlp 条件随机场模型训练法国 NER?

    我发现了 stanford NLP 的工具 发现它真的很有趣 我是一名法国数据挖掘者 数据科学家 喜欢文本分析 并且很想使用你们的工具 但是 NER 在法语中不可用 这让我很困惑 我很想制作自己的法语 NER 如果认为值得的话 甚至可能将其
  • 我可以从 scala 中的重载方法中获取函数吗?

    假设我定义了两个具有相同名称和返回值但参数不同的方法 def overload x Int x toString def overload s String s 现在我想将其中之一转换为函数 如果该方法没有重载 我会这样做 val f ov
  • 继承自 ObservableCollection 的集合 - 有什么好处?

    看完之后这篇 MSDN 文章 我现在想知道将集合定义为继承自的类有什么好处 如果有的话 ObservableCollection 这之间是否有任何显着差异 class MyCollection ObservableCollection
  • 使用基于 $resource 的服务进行部分更新(又名 PATCH)?

    我们正在使用 Django TastyPie 作为后端 REST 服务提供者构建一个 Web 应用程序 并构建一个基于 AngularJS 的前端 使用大量基于 resource 的服务来对服务器上的 CRUD 对象进行处理 到目前为止一切
  • XSLT 1.0 三元 if 的惯用语?

    该 Java 程序使用三元 if 将布尔值映射到输出字符串 表示 true 空字符串表示 false public class ternary public static void main String args boolean flag
  • Java Socket - 本地端口

    我正在学习 Java 的套接字编程 我使用以下语句连接到网站 s new Socket www nba com 80 当我调试应用程序并查看 s 的内容时 我看到 Socket addr www nba com 2 21 246 97 po
  • 多模块 m2eclipse/WTP 项目能否将实用程序模块部署到 WEB-INF/类中?

    我们目前使用 MyEclipse 及其内置 Maven4MyEclipse 集成和内置 J2EE 服务器支持 但希望转换为常规 Eclipse 特别是 Helios 以便能够在 Windows 上使用其 64 位安装 MyEclipse 尚
  • Swift 4 UICollectionView 检测滚动结束

    我有一个Horizontal UICollectionView在我的应用程序上 当用户在左侧拖动时到达 UICollectionView 的末尾 或接近末尾 时 我想加载更多数据 我正在使用 Swift 4 我找到了一些 Swift 3 解
  • C# 中的 Powershell 命令

    我正在尝试查询 root CIMV2 命名空间中所有 WMI 类的名称 有没有办法使用 powershell 命令在 C 中检索此信息 沿着基思的方法 using System using System Management Automat
  • 为什么我的安装项目无法执行我的自定义注册过程

    我正在尝试为我使用 Visual Studio 2008 用 C 编写的类库驱动程序编写一个安装项目 安装程序 该驱动程序项目有一段代码如下所示 ComRegisterFunction public static void Register
  • Zend_Form 在模型视图控制器范式中适合什么位置

    The Zend框架主要用于 MVC 使用 非常有用的组件之一是Zend Form 我在寻找 Zend Form 的位置时遇到了一些麻烦 它是视图 模型还是控制器的一部分 我应该赋予它哪些职责 事实是 Zend Form 做了两件事 装饰和
  • Git:有没有办法找出提交是从哪里挑选出来的?

    如果我从多个分支中进行挑选 是否有一种简单的方法可以找出提交来自哪里 例如原始提交的 sha Example 在主分支 从开发分支挑选提交 A A 在 master 分支变成 D Before B master Feature Y C de
  • PMD 插件因 Java 14 失败:不支持的 targetJdk

    我正在尝试将带有 PMD 插件的 pom xml 文件集成到构建阶段 PMD版本3 13 0 甲骨文JDK 14
  • XML 和 ASP:检索并解析远程文件

    我正在启用 ASP 的 Windows Server 上构建一个网站 我需要从另一台服务器检索 XML 文档并返回该文档中的值 xml 文件很小 只有一个带有文本值的节点 我只需要返回该文本值 我以前从未使用过 ASP 谷歌搜索让我找到了一
  • 何时使用桥接模式以及它与适配器模式有何不同?

    有没有人用过桥纹在现实世界的应用程序中 如果有 你是如何使用它的 是我 还是只是适配器模式加入一点依赖注入 它真的值得拥有自己的模式吗 有一个组合费德里科的 and John s答案 When Shape Rectangle Circle
  • 地理位置:仅移动谷歌地图标记而不重新加载地图

    我只需要在设备移动或设备变得更加准确时更新标记 当位置改变时也会重新加载地图 我只需要移动制造商 我有以下代码 if navigator geolocation navigator geolocation watchPosition fun
  • jQuery 3D 轮播?

    有人看过像这样的 jQuery 3D 轮播教程吗 http web enavu com demos 3dcarouselwip 没有给出来源 但想知道是否有人有关于如何连续圈定 DIV 并调整其大小的提示 它看起来不是真正的 3D 但会根据
  • 在R中调用特定的列名

    colnames 为我提供了整个数据框的列名称 有没有办法获取一个指定列的名称 在 ggplot 中绘制数据时 我需要这个来命名标签 所以说我的数据是这样的 df1 lt data frame a sample 1 50 10 b samp
  • 关于注释的自定义 Eclipse 警告

    假设我有一个内部方法 它应该只在某些情况下使用 在 Eclipse 中 是否有可能将其标记为内部并在使用时显示警告 以防止我或使用我的 API 的人在不知道自己在做什么的情况下错误地使用它 我无法更改它的可见性 因为它也可能在其他包 非扩展
  • 如何使用 SSIS 从平面文件中删除重复行?

    首先我要说的是 能够从平面文件中获取 1700 万条记录 推送到远程机器上的数据库并花费 7 分钟 这真是太神奇了 SSIS 确实太棒了 但现在我已经有了这些数据 如何删除重复项呢 更好的是 我想获取平面文件 从平面文件中删除重复项 然后将