如何将具有两个标题的混合记录类型固定宽度文件加载到两个单独的文件中

2023-11-26

我的任务是加载格式奇怪的文本文件。该文件还包含不需要的数据。它包含两个背靠背的标头，每个标头的数据在交替行上指定。标题行开始于------。我需要读取标头及其相应的数据，并将其转储到某个 Excel/表目标中。让我知道如何使用 SSIS 中的任何转换或脚本来解决此问题。不知道如何为此使用脚本任务。

现在我正在读取一列中的文件并使用派生列手动尝试使用substring功能。但这仅适用于一个标头，而且它是一种硬编码类型。我需要一些动态方法来直接读取标题行和数据行。

输入文件：

A1234-012                                         I N F O R M A T I C S  C O M P A N Y                                      08/23/17
PAGE    2 BATCH ABC                                           PAYMENT DATE & DUE DATE                                 EDIT PAGE  481
------------------------------------------------------------------------------------------------------------------------------------
 SEO  XRAT CLT     LOAN      OPENING  PAYMENT MATURIUH LOAN NEXE ORIG-AMT   OFF TO CATE  CONTC MON NO.TO  TOL NEL   S CUP CO IND PAT
 NOM  CODE NOM    NOMTER      DATE    DUO DATE  DATE   TIME PT #  MONEY         AQ LOAN  NUMBER    BLOCK   PAYMENT  U TYP GH OMG IND
       1-3 4-6  7-13/90-102  14-19    20-25     26-31 32-34 35-37 38-46   47-48 49 50-51 52-61  62  63      64-72  73 4-5 76 77 8-80
------------------------------------------------------------------------------------------------------------------------------------
 SEO  XRAT CLT     LOAN     A/C   A/C     MIN     MAX    MAX   PENDI  LATE CCH  L/F  PARTLYS  CUR   L/F      L/F     L/F
 NOM  CODE NOM    NOMTER    CODE FACTOR   MON     MON    ROAD   DAYS  MONE POT  L/A  L/F JAC  INT  VAD CD  USED PI  VAD DT
       1-3 4-6  7-13/90-102  14  15      20-23   24-29   30-34 35-37   38-42    43     44     49     60     61-63    64-69
USED-ID:
------------------------------------------------------------------------------------------------------------------------------------
454542 070 567    2136547895 08-08-18 08-06-18 11-02-18 123 256      62,222  LK  5 55 5463218975 5 3       5,555.22    33        H55
025641 055 123    5144511352 B  .55321   2.55 6531.22                                                 H      #AS
454542 070 567    2136547895 08-08-18 08-06-18 11-02-18 123 256      62,222  LK  5 55 5463218975 5 3       5,555.22    33        H55
025641 055 123    5144511352 B  .55321   2.55 6531.22                                                 H      #AS
454542 070 567    2136547895 08-08-18 08-06-18 11-02-18 123 256      62,222  LK  5 55 5463218975 5 3       5,555.22    33        H55
025641 055 123    5144511352 B  .55321   2.55 6531.22                                                 H      #AS

预期输出应该是：

FILE 1:

 SEO  XRAT CLT     LOAN      OPENING  PAYMENT MATURIUH LOAN NEXE ORIG-AMT   OFF TO CATE  CONTC MON NO.TO  TOL NEL   S CUP CO IND PAT
 NOM  CODE NOM    NOMTER      DATE    DUO DATE  DATE   TIME PT #  MONEY         AQ LOAN  NUMBER    BLOCK   PAYMENT  U TYP GH OMG IND
454542 070 567    2136547895 08-08-18 08-06-18 11-02-18 123 256      62,222  LK  5 55 5463218975 5 3       5,555.22    33        H55
454542 070 567    2136547895 08-08-18 08-06-18 11-02-18 123 256      62,222  LK  5 55 5463218975 5 3       5,555.22    33        H55
454542 070 567    2136547895 08-08-18 08-06-18 11-02-18 123 256      62,222  LK  5 55 5463218975 5 3       5,555.22    33        H55

FILE 2:

 SEO  XRAT CLT     LOAN     A/C   A/C     MIN     MAX    MAX   PENDI  LATE CCH  L/F  PARTLYS  CUR   L/F      L/F     L/F
 NOM  CODE NOM    NOMTER    CODE FACTOR   MON     MON    ROAD   DAYS  MONE POT  L/A  L/F JAC  INT  VAD CD  USED PI  VAD DT
025641 055 123    5144511352 B  .55321   2.55 6531.22                                                 H      #AS
025641 055 123    5144511352 B  .55321   2.55 6531.22                                                 H      #AS
025641 055 123    5144511352 B  .55321   2.55 6531.22                                                 H      #AS

忽略前 3 行

要忽略前 3 行，您可以简单地配置平面文件连接管理器来忽略它们，类似于：

分割文件并删除坏行

1. 配置连接管理器

此外，在平面文件连接管理器中，转到高级选项卡并删除除一列之外的所有列，并将其数据类型更改为DT_STR和最大长度4000.

添加两个连接管理器，每个目标文件一个，您必须仅定义最大长度 = 4000 的一列：

2.配置数据流任务

添加一个数据流任务，并在里面添加一个平面文件源。选择源文件连接管理器。

使用以下表达式添加条件分割：

File1

FINDSTRING([Column 0],"OPENING",1) > 1 || FINDSTRING([Column 0],"DATE",1) > 1 || TOKENCOUNT([Column 0]," ") == 19

File2

FINDSTRING([Column 0],"A/C",1) > 1 || FINDSTRING([Column 0],"FACTOR",1) > 1 || TOKENCOUNT([Column 0]," ") == 10

上面的表达式是根据您在问题中提到的预期输出创建的，我厌倦了在每个标题中搜索唯一关键字并根据空格出现的次数分割数据行。

最后将每个输出映射到目标平面文件组件：

实验

执行结果如下图所示：

更新 1 - 删除重复项

要删除重复项，您必须可以参考以下链接：

如何使用 SSIS 从平面文件中删除重复行？

更新 2 - 仅删除重复的标题 + 用 Tab 替换空格

如果您只需要删除重复的标头，那么您可以分两步执行此操作：

在每个条件分割输出后添加一个脚本组件以标记不需要的行
添加条件拆分以根据脚本组件输出过滤行

另外，由于列值不包含空格，可以使用正则表达式将空格替换为单个Tab，以使文件一致。

脚本组件

在脚本组件中添加一个类型为 DT_BOOL 的输出列并将其命名outFlag还添加一个输出列outColumn0类型的DT_STR和长度等于4000并选择Column0作为输入列。

然后在脚本编辑器中编写以下脚本(C#):

首先确保添加正则表达式命名空间

using System.Text.RegularExpressions;

脚本代码

int SEOCount = 0;
int NOMCount = 0;

Regex regex = new Regex("[ ]{2,}", RegexOptions.None);


public override void Input0_ProcessInputRow(Input0Buffer Row)
{
    if (Row.Column0.Trim().StartsWith("SEO"))
    {


        if (SEOCount == 0)
        {

            SEOCount++;
            Row.outFlag = true;

        }
        else
        {

            Row.outFlag = false;

        }



    }
    else if (Row.Column0.Trim().StartsWith("NOM"))
    {

        if (NOMCount == 0)
        {

            NOMCount++;
            Row.outFlag = true;

        }
        else
        {

            Row.outFlag = false;

        }

    }
    else if (Row.Column0.Trim().StartsWith("PAGE"))
    {
        Row.outFlag = false;
    }
    else
    {

        Row.outFlag = true;

    }


    Row.outColumn0 = regex.Replace(Row.Column0.TrimStart(), "\t");
}

有条件分割

在每个脚本组件后面添加条件分割，并使用以下表达式来过滤重复的标头：

[outFlag] == True

并将条件拆分连接到目的地。确保映射outColumn0到目标列。

套餐链接

https://www.dropbox.com/s/d936u4xo3mkzns8/Package.dtsx?dl=0

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)