参考《ETL数据整合与处理》--任务3.1
排序是对数据中心的无序记录,按照自然或客观规律,根据关键字段大小递增或递减的次序,对记录重新排列的过程。
为了得出学生的成绩排名,需要对“2019年11月月考数学成绩.xls”文件,使用【排序记录】组件,对学生的成绩从低到高排序。
参数名称 |
说明 |
|
步骤名称 |
表示排序组件名称,在单个转换工程中,名称必须唯一。默认值是【排序记录】组件名称 |
排序目录 |
表示排序时存放临时文件的目录,可以直接键盘设置,也可以单击【浏览(B)…】按钮,设置为计算机上已存在的目录。默认值是当前系统标准临时文件目录%%java.io.tmpdir%% |
临时文件前缀 |
表示临时文件前缀名称,排序时使用临时文件,可以加快和方便排序。当行数超过指定的排序大小时候,系统将使用临时文件排序行。默认值为out |
排序缓存大小 |
表示存放在内存的记录数,存储在内存中的记录越多,排序过程就越快。默认值为1000000 |
未使用内存限值(%) |
表示未使用内存的百分比限值。排序时,如果发现可用的空闲内存少于指定的数字,系统将会将数据分页到磁盘。默认值为空 |
压缩临时文件 |
表示需要临时文件来完成排序时,是否压缩该临时文件。默认值为空 |
仅仅传递非重复的记录 |
表示是否启用仅向输出流传递唯一的记录。默认值为空 |
字段 |
表示参加排序的字段,使用一个【字段】表来设置字段的参数。有关排序字段参数的说明如下表所示 |
字段参数 |
说明 |
字段名称 |
指定排序的字段名称,可用多个字段进行组合排序。可以直接键盘输入,也可以单击输入框,从下拉框中选中输入流的字段,还可以点击图 3‑3所示的【获取字段】按钮,获取所有字段进行编辑,保留需要排序的关键字段,删除不参加排序的字段 |
升序 |
对指定的字段制订排序方向(升序/降序),选项有:是、否 |
大小写敏感 |
指定的排序时是否区分大小写,选项有:是、否 |
Sort base on current locale? |
是否根据当前位置排序,选项有:是、否 |
Collator Strength |
指定排序器强度,选项有:0、1、2、3 |
Presorted? |
是否进行预排序,选项有:是、否 |
执行结果: