数据对接—kettle使用之十二

简介:

这一篇我们介绍转换插件的使用,去除重复记录和Unique rows (HashSet)。

去除重复记录控件

该步骤从流中移除重复的记录,根据指定的字段进行排除重复记录,还可以统计出重复的数量,下面是控件截图:


1、增加计数器到输出:如果你想知道多少重复行被去掉,就选择此选项

2、重定向重复记录

注意事项:

1、使用前需要排序


Unique rows (HashSet)控件

该步骤也可以从流中移除重复的记录,下面是控件截图:

总结:

两个控件都是去重的控件,较大的区别是第一个控件去重前需要排序,第二个控件不需要排序就可以直接完成去重任务,需要哪一个控件自己选择吧。

目录
相关文章
|
3月前
kettle开发篇-空操作
kettle开发篇-空操作
31 0
|
8月前
|
大数据 Linux 网络安全
|
11月前
|
SQL Oracle 关系型数据库
「集成架构」2020年最好的15个ETL工具(第二部)
「集成架构」2020年最好的15个ETL工具(第二部)
|
数据库 数据格式 Java
|
Java 数据安全/隐私保护
|
存储 SQL 数据库连接