《BI那点儿事》数据流转换——模糊分组转换

简介: 原文:《BI那点儿事》数据流转换——模糊分组转换在模糊查找中我们提到脏数据是怎样进入到表中的事情,主要还是由于一些“Lazy-add”造成的。这种情况我们的肉眼很容易被欺骗,看上去是同一个单词,其实就差那么一个字母,变成了两个不同的单词。
原文: 《BI那点儿事》数据流转换——模糊分组转换

在模糊查找中我们提到脏数据是怎样进入到表中的事情,主要还是由于一些“Lazy-add”造成的。这种情况我们的肉眼很容易被欺骗,看上去是同一个单词,其实就差那么一个字母,变成了两个不同的单词。一个简单的例子是X-Ray Tech和xRey,我们很有可能认为他们是同一个职务,CT操作员,但是如果让计算机来处理的话,它们是两种截然不同的东西。
和模糊查找一样,模糊分组可以查找出多行中出现的类似的单词进行归类。我们可以使用这些归类得到的结果清洗数据源或者在不修改基础数据的情况下对原表进行修改。模糊分组也需要一个输入字符流,还需要一个OLE DB数据连接,用于存放分析得到的结果。

模糊分组任务的编辑界面有下面三个标签

  • 连接管理:这个标签用来设置OLE DB连接,在这个连接的数据库中存放分组结果,这个标签和前面提到的是一样的效果
  • 列:这个标签显示输入流中的列,在这里需要选择一些需要进行模糊分组的列。每一个被选中的列将会被分析,产生一些新的结果列。如果没有选择的话,这些列将会被标记为PassThrow列,意思是不进行模糊分组,直接将导出到输出流中。在这里也可以根据自己的意愿修改Group Output Alias,Output Alias,CleanMatch和Similarity Alias的名字。Numerals选项,如图2,这个选项有前导,后导,前导和后导,不用前导后导,四个选项。在对类似地址的一些数据进行模糊分组的时候这个选项会很有用。最后有一个Comparison flags选项可以设置忽略大小写,忽略符号等设置。
  • 高级:这个标签选项中可以设置与模糊分组算法有关的选项。在这里可以修改将要派生的三个列的列名,默认情况下它们分别是“_key_out”,“_key_in”,“_score”。下面的Similarity threshold可以控制相似度,默认的值是0.5。分隔符选项中可以设置忽略输入字符流中的“.”或空字符等,默认情况下会忽略所有常见字符。

下面我们做一个例子来说明模糊分组的用法。







执行结果:

目录
相关文章
|
BI
《BI那点儿事》数据流转换——审核
原文:《BI那点儿事》数据流转换——审核 审核转换允许对数据流添加审核审核数据,以往使用HIPPA和Sarbanes-Oxley (SOX)时,必须跟踪谁在什么时插入数据,审核转换可以实现这种功能。例如要跟踪那一个task向表里插入数据,可以在审核转换中添加相应的列。
866 0
|
BI 缓存
《BI那点儿事》数据流转换——聚合
原文:《BI那点儿事》数据流转换——聚合 聚合转换可以像T-SQL中的函数GROUP BY, Average, Minimum, Maximum, 和 Count一样对数据进行聚合运算。在图中可以看到数据以SampleID分组,对TotalSugar做Average、Maximum、Minimum、Count操作。
928 0
|
BI
《BI那点儿事》数据流转换——数据转换
原文:《BI那点儿事》数据流转换——数据转换 数据转换执行类似于T-SQL中的函数CONVERT或CAST的功能。数据转换的编辑界面如图,选择需要转换的列,在DataType下拉列表中选择需要的数据类型。Output Alias栏内设置输出时使用的别名。
974 0
|
BI
《BI那点儿事》数据流转换——字符映射表
原文:《BI那点儿事》数据流转换——字符映射表 特征映射转换如图展示数据流中列的特征,它的编辑界面很简单,只有一个标签界面,点击要进行映射的列,可以选择需要添加新列或需要更新的列。可以在Output Alias列中给原来的列一个别名,选择要进行的操作,可以进行的操作类型有: Byte Rev...
855 0
|
BI
《BI那点儿事》数据流转换——条件性拆分
原文:《BI那点儿事》数据流转换——条件性拆分 根据条件分割数据是一个在数据流中添加复杂逻辑的方法,它允许根据条件将数据输出到其他不同的路径中。例如,可以将TotalSugar< 27.4406的输出到一个路径,TotalSugar >= 27.4406的输出到另一个路径。
687 0
|
存储 BI
《BI那点儿事》数据流转换——派生列
原文:《BI那点儿事》数据流转换——派生列 派生列转换通过对转换输入列应用表达式来创建新列值。 表达式可以包含来自转换输入的变量、函数、运算符和列的任意组合。 结果可作为新列添加,也可作为替换值插入到现有列。
954 0
|
BI
《BI那点儿事》数据流转换——排序
原文:《BI那点儿事》数据流转换——排序 排序转换允许对数据流中的数据按照某一列进行排序。这是五个常用的转换之一。连接数据源打开编辑界面,编辑这种任务。不想设置为排序列的字段不要选中,默认情况下所有列都会选中。
843 0
|
BI 数据挖掘
《BI那点儿事》数据流转换——百分比抽样、行抽样
原文:《BI那点儿事》数据流转换——百分比抽样、行抽样 百分比抽样和行抽样可以从数据源中随机选择一组数据。这两种task都可以产生两组输出,一组是随机选择的,另一组是没有被选择的。可以将这些选择出的数据发送到开发或者测试服务器上。
905 0
|
BI
《BI那点儿事》数据流转换——逆透视转换
原文:《BI那点儿事》数据流转换——逆透视转换   逆透视转换将来自单个记录中多个列的值扩展为单个列中具有同样值的多个记录,使得非规范的数据集成为较规范的版本。例如,每个客户在列出客户名的数据集中各占一行,在该行的各列中显示购买的产品和数量。
870 0
|
BI
《BI那点儿事》数据流转换——透视
原文:《BI那点儿事》数据流转换——透视 这个和T-SQL中的PIVOT和UNPIVOT的作用是一样的。数据透视转换可以将数据规范或使它在报表中更具可读性。 通过透视列值的输入数据,透视转换将规范的数据集转变成规范程度稍低、但更为简洁的版本。
946 0

热门文章

最新文章