《中国人工智能学会通讯》——12.7 序列模式挖掘近似算法

简介: 本节书摘来自CCAI《中国人工智能学会通讯》一书中的第12章,第12.7节, 更多章节内容可以访问云栖社区“CCAI”公众号查看。

12.7 序列模式挖掘近似算法

数据中通常蕴含大量的频繁模式。确定性算法能够挖掘出所有频繁的模式,具有最高的准确性,但通常会花费大量计算时间,并且消耗大量内存。而序列模式挖掘近似算法是适应大数据的另一种方式。但是,近似算法所挖掘的结果中却存在着误差。因此,错误误差的估计通常是近似算法重点关注的对象。其中,Manku 等人[41]提出的 LCA(LowestCommon Ancestors)算法是一个代表性的从流数据中挖掘频繁模式的近似算法。在 LCA 算法中,增量数据以大小为 B 的块更新。对于第 n 批数据,LCA 先计算新增数据中的数据模式及其频率,然后更新到历史的结果中。但是,对于那些发生次数小于 n 的模式,LCA 会将它们从内存中删除。因此,LCA 算法存在少计算项集频率的情况,这个误差的上界是 εn ,这里 ε 是用户设定的一个误差率参数。类似地,如 Carma 算法[42] 、estDec 算法 [43] 、FP-Stream 算法[44]和 FDPM 算法[45]都考虑了类似的挖掘问题并借鉴了类似思想设计算法。又如前文所述的文献[39]中的算法也是一种近似算法,用于动态数据中的频繁情景模式挖掘。此外,Kum等人[46]则对序列模式的形式进行近似,提出了近似序列模式挖掘的概念,它的基本思想是挖掘那些可能被多个序列共享的近似的序列模式,而不是找到那些确定的序列模式。

相关文章
|
1月前
|
机器学习/深度学习 算法 Oracle
ICLR 2024:近似最优的最大损失函数量子优化算法
【2月更文挑战第27天】ICLR 2024:近似最优的最大损失函数量子优化算法
26 3
ICLR 2024:近似最优的最大损失函数量子优化算法
|
1月前
|
存储 算法 索引
模拟算法题练习(二)(DNA序列修正、无尽的石头)
模拟算法题练习(二)(DNA序列修正、无尽的石头)
|
4月前
|
设计模式 算法 Java
【数据结构和算法】递增的三元子序列
给你一个整数数组nums,判断这个数组中是否存在长度为3的递增子序列。 如果存在这样的三元组下标(i, j, k)且满足i < j < k,使得nums[i] < nums[j] < nums[k],返回true;否则,返回false。
55 3
|
4月前
|
算法
class072 最长递增子序列问题与扩展【算法】
class072 最长递增子序列问题与扩展【算法】
26 0
|
2月前
|
编解码 算法 定位技术
GEE时序——利用sentinel-2(哨兵-2)数据进行地表物候学分析(时间序列平滑法估算和非平滑算法代码)
GEE时序——利用sentinel-2(哨兵-2)数据进行地表物候学分析(时间序列平滑法估算和非平滑算法代码)
71 3
|
4月前
|
算法
排序置顶、非置顶算法,实现置顶后的结果和非置顶的内容排序保持原始序列
排序置顶、非置顶算法,实现置顶后的结果和非置顶的内容排序保持原始序列
|
16天前
|
存储 算法
从动态规划到贪心算法:最长递增子序列问题的方法全解析
从动态规划到贪心算法:最长递增子序列问题的方法全解析
16 2
|
2月前
|
算法 测试技术 C++
【动态规划】【C++算法】801. 使序列递增的最小交换次数
【动态规划】【C++算法】801. 使序列递增的最小交换次数
|
2月前
|
算法 测试技术 C++
【数据结构】模式匹配之KMP算法与Bug日志—C/C++实现
【数据结构】模式匹配之KMP算法与Bug日志—C/C++实现
35 0
|
3月前
|
缓存 算法 NoSQL
Redis 为何使用近似 LRU 算法淘汰数据,而不是真实 LRU?
Redis 为何使用近似 LRU 算法淘汰数据,而不是真实 LRU?
29 0