备案控制台

开发者社区

开发者社区大数据文章正文

【Spark Summit East 2017】构建于高维文档数据集上的基于时间戳的实时分析查询处理与预测模型

2017-02-19 2040

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本讲义出自Debasish Das在Spark Summit East 2017上的演讲，主要介绍了对于LuceneDAO进行的扩展，允许其从文档术语的观点来使用时间戳进行搜索和时间过滤，演讲中展示了对于一整套查询生成的API，核心观点是通过理解如何使得 Lucene能够意识到在Spark中时间意识是非常重要的，进而构建交互式分析查询处理和时间序列预测算法。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data；此外，通过Maxcompute及其配套产品，低廉的大数据分析仅需几步，详情访问https://www.aliyun.com/product/odps。

本讲义出自Debasish Das在Spark Summit East 2017上的演讲，主要介绍了对于LuceneDAO进行的扩展，允许其从文档术语的观点来使用时间戳进行搜索和时间过滤，演讲中展示了对于一整套查询生成的API，核心观点是通过理解如何使得 Lucene能够意识到在Spark中时间意识是非常重要的，进而构建交互式分析查询处理和时间序列预测算法。

15771b7b0fd7b6cf51955724c2a974feaf71db5f

3672cb7ed80289d4bda4758867ebbc173ebc7084

dc8a0e29d1e7b5f107335268e4a7b8968d689d44

b84acc051865bc0eaf38f92ddcc319a7a3b53d3a

5ae3d00cf5370c7d908d1dffdbe7e8e7deda9b08

9d983a0c2cdfba7587b43de5f3d845378d88916c

7ae17bae6b211f6e84b708c9abb888da718afcc9

361e184a4851e2e372805570d6b9088f5db709e9

b3da5bdce4c85db2129d20ba8fe27d4e6b821e78

78ca602bf81c263f0775bd2e2c6cb421876604eb

ccb19e3962c24c9e1a915d1ec99fc434b19f1b84

a117023549e35e8b965ec6cb4b734db36df781b3

c570640b83b07fdff4cd0856d9a398457ac7db8f

741fba8c64e4ff9ca9c017daf046ae6e667d87d0

1fd49db80c43b27255488cc99e9823cb76368f7e

bd0e665b1aa08f7ab86b1cd9e5fd3b09f49f14c2

d215858cb9e9c98dea0faf2510619cc513c14ab4

17aa8ad1f2d2e464598ae043b58c3cd70b500e2d

9c7197512485af0260c9109c9775ac23c4a8872f

2adf079094c47ead73729facb29c72c2e2b878a9

85e1a2b8bb4b804dfc0d3a61b54ebcd841639ef4

58b9ad772a76e5e1d0b62431077428cd72cc9494

dba816c61c961979065b7536b7ba736bf8bf9d04

文章标签：

算法

大数据

分布式计算

Spark

关键词：

apache spark数据集分析

apache spark数据集

apache spark文档

apache spark查询

apache spark分析

小猫吃鱼569

目录

相关文章

疯狂的猿

|

3月前

|

机器学习/深度学习 SQL 分布式计算

Apache Spark 的基本概念和在大数据分析中的应用

介绍 Apache Spark 的基本概念和在大数据分析中的应用

疯狂的猿

157 0 0

程序猿～厾罗

|

3月前

|

机器学习/深度学习 SQL 分布式计算

介绍 Apache Spark 的基本概念和在大数据分析中的应用。

介绍 Apache Spark 的基本概念和在大数据分析中的应用。

程序猿～厾罗

70 0 0

诸葛子房

|

4月前

|

SQL 分布式计算 HIVE

Spark数据倾斜问题分析和解决

Spark数据倾斜问题分析和解决

诸葛子房

43 0 0

xleesf

|

1月前

|

SQL 分布式计算 HIVE

Spark读取变更Hudi数据集Schema实现分析

Spark读取变更Hudi数据集Schema实现分析

xleesf

36 0 0

yuanzhengme

|

1月前

|

存储缓存分布式计算

Spark【基础知识 02】【弹性式数据集RDDs】（部分图片来源于网络）

【2月更文挑战第13天】Spark【基础知识 02】【弹性式数据集RDDs】（部分图片来源于网络）

yuanzhengme

34 1 1

jerrywangsap

|

2月前

|

分布式计算大数据 Java

Spark 大数据实战：基于 RDD 的大数据处理分析

Spark 大数据实战：基于 RDD 的大数据处理分析

jerrywangsap

120 0 0

晓之以理的喵~~

|

3月前

|

机器学习/深度学习数据采集分布式计算

Spark回归分析与特征工程

Spark回归分析与特征工程

晓之以理的喵~~

48 0 0

晓之以理的喵~~

|

3月前

|

分布式计算大数据数据处理

Spark RDD（弹性分布式数据集）

Spark RDD（弹性分布式数据集）

晓之以理的喵~~

40 0 0

Maynor

|

4月前

|

分布式计算 BI 双11

StructredStreaming+Kafka+Mysql(Spark实时计算| 天猫双十一实时报表分析)

StructredStreaming+Kafka+Mysql(Spark实时计算| 天猫双十一实时报表分析)

Maynor

37 0 0

热烈的马

|

4月前

|

机器学习/深度学习分布式计算搜索推荐

【大数据技术】Spark MLlib机器学习协同过滤电影推荐实战（附源码和数据集）

【大数据技术】Spark MLlib机器学习协同过滤电影推荐实战（附源码和数据集）

热烈的马

73 0 0

热门文章

最新文章

Paimon 与 Spark 的集成（二）：查询优化

阿里云 EMR Serverless Spark 版免费邀测中

大数据技术与Python：结合Spark和Hadoop进行分布式计算

bigdata-36-Spark转换算子与动作算子

图解大数据 | 使用Spark分析新冠肺炎疫情数据@综合案例

Spark 源码分析 -- BlockStore

BR-MLP基于spark+Hadoop分布式数据挖掘解决方案功能剖析

Spark RDD类源码阅读

7月24日晚Spark社区直播：【Apache Spark 基于 Apache Arrow 的列式存储优化】

Spark学习---SparkSQL（概述、编程、数据的加载和保存、自定义UDFA、项目实战）

Spark环境搭建与使用

Spark学习---day07、Spark内核（Shuffle、任务执行）

Spark读取变更Hudi数据集Schema实现分析

实战|使用Spark Streaming写入Hudi

adb spark的lakehouse api访问内表数据，还支持算子下推吗

Spark学习---day06、Spark内核（源码提交流程、任务执行）

Spark学习--day05、SparkCore电商网站实操、SparkCore-工程代码

Spark【Spark学习大纲】简介+生态+RDD+安装+使用（xmind分享）

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第二阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第四阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第五阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第六阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第七阶段

大数据实时计算框架Spark快速入门

相关电子书

更多

Hybrid Cloud and Apache Spark

Scalable Deep Learning on Spark

Comparison of Spark SQL with Hive

相关实验场景

更多

基于OpenSearch向量检索版和MaxCompute快速搭建图搜服务

Lindorm AIGC：十分钟搞定智能问答 + 多模态检索

函数计算X RDS PostgreSQL，基于LLM大语言模型构建AI知识库

【文生文】一键部署ChatYuan模型

使用检索分析服务Elasticsearch版实现基础检索

使用内置公开数据集快速体验MaxCompute

下一篇

阿里云oss简介和使用流程