Splunk——大数据处理的实时引擎

简介: 大数据已经成为影响各行各业的热词,鉴于中国庞大的用户基础,对中国企业而言,大数据的影响也更为深刻。 2013年8月6日,Splunk公司在北京举办了探讨大数据如何落地的研讨会,分享了大数据给各个领域带来的变革、大数据技术在中国落地的前沿观点以及Splunk大数据方案的实施案例。
0.jpg

大数据已经成为影响各行各业的热词,鉴于中国庞大的用户基础,对中国企业而言,大数据的影响也更为深刻。

2013年8月6日,Splunk公司在北京举办了探讨大数据如何落地的研讨会,分享了大数据给各个领域带来的变革、大数据技术在中国落地的前沿观点以及Splunk大数据方案的实施案例。

“数据正以几何的速度在增长,其中最复杂的也最有价值的数据细分市场是机器数据,所有这些像服务器、安全装置、传感器等基础架构产生的数据都是机器数据,这些机器数据记录了方方面面的行为。”Splunk产品营销副总裁Sanjay Mehta说道。Splunk所定义的机器数据,包括了文件或者文件目录、syslog、Windows事件日志、Windows注册表、Windows性能指标、Unix/Linux日志和指标、文件完整性监视、配置文件、OPSEC LEA、Cisco设备日志、IIS日志、Apache日志、WebSphere日志/指标和其他数据、以及任何其他数据。

对于一些用户而言,Splunk可能显得有些陌生,谈到Splunk的业务以及产品定位,Sanjay将Splunk的软件比作分析大数据的引擎,他表示:“Splunk公司主要处理大数据,对这些大数据进行分析,给我们的客户、组织带来价值,而且,我们能保证以低成本的进行实时地分析,允许用户使用我们的技术对数据进行收集、监控、分析,而且进行可视化。目前,Splunk公司的产品和技术已经应用到各行各业,其中包括保险、政府、媒体领域。”

Splunk广泛应用大数据领域

如今,Hadoop已经成为热门的开源架构,也使得很多企业以低成本的方式来存储自身的数据,但是Sanjay表示,要想从Hadoop框架上存储的数据获得价值是一个具有挑战性的工作,跟其他软件相比,Hadoop的部署使得成本上降低了,但是需要有更好的服务才能保障,据很多用户反映,对Hadoop部署的服务能力往往跟不上需求的发展,Hadoop上的数据太大而无法随意、容易的进行迁移。

Sanjay介绍,Splunk产品的优势正是在Hadoop存储数据的基础上,进行数据的收集、分析和展现,以Splunk6月份推出的分析工具Hunk为例,因为放在Hadoop上的数据,可能是非结构化的,也可能是结构非常随意的数据,Hunk是专门处理放在Hadoop上的数据的工具,用于探索、分析和可视化Hadoop中的数据。

Splunk的目的就是让用户直接在Hadoop上直接分析数据,而且部署的方式简单,全球的银行用户每天有超过20TB的数据放置到Splunk中进行处理。

随着数据的量与日俱增,对新产生的数据进行实时分析并与以往的数据进行比较是非常必要的工作。根据用户的反馈,Sanjay表示,目前Splunk的产品主要应用于五大领域,一是应用于对应用程序进行端到端的管理,了解性能指标;二是日常IT运维的管理,比如带宽和基础架构的使用情况;三是信息安全领域,可以收集安全相关的数据,进行分析保证系统安全;四是针对web应用的智能分析,随着各行各业的业务走向线上,重视对用户行为的分析,因此销售和业务人员也能从中收集到价值;五是与互联网相关的领域,以及RFID收集的数据。

不管是全球还是中国,Splunk的产品已经被广泛接受并部署应用,目前已经在90多个国家和地区,用户达到5600多家。在应用案例方面,Sanjay介绍,Splunk帮助百事公司在北美使用销售的手持终端来了解销售数据的情况,并为在线的SaaS供应商Salesforce提供了完整的平台,此外,MetroPOS、沃达丰都通过Splunk大大提高了数据分析的效率。

大数据分析的引擎

Splunk的本质是针对机器数据的分析引擎,Splunk高级销售工程师崔玥表示,Splunk产品针对所有IT系统和基础设施数据,提供数据搜索、数据报表和可视化的展现。当然,作为一款软件,它几分钟就可以完成下载和安装,支持各种主流的操作系统平台。

作为一个完全整合的大数据解决方案,Splunk通用的引擎能够将任何的机器数据广泛地索引,并支持任何格式的数据,而无需进行格式转换实时的搜索引擎,带来了类似于Google的快速搜索结果;而其自主开发的类似于MapReduce的分布式架构,为系统的可扩展性提供了保证,能够轻松扩展到支持每天新增上百TB的数据,配合基于角色的数据访问控制,还能够跨多个数据中心运行。

“总体而言,Splunk独特优势体现在是通用的数据引擎,支持任意格式定义,具备强大的搜索和报表语句,软件安装后,可以通过浏览器来登陆,并进行数据来源的定义,选择数据路径、数据类型等操作。”崔玥说道。


原文发布时间为:2013-08-14


本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
3月前
|
存储 数据采集 大数据
大数据处理与分析技术:驱动智能决策的引擎
本文介绍了大数据处理与分析技术在现代社会中的重要性和应用。从数据采集、存储、处理到分析决策,大数据技术为我们提供了深入洞察和智能决策的能力,推动着各行各业的创新和发展。
50 0
|
5月前
|
存储 分布式计算 Hadoop
【大数据】Hadoop技术解析:大数据处理的核心引擎
【大数据】Hadoop技术解析:大数据处理的核心引擎
142 0
|
7月前
|
SQL 分布式计算 数据库连接
大数据Spark分布式SQL引擎
大数据Spark分布式SQL引擎
215 0
|
8月前
|
Prometheus 运维 监控
直击运维痛点,大数据计算引擎 EasyMR 的监控告警设计优化之路
监控告警在企业保障系统的稳定性和事故快速恢复的全周期链路中都是至关重要的一环。在新版本的 EasyMR 中袋鼠云开发团队也对监控告警功能进行了全新的优化,通过本文和大家分享监控告警功能的设计思路以及碰到各类问题痛点的解决方法。
103 0
|
存储 缓存 弹性计算
|
存储 SQL 消息中间件
大数据生态圈常用组件(一):数据库、查询引擎、ETL工具、调度工具等
大数据生态圈常用组件(一):数据库、查询引擎、ETL工具、调度工具等
|
SQL 分布式计算 运维
开源大数据 OLAP 引擎最佳实践 | 学习笔记(二)
快速学习开源大数据 OLAP 引擎最佳实践
1410 0
开源大数据 OLAP 引擎最佳实践 | 学习笔记(二)
|
6月前
|
机器学习/深度学习 人工智能 监控
阿里云的大数据计算引擎应用场景
阿里云的大数据计算引擎应用场景
|
2月前
|
SQL 并行计算 大数据
【大数据技术攻关专题】「Apache-Flink零基础入门」手把手+零基础带你玩转大数据流式处理引擎Flink(基础加强+运行原理)
关于Flink服务的搭建与部署,由于其涉及诸多实战操作而理论部分相对较少,小编打算采用一个独立的版本和环境来进行详尽的实战讲解。考虑到文字描述可能无法充分展现操作的细节和流程,我们决定以视频的形式进行分析和介绍。因此,在本文中,我们将暂时不涉及具体的搭建和部署步骤。
492 3
【大数据技术攻关专题】「Apache-Flink零基础入门」手把手+零基础带你玩转大数据流式处理引擎Flink(基础加强+运行原理)
|
5月前
|
机器学习/深度学习 分布式计算 大数据
Spark:大数据处理的下一代引擎
Spark:大数据处理的下一代引擎
45 0