2016年北京hadoop in china见闻

本文涉及的产品
云原生多模数据库 Lindorm,多引擎 多规格 0-4节点
云数据库 Redis 版,社区版 2GB
推荐场景:
搭建游戏排行榜
云数据库 MongoDB,通用型 2核4GB
简介: 笔者有幸参加了今年在北京主办的hadoop in china,在与会中有不少的感受与大家分享。今年的议题是假设参加会议的同学有一定的基础,没有过多的去介绍基础的内容,比如,没有人说hadoop是啥了,单刀直入,趋势、产品、新技术。大数据改变人类的未来,正在渗透到每个行业中,甚至是人的基因分析。

一、 概况

笔者有幸参加了今年在北京主办的hadoop in china,在与会中有不少的感受与大家分享。今年的hadoop in china整体来看,参加会议的人比较多,在第一天上午场的topic里,大厅人都满了,内容也比较多。今年主题内容从大局观、产品、技术都有很多的内容。貌似今年的议题是假设参加会议的同学有一定的基础,没有过多的去介绍基础的内容,比如,没有人说hadoop是啥了,单刀直入,趋势、产品、新技术。大数据改变人类的未来,正在渗透到每个行业中,甚至是人的基因分析。

二、 云化

今年开始,有一个明显的趋势是,很多公司都开始在云化自己的产品,创业公司基本是使用公共云,传统的公司基本是私有云加上混合云的方案。但总体来讲,大家都一致认为最终的形态还是公用云的,不管是业务还是大数据。

三、 实时大数据

在第二天的下午场次里,最热是实时大数据处理,技术比较多,到了17点的时候还座无虚席。大家关注最新的实时化的技术点,如jstorm、druid、streamSql、kudu都是目前比较火的,当然包括flink、spark(因有spark submit所以这个会就少了)等更好了。其实说实在的,根据笔者个人的观察,目前hadoop+spark+hbase已经满足90%+的需求,对与一些新的技术的探求目前还是仅仅在大公司,为了满足一些特别的业务场景。对于小公司也许这些技术也可以满足你的需求,但是是否有必要,还需要想想。

四、 大数据创业的黄金时期

大数据应该会慢慢深入到了各行各业,新型的创业公司,业务创新公司正在层出不穷的在涌现。几年前,想要听关于大数据的产品是都没有,只有技术的。如今,来讲的基本都会带产品来,基本都是宣传下产品,再讲下怎么做的,最后有的还不忘招聘。BAT来的人比较少了,一般的创业公司其实还没有到BAT的规模基本也不会出现BAT的问题。创业公司基本还是比较关注自己的业务模式的问题。大数据的重心会从技术本身转移到专业的产品、业务上来。毕竟,大数据技术Hadoop已经为业务、产品铺好了路。

五、 笔者比较关注的

笔者第二天的下午场次要主持《云计算与大数据》,这个场次主要是讲述怎么在云端搭建hadoop,包括了各家的产品,比如:星环的、微软的、VMWare的,当然我也宣传了下自家的产品阿里云的。另外就是华大基因、思迈特分别介绍了下各自的业务。云化,也会遇到很多问题,不过可惜的是,各家基本都在讲自家的产品多么的好,也没有太多讲有啥问题,怎么去解决问题,毕竟各家还存在一定的竞争。比较有意思的是第一次权威的听了关于基因的测讯的历史现状及未来。

《HDFS在云环境下架构演变》,笔者听了下,主要讲了怎么把HDFS做成没有状态的,把数据存放到阿里云的OSS或者AWS的S3上。当在带宽充足或者不是瓶颈的情况下,这样可以让计算动态伸缩,且原有的code又不需要动。

星环的同学讲的比较多,各个层面都讲了下,星环在原有的hadoop的基础上开发出基于自己的一套引擎着实不容易,在私有云场景下,跟阿里云、华为在激烈的竞争。

ebay到了上万的规模,跟他们聊了下,只能说当年的云梯1做的还是真不错的。也跟cloudera、Hortonworks、微软的同学聊了下,大家的想法还是比较类似的。

行业应用需要具体到具体的行业中,基本是用streaming加上机器学习,解决特定的问题,如百分点讲的PHM硬件损坏检测,预测;特定行业的分析,如华大的基因,金融行业大数据等。

六 、一些思考

我生活在互联网时代,在人工智能、智能驾驶、智能家居、虚拟现实、量子计算快要来临的时代,有人说这是第四次工业革命-智慧革命,还有人预言2050年人有机会获取永生,我们翘首以待,当然,我们也可以投入其中,迎接未来。
但是,也有另一个声音,核武器是人类第一次有把人类灭亡的能力,那么未来,人类也可能制造出人类的主人,类似《黑客帝国》中的人类似,一生都生活在虚拟世界中。人类一次次发展,到底是否更加幸福?很多人都认为现代人更加不幸福。这些深奥关于人类的命运,人生意义的话题也许就是如《2001太空漫游》中讲述,人类本身就是高等智慧生命的试验场,又或者根本没有意义,一切的意义也就是人类自己认为的罢了。

七、 接下来呢?

云是载体,计算才能发挥价值,计算的核心就是机器学习,只有具体的业务产品才会普惠所有人。
听起来就是废话,也是。具体怎么做,目前大家都类似,新的谁也不知道。好处就是不知道明天会咋样,坏处也是不知道明天会咋样。又是废话,额,好吧。

非常感谢组委员组织此次会议,具体的相关信息及PPT,请关注:http://chinahadoop.com/

版权声明

笔者微博:阿里封神 欢迎转载,但请保留原文地址

社群

技术交流钉钉大群 阿里云 HBase+Spark社区 【强烈推荐!】 群内每周进行群直播技术分享及问答

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
分布式计算 Hadoop 云计算
2015年上海hadoop in china见闻
市场在发生剧烈的变化,未来10年后的大公司有可能就是现在的小公司。技术也正在发生快速的变革,未来,谁说得好呢?!
1928 0
|
SQL 分布式计算 Hadoop
2015年上海hadoop in china见闻
今天过来参加《china hadoop summit》,听了不少的场次。从技术栈上分类,大致为了 硬件、linux等基础软件、hadoop生态圈、分析与应用。我目前主要关注底层的软件技术,主要听了sql on hadoop及hadoop系统架构两个分会场的一些内容。
1867 0
|
分布式计算 资源调度 Hadoop
2013年北京hadoop in china见闻
谈下这次参加中国hadoop技术峰会的收获,两天大约听了20场次,上午的是必听的,下午就听了一些关心。大数据峰会肯定是包括技术和技术之上的应用的。各个公司结合自己的业务特点来构建集群,特别听到了电信和银行类的公司在用hadoop或者尝试去用。应用的情况简单的出出报表,复杂点可能会涉及到一些机器学习和
1678 0
|
28天前
|
存储 分布式计算 Hadoop
大数据处理架构Hadoop
【4月更文挑战第10天】Hadoop是开源的分布式计算框架,核心包括MapReduce和HDFS,用于海量数据的存储和计算。具备高可靠性、高扩展性、高效率和低成本优势,但存在低延迟访问、小文件存储和多用户写入等问题。运行模式有单机、伪分布式和分布式。NameNode管理文件系统,DataNode存储数据并处理请求。Hadoop为大数据处理提供高效可靠的解决方案。
57 2
|
28天前
|
分布式计算 Hadoop 大数据
大数据技术与Python:结合Spark和Hadoop进行分布式计算
【4月更文挑战第12天】本文介绍了大数据技术及其4V特性,阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce,Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop,可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop,以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。
|
2天前
|
分布式计算 资源调度 Hadoop
java与大数据:Hadoop与MapReduce
java与大数据:Hadoop与MapReduce
20 0
|
16天前
|
分布式计算 Hadoop 大数据
[大数据] mac 史上最简单 hadoop 安装过程
[大数据] mac 史上最简单 hadoop 安装过程
|
1月前
|
SQL 分布式计算 Hadoop
利用Hive与Hadoop构建大数据仓库:从零到一
【4月更文挑战第7天】本文介绍了如何使用Apache Hive与Hadoop构建大数据仓库。Hadoop的HDFS和YARN提供分布式存储和资源管理,而Hive作为基于Hadoop的数据仓库系统,通过HiveQL简化大数据查询。构建过程包括设置Hadoop集群、安装配置Hive、数据导入与管理、查询分析以及ETL与调度。大数据仓库的应用场景包括海量数据存储、离线分析、数据服务化和数据湖构建,为企业决策和创新提供支持。
80 1
|
1月前
|
分布式计算 资源调度 Hadoop
Apache Hadoop入门指南:搭建分布式大数据处理平台
【4月更文挑战第6天】本文介绍了Apache Hadoop在大数据处理中的关键作用,并引导初学者了解Hadoop的基本概念、核心组件(HDFS、YARN、MapReduce)及如何搭建分布式环境。通过配置Hadoop、格式化HDFS、启动服务和验证环境,学习者可掌握基本操作。此外,文章还提及了开发MapReduce程序、学习Hadoop生态系统和性能调优的重要性,旨在为读者提供Hadoop入门指导,助其踏入大数据处理的旅程。
172 0
|
2月前
|
消息中间件 SQL 分布式计算
大数据Hadoop生态圈体系视频课程
熟悉大数据概念,明确大数据职位都有哪些;熟悉Hadoop生态系统都有哪些组件;学习Hadoop生态环境架构,了解分布式集群优势;动手操作Hbase的例子,成功部署伪分布式集群;动手Hadoop安装和配置部署;动手实操Hive例子实现;动手实现GPS项目的操作;动手实现Kafka消息队列例子等
22 1
大数据Hadoop生态圈体系视频课程

相关实验场景

更多