数据蒋堂 关注
手机版

大数据技术的4个E

大数据的4个V说法在业界已经尽人皆知,这是指的大数据本身的特征。现在我们来考察一下用于处理大数据的技术应该具有的特性。为方便记忆,类似4...

大数据 java 性能 弹性扩展 Mapreduce 存储 大数据技术

做基础软件要投入很多钱?

现在有个说法,国家对基础软硬件的投入太少,经常会说微软、Oracle、Intel这些巨头每年的研发费有多少多少,我们的投入连个零头都不到,当然做不出什么象样的东西了。 看起来还真是,似乎还要再加大投入才行? 我不懂芯片的事,不知道是不是...

用户体验 基础软件

国产操作系统还能怎么做?

一家之言,开个脑洞。 操作系统在市场上的关键点,并不在于进程管理、文件系统这些看起来很核心的东西,这些东西真地可以抄(借鉴一下没关系的)。操作系统要普及成功,关键在于上面开发技术的方便性,也就是开发工具的易用性以及API的丰富性。

用户体验 浏览器 操作系统 API 开发工具 桌面应用 企业应用 国产操作系统

国产数据库通通都没戏!

这标题摆明了就是招人骂,一下子把国内做数据库的同行们都得罪了,甚至连自己都没落下(我也算做数据库的,而且当然也是国产的)。 这观点已经有N年了,而且也多次讲过。这次正好有个热点来蹭,就把它写出来。

数据库 国产数据库

人工智能中的“人工”

自从AlphaGo赢了之后,人工智能就变得非常热门了。不过,大家在关注“智能”时,却很少把注意力放在“人工”上,似乎感觉上了人工智能之后,一切都能自动化了。其实,这份智能的背后有着大量的“人工”,还有相当多不能自动化的事情。

算法 程序员 人工智能 数据挖掘 AlphaGo 数据科学家 数据准备

存储和计算技术的选择

前一阵子公司有个售前来沟通某个用户的情况:数据量比较大,又涉及很多复杂的关联计算,在数据库中用SQL计算性能很差。本来这种场景是比较适合集算器的集文件(集算器特有的压缩二进制格式)存储并计算,但据说这个用户的历史数据还会经常变动,而集文...

大数据 算法 NOSQL 性能 数据库 数据仓库 存储 存储技术 计算技术

区块链技术的一些疑问

下面是我在学习了解区块链技术过程中产生的疑问,思考问题的过程中也会让自己对这项技术理解得更深刻。我不算初学者(知道区块链已有五年之久了)...

算法 分布式数据库 区块链技术

【数据蒋堂】第48期:Hadoop中理论与工程的错位

Hadoop是当前重要的大数据计算平台,它试图摒弃传统数据库的理念,重新构建一套新的大数据体系。但是,这并不是件很容易的事,在Hadoop的设计和实现中能看到一些先天不足的地方,其中一点就是把理论问题和工程问题给搞拧了。

数据存储与数据库 大数据 算法 hadoop 程序员 性能 集群 spark 多线程 Mapreduce 数据类型 大数据体系

【数据蒋堂】第47期:Hadoop - 一把杀鸡用的牛刀

Hadoop是个庞大的重型解决方案,它的设计目标本来就是大规模甚至超大规模的集群,面对的是上百甚至上千个节点,这样就会带来两个问题: 自动化管理管任务分配机制:这样规模的集群,显然不大可能针对每个节点提供个性化的管理控制,否则工作量会大到...

云栖社区 大数据 hadoop 程序员 性能 源码 集群 解决方案

【数据蒋堂】第46期:大数据集群该不该透明化?

这好像是个多余的问题,大部分大数据平台都把集群透明化作为一个基本目标在努力实现。 所谓集群透明化,是指把一个多台机器的集群模拟得像一个巨大的单机,只是系统管理层面知道体系是由很多单机集群而成,应用程序则应当尽量少地感受到集群的存在,在概念...

大数据 算法 程序员 性能 集群 高性能 兼容性 存储 数据存储

【数据蒋堂】第45期:大数据计算语法的SQL化

回归SQL是当前大数据计算语法的一个发展倾向。在Hadoop体系中,现在已经很少有人会自己从头来写MapReduce代码了,PIG Latin也处于被淘汰的边缘,而HIve却始终坚挺;即使是Spark上,也在更多地使用Spark SQL,...

云栖社区 大数据 算法 性能优化 程序员 性能 SQL 数据库 排序 高性能 UDF 数据类型 多维分析

【数据蒋堂】第44期:谈谈临时性计算

临时性计算,顾名思义,是指临时发生的一些计算需求。这种计算在日常数据处理中很常见,我们举一些例子: 应对业务部门的取数需求:比如销售部...

云栖社区 大数据 性能优化 数据库 数据分析 脚本

【数据蒋堂】第43期:报表开发的现状

报表开发,看起来只是数据呈现环节的事务,并不起眼,但仔细想想,它涉及的工作范围却非常广。如果把查询和交互分析也认为是报表事务的话(呈现形式本来也是报表),那么可以说,绝大多数ETL都是在为报表准备数据而存在的;而且,在数据库中的表,有相当...

云栖社区 模块 报表

【数据蒋堂】第42期:RDB与NoSQL的访问性能

我们继续从软件角度上看外存数据源的性能,来考察数据库的性能特点,在这篇文章中,我们只关心数据的访问性能,而不涉及计算性能。 关系数据库 ...

云栖社区 大数据 NOSQL 性能 数据库 高并发 索引 分析型数据库 高性能 数据结构 存储 数据类型 数据存储 大数据分析

【数据蒋堂】第41期:文件的性能分析

我们以前讲过硬盘的性能特征,主要是针对硬件层面进行分析的,现在我们来考虑软件层面的差异。 理论上讲,软件可以穿过操作系统直接进行磁盘扇区的访问,但实在太过于麻烦而几乎不会实践机会,这里就不考虑了,我们只讨论操作系统下的存储形式,而文件就是...

云栖社区 大数据 性能 CPU 高性能 存储 数据类型 数据存储

【数据蒋堂】第40期:倍增分段技术

区块分段方案能够满足我们设定的4个目标。不过,除了处理区块标记的麻烦外,这个办法对于列存也不是非常适合。 数据按列分别存储后,分段时必须保证各列同步,即各列的分段点对应的是同一条记录的列,否则就会出错数据错位。

云栖社区 同步 索引 存储

【数据蒋堂】第38期:JOIN延伸 - 维度其它应用

明确维度定义后,还可以换一种更清晰的方式来审视数据库的结构。 这是我们常见的E-R图: E-R图是个网状结构,实体(表)之间的外键关系直...

云栖社区 排序 数据结构 数据类型

【数据蒋堂】第36期:JOIN延伸:维度概念

谈到数据分析时常常会用到维度这个词,针对数据立方体的钻取、旋转、切片等操作都是围绕维度进行的,几乎所有的数据分析人员都知道并会运用这个术语,...

云栖社区 函数 数据库 数据分析 数据结构 数据类型

【数据蒋堂】第35期:JOIN提速 - 有序归并

我们再来看同维表和主子表的JOIN,这两种情况的优化提速手段是一样的。 设两个关联表的规模(记录数)分别是N和M,则HASH分段技术的计算复杂度(关联字段的比较次数)大概是SUM(NiMi),其中Ni和Mi分别是HASH值为i的两表记录数...

云栖社区 大数据 算法 性能 数据库 排序 多进程 同步 HASH 并行计算

【数据蒋堂】第33期:JOIN提速 - 外键指针化

我们再来看重新定义JOIN后如何能够提高运算性能,先看外键式JOIN的情况。 设有两个表: 其中sales表中的producti...

云栖社区 算法 性能 数据库 HASH 索引 并行计算

管理员:
sheeta
34
关注
4
成员
47
文章