clickhouse的使用和技巧,仅个人

简介: centos 安装clickhouse curl -s https://packagecloud.io/install/repositories/altinity/clickhouse/script.

centos 安装clickhouse

 

curl -s https://packagecloud.io/install/repositories/altinity/clickhouse/script.rpm.sh | sudo bash

sudo yum list 'clickhouse*'

sudo yum -y install clickhouse*

 

docker安装可以直接克隆 

https://gitee.com/pyzy/cloudcompute

 

clickhouse 数据类型

数据类型没有boolean其他基本和hive一样,详细的看官网 

clickhouse 数据类型

clickhouse 引擎

clickhouse有很多引擎,最常用的是 MergeTree家族 还有Distributed引擎

 

clickhouse 创建表

clickhouse可以创建本地表,分布式表,集群表

create table test()为本地表

CREATE TABLE image_label_all AS image_label ENGINE = Distributed(distable, monchickey, image_label, rand()) 分布式表

create table test on cluster()为集群表

贴一个完整的建表语句,使用ReplicatedMergeTree引擎

 CREATE TABLE metro.metro_mdw_pcg (
 storekey Int32, 
 custkey Int32,  
cardholderkey Int32,  
pcg_main_cat_id Int32,  
pcg_main_cat_desc String,  
count Int32,  
quartly String
) ENGINE = ReplicatedMergeTree('/clickhouse/tables/metro/metro_mdw_pcg', '{replica}') PARTITION BY (quartly, pcg_main_cat_id) 
ORDER BY (storekey, custkey, cardholderkey)

保证数据复制

clickhouse数据操作

增加可以使用insert;

不能修改,也不能指定删除;

可以删除分区,会删除对应的数据 我使用--help看了一下有truncate table,但是没有具体使用过,如果要全部删除数据可以删除表,然后在建表查数据

可以使用脚本操作

database=$1
table=$2
echo "Truncate table "$2
create=`clickhouse-client --database=$1 --query="SHOW CREATE TABLE $table" | tr -d '\\'`
clickhouse-client --database=$1 --query="DROP TABLE $table"
clickhouse-client --database=$1 --query="$create"

 

再导入数据就可以了

导入数据,clickhouse支持很多文件类型 详细的看官方文档,文件导入导出

贴两个经常用的文件的导入

tsv,以"\t"隔开

 clickhouse-client -h badd52c42f08 --input_format_allow_errors_num=1 --input_format_allow_errors_ratio=0.1 --query="INSERT INTO tablename FORMAT TSV"<file

csv 以","或者"|"隔开

clickhouse-client -h adc3eaba589c --format_csv_delimiter="|" --query='INSERT INTO tablename FORMAT CSV' < file

 

数据查询

clickhouse的 查询sql 表单查询基本和标准sql一样,也支持limit 分页,但是inner join 的查询写法不一样,而且我用4亿+2000万inner join的速度很慢

两个sql对比 inner join要花费将近一分钟,使用in子查询仅3秒, 建议都使用in查询,clickhouse的单表查询速度很快,3亿数据count distinct 仅1秒左右

 

其它的技巧和知识,本人占时未做了解,希望大家能一起学习,一起进步

 

 

 

 

 

 

 

 

 

  

 

相关文章
|
2月前
|
SQL 消息中间件 关系型数据库
ClickHouse(04)如何搭建ClickHouse集群
ClickHouse集群的搭建和部署和单机的部署是类似的,主要在于配置的不一致,如果需要了解ClickHouse单机的安装设部署,可以看看这篇文章,[ClickHouse(03)ClickHouse怎么安装和部署](https://zhuanlan.zhihu.com/p/532431053)。
59 1
|
OLAP 数据库 索引
59.【clickhouse】ClickHouse从入门到放弃-分区表
【clickhouse】ClickHouse从入门到放弃-分区表
59.【clickhouse】ClickHouse从入门到放弃-分区表
|
1月前
|
存储 SQL 网络协议
ClickHouse(05)ClickHouse数据类型详解
ClickHouse是一款分析型数据库,支持基础、复合和特殊数据类型。基础类型包括数值(Int、Float、Decimal)、字符串(String、FixedString、UUID)和时间(DateTime、DateTime64、Date)类型。数值类型如Int8-64和Float32-64,Decimal提供高精度计算。字符串中的FixedString有固定长度,UUID作为主键。时间类型最高精度到秒。复合类型有数组、元组、枚举和嵌套,其中数组和元组允许不同数据类型,枚举节省空间,嵌套类型是多维数组结构。特殊类型如Nullable表示可为空,Domain封装IPv4和IPv6。
55 1
ClickHouse(05)ClickHouse数据类型详解
|
2月前
|
存储 分布式计算 Hadoop
ClickHouse(01)什么是ClickHouse,ClickHouse适用于什么场景
ClickHouse是一款高性能的列式存储OLAP数据库,由俄罗斯的Yandex公司开发,用于在线分析处理(OLAP)。它提供秒级大数据查询,适用于商业智能、广告流量等领域。ClickHouse速度快的原因包括列式存储、数据压缩、向量化执行和多线程分布式处理。然而,它不支持事务,不适合OLTP操作。相比Hadoop生态中的查询引擎,ClickHouse在大量数据查询上表现出色。一系列的文章详细介绍了ClickHouse的各个方面,包括安装、表引擎和使用场景。
48 0
ClickHouse(01)什么是ClickHouse,ClickHouse适用于什么场景
|
2月前
|
存储 SQL Linux
ClickHouse(03)ClickHouse怎么安装和部署
本文会介绍如何安装和部署ClickHouse,官方推荐的几种安装模式,以及安装之后如何启动,ClickHouse集群如何配置等。
114 1
|
9月前
|
SQL 存储 OLAP
ClickHouse为什么这么火?
ClickHouse为什么这么火?
|
10月前
|
SQL 数据采集 存储
|
5月前
|
OLAP 数据库管理
ClickHouse
ClickHouse
29 0
|
8月前
|
SQL 存储 算法
01-Clickhouse
01-Clickhouse
|
9月前
|
存储 SQL NoSQL
ClickHouse v23.6
• 10 new features. • 12 performance optimisations. • 31 bug fixes.
ClickHouse v23.6