创建表:
CREATE TABLE city
(
    `id` UInt8, 
    `country` String, 
    `province` String, 
    `city` String, 
    `create_time` datetime DEFAULT now()
)
ENGINE = MergeTree()
PARTITION BY toYYYYMM(create_time)
ORDER BY id

Ok.

0 rows in set. Elapsed: 0.012 sec. 

插入数据:
1.单行插入:

Clickhouse> insert into city(id,country,province,city) VALUES(1,'China','Hubei','wuhan');

INSERT INTO city (id, country, province, city) VALUES

Ok.

1 rows in set. Elapsed: 0.017 sec. 
2.多行插入:

Clickhouse> insert into city(id,country,province,city) VALUES(2,'China','Hubei','xiangyang'),(2,'China','Guangdong','shenzhen');

INSERT INTO city (id, country, province, city) VALUES

Ok.

2 rows in set. Elapsed: 0.002 sec. 


插入特定格式:

比如CSV 或者 TSV   JSON 等
 
insert into city select 20,'China','Beijing','Beijing','2020-06-24 14:15:00';


虽然VALUES和SELECT字句支持声明表达式或者函数,但是会带来额外的性能开销,导致写入性能的下降。
若为了极致的性能需要尽可能避免使用他们。

INSERT语句在写入的过程具有原子性,在默认的情况下,每个数据块最多可以写入1048576行数据,有参数

max_insert_block_size参数控制,若INSERT操作写max_insert_block_size行的话要么成功要么失败。
需要注意的是只有在Clickhouse服务器端处理数据的时候才有写入特性。
在适用JDBC或者HTTP接口的时候。

因为max_insert_block_size在适用CLI或者insert select子句的时候不生效。

性能考虑:


INSERT通过主键对输入数据进行排序,并通过分区键将它们划分为多个分区。 如果您一次将数据插入多个分区,
则可能会大大降低INSERT查询的性能。 为了避免这种情况:

批量添加数据,例如一次添加100,000行。
在将数据上传到ClickHouse之前,通过分区键对数据进行分组。

在以下情况下,性能不会降低:

数据是实时添加的。
您上传的数据通常按时间排序


 

参考:

https://www.altinity.com/blog/2018/10/16/updates-in-clickhouse

https://clickhouse.tech/docs/en/sql-reference/statements/insert-into/

Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐