ClickHouse 入门与实战教程

时序数据分析：
- ClickHouse 专注于时序数据，非常适用于处理时间序列数据，比如日志、传感器数据、监控数据等。
- 能够高效处理需要按时间序列进行快速查询和分析的大规模数据。
实时数据仓库（Real-time Data Warehouse）：
- ClickHouse 可以作为实时数据仓库，支持高并发、高吞吐量的查询，适用于快速响应实时数据的分析查询需求。
分布式分析：
- 适用于大规模数据分析场景，支持分布式部署和高度扩展性，能够处理PB级别的数据规模。
大规模数据分析和报表：
- 用于生成报表、数据可视化以及对海量数据进行查询和分析。
日志和事件数据处理：
- 适用于处理大量日志和事件数据，支持对日志和事件数据进行快速的聚合、筛选和分析。
高性能时序数据存储：
- ClickHouse 的列式存储、数据压缩和查询优化，使其在存储大量时序数据时表现出色。
数据仓库存储：
- 作为数据仓库存储系统，适用于存储和分析大量结构化数据，支持复杂的数据查询。
大数据分析平台：
- 在大数据分析平台中作为存储层，为大数据计算提供支持。

2. 安装 ClickHouse

????????ubuntu?安装参考这篇：【入门篇】ClickHouse 的安装与配置_clickhouse 安装-CSDN博客

????????centos安装参考这篇：Linux（Centos7）下安装部署clickhouse（详细版）

3. ClickHouse 的基本概念

表（Table）
ClickHouse 中的表是数据存储的基本单元，使用列式存储。
列族（Column Family）
ClickHouse 的表可以按列族进行组织，相似类型的列可以组合在一起进行物理存储和压缩。
分区（Partition）
ClickHouse 支持根据分区键将数据分割成不同的分区，便于管理和查询。
引擎（Storage Engine）
ClickHouse 支持多种存储引擎，用于控制数据的存储方式和处理方法。
MergeTree
ClickHouse 最常用的存储引擎之一，专门用于处理时序数据的引擎。
MergeTree 索引（Index）
ClickHouse 使用 MergeTree 索引来加速查询操作。

4. ClickHouse 的基本操作

创建数据库和表、插入和查询数据

-- 创建数据库
CREATE DATABASE IF NOT EXISTS my_db;

-- 创建表
CREATE TABLE IF NOT EXISTS my_db.my_table
(
    event_date Date,
    event_time DateTime,
    user_id Int32,
    clicks Int32
) ENGINE = MergeTree()
PARTITION BY toYYYYMM(event_date)
ORDER BY (event_date, event_time);

-- 插入数据
INSERT INTO my_db.my_table (event_date, event_time, user_id, clicks)
VALUES ('2023-12-31', '2023-12-31 23:59:59', 1, 10);

-- 查询数据
select * from my_db.my_table;

使用 MergeTree 引擎处理时序数据

????????在 ClickHouse 中，MergeTree 引擎非常适合处理时序数据，例如日志、性能指标数据、时间序列数据等。它是 ClickHouse 提供的一种用于存储有序数据并快速执行范围查询的引擎。以下是使用 MergeTree 引擎处理时序数据的示例：

创建带有 MergeTree 引擎的表

首先要创建一个带有 MergeTree 引擎的表。指定 ORDER BY 和 PARTITION BY 子句。

CREATE TABLE IF NOT EXISTS tb_metric(
    timestamp DateTime,
    value Float64
) ENGINE = MergeTree()
ORDER BY (timestamp)
PARTITION BY toYYYYMM(timestamp);

????????在这个示例中，创建了一个名为 tb_metric的表，包含 timestamp 和 value 两个字段。表使用 MergeTree() 引擎，按照 timestamp 字段进行排序，并按年份和月份进行分区。

插入时序数据

INSERT INTO your_table (timestamp, value)
VALUES ('2023-12-01 10:00:00', 25.5),
       ('2023-12-01 10:05:00', 26.2),
       ('2023-12-01 10:10:00', 24.8),
       ...

查询时序数据

使用 MergeTree 引擎后，可以执行范围查询以获取特定时间范围内的数据。

SELECT *
FROM tb_metric
WHERE timestamp BETWEEN '2023-12-01 00:00:00' AND '2023-12-01 23:59:59';

该语句会检索tb_metric?表中 '2023-12-01' 这一天的所有数据，比如指标数据每分钟采集一次并进行存储，这个表的数据量会巨大，那么这个时候用此方式检索会比较快。

管理分区

在 ClickHouse 中，MergeTree 引擎支持对分区进行管理。分区管理可以根据时间范围、日期、月份等策略进行，以实现数据的有效存储和查询。以下是管理 MergeTree 表分区的基本操作：

创建带有分区的 MergeTree 表

和上面一样创建带有分区的 MergeTree 表，指定分区键和分区策略：

CREATE TABLE IF NOT EXISTS tb_metric(
    timestamp DateTime,
    value Float64
) ENGINE = MergeTree()
ORDER BY (timestamp)
PARTITION BY toYYYYMM(timestamp);

添加新分区

当数据到达新的时间范围时，需要为表添加新分区。ClickHouse 提供了 ALTER TABLE ... ATTACH PARTITION 语句来添加新分区：

ALTER TABLE your_table ATTACH PARTITION 202312;

删除旧分区

当不再需要某个时间段内的数据时，可以使用 ALTER TABLE ... DETACH PARTITION 语句删除旧分区：

ALTER TABLE your_table DETACH PARTITION 202301;

查询现有分区

要查看表中的所有分区，可以执行以下查询显示名为 tb_metric 的表的所有分区信息：

SELECT partition_id, partition
FROM system.parts
WHERE table = 'tb_metric';

合并分区

如果需要将两个分区合并为一个较大的分区以优化性能，可以使用 ALTER TABLE ... FREEZE PARTITION 来合并分区：

ALTER TABLE tb_metric FREEZE PARTITION 202310, 202311;

合理管理分区对于 ClickHouse 中处理大量时序数据是非常重要的，可以帮助优化查询性能和数据存储。

5. ClickHouse 与 Spring Boot 集成

ClickHouse JDBC 连接

<dependency>
    <groupId>ru.yandex.clickhouse</groupId>
    <artifactId>clickhouse-jdbc</artifactId>
    <version>0.3.1</version> <!-- 替换为最新的 ClickHouse JDBC 版本 -->
</dependency>

配置数据源

spring.datasource.url=jdbc:clickhouse://your_clickhouse_host:port/default
spring.datasource.username=your_username
spring.datasource.password=your_password
spring.datasource.driver-class-name=ru.yandex.clickhouse.ClickHouseDriver

示例代码

import org.springframework.jdbc.core.JdbcTemplate;
import org.springframework.stereotype.Repository;
import java.util.List;

@Repository
public class ClickHouseDAO {

    private final JdbcTemplate jdbcTemplate;

    public ClickHouseDAO(JdbcTemplate jdbcTemplate) {
        this.jdbcTemplate = jdbcTemplate;
    }

    public List<Object[]> executeQuery(String query) {
        return jdbcTemplate.query(query, (rs, rowNum) -> {
            // 处理结果集，返回数据
            // 例如：return new Object[] { rs.getString("column1"), rs.getInt("column2") };
        });
    }

    public int executeUpdate(String query) {
        return jdbcTemplate.update(query);
    }
}

import org.springframework.web.bind.annotation.GetMapping;
import org.springframework.web.bind.annotation.RestController;
import java.util.List;

@RestController
public class ClickHouseController {

    private final ClickHouseDAO clickHouseDAO;

    public ClickHouseController(ClickHouseDAO clickHouseDAO) {
        this.clickHouseDAO = clickHouseDAO;
    }

    @GetMapping("/query")
    public List<Object[]> executeQuery() {
        String query = "SELECT * FROM your_table";
        return clickHouseDAO.executeQuery(query);
    }

    @GetMapping("/update")
    public int executeUpdate() {
        String query = "INSERT INTO your_table (column1, column2) VALUES ('value1', 123)";
        return clickHouseDAO.executeUpdate(query);
    }
}

或者使用mybatis的动态数据源

mysql的数据源配置：

# mysql 个性化配置， 不同的环境，需要配置不同的链接信息，只需要将这段信息复制到具体环境的配置文件中进行修改即可
spring:
  datasource:
    dynamic:
      #默认数据源
      primary: mysql
      #严格匹配数据源,默认false. true未匹配到指定数据源时抛异常,false使用默认数据源
      strict: false
      datasource:
        mysql:
          driver-class-name: com.mysql.cj.jdbc.Driver
          url: jdbc:mysql://192.168.101.34:3306/refiner_dev?serverTimezone=CTT&characterEncoding=utf8&useUnicode=true&useSSL=false&autoReconnect=true&zeroDateTimeBehavior=convertToNull&allowMultiQueries=true&allowPublicKeyRetrieval=true
          username: root
          password: MySQL@123

ck的数据源配置：

spring:
  datasource:
    dynamic:
      datasource:
        clickhouse:
          driver-class-name: ru.yandex.clickhouse.ClickHouseDriver
          url: jdbc:clickhouse://192.168.101.35:8123/test
          username: default
          password: clickhouse

当需要使用clickhouse进行数据库表查询时，在service类或者mapper上指定@DS注解就可以用mybatis操作mysql一样使用ck了。

6. 注意事项和常见问题

????????在使用 ClickHouse 时，以下是一些注意事项和可能遇到的常见问题：

注意事项

数据模型设计： ClickHouse 适用于大规模数据分析和处理，设计数据模型时需考虑存储引擎、分区和数据类型，以最大程度地利用其性能。
硬件和性能： ClickHouse 需要大量的内存和计算资源来执行查询，因此在部署时需要考虑硬件资源。
数据复制和备份： 定期进行数据备份，并考虑数据的冗余备份，以防止数据丢失。
数据导入和导出： 使用优化的方法将数据导入到 ClickHouse 中，并选择合适的格式进行数据导出。
索引和优化： ClickHouse 使用不同的索引类型来优化查询，了解索引的使用方法可以提高查询性能。
版本和更新： 定期更新 ClickHouse 到最新版本，以获得新的功能、性能改进和 bug 修复。

常见问题

性能问题： 性能问题可能与查询的复杂性、硬件资源不足、数据模型设计不佳或查询优化有关。针对性能问题，需要对查询进行优化，增加硬件资源或重新设计数据模型。
数据丢失： 当 ClickHouse 节点出现故障或网络问题时，可能会导致数据丢失。为了避免数据丢失，需要实施数据备份和冗余策略。
连接问题： 网络故障或配置错误可能导致 ClickHouse 无法连接或无法访问。检查网络配置、防火墙设置以及连接字符串是否正确。
内存问题： ClickHouse 在处理大量数据时可能会出现内存问题。通过配置适当的内存参数和优化查询来解决内存问题。
版本兼容性： 当迁移到新版本的 ClickHouse 时，可能会遇到与之前版本不兼容的问题。在升级之前，查阅官方文档以了解可能的不兼容性变化。
异常处理： ClickHouse 查询中可能会出现各种异常，如语法错误、连接超时等。编写健壮的代码来处理这些异常情况，确保应用程序的稳定性和可靠性。

结语

????????clickHouse 是一个强大的列式分布式数据库管理系统，具有出色的性能、高效的列存储、适应大规模数据处理等特点。它在数据分析、时序数据处理和大规模数据查询方面表现优异。通过其优异的压缩算法和并行查询能力，ClickHouse 能够快速处理大规模数据，并支持复杂的查询和分析操作。其分布式架构使其能够轻松扩展以适应不同规模和需求的数据。

????????在使用 ClickHouse 时，需要考虑数据模型设计、分区策略、数据导入和查询优化等方面。针对特定的业务场景，可以选择合适的存储引擎和优化策略，以实现更高效的数据处理和查询操作。

文章来源:https://blog.csdn.net/EverythingAtOnce/article/details/135191957
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：veading@qq.com进行投诉反馈，一经查实，立即删除！