开发属于你的数据采集利器,DataScale自定义采集器

2023-12-15 19:32:38

DataScale 介绍

DataScale 是一款轻量级、高性能的数据采集工具,能够帮助你实时采集、处理来自众多数据源的数据(包括但不限于日志、指标、调用链数据等), 并将数据导入炎凰数据平台(商业版或社区免费版)—— 一款由上海炎凰数据科技有限公司【www.yanhuangdata.com】开发的异构大数据即时分析平台。

  • 特点

DataScale 的目标是让你能够快速、稳定的将来自各种数据源的数据接入炎凰数据平台,通过与炎凰数据平台功能的结合,提升数据在分析阶段的可用性和易用性。其主要特点包括:

  • 提供直观的 Web UI 来管理数据管道,快速连接各种数据源,配置数据处理逻辑

  • 集成多种开源数据采集器,支持丰富的开箱即用的数据源类型和完善的数据处理方法

  • 提供便捷的工具来调试数据采集配置和数据处理逻辑

  • 提供用户开发定制数据采集器的支持

  • 提供易用的批量部署和集群管理功能

  • 提供更完善的可观测性

  • 使用方式

DataScale 支持 standalone 部署和集群部署两种模式:

  • 在 standalone 部署模式下,每个 DataScale 服务独立负责自身的数据采集任务的管理(手动或使用第三方部署工具管理)和执行。

  • 在集群部署模式下,DataScale 服务分为 worker 和 manager 两种。DataScale worker 负责执行数据采集任务,DataScale manager 负责集中管理和分配 worker 上的数据采集任务。

图片

  • 运行环境

DataScale 目前支持的操作系统包括各种 Linux 版本、Windows 以及 macOS。

你可以通过下载安装包,在本地安装、运行 DataScale 服务。也可以使用镜像文件,在容器的环境下运行。

Collector 介绍

  • 基础介绍

DataScale 中内置了多种 source 组件用于对接各种常用的数据源,但是这些 source 可能仍然无法满足你的数据采集场景:

  • 你需要的数据采集功能具有非普遍甚至较复杂的逻辑,例如当数据源为某个服务的 Restful API 时:

  • 该数据源要求实现某种认证方式

  • 或者需要调用多个关联的 Restful API 后再经过计算才能得到最终采集的数据

  • 你已经有了一个数据采集的工具,但是希望将其整合到DataScale 的 dataflow 中:

  • 为采集到的数据加入更多的数据处理逻辑

  • 将采集到的数据发送到指定的 sink

对于这些情况,DataScale 提供了 collector 机制,用于实现任何定制化的数据采集需求。

DataScale 提供了 collector 的安装和部署功能,当你将自己开发的 collector 安装到 DataScale 后,该 collector 就可以作为 source 组件在 dataflow 中使用:

  • 图片

  • 信息

在 dataflow 中使用 collector 时,collector 程序会在主机上以运行 DataScale 的同一个账号被运行。因此,需要注意以下几点:

  • Collector 程序可能会因为受限于其被赋予的账号权限而无法完成指定的任务

  • Collector 程序可能会因为被赋予的账号权限过高而存在导致安全问题的风险

为了避免上述的问题,你可能可以采取的措施有:

  • 使用专门的账号运行 DataScale 服务,并且仅赋予该账号一些必须的权限

  • 对于自研的 collector,审查代码实现,避免存在故意或者非故意的危险操作

  • 管理 Collector

DataScale 提供了 Web UI 管理 collector 的安装、更新和删除:

  • 安装/更新 Collector

在安装或更新 collector 时,DataScale 会检查安装包文件的命名和内容,只有通过检查的安装包才能够被安装或更新。

在集群部署的模式下,DataScale manager 安装或更新 collector 后,会自动将当前版本的 collector 同步至所有的 worker 节点。

不论是在 standalone 或集群部署模式下,一旦 collector 被更新,所有正在使用该 collector 的 dataflow 都会自动加载最新版本的 collector。

  • 删除 Collector

你可以删除一个不再需要的 collector。但是当一个 collector 正在被 dataflow 使用时,不允许被删除。因此,在删除一个 collector 之前,请将使用该 collector 的 source 组件从相关 dataflow 中删除。

  • 使用 Collector

安装 collector 后,该 collector 就会出现在 source 组件的选择列表中。选择该 collector source 组件后,你可以在配置表单中调整运行 collector 组件的参数、配置和模式等:

图片

在数据采集需求中,众多开发者都希望能够实现自己想要的数据类型适配、应用场景适配,DataScale数据采集器的自定义功能应运而生,用于实现任何定制化的数据采集需求

为了帮助更多用户轻松开发出属于自己的数据采集利器,更好地服务于数据分析处理需求,炎凰数据特为广大开发者举办了第一届黑客马拉松比赛,主题为“大数至简,采集为先——开发自己的数据采集利器”,参赛者报名成功之后,可以基于DataScale的自定义功能开发自己的数据采集功能。

为了奖励好的参赛项目,前三名优胜者将获得惊喜大奖:

一等奖(1名):奖品iphone15 pro Max 512GB
二等奖(1名):奖品 ipad Air5 WLAN版 256G
三等奖(1名):奖品apple watch Series 8 蜂窝款

欢迎有兴趣的开发者伙伴至官网联系社区小助手报名:官网

文章来源:https://blog.csdn.net/Yhpdata888/article/details/135022930
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。