开发属于你的数据采集利器,DataScale自定义采集器
DataScale 介绍
DataScale 是一款轻量级、高性能的数据采集工具,能够帮助你实时采集、处理来自众多数据源的数据(包括但不限于日志、指标、调用链数据等), 并将数据导入炎凰数据平台(商业版或社区免费版)—— 一款由上海炎凰数据科技有限公司【www.yanhuangdata.com】开发的异构大数据即时分析平台。
-
特点
DataScale 的目标是让你能够快速、稳定的将来自各种数据源的数据接入炎凰数据平台,通过与炎凰数据平台功能的结合,提升数据在分析阶段的可用性和易用性。其主要特点包括:
-
提供直观的 Web UI 来管理数据管道,快速连接各种数据源,配置数据处理逻辑
-
集成多种开源数据采集器,支持丰富的开箱即用的数据源类型和完善的数据处理方法
-
提供便捷的工具来调试数据采集配置和数据处理逻辑
-
提供用户开发定制数据采集器的支持
-
提供易用的批量部署和集群管理功能
-
提供更完善的可观测性
-
使用方式
DataScale 支持 standalone 部署和集群部署两种模式:
-
在 standalone 部署模式下,每个 DataScale 服务独立负责自身的数据采集任务的管理(手动或使用第三方部署工具管理)和执行。
-
在集群部署模式下,DataScale 服务分为 worker 和 manager 两种。DataScale worker 负责执行数据采集任务,DataScale manager 负责集中管理和分配 worker 上的数据采集任务。
-
运行环境
DataScale 目前支持的操作系统包括各种 Linux 版本、Windows 以及 macOS。
你可以通过下载安装包,在本地安装、运行 DataScale 服务。也可以使用镜像文件,在容器的环境下运行。
Collector 介绍
-
基础介绍
DataScale 中内置了多种 source 组件用于对接各种常用的数据源,但是这些 source 可能仍然无法满足你的数据采集场景:
-
你需要的数据采集功能具有非普遍甚至较复杂的逻辑,例如当数据源为某个服务的 Restful API 时:
-
该数据源要求实现某种认证方式
-
或者需要调用多个关联的 Restful API 后再经过计算才能得到最终采集的数据
-
你已经有了一个数据采集的工具,但是希望将其整合到DataScale 的 dataflow 中:
-
为采集到的数据加入更多的数据处理逻辑
-
将采集到的数据发送到指定的 sink
对于这些情况,DataScale 提供了 collector 机制,用于实现任何定制化的数据采集需求。
DataScale 提供了 collector 的安装和部署功能,当你将自己开发的 collector 安装到 DataScale 后,该 collector 就可以作为 source 组件在 dataflow 中使用:
-
信息
在 dataflow 中使用 collector 时,collector 程序会在主机上以运行 DataScale 的同一个账号被运行。因此,需要注意以下几点:
-
Collector 程序可能会因为受限于其被赋予的账号权限而无法完成指定的任务
-
Collector 程序可能会因为被赋予的账号权限过高而存在导致安全问题的风险
为了避免上述的问题,你可能可以采取的措施有:
-
使用专门的账号运行 DataScale 服务,并且仅赋予该账号一些必须的权限
-
对于自研的 collector,审查代码实现,避免存在故意或者非故意的危险操作
-
管理 Collector
DataScale 提供了 Web UI 管理 collector 的安装、更新和删除:
- 安装/更新 Collector
在安装或更新 collector 时,DataScale 会检查安装包文件的命名和内容,只有通过检查的安装包才能够被安装或更新。
在集群部署的模式下,DataScale manager 安装或更新 collector 后,会自动将当前版本的 collector 同步至所有的 worker 节点。
不论是在 standalone 或集群部署模式下,一旦 collector 被更新,所有正在使用该 collector 的 dataflow 都会自动加载最新版本的 collector。
-
删除 Collector
你可以删除一个不再需要的 collector。但是当一个 collector 正在被 dataflow 使用时,不允许被删除。因此,在删除一个 collector 之前,请将使用该 collector 的 source 组件从相关 dataflow 中删除。
-
使用 Collector
安装 collector 后,该 collector 就会出现在 source 组件的选择列表中。选择该 collector source 组件后,你可以在配置表单中调整运行 collector 组件的参数、配置和模式等:
在数据采集需求中,众多开发者都希望能够实现自己想要的数据类型适配、应用场景适配,DataScale数据采集器的自定义功能应运而生,用于实现任何定制化的数据采集需求。
为了帮助更多用户轻松开发出属于自己的数据采集利器,更好地服务于数据分析处理需求,炎凰数据特为广大开发者举办了第一届黑客马拉松比赛,主题为“大数至简,采集为先——开发自己的数据采集利器”,参赛者报名成功之后,可以基于DataScale的自定义功能开发自己的数据采集功能。
为了奖励好的参赛项目,前三名优胜者将获得惊喜大奖:
一等奖(1名):奖品iphone15 pro Max 512GB
二等奖(1名):奖品 ipad Air5 WLAN版 256G
三等奖(1名):奖品apple watch Series 8 蜂窝款
欢迎有兴趣的开发者伙伴至官网联系社区小助手报名:官网
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。 如若内容造成侵权/违法违规/事实不符,请联系我的编程经验分享网邮箱:veading@qq.com进行投诉反馈,一经查实,立即删除!