PiflowX组件-DataGen

2023-12-28 21:57:37

DataGen组件

组件说明

按数据生成规则模拟数据。在开发和演示场景下使用比较方便。具体可以查看Flink官方DataGen connector。

计算引擎

flink

有界性

字段的数据全部生成完成后,source 就结束了。 因此,有界性取决于字段的有界性。

组件分组

common

端口

Inport:默认端口

outport:默认端口

组件属性

名称展示名称默认值允许值是否必填描述例子
schemaSchema“”数据生成规则,字段规则见字段规则描述。[{“filedName”:“id”,“filedType”:“INT”,“kind”:“sequence”,“start”:1,“end”:10000},{“filedName”:“name”,“filedType”:“STRING”,“kind”:“random”,“length”:15},{“filedName”:“age”,“filedType”:“INT”,“kind”:“random”,“max”:100,“min”:1}]
countCount10测试数据的数量。10
ratioRatio1数据每秒生成速率。10

字段规则描述

参数是否必须描述
filedName指定字段名称。
filedType指定字段类型。
kind指定字段的生成器。可以是 ‘sequence’ 或 ‘random’。随机生成器(random)是默认的生成器,您可以指定随机生成的最大和最小值。char、varchar、binary、varbinary, string (类型)可以指定长度。它是无界的生成器。序列生成器(sequence),您可以指定序列的起始和结束值。它是有界的生成器,当序列数字达到结束值,读取结束。
min随机生成器的最小值,适用于数字类型。
max随机生成器的最大值,适用于数字类型。
maxPast随机生成器生成相对当前时间向过去偏移的最大值,适用于 timestamp 类型。
length随机生成器生成字符的长度,适用于 char、varchar、binary、varbinary、string。
start序列生成器的起始值。
end序列生成器的结束值。

DataGen示例配置

{
  "flow": {
    "name": "DataGenTest",
    "uuid": "1234",
    "stops": [
      {
        "uuid": "0000",
        "name": "DataGen1",
        "bundle": "cn.piflow.bundle.flink.common.DataGen",
        "properties": {
          "schema": "[{\"filedName\":\"id\",\"filedType\":\"INT\",\"kind\":\"sequence\",\"start\":1,\"end\":10000},{\"filedName\":\"name\",\"filedType\":\"STRING\",\"kind\":\"random\",\"length\":15},{\"filedName\":\"age\",\"filedType\":\"INT\",\"kind\":\"random\",\"max\":100,\"min\":1},{\"filedName\":\"timeField\",\"filedType\":\"AS PROCTIME()\"}]",
          "count": "500",
          "ratio": "5"
        }
      },
      {
        "uuid": "2222",
        "name": "ShowData1",
        "bundle": "cn.piflow.bundle.flink.common.ShowData",
        "properties": {
          "showNumber": "500"
        }
      }
    ],
    "paths": [
      {
        "from": "DataGen1",
        "outport": "",
        "inport": "",
        "to": "ShowData1"
      }
    ]
  }
}
示例说明

本示例演示了通过DataGen组件生成id,name,age,timeField4个字段500条数据,每秒生成5条数据,并使用ShowData组件将数据打印在控制台。

字段描述
[
    {       
        "filedName": "id",
        "filedType": "INT",
        "kind": "sequence",
        "start": 1,
        "end": 10000
    },
        {       
        "filedName": "name",
        "filedType": "STRING",
        "kind": "random",
        "length": 15
    },
        {       
        "filedName": "age",
        "filedType": "INT",
        "kind": "random",
        "max": 100,
        "min": 1
    },
            {       
        "filedName": "timeField",
        "filedType": "AS PROCTIME()"
    }
]

1.id字段

id字段类型为INT,使用sequence生成器,序列生成器的起始值为1,结束值为10000.

2.name字段

name字段类型为STRING,使用random生成器,生成字符长度为15。

3.age字段

age字段类型为INT,使用random生成器,随机生成器的最小值为1,最大值为100。

4.timeField字段

timeField字段为PROCTIME。
在这里插入图片描述

文章来源:https://blog.csdn.net/qq_19635589/article/details/135278208
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。