[平台后续发展][DataOps][数智]任务调度及管理
SREWorks多次提到运维方面的数仓和ETL,并且也有Flink这类应用集成,后续有没有规划在这方面深入,如集成企业业务数仓相关功能? 1)数仓案例:一个数仓,采用Flink CDC做数据抽取,Flink SQL(批处理或流处理)或数据库SQL(批处理,如Hologres SQL)做数据处理,相关任务是需要上线的,批处理任务涉及到定时调度,流处理任务涉及到状态监控,任务可能会失败报错,需要收集错误日志,以上也属于运维的范畴,有没有计划增加Flink SQL和数据库SQL的任务调度及管理功能(参考Airflow、DolphinScheduler)? 2)数据资产:有没有计划通过Flink Catalog等方式收集各数据源信息来做一个这方面的元数据管理,进而实现数据资产目录和数据血缘功能(会用到上述的数据调度任务依赖元信息)。 3)数据服务:用户只需要写SQL,平台生成相关的数据服务API,以供外部访问数据。
感谢对SREWorks数据服务相关能力关注,提出非常好的讨论点,当前SREWorks的做法如下: 1)目前开源的版本里面是集成 flink+vvp的方案,vvp是支持作业管理和监控数据(指标、日志等)采集,v1.3版本也内置了vvp作业和jobmanager/task manager的grafana监控看板。关于批处理作业,目前是通过作业平台进行调度实现(类似DolphinScheduler)。 2)目前的数据资产主要还是围绕数据运维平台的运维数仓来建设和管理,运维数仓模型是基石。提供了比如资产目录、数据模型(包括元信息)管理。关于数据血缘能力,这个目前还没有支持,我们会进行需求和方案评估,尽量希望能够与现有的数据方案进行融合。 3)数据服务目前已经支持配置化方式,将数仓的表模型数据,通过API方式对外提供,后续还会进行能力增强,支持一些预处理逻辑或者编排能力 我们也非常希望在用户交流群能够进一步的交流沟通