zhuangzebo
zhuangzebo
> ### Contact Details > [[email protected]](mailto:[email protected]) > > ### Is there an existing issue for this? > * [x] I have searched all the existing issues > > ### Priority...
> ### Contact Details > _No response_ > > ### What would you like to ask or discuss? > After I deployed compass with docker-compose, then I run spark example...
> 1,基线时间异常:相对于历史正常结束时间,提前结束或者晚点结束的任务**(具体提前多少和晚点多少时间就会报异常呢)? 2,基线耗时异常:相对于历史正常运行时长,运行时间过长或过短的任务**(具体数值是多少呢?长多少短多少呢)? 3,内存浪费:内存使用峰值与总内存占比过低的任务(这个占比数值是多少呢)? 4,大表扫描:没有限制分区导致扫描行数过多的任务,(这个过多是多少呢)? 5,CPU浪费:driver/executor计算时间与总CPU计算时间占比过低的任务(这个过多是多少呢)? 6,OOM预警:广播表的累计内存与driver或executor任意一个内存占比过高的任务针对Spark任务和相关日志进行解析诊断(这个占比数是多少呢)? 7,数据倾斜:stage中存在task处理的最大数据量远大于中位数的任务(运大于的值是多少)? 8,Job耗时异常:job空闲时间与job运行时间占比过高的任务(占比过高是高多少,值是多少)? 9,Stage耗时异常:stage空闲时间与stage运行时间占比过高的任务(占比的值是多少)? 10,Task长尾:stage中存在task最大运行耗时远大于中位数的任务(远大于的值是多少)? 11,HDFS卡顿:stage中存在task处理速率过慢的任务(速率过慢,怎么才为最慢,值是多少)? 12,推测执行Task过多:stage中频繁出现task推测执行的任务(多少为过多,频繁的值是多少)? 13,全局排序异常:全局排序导致运行耗时过长的任务(多长为过长,值是多少)? 14,MR内存浪费:内存使用峰值与总内存占比过低的任务(占比的值是多少)? 15,MR大表扫描:扫描行数过多的任务(过多为多少)? 16,MRTask长尾:map/reduce task最大运行耗时远大于中位数的任务(远大于是大多少)? 17,MR数据倾斜:map/reduce task处理的最大数据量远大于中位数的任务(远大于是大多少,具体的值)? 18,MR推测执行Task过多:map/reduce task中频繁出现推测执行的任务(频繁是几次)? 19,MRGC异常:GC时间相对CPU时间占比过高的任务(占比过高是多高?值是多少)? 20,其它异常:包含哪些异常,分别的含义,希望可以解释的详细点 谢谢大神们的科普,非常感谢 1、我们使用的是箱型模型算法: [https://blog.csdn.net/shenxiaoming77/article/details/82686259](url) 根据任务历史任务的时间来计算,如果当前的值不在箱型模型上界和下界范围内,就是有异常 2、同1、使用了箱型模型算法 3、默认配置70%,application运行时间超过5分钟,内存浪费超过70%,这个在task-parser上可以配置`memWasterConfig.threshold`...
Yes, based on experience, looking at the business volume and other factors. ---- 回复的原邮件 ---- | 发件人 | ***@***.***> | | 日期 | 2023年12月26日 17:13 | | 收件人 | ***@***.***>...
> ### What would you like to ask or discuss? > who is the producer of topic(flink-task-app)? i could't find the relevant code. main branch : \task-flink\src\main\java\com\oppo\cloud\flink\consumer\ConsumerMessage.java line 68 thanks...
> ### Contact Details > [[email protected]](mailto:[email protected]) > > ### Is there an existing issue for this? > * [x] I have searched all the existing issues > > ### Is...
> Look forward to supporting tez Engine There are some other users mentioning about tez engine, they hope to support it too.
> > Look forward to supporting tez Engine > > There are some other users mentioning about tez engine, they hope to support it too. Abount tez scenario, OPPO selfdom...
> 问题来自 @liusenhua > > Spark作业时并行提交,等下游stage需要数据才会被执行, 多个Job的stage并行排队执行,实际task才在最后一刻执行 @liusenhua Job下的stage并行计算,每个stage计算时间是CompleteTime-firstLauchTime的时间, stage的LaunchTime到firstLauchTime之间等待时间就是空闲时间,这个空闲时间包含Shuffle Read, 启动时间,资源分配等待时间等时间,所以Job耗时异常分析是一个对异常分析粒度比较粗的算法,需要再精细化: (1)23/03/23 14:16:47 WARN YarnClusterScheduler: Initial job has not accepted any resources; check your cluster UI to ensure that...
@donggong We will support the feature about flink with DolphinScheduler soon, what other scenearios do you use?