为什么从几个属性值组合合在一起作为一个根因,而不是分别从单个属性组合去找根因
data_p, data_n = self.get_derived_dataframe( frozenset(elements[:partition]), cuboid=cuboid, reduction=lambda x: x, return_complement=True, subset_indices=np.concatenate([indices, self.normal_indices]))
elements[:partition],若partition大于1时,是几个属性值组合合在一起作为一个根因,计算score分数,这样寻找根因的原因是什么?为什么不是一个个去计算单个属性值组合的score分数? 比如,layer=1,省份这个cuboid下,按照descent_score排序后,elements=[北京、江苏],partition=1,先去计算 省份=北京 这个score分数。Partition=2时,去计算省份=北京&省份=江苏合在一起的score分数。为啥不是partition=1计算 省份=北京 这个score分数 ,partition=2时,去计算 省份=江苏 这个score分数 麻烦作者,给出解释,谢谢!
GPS分数计算的时候会将当前 cluster 和正常 cluster 中的最细粒度粒度属性组合分为属于根因(S1)和不属于根因两类(记为 S2)。对于 S1,我们期待它们有异常,并且服从 GRE。对于 S2,我们期待它们没有异常。 如果分开计算每个 candidate element 的 GPS,那么 S2 中就也会包含异常最低粒度属性组合,GPS 分数就不准确,
您好,作者:那您的思想就是占比越大(decent_score越大),越能成为根因,但是排在后面的GPS有可能更大,如果排在后面的属性组合更大,但是后面的属性组合就没有机会去计算GPS了。也就是说:占比越大(decent_score越大),越能成为根因,这个结论成立的理论基础是什么呢?