Squeeze issues

关于涟漪效应的可解释性

7

您好！整个论文在计算因的潜在得分时，利用的是涟漪效应的原理，这里基于的理论是：如果属性值是因，则属性值的变化和包含属性值的样本的变化是一致的；即 Province = Beijing 下降60%，则Province = Beijing，ISP = China Mobile 和 Province = Beijing，ISP = China Unicom均会下降60%；然后反过来认为符合涟漪效应的属性值就是根因；从这里看出，您将涟漪效应和根因作为了一对充分必要条件；这里我们存在疑惑：如果属性值符合涟漪效应，属性值是根因的依据是什么？

mambasmile

想请教下, Squeeze论文里面准确率比较的那些其他方法是如何实现的？

1

您好：如题 IDice和Apriori似乎不是精准匹配这个问题，把这两个用过来似乎是不是需要一些特殊技巧； R-Adtributer按照原本他论文的方法不太容易得出形如A，B数据集这种形式的结果； HotSpot好像没有开源; 这些都在Squeeze论文里面计算出来了在A,B数据集上的f1-score。请问下可否分享一下实现方式，或者开放代码。

UTimeStrange

关于数据集

2

你好，我想请教一下关于数据集的问题，在数据集中的real和predict是某种属性组合的真实和预测数量吗？如果某种属性的真实和预测不相符，就当作是异常吗？

MengruiLIU

为什么从几个属性值组合合在一起作为一个根因，而不是分别从单个属性组合去找根因

2

data_p, data_n = self.get_derived_dataframe( frozenset(elements[:partition]), cuboid=cuboid, reduction=lambda x: x, return_complement=True, subset_indices=np.concatenate([indices, self.normal_indices])) elements[:partition]，若partition大于1时，是几个属性值组合合在一起作为一个根因，计算score分数，这样寻找根因的原因是什么？为什么不是一个个去计算单个属性值组合的score分数？比如，layer=1，省份这个cuboid下，按照descent_score排序后，elements=[北京、江苏]，partition=1，先去计算省份=北京这个score分数。Partition=2时，去计算省份=北京&省份=江苏合在一起的score分数。为啥不是partition=1计算省份=北京这个score分数 ,partition=2时，去计算省份=江苏这个score分数麻烦作者，给出解释，谢谢！

iamsuarez

区分正向根因、负向根因

2

若输出来的根因：有的根因的predict大于real，有的根因的predict小于real，也就是有事件的正向根因、负向根因。那么怎样区分正向根因、负向根因？个人想法：是否可以根据根因real的和与根因predict的和进行比较，来区分正向根因（predict的和小于real的和）、负向根因（predict的和大于real的和）呢？

iamsuarez

ret_lists集合了所有layer、所有cuboid下的根因

ret_lists = [] for cuboid_layer in np.arange(max_cuboid_layer) + 1: layer_ret_lists = list(map( lambda x, _i=indices, _mu=mu, _sigma=sigma: self._locate_in_cuboid(x, indices=_i, mu=_mu, sigma=_sigma), combinations(self.attribute_names, cuboid_layer) )) ret_lists.extend([ { 'rc': x[0], 'score': x[1],...

iamsuarez

rank的计算，排序后，找到根因的score分数很低

ret_lists.extend([ { 'rc': x[0], 'score': x[1], 'n_ele': len(x[0]), 'layer': cuboid_layer, 'rank': x[1] * self.option.score_weight - len(x[0]) * cuboid_layer } for x in layer_ret_lists ]) rank的计算，若score_weight值不大，随着layer的增加或者根因partition组合的增多，rank值会成倍的下降，这样会冲掉score分数。这样会导致：rank排在第一，但是score分数相当的小。我试用了其他数据跑，已验证该情况。怎样处理这种现象？

iamsuarez

在第（1）步不是已经找到异常值，为什么把满足deviation-score所有点进行聚类？

您好，大佬，有个疑问，想请教您下，若您有空了，请回复下，谢谢！疑问如下： cluster_list = list( [list( filter(lambda x: np.min(self.leaf_deviation_score[_])

iamsuarez

Squeeze
Squeeze copied to clipboard

Metadata

关于涟漪效应的可解释性

想请教下, Squeeze论文里面准确率比较的那些其他方法是如何实现的？

关于数据集

为什么从几个属性值组合合在一起作为一个根因，而不是分别从单个属性组合去找根因

区分正向根因、负向根因

ret_lists集合了所有layer、所有cuboid下的根因

rank的计算，排序后，找到根因的score分数很低

在第（1）步不是已经找到异常值，为什么把满足deviation-score所有点进行聚类？

← Metadata

Owner

Metadata

Squeeze Squeeze copied to clipboard

Metadata

← Metadata

Owner

Metadata

Squeeze
Squeeze copied to clipboard