toad icon indicating copy to clipboard operation
toad copied to clipboard

使用toad进行分箱后,是否支持添加自定义的分箱规则

Open topxxuki opened this issue 4 years ago • 5 comments

topxxuki avatar Nov 01 '21 08:11 topxxuki

  1. c.fit(train_selected.drop(to_drop, axis=1), y = 'label', method = 'quantile',n_bins=10) 在一个模型里 是否支持不同的列使用不同的bin个数? 2.fit之前/之后,在已有的分箱规则基础上,是否支持添加一些自定义的分箱规则?

topxxuki avatar Nov 01 '21 09:11 topxxuki

@topxxuki

  1. 暂时不支持配置不同的bin个数,你可以分批fit,添加参数c.fit(....., update = True) 可以做增量更新;或者使用不指定 n_bins 的方式,如 min_sample 之类的自适应分箱
  2. fit 之后可以使用 c.update() 来更新分箱规则,具体可以查看一下文档

Secbone avatar Nov 01 '21 14:11 Secbone

@topxxuki

  1. 暂时不支持配置不同的bin个数,你可以分批fit,添加参数c.fit(....., update = True) 可以做增量更新;或者使用不指定 n_bins 的方式,如 min_sample 之类的自适应分箱
  2. fit 之后可以使用 c.update() 来更新分箱规则,具体可以查看一下文档 感谢分享,另外还想问些问题:
  1. image 观察到分箱的区间均为左闭右开,是否支持左开右闭的分箱方法呢?
  2. 分箱方法目前有'dt', 'chi', 'quantile', 'step', 'kmeans' ,是否支持等宽分箱呢?另外step分箱方法有相关文档或者参考资料吗?

topxxuki avatar Nov 02 '21 08:11 topxxuki

@topxxuki

  1. 目前只支持 左闭右开
  2. step 就是等宽分箱

Secbone avatar Nov 02 '21 09:11 Secbone

@topxxuki

  1. 暂时不支持配置不同的bin个数,你可以分批fit,添加参数c.fit(....., update = True) 可以做增量更新;或者使用不指定 n_bins 的方式,如 min_sample 之类的自适应分箱
  2. fit 之后可以使用 c.update() 来更新分箱规则,具体可以查看一下文档

@Secbone "或者使用不指定 n_bins 的方式,如 min_sample 之类的自适应分箱" 请问这句话的意思是n_bins和min_sample是不能同时设置的吗?现在碰到的结果是好像如果设置了min_sample为一个很小的比例,分箱结果数就有可能超过n_bins的设定值。

Ceasers avatar Feb 24 '23 02:02 Ceasers