SimTSC icon indicating copy to clipboard operation
SimTSC copied to clipboard

您好,对于大数据集如何构造相似度矩阵

Open yangye19960922 opened this issue 3 years ago • 3 comments

作者您好,最近有幸拜读了您的论文,想在自己的工业数据上实践一下,发现有一个比较棘手的问题。 公式(3.6)是建立我们时序相似度的矩阵,矩阵的大小为N*N,如果我没理解错的话N代表的是序列的数量,那如果我想要计算一些比较大(10W条以上的数据量)的数据集的相似度矩阵的话,可能就会出现内存不足的报错,想请问一下这样的实际情况是否有一些针对性的方法呢

附上我用自己数据及创建dtw矩阵报错的信息 MemoryError: Unable to allocate 1.02 TiB for an array with shape (374147, 374147) and data type float64

yangye19960922 avatar Mar 07 '22 03:03 yangye19960922

@yangye19960922 这个是目前的一个limitation,也是我们的未来工作。大数据下没有办法完全算这个矩阵。可能的方法是随机采样,构建一个稀疏矩阵,然后用多层GNN去学。

daochenzha avatar Mar 07 '22 03:03 daochenzha

嗷 好的,我突然有一个比较业余的问题想请教您,就如果我是一个N*M的数据集,有M-1个变量,我对他进行分类的话,是属于时序单变量分类还是多变量分类呀。 image 数据大概就是这样的。

yangye19960922 avatar Mar 07 '22 13:03 yangye19960922

@yangye19960922 多变量分类

daochenzha avatar Mar 13 '22 00:03 daochenzha