SimTSC 您好，对于大数据集如何构造相似度矩阵

作者您好，最近有幸拜读了您的论文，想在自己的工业数据上实践一下，发现有一个比较棘手的问题。公式（3.6）是建立我们时序相似度的矩阵，矩阵的大小为N*N,如果我没理解错的话N代表的是序列的数量，那如果我想要计算一些比较大（10W条以上的数据量）的数据集的相似度矩阵的话，可能就会出现内存不足的报错，想请问一下这样的实际情况是否有一些针对性的方法呢

附上我用自己数据及创建dtw矩阵报错的信息 MemoryError: Unable to allocate 1.02 TiB for an array with shape (374147, 374147) and data type float64

Mar 07 '22 03:03 yangye19960922

@yangye19960922 这个是目前的一个limitation，也是我们的未来工作。大数据下没有办法完全算这个矩阵。可能的方法是随机采样，构建一个稀疏矩阵，然后用多层GNN去学。

Mar 07 '22 03:03 daochenzha

嗷好的，我突然有一个比较业余的问题想请教您，就如果我是一个N*M的数据集，有M-1个变量，我对他进行分类的话，是属于时序单变量分类还是多变量分类呀。数据大概就是这样的。

Mar 07 '22 13:03 yangye19960922

@yangye19960922 多变量分类

Mar 13 '22 00:03 daochenzha