把两个学生的特征合在一起,增加样本数的创新
您好,我对样本选择的创新点这块很是好奇,这种做法可以有效解决样本数不足的问题,但是这种数据处理方法从没见过,我想请问一下: 问题1:这样做的依据的是什么呢? 问题2:还有就是两两对比的话最后样本数是不是要除以2呢?甲乙和乙甲不一样吗? 希望您的解答一下
你好, 问题1: 因为任务是成绩排名,现有的特征基本都是跟成绩有正相关/负相关,或者可以把特征处理成与成绩正负相关的(数值特征),当然经典的做法是回归,回归算法也确实有一定的效果的;但是我的样本量不足,我的想法是回归转变成两两对比的二分类任务,具体来说,学生A的成绩/特征如果大于学生B,那么A相对于B就是1,B相对于A就是0,这样A就可以跟N-1个学生做对比,最终预测的对比结果加起来=n,就说明在与n个学生的对比中胜出,这也就作为他/她的成绩排名。 问题二: 一次是以甲为参照物,一次是以乙为参照物,甲乙和乙甲的组合,特征和label都是相反的,对于机器学习任务来说是两个样本;当然也可以记录严格看成一样的,样本组合就成了一个不包含对角线的上/下三角阵,生成样本的过程,多了个逻辑而已,这块地方没必要纠结
祝好!
------------------ 原始邮件 ------------------ 发件人: "AI-Friend/Score-Predict" @.>; 发送时间: 2021年8月11日(星期三) 下午5:29 @.>; 抄送: " @.@.>; 主题: Re: [AI-Friend/Score-Predict] 把两个学生的特征合在一起,增加样本数的创新 (#3)
您好,非常感谢您的回复,由于我近期没怎么登录邮箱,所以忽略了您的邮件,很抱歉,在这里再次感谢您的耐心回复与指点。 我想问一下您是从事教育数据挖掘工作的科研工作者吗? 因为对您的这种数据处理方法感觉很新颖独特,所以想问您有没有关于这个项目的相关学术论文或其他教育数据分析的相关论文以让我可以进一步进行学习的呢?