数据挖掘进阶:kaggle竞赛top代码分享
上一篇文章 JDATA京东算法大赛入门(score0.07+时间滑动窗口特征+xgboost模型) - 知乎专栏
有些朋友问我代码的问题,代码没有注释也有些bug,但是有心的同学如果理解了思路,稍加优化应该也可以得到一个还不错的成绩了。
我准备整理一些kaggle比赛top选手分享的代码,学习别人如何解决问题同时提升自己这方面的能力。
该专栏会长期更新,后续会详细的分析每个问题的解决方法:
更新:
老司机坐稳了,Kaggle竞赛-深度学习检测疲劳驾驶简要回顾 - 知乎专栏
Click-Through Rate Prediction
很经典的点击率预估问题,这个比赛很值得大家好好研究,冠军主要使用LibFFM方法,除了该方法之外还可以学的点击率预估中很实用的FTRL(google发表的论文)方法。
Rossmann Store Sales
销量预测问题,这个比赛中第三名的方法很值得参考,选手结合了entity-embedding和神经网络,后续在JDATA京东算法大赛中会尝试实用该方法。
- 第三名:entity-embedding + NN
State Farm Distracted Driver Detection
疲劳驾驶检测,该比赛是我入门深度学习的比赛,选手们分享了很多有趣的方法,包括基本的深度学习模型训练,如何应用模型迁移、数据加强、模型微调等技巧
Outbrain Click Prediction
预测哪块内容用户会点击,点击率预测问题,值得参考
更新:
Facebook V: Predicting Check Ins
评论区出现大神, @李力 第五名大神,大家可以评论区找他~
更新 :
感谢 @Grant Liu @Eliot Andres 整理的kaggle比赛详细的解决方案列表,非常齐全 , 赶紧去star了好好看看
Kaggle Past Competitions
待补充,后续会整理更多比赛的代码和解决方法。
编辑于 2017-04-18 14:00