数据挖掘进阶:kaggle竞赛top代码分享

数据挖掘进阶:kaggle竞赛top代码分享

上一篇文章 JDATA京东算法大赛入门(score0.07+时间滑动窗口特征+xgboost模型) - 知乎专栏

有些朋友问我代码的问题,代码没有注释也有些bug,但是有心的同学如果理解了思路,稍加优化应该也可以得到一个还不错的成绩了。

我准备整理一些kaggle比赛top选手分享的代码,学习别人如何解决问题同时提升自己这方面的能力。

该专栏会长期更新,后续会详细的分析每个问题的解决方法:

更新:

老司机坐稳了,Kaggle竞赛-深度学习检测疲劳驾驶简要回顾 - 知乎专栏

Click-Through Rate Prediction

很经典的点击率预估问题,这个比赛很值得大家好好研究,冠军主要使用LibFFM方法,除了该方法之外还可以学的点击率预估中很实用的FTRL(google发表的论文)方法。

  • 第一名: LibFFM
  • FTRL: Beat the benchmark with less than 1MB of memory.

Rossmann Store Sales

销量预测问题,这个比赛中第三名的方法很值得参考,选手结合了entity-embedding和神经网络,后续在JDATA京东算法大赛中会尝试实用该方法。

State Farm Distracted Driver Detection

疲劳驾驶检测,该比赛是我入门深度学习的比赛,选手们分享了很多有趣的方法,包括基本的深度学习模型训练,如何应用模型迁移、数据加强、模型微调等技巧

Outbrain Click Prediction

预测哪块内容用户会点击,点击率预测问题,值得参考

更新:

Facebook V: Predicting Check Ins

评论区出现大神, @李力 第五名大神,大家可以评论区找他~


更新 :

感谢 @Grant Liu @Eliot Andres 整理的kaggle比赛详细的解决方案列表,非常齐全 , 赶紧去star了好好看看


Kaggle Past Competitions




待补充,后续会整理更多比赛的代码和解决方法。

编辑于 2017-04-18 14:00