文本匹配是自然语言处理中的重要基础问题,自然语言处理领域的许多任务都可以抽象为文本匹配问题。在上个月刚刚落下帷幕的Kaggle:Quora Question Pairs全球文本匹配算法竞赛中,由中科院网络数据重点实验室庞亮、范意兴、侯建鹏、岳新玉、牛国成5位同学组成的YesOfCourse团队获得了全球第4名、华人参赛团队第1名的好成绩。
从左至右:牛国成、庞亮、侯建鹏、范意兴、岳新玉
本次竞赛由全球最大的在线知识平台Quora主办,Kaggle竞赛平台承办。Quora为本次比赛提供了百万级别的带有标签信息的文本匹配数据集,以期望参赛选手能够准确的判断一组问题是否具有相同的语义,从而帮助Quora用户更有效地从海量数据中找到所需要的问题。
于是,7月13日(本周四)晚,在将门技术社群,我们很开心邀请到这几位同学,为大家分享这次文本匹配竞赛的解决方案。
活动信息
▼
主题:文本匹配问题中的深度学习与特征工程
时间:7月13日(周四)20:00
地点:将门创投斗鱼直播间
分享提纲
▼
本次分享的内容主要是中科院YesOfCause团队在Kaggle文本竞赛中的解决方案,即如何判断一组问题是否具有相同的语义,从而帮助问答平台更准确的从海量问答数据中找到相同的问题并获取答案。
分享内容主要为以下几个方面:
数据预处理:将原始文本通过词干还原、词性抽取、停用词去除等多种文本处理方式生成多通道数据以从多角度进行特征提取和模型构建。
特征工程:除了构建基本的统计特征,自然语言句法语法特征,分布式文本表达特征以外,还利用问题共现关系构建了关系图网络,并通过图连接,图节点等信息抽取得到相应特征。
模型构建:主要包含两个方面:一方面利用深度学习模型,其中主要包括实验室自主研发的深度文本匹配模型;另一方面利用传统的机器学习模型如GBDT,分解机模型,线性模型等。
模型融合:通过我们提出的Deep Fusion方法,将大量不同类别的模型结果进行整合,利用多模型之间的差异性和互补性进一步提升结果。
团队成员介绍
▼
庞亮
中国科学院计算技术研究所博士生
研究方向是文本匹配,主要研究如何更好的利用深度学习方法解决文本匹配中的问题。2016年在国际会议AAAI上发表长文“Text Matching as Image Recognition”。曾获微软亚洲研究院“明日之星”称号。曾获Kaggle举办的RecSys2013: Yelp Business Rating Prediction第一名、Personalize Expedia Hotel Searches - ICDM 2013第五名、National Data Science Bowl第十六名。曾获第一届阿里巴巴大数据竞赛—天猫推荐算法挑战赛第七名、2016Bytecup竞赛第一名。
侯建鹏
Google软件工程师
拥有中国科学院计算技术研究所攻读硕士学位,研究方向是机器学习与分布式计算,主要参与了Easy Machine Learning开源机器学习平台的开发工作。期间获得了SIGHAN-2015 Chinese Spelling Check Task冠军和2016中国电信大数据竞赛冠军。
以上两位同学为本次分享主讲人。
团队其他成员
观看直播或加群
▼
长按或扫描下方二维码,关注“将门创投”微信公众号(thejiangmen),后台回复“NLP”,获取入群通道及直播地址。
-END-
📢 📢 📢
将门招聘
将门创投正在招募编辑、运营类全职/实习生岗位,工作地点在北京三元东桥附近,期待热爱技术的你到来,和我们一起见证技术创新的传奇!
欢迎发送简历至>>dream@thejiangmen.com
将门是一家专注于发掘、加速及投资技术驱动型创业公司的创业服务和投资机构。
将门创业服务专注于为技术创新型的创业公司连接标杆用户和落地行业资源。
将门技术垂直社群专注于帮助技术创新型的创业公司提供来自产、学、研、创领域的核心技术专家的技术分享和学习内容。
将门投资基金专注于投资通过技术创新激活商业场景,实现商业价值的初创企业。关注领域包括:机器智能、物联网、自然人机交互、企业计算。
获取将门投资>>bp@thejiangmen.com
将门创投
让创新获得认可!
微信:thejiangmen
service@thejiangmen.com