8月29日,“2020中国高校计算机大赛·华为云大数据挑战赛”的全国总决赛及颁奖典礼在深圳举行,由我校软件工程学院2019级研究生陆鹏皓作为队长,宫学庆教授作为指导教师的mythteam团队获得了全国一等奖!
中间为队长陆鹏皓,左一和右一分别为来自数据科学学院的侯静阳同学和软件工程学院的李子健同学
2020中国高校计算机大赛——华为云大数据挑战赛是由清华大学、中国人工智能学会和华为技术有限公司联合举办,华为云和北京信息科学与技术国家研究中心提供支持,以企业真实场景和实际数据为基础,面向全球开放的高端算法竞赛。大赛旨在通过竞技的方式,提升人们对数据分析与处理的算法研究与技术应用能力,探索大数据的核心科学与技术问题,尝试创新大数据技术,推动大数据的产学研用。
2016年,教育部高等学校计算机类专业教学指导委员会、教育部高等学校软件工程专业教学指导委员会、教育部高等学校大学计算机课程教学指导委员会、全国高等学校计算机教育研究会联合创办了“中国高校计算机大赛”(china collegiate computing contest,简称c4),第五届(2020年)“中国高校计算机大赛”由全国高等学校计算机教育研究会主办,大数据挑战赛是其中的一项重要赛事,在2018年被选入全国普通高校学科竞赛排行榜,获得社会各界的高度关注和广泛好评。
2020年华为云大数据挑战赛,共有4133人报名参与,经过组队共有1491支来自全国各地的队伍,其中不仅有来自国内知名高校的团队,还有代表企业参赛的团队。经过激烈的初赛、复赛和决赛的角逐,共产生5个一等奖,10个二等奖,15个三等奖。我校软件工程学院2019级研究生陆鹏皓带领的mythteam团队获得了全国一等奖(决赛第三名)。此外,我校软件工程学院2019级研究生黄超带领的突然ping通团队获得了全国二等奖。
赛题背景及任务:
在企业全球化业务体系中,海运物流作为其最重要的一项支撑。其中,船运公司会和数据供应公司进行合作,对运输用的船通过gps进行定位以监控船的位置;在运输管理的过程中,货物到达目的港的时间是非常重要的一项数据,那么需要通过船运的历史数据构建模型,对目的港到达时间进行预测,预测时间简称为eta(estimated time of arrival),目的港到达时间预测为arrival_eta。
项目方案:
由于赛题数据量大,存在多种异常情况,且没有给出要预测的label,所以首先基于业务逻辑对赛题进行数据清洗,并为训练集数据进行标注。然后构建了三种不同的建模方式进行预测,以基于轨迹相似度的建模方式寻找具有相似轨迹的订单,采用geohash地理编码方式将连续的数值型经纬度特征编码为离散型的类别特征,并基于地理编码提出了高效的相似轨迹匹配算法,将其作为baseline;接着相继提出了基于离散位置特征和基于连续轨迹特征的建模方式,我们采用的机器学习算法为lightgbm,并进行五折交叉验证。在基于连续轨迹特征的建模方式中,采用了自然语言处理(nlp)中的doc2vec无监督模型来构造订单的历史轨迹特征,并获得了不错的效果。最后在模型融合部分,基于订单特点采用不同的模型融合方案,最后取得了很好的收益。