报告题目:what is the next trend of big data systems research?
报告人: da yan university of alabama at birmingham, birmingham, al
主持人: 王晓玲 教授
报告时间:2019年5月23日 周四10:00-11:00
报告地点:中北校区数学馆201
报告摘要:
大数据时代强调几个v,其中包括: volume (容量), velocity (速度) 以及 value (价值). 大数据计算系统的研究热潮已经持续有十几年了,并且在这波浪潮中也踊现了一批家喻户晓的系统,包括hadoop, spark, pregel等。然而近年来大数据系统已经呈现创新不足的趋势,加之深度学习的突飞猛进导致业界向ai一面倒的趋势(volume/velocity -> value),面对大数据计算系统研究者的一个重要议题就是what‘s next for big data systems? 事实上,该领域已经从通用的模型例如mapreduce和spark,向更细分化的系统领域拓展,比如pregel和graphlab这类的图计算系统,storm和flink这类流数据系统,parameter server和systemml这类机器学习系统,以及tensorflow和pytorch这类深度学习系统。但是这类系统从根本上讲还是io-bound为主的,导致目前主流的业界应用算法都是计算复杂很低的算法。本报告将从演讲者本人在图数据系统的研究方向出发,阐述该方向的研究现状以及出现的创新颓势,以及现有系统io-bound的特性,并简要展望未来设计cpu-bound系统解决复杂度较高的大数据问题的动机以及巨大潜力。
报告人简介:
严达,阿拉巴马大学伯明翰分校计算机系助理教授。因他在大数据系统方向的贡献,于2015年度被授予香港青年科学家称号,是该奖项2015年在physical/mathematical science方向的唯一获奖者。他的研究被同行广泛引用并给予很高的评价,例如他开发的blogel系统在vldb 2018的一篇图系统实验比较论文中被评价为overall winner。这些系统也被大家广泛使用,他们的工作目前已经发表在诸如sigmod, vldb, icde等顶级会议上。他的论文发表在包括sigmod, pvldb, sigkdd, icde, www, tkde, tpds, icpp, socc, eurosys等顶级计算机会议和期刊上;他在foundations and trends in databases上有一本涵盖图计算系统领域各个方面的书。担任过sigmod 2020,sigmod 2019, vldb 2018, icpp 2018, ijcai 2017等会议的论文评委,tods, vldbj, tkde, tpds等期刊的论文评委,acm/ieee tcbb和bmc bioinformatics的客座主编,若干workshop的组织者(包括与sigkdd一起开的biokdd 2018和biokdd 2019), 以及美国国家科学基金会(nsf)的项目评委。