新闻  |   论坛  |   博客  |   在线研讨会
王家豪:求实探索,青春无问西东;脚踏实地,奋斗自成芳华 | 提升之路系列
数据派THU | 2021-01-18 13:14:40    阅读:219   发布文章

导读

为了发挥清华大学多学科优势,搭建跨学科交叉融合平台,创新跨学科交叉培养模式,培养具有大数据思维和应用创新的“π”型人才,由清华大学研究生院、清华大学大数据研究中心及相关院系共同设计组织的“清华大学大数据能力提升项目”开始实施并深受校内师生的认可。项目通过整合建设课程模块,形成了大数据思维与技能、跨界学习、实操应用相结合的大数据课程体系和线上线下混合式教学模式,显著提升了学生大数据分析能力和创新应用能力。

至今,已有来自全校45个院系的2657名同学参加大数据能力提升项目,其中445位同学通过课程学习和实践获得由清华大学研究生院颁发的“清华大学大数据能力提升项目证书”。

谈起最大的收获,同学们表示无论是自身的数据思维还是本专业与大数据技术相结合的科研能力以及实践经验等方面均得到了很大的提升。清华的数据科学人才培养究竟有什么特别之处?让我们一起通过他们的故事,揭秘各院系清华学子的大数据能力提升之路吧!

1.png

清华大学自动化系控制工程硕士生王家豪

研究方向:面向端侧设备的深度学习模型优化与应用研究

一、博观约取,厚积薄发铸就坚实基础

从研一上学期开始,我开始接触大数据与人工智能这个方向,刚刚进入这个领域时,由于缺乏相关的背景知识和实践技能,所以当时的我一头雾水。于是,我开始在老师的指导下大量 阅读这个方向的相关论文,了解了机器学习、大数据,同时也了解了这个行业的发展情况。我为之震惊,无法想象以前很多让我束手无策的问题居然大部分都可以用这种方式去解决。同时,我开始学习大数据分析,大数据系统等相关内容。当时记忆犹新的是大数据机器学习这门课,袁春老师布置的 bonus project,自己的任务是 Kaggle 大赛的“Severstal: Steel Defect Detection”,主要做的是使用语义分割技术识别钢铁上的缺陷,我还记得那段时间夜以继日的研究生活,我使用各种算法去做实验,分析结果,最终选择了最优的模型和数据增强方法,圆满完成了整个项目,获得了 Top 2%的银牌成绩。这个成就使我看到了自己在这方面的潜力和能力,也点燃了我的科研热情。之后,我系统地学习了常用的机器学习方法,同时也提高了自己代码实操的能力。比赛结束之后,我深知自己的机器学习知识并不构成体系,于是我开始重新回归书本,一直到现在我还依旧会学习。经过整个学期的不懈努力,在所选的 5 门大数据能力提升项目的课程中,我的成绩以 4 门满绩,一门 B+顺利结束,我对这一结果十分满意,也更加坚定了自己在这个领域耕耘的决心。

二、博物洽闻,妙笔生花传播数据科学

由于学习项目课程知识的不断积累,从研一下学期开始,我注册了自己的个人知乎账号:“(科技猛兽)”,开始以博客的形式记录自己的学习,科研积累过程和心路历程。那时的初衷是:多写点对行业有意义的博客,为大数据的传播和社会普及做一些自己的贡献。结果令我没想到的是,博客蒸蒸日上,时至今日,我已经完成了 200 多篇技术博客,拥有了 12000+的粉丝数量,并且还在高速增长中。其中的十几篇高质量博客已经发表在了“极市平台,CVer,新智元”等这个领域家喻户晓的公众号上面,同时,我也成为了“极市平台”的签约作者。我也收到了国内著名出版社“人民邮电 出版社”的约稿邀请,成为了这家出版社的撰稿人。

三、校企携手,珠联璧合孕育硕果累累

我还参加了项目提供的华为公司和清华大学合办的“新一代信息与媒体技术实践项目”暑期实践项目,我所在的团队属于中央媒体技术院的拍照工程部,团队里面的同事所在的专业领域也不尽相同,但与他们一起工作、学习,共同进步,促进了彼此的工作交流与合作,大家相处的十分融洽。我在华为实践期间,完成了“基于神经架构搜索的生成对抗网络模型压缩”项目, 对于3个不同的模型对应的3个不同的任务,在不影响结果质量的前提下,模型的参数量分别压缩了约4.6倍,13.9倍,36.5倍;计算量分别压缩了10倍,11.4倍,24.3 倍,帮助企业在该业务上取得了突破进展。我与团队深知:华为公司扎根通信,深耕移动端设备,轻量化的模型更能够带来绝佳的用户体验。心有所信,方能行远。实践课我所做的项目为所在行业端侧设备模型的优化带来的深远的影响,也获得了校内评委老师和华为技术专家的一致肯定,最终考核结果为“优秀(Top 20%)”。

四、筑梦科研,守正创新突破技术瓶颈

大数据项目课程不仅点燃了我的科研热情,同时也夯实了我的专业素质。我的课题方向针 对于当今时代在端侧设备(手机,可穿戴设备,物联网等)上部署深度学习模型时的困难,提出创新的解决方案。以 AlphaGo 为例,它进行一局比赛需要 1920 块 CPU 和 280 块 GPU 的支撑,同时花费约3000$的电费和超过5000磅的CO2排放,这样高的算力消耗,如果将模型部署在我们的手机上会很快地耗干手机的电池电力。因此,我们需要对深度学习模型进行优化和压缩。研二上学期,我提出了一种针对生成模型 GAN 的普适的压缩方案,它融合了架构搜索,模型压缩两方面的技术,在多个模型的压缩结果上达到了SOTA。

五、鞭驽策蹇,栉风沐雨却仍任重道远 

大数据能力提升项目使我从一个大数据领域的学术小白成长为领域内的知名博主,优秀实习生和比赛高手。它带给我的不仅是知识和能力的培养,更重要的是眼界和胆识的提升。相信在今后的科研工作中,每天都有进步,每日都有收获;争取在未来,在这个国际形势千变万化的时代里成为一名优秀的华为人和一名合格的清华学子。请乘理想之马,挥鞭从此起程,路上春色正好,天上太阳正晴。

*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。

参与讨论
登录后参与讨论
推荐文章
最近访客