顶会ACL这十年:百度披荆斩棘,中国NLP乘风破浪
现在,我们已经习惯了全球各类顶级学术会议上的中国力量。
创新互联坚持“要么做到,要么别承诺”的工作理念,服务领域包括:成都网站建设、成都做网站、企业官网、英文网站、手机端网站、网站推广等服务,满足客户于互联网时代的廉江网站设计、移动媒体设计的需求,帮助企业找到有效的互联网解决方案。努力成为您成熟可靠的网络建设合作伙伴!从论文入选,到参会面孔,抑或赞助企业,中国代表几乎无处不在。
前不久刚落幕的 ACL 2020 也不例外。作为 NLP 领域最负盛名的国际顶会,今年虽在线上,但论文投稿数录用率方面,中国依然势头凶猛,投稿数 1084 篇领跑,录用率 23.7%,仅次于美国。
在入围论文中,除了华人参与的研究斩获论文,王海峰、周明、俞栋、刘挺等知名大牛的名字,也依然出现在多篇成果中。
这几乎已经成为了常态。
那一众科学家的努力,整整一代人的水滴石穿,是时候要被管中窥豹地讲一讲,是时候要让更多后浪记得,前浪改变时代的勇气和不易。
2010-2020,十年,一个时代。
也是中国 NLP,完成「破圈」,披荆斩棘的光辉岁月。
起于微时,十年磨一剑
2010 年 7 月 11 日,乌普萨拉,北欧国度瑞典的第四大城市,第 48 届 ACL 在此召开。
ACL,全称 The Association for Computational Linguistics,国际计算语言学会,是自然语言处理领域最权威的国际学术组织之一。
创办近半个世纪,会员分布世界 60 多个国家和地区,吸引着全世界希望征服 AI 皇冠明珠的代代科学家。
但 2010 年现场,第一次参加 ACL 的百度工程师田浩的直观印象可以一言以蔽之:
会议上的中国人不多。
而且这种个体印象,也的确是真实现状的客观反映。
因为现在回顾起来,2010 年的 ACL,才第一次真正迎来中国科技公司参加。
那时候,从第一封电子邮件的发送算起,中国互联网的发展,已经有了 23 年的沉淀。
但是!
即便中国已是世界上网民数量最多的国家,但在互联网技术领域,中国却更多地处于跟随、模仿的状态,在最先进的互联网技术角逐中,中国互联网企业,声音微弱。
在最早对前沿技术的追逐中,也不例外。
比如,被誉为人工智能皇冠上的明珠、AI 领域最具挑战的赛道之一的自然语言处理(NLP),中国乃至华人科学家,也经历了上述过程。
从学术角度来说,虽然 1990 年代开始,汉语和华人作者就已经在 ACL 中出现。
但早期的相关学术成果,大多数是对汉语内容的一种补充,缺乏在整体 NLP 领域中更具有突破性的成果。
同时由于起步相对晚,华人科学家们的学术成果累积也还不够,更别提 霸榜 和 刷屏 。
这也就是为什么,2010 年的 ACL 现场,中国面孔寥寥。
然而,历史转折关头,也在 2010 发生。
这背后,与一家公司入场、一群科学家的星聚,密切相关。
群星荟聚,开风气之先
2010 年,BAT 之首、把「技术信仰」写进公司方方面面的百度,第一次把多方汇聚而来的科学家,送到了 ACL 现场。
创办历史超过半个世纪的 ACL,第一次迎来中国互联网企业代表。
而且这个代表,没有 空手而来 。
王海峰和吴华,带着他们入选的论文而来。
这是中国互联网企业首次论文入选 ACL。
这样的荣誉,既是对最新研究成果的认可,也是对中国公司的激励。
同年,百度 NLP——作为一个部门,由王海峰牵头,正式成立。
△2010 年,百度 NLP 团队合影
其实在专门的部门成立之前,百度在 NLP 方面的研发工作一直在业务需求下进行,并没有构成体系。
今天业务部门需要分词技术的支持,研究人员就要进行相关研究……明天业务部门发现query ( 查询 ) 需求分析能力的改善能够帮助流量提升,研究人员就会进行相关优化。
而成立 NLP 部门,既是对这种 指哪打哪 状态的扭转,更是对前沿技术攻坚决心的坚定。
NLP 能干什么?2010 年谁也说不准。
但十年之后,智能搜索、信息流、输入法、机器同传、智能音箱等各种日常刚需又方便每一个用户的产品,都将获益于 NLP。
人才的创造力和影响力,也在这种 开风气之先 中得到聚变。
如果说 2010 年百度首发参与 ACL,背后离不开王海峰、吴华等当时已有成就的技术专家的个人之力。
那么其后,这些科学家进一步达到的高度,则离不开 巨人肩膀 的助推之功。
从 2011 年开始,百度开始成为 ACL 官方赞助者,向全球 NLP 科学家表达诚意,也展示更加深度参与的决心。
其后 2013 年,王海峰当选 ACL 主席,获得一致认可,成为 ACL 五十多年历史上第一位华人主席(President)。
那年的 ACL,举办地在保加利亚首都索菲亚举行,全球 1000 多名专家来到现场。
因为百度的带动,相比三年前,已经有了更多的中国面孔。
而这一次,ACL 晚宴上的演讲,令他们内心激动万分,多年后仍记忆犹新。
当时王海峰以新任主席身份,发表了题为 Natural Language over Thousands of Years 的主题演讲。
虽然全程英文,但完美讲述了中国悠久灿烂的历史文化和飞速发展的互联网技术,正在带来的时代之美。
在他演讲中,甲骨文、十二生肖、散氏盘、造纸、印刷、青玉案、兰亭序、曲水流觞、玄奘、四库全书、清明上河图等等,汉语所承载的中华文明,如一幅美丽的画卷徐徐展开。
而自然语言跨越几千年,自然语言处理技术与互联网结合产生了迷人成果,支撑了搜索引擎、电子商务、社交媒体的迅速发展。
王海峰在现场,以极富想象力的方式,展示了这些科技成果应用在古代的画面。
例如, 王羲之 利用互联网组织世界各地的人进行曲水流觞,生动形象地展示了语言处理技术对人们生活产生的巨大影响力。
于是,这次历史上 ACL 首位华人主席的致辞,也引发了历史性反响,引起了众多西方技术专家对中国文化的兴趣。
在 NLP 领域鼎鼎大名的 Kenneth Church、Kevin Knight 等顶级专家,纷纷表示要去中国看看王海峰致辞中提到的文物古迹。
而中国 NLPer 在 ACL 的精彩,也由此更上一层楼。
王海峰之后,2010 年与他一同亮相的另一位百度科学家——吴华,出任 2014 年 ACL 年会的程序委员会主席(Program co-Chair)。
需要说明的是,在国际会议中,程序委员会主席承担着最重要的学术职责,代表着世界级的学术地位和影响力。
吴华的当选,背后是圈内同行对其学术成就的高度认可,也体现了百度在自然语言处理领域的技术实力和影响力。
其后,2016 年,王海峰的另一位同事——百度高级技术总监赵世奇当选 ACL 秘书长,成为首位当选 ACL 秘书长的亚洲人。
同年年底,王海峰的多年相识,同为哈工大毕业的微软亚洲研究院副院长周明当选为 ACL 候任副主席,进入 ACL 执委会。
中国 NLPer 的光芒和能力,终于在王海峰等打开局面后,真正被全世界看到。
而且「破圈」的故事,到此还不算高潮。
上述这些带领中国 NLP 完成全球影响力「破圈」的中坚科学家,也在思考另一件事情:
真正落地中国。
2018 年,借着亚太地区尤其是中国在 NLP 领域的研究力量和成果突飞猛进的大背景。
国内 NLP 领域的学者们意识到,成立 ACL 亚太分会势在必行。
于是,百度王海峰、赵世奇,MSRA 周明,以及其他有影响力的亚太学者一道,积极筹划推动,向 ACL 执委会清晰详尽地说明了成立亚太分会的必要性,以及对推动亚太地区 NLP 研究发展的重要价值。
最终获得 ACL 执委会的一致赞成—— ACL 亚太区分会(AACL)正式成立,并由王海峰出任 AACL 创始主席。
这对于整个中国 NLP 来说,无疑又是一个历史性的里程碑。
而且就在这些年中,中国的 NLP,也完成了人才和产业落地的全方位积蓄。
随着百度 NLP 成立,大牛得以荟聚,王海峰、吴华等有了星聚基础。
后来腾讯 AI 实验室的开创者、华为诺亚方舟实验室的骨干、以及如今 AI 语音、语义理解、智能交互的一大批明星公司的创始人,也都先后聚集于此,让百度 NLP 真正成为了中国 NLP 领域的 黄埔军校 。
聚是一团火,散成满天星。
或许在百度以王海峰牵头成立 NLP 部门时,积极参与 ACL,彼时也许更多出于企业的发展、技术的布局。
但十年之后回顾,中国 NLP 完成国际化「破圈」的十年,背后正是百度 NLP 不懈奋斗十年。
而且客观上,深刻影响并改变了中国 NLP 的学术、人才和产业格局。
这是如今中国 NLPer 闪耀 ACL,绕不过去的历史注脚。
百川东入海,山高人为峰
当然,2010-2020,中国 NLP「破圈」的十年里,百度作为企业发挥了基石作用,而当今的 CTO王海峰在其中的领军作用,则不得不提。
他是 AI 学术领域的高山,也是智能产业领域中的明珠。
在升任百度 CTO 时,李彦宏的全员内部信,也清晰言明了他这一路的成绩:
为百度创建了自然语言处理部、互联网数据研发部、推荐和个性化部、多媒体部、图片搜索部、语音技术部等,作为执行负责人协助创建了百度深度学习研究院。他还是自然语言处理领域最具影响力的国际学术组织 ACL 历史上首位出任过主席的华 人,也是唯一来自中国大陆的 ACL 会士。
但既然这次感慨的是中国 NLP 与 ACL 的十年,可能也需要更进一步补充一些 历史进程中 的王海峰。
最核心的问题只有一个:王海峰为何能成为 ACL 首位华人主席?
或者拆解开来,ACL 为什么一直没有华人主席?又为什么会在 2013 年出现一位华人主席?
这需要从两方面说起。
一方面,成为 ACL 主席需要什么。另一方面,王海峰做了什么。
从普通人的角度来看,出任 ACL 主席似乎是一种荣誉。实际上, ACL 主席并非是一个奖励性的名号,而是一种切实的责任。
ACL 作为拥有数千名成员的国际学术组织,就像一所高校或一家企业一样需要有 人进行领导决策、制定目标与方向,带领整个 NLP 领域继续向前。
因此 ACL 主席评选取向需要从两个方向参考,一个是科学家自身的学术贡献,另一个是科学家的组织能力。
其中科学家自身的学术贡献,最直观的自然是是学术能力——发了几篇论文、提出了哪些有突破性的想法等等。
但在国际顶会组织中众望所归,学术之外,还需要有 服务精神 。
所谓的 服务精神 是一个非常西方化的概念,意味着领导者不仅仅要有 责任感、能够付出足够的时间与精力去代表民意发声,很多时候还要站在其他个体的角度去思考一些细节化的问题。
同样就职于百度并担任着 ACL 秘书长的赵世奇表示,服务于 ACL 这样的学术组织需要分出一定的时间和精力,去关注如何帮助 ACL 向外发声、吸引更多会员,同时也要从人类文明发展的角度关注学术平等,给予学术能力欠发达地区更多扶持。
这也是为什么 ACL 主席要采取一年一任的轮换制的原因,ACL 希望用这种方式,让来自不同地区的科学家带来不同的视角。
至于科学家的组织能力,则要考量科学家能否承担起学术活动的组织任务。
这要求科学家除了醉心学术以外,还要有足够的领导能力和社交能力,尤其是能够与多个国家和地区的科学家进行流畅的沟通。
如此,基本上就不难理解——为什么 ACL 之前一直没能出现华人主席了。
之前也说了,中国 NLP 真正起步并不早,而且建立在缺乏国际交流条件的背景之下,此前的华人科学家自然也很难做到充分了解世界各地学术发展状况,更不容易建立自身对于组织管理的能力。
毫不夸张地说,在很长一段时间里中国 NLP 学术和 NLP 领域的科学家,与整个世界是相割裂的。
十几年间,从与世隔绝到走到舞台中央, 中国 NLP 学术的奋斗过程几乎带了几分史诗感。
《AI 已来:让中国 AI 走向世界的王海峰》中提到,在王海峰的记忆中,2006 年可以算是一个分水岭。
2005 年,ACL 在美国密歇根举办年会时,国内只有四位科学家前往,这四位中除了当时来自东芝的王海峰和朱江外,还有两个来自微软亚洲研究院的熟悉面孔。
当时这一队来自中国的 珍稀动物 ,大概只带来了三篇被收录的论文。
但到了 2006 年,ACL 在悉尼举办年会时,来自中国的论文数 量大幅增长,光是王海峰的东芝组就投了五篇论文,并且五篇都被收录了。
此后 ACL 中的中国声音,就如同被按下了放大键,一路高歌向前,不断加码。
除了自身对于学术界的奉献精神以外,王海峰也意识到了中国力量在 ACL 这样的学术组织中地位的变化——中国的学术能力在崛起,可在学术影响力上却稍逊一筹。
于是王海峰想到,自己竞选 ACL 主席,能够在这 一方面进行一些拉动,让中国 NLP 不仅仅拥有学术成果,还能在学术界拥有更多话语权和撬动力。
根据《AI 已来》一书中的说法,除了王海峰自身的成就和影响力,王海峰还将能够当选的原因归结为两方面:
一方面是中国科学家在 ACL 的参与越来越频繁,随着被收录论文数量的增加,ACL 开始对中国声音加以重视。
另一方面是他在百度的任职,代表了 中国科技企业 ,当时整个世界开始发觉中国科技企业所蕴含的创新能量,开始关注起中国科技企业。
最后,自然也与王海峰个人的勤奋密不可分。
后来成为王海峰第一个博士生的郭江,在 2010 年曾经在百度 NLP 实习。
在他的印象里,那时的 NLP 非常小,只有二三十人, 王海峰就和团队里所有人一样,坐在开放区办公,每天早早地来到公司,一整天都直直地挺着脊背。
一个几十人的团队,一位低调勤奋的领导。这样的画面怎么看都波澜不壮阔,与 创新 机会 、 改变 这些关键词都毫无关系。
可事实却恰恰相反,在百度,后来世界上第一个互联网神经网络翻译系统、世界上大的知识图谱、助力无数合作伙伴的百度大脑语言与知识开放技术、小度机器人、大量科技企业争相刷题竞争的阅读理解数据集 DuReader 等等,都是在这个当时看似不起眼的团队逐渐成长、逐渐孵化出来的。甚至可以说,百度 AI 的诞生,就从这里开始。
今天谈论起百度与王海峰时,人们总说百度的技术基础、技术信仰和价值取向,与王海峰此前作为 NLP 科学家的能力累积是非常契合的。
但从王海峰在百度 NLP 进行的一系列技术累积和前瞻布局来看,双方的契合程度远不止 学术能力 与 场景需求 。
同时也在于王海峰本人对于 AI 技术发展趋势的预判,和百度对于这一系列判断的信任和支持。
你可以说王海峰主导了百度 NLP 变革,也可以认为百度真正成就了王海峰。
但就在这种相互作用之间,中国 NLP 的「破圈」十年,真正得以实现。
现在,是时候乘风破浪了。
网站名称:顶会ACL这十年:百度披荆斩棘,中国NLP乘风破浪
网页路径:http://myzitong.com/article/cggcsi.html