1月23日、24日,由中国计算机学会(CCF)主办,CCF七大优秀专委会、教育部易班发展中心、长沙市科技局、长沙高新区管委会、湖南大学、数联众创共同承的2020 CCF大数据与计算智能大赛(简称CCF BDCI)决赛暨中国大数据技术大会在湖南长沙圆满落幕。
中国大数据技术大会历经13年,已成为大数据领域极具影响力的行业盛会。本届大会邀请到中国科学院院士、CCF理事长梅宏,中国工程院院士桂卫华,中国科学院院士王怀民,中国工程院院士王耀南及多位学术专家、企业负责人等齐聚一堂,围绕大数据产业前沿领域进行分享与交流。开幕式上,长沙市政府副市长邱继兴,中国科学院院士、CCF理事长梅宏和湖南大学校长段献忠分别致辞,希冀通过此次活动搭建交流平台,为技术创新、资源共享凝聚更多力量。中科院计算所副所长、CCF大数据专家委员会秘书长程学旗发表大赛影响力报告,探讨了大赛呈现出大数据与AI交叉融合的趋势。在以《大数据新十年-数字经济机遇与挑战》为主题的院士论坛上,梅宏、王怀民、桂卫华和王耀南四位院士分享了各自观点。
(图:《大数据新十年-数字经济机遇与挑战》院士论坛)
现场,来自高校、企业等行业内专家与负责人围绕大数据与AI,从不同角度进行了精彩的分享。百度技术委员会主席吴华受邀参与,并作《知识与语言智能》主题演讲。“自然语言处理是研究人和计算机之间有效沟通的理论和方法,要使计算机拥有人类的语言沟通以及超越人类的跨语言沟通能力。”吴华详细介绍了百度自然语言处理方向的深耕与布局,并介绍了基于飞桨的NLP开源算法库PaddleNLP。
(图:百度技术委员会主席吴华进行演讲)
吴华表示,目前自然语言的发展已经历了符号逻辑阶段、浅层学习阶段,现在正经历深度学习阶段。在这样的背景下,百度构建了完整的语言与知识技术布局,基于产业级开源深度学习平台飞桨,研发了语义表示、序列标注、文本分类等核心技术,并对大众开源开放。
自然语言处理实现基本常识和推理能力离不开知识图谱。吴华介绍道,目前已经构建了十亿级实体、千亿级事实的多元异构知识图谱,以医疗图谱为例,已落地应用并辅助国内130余家基层医院的基层医生有效降低了误诊率。此外,百度知识增强的语义理解框架文心(ERNIE)大幅提升机器理解语言的水平,并持续推出知识增强视觉-语言预训练模型ERNIE-VIL、多语言预训练模型ERNIE-M、结合语义与结构信息的图神经网络模型ERNIESage等多个模型,持续有效提升视觉推断、多语言任务、文本推断的效果。
有了文本的基础知识,百度还提出了基于隐式知识和显式知识的知识对话系统:在隐式知识方面推出PLATO对话模型取得优异效果,在显式知识系统中开发了首个基于千万级节点的对话式推荐系统。通过嵌入知识的模型,人机对话、机机对话得以更加流畅。
机器翻译一直是自然语言处理领域的热点之一。“百度不仅提出了基于语义单元的顺句翻译,使机器翻译效果可以说媲美人类同传,还构建了目前最大的中英同传语料库进行开源。”吴华表示,为了促进同传的发展,百度组织了国际同传的Workshop和Tutorial,同时百度的同传技术也在国内国际上服务了如服贸会、全球人工智能博览会等重要国际会议,都收到了良好反馈。
在不断提升自身技术实力的同时,百度联合中国计算机学会、中文信息学会共同发布的“千言”数据共建计划也在持续进行着数据集与算力的共建共享。现场,吴华再次发起号召,希望更多开发者参与到千言数据共建计划,与学界、产业界共同推进技术进步。
在以《长沙大数据与人工智能产业发展战略与对策》为主题的圆桌访谈环节中,来自湖南大学的主持人李肯立与嘉宾们围绕“长沙应该怎样发展大数据和人工智能产业”等问题进行了深度交流。嘉宾长沙市科技局总工程师盛湘饶首先介绍了长沙技术实力人才储备强,但产业发展方面薄弱、缺少头部企业的情况。对此,悉尼大学教授陶大程表示,长沙有机会通过政府、企业、高校三方合作促进可信人工智能在未来产业的落地。吴华认为湖南不缺人才,问题是能否抓住机会推进重点扶持创新创业的相关机制,长沙立足于自身优点孵化高尖企业的机会是非常大的。
(图:《长沙大数据与人工智能产业发展战略与对策》圆桌访谈合照)
除此之外,在决赛与大会主论坛开幕的第二天,九场精心策划的线上专题技术和行业主题分论坛也相继举办。百度深度学习技术平台高级总监马艳军作为“人工智能分论坛”论坛主席,与中南大学计算机学院党委委员、副院长奎晓燕,中国开源软件群体协同研究中心主任尹刚,湖南湘江人工智能学院执行院长谢斌,湖南师范大学信息科学与工程学院人工智能系副教授江沸菠,天津飞腾信息技术有限公司飞腾大学执行校长任巨,以及北京东方国信科技股份有限公司深度学习算法总监李晶,在会上分享了关于人工智能下产业创新与人才培养的经验与成果。马艳军表示,人工智能时代需要复合型人才,复合型人才需要了解掌握人工智能技术,同时对业务、行业甚至是商业有很好的理解,这样的人才能真正把人工智能带到行业,带动整个国家实体经济的产业化升级。而飞桨也正持续为复合型人才的培养提供着全面支持。
(图:百度深度学习技术平台高级总监马艳军)
大会举办的同时,2020 CCF大数据与计算智能大赛(简称CCF BDCI)也完成了总决赛的激烈角逐。本届大赛吸引了全球3万多支队伍参赛,提交作品8万余件,参赛人数与竞赛成果质量再创新高。决赛共有64支队伍获得赛道一二三等奖和CCF BDCI四个特别奖项。百度作为本次比赛的唯一战略级合作伙伴,在算法赛道设置“千言:多技能对话”赛题,并在大赛首次设立的自主平台赛道首发“遥感影像地块分割”赛题,飞桨作为该赛题的指定深度学习平台为选手提供技术支持。该赛题的冠军——中国科学院大学“随缘分割”团队摘取大赛含金量极高的CCF BDCI综合特等奖。
作为国内首个开源开放、自主可控、功能完备的产业级深度学习平台,百度飞桨目前凝聚了超过265万开发者,创造了34万个模型,服务10万家企业;作为技术底座,飞桨通过百度智能云持续将AI能力输出到各行各业实际应用场景中,在城市、工业、电力、通信等领域发挥了重要价值。
同时,作为国内AI头雁企业,百度一直积极布局“人工智能+X”复合型人才培养生态,以百度飞桨为核心,围绕学习、就业、认证、实践、比赛等环节,将高校科研人才与企业应用人才培养紧密结合,综合素质与实践能力培养双管齐下,洞悉产业需求的人才培养标准、构建产教融合的人才培养体系。面向高校,百度飞桨通过AI Studio学习与实训社区提供教学资源、实训项目和算力等支持,并“以赛促学”,举办各类多项AI竞赛。百度深度学习师资培训班已累计培训了1800多名AI专业教师,支持200余所高校开设AI学分课提升教学师资水平。面向企业,百度推出AI快车道、AI私享会、黄埔学院等进阶式培训渠道,让前沿技术深入业务场景,为产业智能化赋能。截止目前,百度已经培养AI人才超过100万,未来5年百度还将培养500万AI技术与产业人才,为中国智能经济和智能社会的发展提供AI人才保障。
未来,百度将持续技术创新,并将技术优势通过开源开放平台与智能云赋能行业与个人,积极联动政府、企业、高校等多方将“产学研用”有机结合,加快让AI渗透到产业、社会以及生活中,提速智能经济发展。