经过一年时间追赶,国产大模型正在逐步实现对ChatGPT的领先和超越。
过去一年,中国已发布的大模型数量已达158个,10亿级参数以上大模型数量超80个,大模型数量与美国不相上下,成为全球人工智能的又一座高峰。
在底座能力上突发猛进的同时,市场也逐步达成共识:大模型本身并不产生价值,它的价值必须通过赋能千行百业来实现。
近日,国务院发展研究中心国研经济研究院就开展了一项大模型行业应用能力测评,来对比国产大模型与国际一流大模型的行业表现,并在此基础上提出我国大模型产业高水平发展的政策建议。
据了解,此次测评选取星火大模型3.0版、ChatGPT、GPT-4及国内其他大模型为测评对象进行对比,测评行业方面选择了知识密集型的生产性服务业(法律服务与工业设计)、个性化需求高的生活性服务业(医疗、教育与零售)以及部分制造业(汽车工程、计算机),并基于临床执业医师资格考试、中医执业医师资格考试、国家统一法律职业资格考试、机动车检测维修专业技术人员执业资格、全国计算机技术与软件专业技术资格等权威职业资格考试构建了测评题目,以评估大模型在行业知识、技能掌握水平、生产经营场景理解能力等维度的表现。
经过对比测评,科大讯飞最新发布的讯飞星火3.0综合能力已达国际一流水平,在所有7个测评行业中表现均大幅超越ChatGPT,并在部分行业优于GPT-4,国内领先。
(图:各行业综合准确率对比)
从具体的测评结果来看,星火大模型3.0版在医学、法律、教育、零售、汽车工程、计算机和工业设计的综合准确率分别达到69.3%、71.4%、82.2%、61.2%、78.4%、76.9%和66.4%,平均准确率达72.3%,在所有测评行业中表现均优于GPT3.5版,并且与GPT4.0各有优劣,且相对落后项的差距也均在10%以内。
国研经济研究院在报告中总结:“星火大模型3.0版的知识储备与语言理解能力已具备独立完成部分行业任务和辅助人类完成复杂任务的能力。”
在医疗、法律、教育等行业,星火大模型表现更是格外突出。报告称,星火3.0在医疗、法律领域的中文领域知识和语言理解能力已分别超越GPT4表现5.3%和4.1%,在教育领域基础能力的表现与GPT4的表现差距小于1%。
从应用能力上看,星火大模型的行业知识掌握水平较高,且已经初步具备处理行业内复杂问题的能力。星火大模型在各行业基础知识与领域知识问答中的表现突出,在所有测评行业中准确率均超过GPT3.5。
其中,医学临床诊断、法律案例判决和零售企业战略制定等考核领域属于较为复杂的题目,需要模型在具备行业知识的同时从给定场景中提取出关键信息,并作出判断。星火大模型在该类问题中的表现优异,正确率分别达到65.2%、63.0%、66.7%,均优于GPT3.5表现,在医学临床诊断、法律案例判决中的正确率与GPT4.0表现接近,仅在零售企业战略制定方面略弱于GPT4.0。
星火大模型在医疗场景下的领先并非一蹴而就。事实上,早在2017年讯飞智医助理就已经通过国家执业医师资格考试,排名超过96.3%的人类考生,并且已经向基层医院及等级医院的医生提供帮助。据了解,讯飞的医疗能力已经在全国400多个县区实现了规模化的成功应用,累计为医生提供了6.9亿次辅助诊断,并修正了100多万次基层医生的首次不合适诊断。
但因为医疗场景的特殊性,“需要非常严谨地对待”,星火医疗大模型一直未对外公开。直到近期打磨成熟,医疗整体超越GPT4才对外正式发布。据了解,科大讯飞的医疗大模型是首个通过信通院和国家卫健委制定的医疗健康大模型标准规范测评的大模型。
国研经济研究院指出,行业应用将是大模型未来发展的必由之路,而随着大模型底座技术的不断提升,探索赋能不同行业场景的落地方式将成为我国大模型企业快速发展的重要方向,而行业应用价值也将成为评判大模型的核心指标。
上海财经大学校长刘元春此前在接受媒体采访时指出,对于通用人工智能,大模型的长期价值将通过行业应用实现,而应用场景是关键。清华大学人工智能研究院视觉智能研究中心主任、教授邓志东同样表示,大模型的价值在于应用,而只有在多样化的实际应用场景中赋能智能经济与智能社会的发展,才能找到产业价值。
今年年中,高盛研究院在一份报告中指出,生成式AI具有巨大的经济潜力,预计在未来十年内广泛应用后,每年可提高全球劳动生产率超过1个百分点以上。通过使用生成式AI,企业可以提高生产效率、降低成本,甚至创造全新的商业模式。
然而,想要实现这一大规模的转型并不容易。对于大多数企业而言,面向垂直场景、垂直行业、垂直领域探索基于大模型的应用创新,都将是未来重点攻克的方向。
国研经济研究院总结道,参照移动互联网的发展路径,唯有出现成千上万个解决生产、生活真实需求的AI原生应用,大模型才能真正由“样板间”变为“商品房”,深入社会经济的各个角落,助力各行各业的产业升级,推动中国经济的快速复苏,深刻改变人们的生活方式。