12月31日,在第十九届中国图像图形学会青年科学家会议上,金山办公技术总监熊龙飞受邀发表主题演讲,分享了金山办公在办公领域大模型应用的技术路线与形态。
“2023年初大模型火了起来,金山办公内部经过观察与讨论之后,迅速确定了WPS要做‘大模型应用方’的定位。”熊飞龙表示,成立35年以来,金山办公一直坚持技术立业,对于文档底层技术,如排版技术、渲染技术,还有文档格式解析等形成了深入的理解和技术沉淀,构建了以WPS为代表的一系列办公产品生态。在大模型时代到来之际, 金山办公直接选择与国内优秀的大模型厂商合作,既能避免精力分散,又将发挥自己在办公领域应用上多年沉淀的优势,将用户体验做得更好。
35年技术沉淀“卷”起大模型应用落地
早在2017年,金山办公就已经组建了AI团队,并在CV和NLP两个方向进行人工智能技术的探索和落地。其中,金山办公通用图像文档识别与理解引擎系统——朱墨,已经在PDF识别、PDF转word,拍照扫描,文字图片提取文字,扫描件编辑等线上业务上得到应用。此外WPS也在文档翻译、智能辅助写作和PPT AI模版工厂等方面,早早开启了探索。
而在确定“大模型应用方“的定位之后,在23年4月份金山办公首次公布旗下具备大语言模型能力的人工智能应用WPS AI,23年11月WPS AI开启公测,该应用提供AIGC内容创作、Copilot智慧助理和Insight智慧洞察三大AI能力。
例如,在智能写作中,WPS AI不仅支持文生文的能力,可以根据用户需求直接生成文档内容,还可以生成带版式的文档。“AIGC文生文是大模型原生的能力,每家创业公司都可以做,门槛不是很高,WPS的竞争力就在于我们对于word文档的格式理解,包括版式,排版相关的技术积累更深。”熊飞龙表示。此外,在办公领域常用的PPT、表格等方面,WPS AI也可以在大模型的加持下,根据用户需求自动生成素材、PPT内容、演讲备注、表格数据公式等。
在PDF文件方面,金山办公也有自己的差异性优势,能够扫描识别用户受污染的、变形的文件。对于超长文档,WPS也可以利用文档识别与理解方面的技术优势,针对大篇幅的PDF先做文档的结构化分析,再把相应的内容进行摘取,然后再做后续的功能输出。
金山办公之所以能够快速将自己产品接入大模型,并形成独特优势,与长期的文档技术沉淀与探索是分不开的。熊飞龙举例,金山办公利用自己原有的文档识别与理解的技术,只需要再新增chat engine和向量化数据库两个新模块,就可以快速实现一个基于检索召回增强的文档问答系统,大大降低了整体开发工作量。同时,为了应对企业当中文档形式复杂化、文档数据海量化、提问方式差异化等复杂情况,金山办公还可以通过文档引擎去做文档解析理解,做到智能切段、切片,打破文件格式的差异化,做到文档数据的归一化,再通过意图识别、关键词识别等技术,帮助企业实现文档库问答的需求。
未来属于多模态,探索更高效交互方式
关于金山办公未来AI的规划与想法上,熊飞龙表示,金山办公坚信未来一定是属于多模态的。“办公场景下一般不是纯文本,不能通过文字对话的方式解决用户所有的需求,所以多模态技术在办公领域是更原生的解决方案。”
目前,金山办公已经在利用现有技术,叠加实现了类似多模态的能力。例如,移动端“随手拍”功能可以对着投影屏幕中报告的PPT、纸质合同、书籍等进行拍摄,拍完之后用户可以让AI去进行内容总结,也可以对它进行提问。这正是通过已有的技术与LLM的结合,从文档检测获取、文档矫正、识别解析、切片储存、文档问答等流程当中实现最终功能。
但熊飞龙也指出,目前多模态解决方案还处在初级阶段,不能解决密集文本和复杂排版问题。对此,金山办公的关键技术思路是利用多年积累的API做好文档数据的规范化管理,让数据更便于给大模型理解和使用,这种技术路线现在也更可控和可用。金山办公多年来积累的版式识别和文档理解技术依然具有强大的技术价值,尤其是版式识别技术的积累,可以让其在新的多模态文档大模型领域具备明显的底层竞争力。
“现阶段许多大模型应用在采用对话框输入和输出的交互方式,但是办公领域好的AI助手一定不是一问一答的,更自然、原生,轻量的交互才会让大家不厌恶工作。”熊飞龙表示,WPS AI正在进行积极主动探索,尽可能让AI知道用户想要干什么,然后用点击和选择的方式来代替输入。“未来金山办公也还会再挖掘更多、更高效的交互方式,把多模态和更聪明的文档Al用更自然的方法交付给用户。”