金山办公亮相2023中国图象图形大会破解“扫描件PDF”编辑难题

5月11日至14日，中国图象图形大会（CCIG 2023）在苏州召开，大会以“图象图形·向未来”为主题，邀请了众多国内外院士、专家进行高水平学术、技术报告，共同探讨图像图形相关行业的发展趋势、创新研究成果、关键技术探索，为行业提供前瞻性视角。金山办公技术总监熊龙飞出席大会“图象图形赋能产业论坛”，分享了金山办公在文档识别与技术领域的最新成果。

金山办公技术总监熊龙飞在大会上进行主题分享

熊龙飞表示，目前用户的PDF编辑需求中大约有35%是扫描件，如何让编辑“扫描件PDF”更方便，是许多公司正在攻克的难题。作为其中的参与方之一，金山办公内部研发的通用图像文档识别与理解引擎系统——朱墨，已能够解析弯曲变形、要素丰富、排版复杂、污染等挑战下的图像文档，并可将版式和内容信息解析成结构化的文档数据，供给下游PDF编辑模块使用。据悉，朱墨系统目前已上线WPS内的PDF编辑功能，可让用户在编辑“扫描件PDF”时获得几乎与编辑Word文档一样的体验。

“‘扫描件PDF’本质上是纯图片，其中的排版信息、字体信息均已丢失，因此想要编辑‘扫描件PDF’会面临两类挑战。”熊龙飞介绍，一类是由于PDF版式复杂，对象丰富，或文档污染、变形、朝向错误等导致的整体版式挑战；另一类则是保持字体、字号、字色及文字风格统一，段落关系清晰，删除文字后背景自然等在内的细节保持挑战。

熊龙飞还指出，朱墨系统在文档识别过程中，会经过前处理、版面分析、OCR识别、文字属性识别、表格还原等多个环节，首先把不标准的、变形的样张进行校正，把污染痕迹及摩尔纹等进行去除；然后再通过版面分析，识别扫描件中的文字、图像、段落等；之后再对文字部分进行OCR识别以及识别文字的字体、字号、字色等，最后还会对表格等其他对象进行结构化识别。在经过文档识别后，朱墨系统还会通过大模型进行信息及信息关系抽取，理解文字之间的关联，最终将一份扫描文件转化为结构化的文档数据。

CCIG 2023展会现场

相关功能背后涉及的众多算法模型，是金山办公在文档识别与技术领域的长期积累。以文字与背景分离为例，金山办公技术团队经过多次实践，最终采用了图像分割的算法，该算法相较于常规二值化算法，能够更好地在背景色复杂、分辨率较低、彩色文字等场景中准确拆分扫描件PDF的文字与背景。

此外，在文字颜色识别中，金山办公技术团队会先通过颜色增强，再通过图像识别，更加精准识别扫描PDF中的字体颜色。为了更加方便PDF的后续编辑，金山办公技术团队还通过OCR的CTC定位结果与单字检测模型结果进行结合，得到精确定位的单字位置框，使用户在增加或删除文字时，文字与原始图像位置仍能一一对应。

而在文档识别过程中，一旦发现PDF已经被严重污染，系统便会重新生成一个新的PDF，以保证文件的编辑性及美观性，而如果需要重新生成PDF文件，便会涉及到字体模仿、转化、生成等技术路线。

熊龙飞表示，金山办公始终秉持“技术立业”，不断推动相关技术的应用落地，致力为用户带来更良好的办公体验。在文档识别与技术领域，目前金山办公已解决扫描件PDF编辑难题，面向未来，金山办公还将不断深入文档识别与技术研发，帮助更多用户实现对海报，截图，甚至网图等在内的任意图片的内容编辑。

金山办公亮相2023中国图象图形大会 破解“扫描件PDF”编辑难题

金山办公亮相2023中国图象图形大会破解“扫描件PDF”编辑难题