2024年,数字经济进入新阶段,AI正走向前所未有的繁荣,数据作为关键生产要素的价值日益凸显,“AI+企业数据”的应用席卷全球,正在重塑企业发展模式,成为企业未来发展的核心竞争力。
6月25日,数巅科技2024智领未来线上峰会暨新品发布会隆重召开,数巅科技发布了端到端的企业大模型解决方案以及生成式智能分析AskBI。数巅科技首席数据科学家张国贤对数巅企业大模型的核心功能做了深度分享,以下是他的演讲实录。
大语言模型在过去的一两年迅猛发展,给市场上带来了各种各样的应用,相信大家一定都有所尝试,比如大家耳熟能详的ChatGPT,还有我们国内的Kimi等,不知道大家在使用中是否顺滑?
然而,大语言模型在企业落地还面临很多挑战:
- 缺乏对不同业务场景个性化需求的适应能力。
- 难以融合企业内部复杂的数据或知识。
- 无法满足特定业务的准确度需求,例如数据分析、财务报表等。
- 需要应对企业环境资源和政策法规等要求。
数巅科技将大语言模型和企业数据充分融合,让其双方相互促进。一方面,企业数据能够充分运用到大语言模型的训练和推理中;另一方面,大语言模型基于企业数据,能够为企业提供更加精准的决策参考。这就是数巅企业大模型的设计思路。
数巅企业大模型的核心能力
数巅企业大模型的核心能力包括:
- 极强的工具调用能力:解决业务精准决策及场景通用性需求。
- 融合企业数据,极高准确率:充分融合企业数据,能够根据业务理解进行任务拆解,实现超高准确率。
- 适合大模型的统一数据资产:国际领先的数据虚拟化引擎X-Engine能够统一治理并灵活扩充数据资产,为大模型提供实时信息增量。
- 实用易落地:性价比高且体验友好的企业级大模型能力让实用落地成为可能。
数巅企业大模型
与市场上主流的大语言模型相比,数巅企业大模型有一个很大的不同,就是它拥有一个数据底座:数据虚拟化引擎X-Engine。X-Engine的关键能力之一是把企业内部和外部的结构化和非结构化数据充分融合起来,输送到上面的数巅企业大模型里面去,来训练数巅企业大模型,让其充分运用企业数据。接下来我为大家详细介绍数巅企业大模型的每一项核心能力。
数巅企业大模型Agent:极强的工具调用能力
我们可以根据客户某个应用场景的需求,智能调用最合适的一系列工具。数巅企业大模型沉淀了非常多的工具,通过超强的工具调用能力,非常便捷地将Agent应用到各个场景中去。
- 封装与集成:基于对业务的深刻理解,沉淀出足够泛化的工具模版,通过自研封装技术,将各种工具集成到一个统一的平台中。不仅简化了工具的使用过程,还提高了工具的可访问性和易用性。
- 智能识别与选择:基于对话数据与人工反馈数据,使用Tool Learning及企业内部知识微调大模型,着重打造超强的调用工具的能力。
- 自适应学习能力:数巅企业大模型Agent具备自适应学习能力,能够根据用户的行为和反馈不断优化其工具选择策略。
通过基于业务的任务拆解提升大模型准确度
之前提到,大语言模型在企业落地面临一个非常大的挑战,就是企业的很多需求对准确度要求非常高,市场上常见的通用大语言模型很难满足这一点。数巅企业大模型主要通过以下两点来应对:
- 通过对业务拆解,利用规范化模版实现数据资产的统一沉淀。
- 利用数万沉淀行业样本结合数据资产对模型进行微调和增强,实现精准提参。
举个例子,当用户提出一个问题:哪三个项目负责人的利润最高?
这时,Agent首先要调用意图识别模块去识别用户的意图,分析出用户是要做一个数据分析类的工作。然后Agent再去调用已经微调并增强的数巅企业大模型进行精确提参,可以提到问题相关的对应参数,包括我刚刚提到的dimension、metric、groupby、orderby、limit等。有了这些参数后,Agent就会去调用咱们的资产到SQL的这样一个模块,去实现我们的资产到SQL100%准确的转换。最后,我们会调用可视化工具去查数,并把这个结果显示出来。
首创基于数据虚拟化的检索增强(RAG)技术,助力大模型持续学习和迭代
RAG在各种大模型,尤其是智能问答、外挂知识库等应用上经常会被用到,数巅科技的RAG不同之处在于:
- 通过虚拟化引擎对结构化和非结构化数据进行召回融合。
- 设计针对全域数据的prompt模版,结合融合数据实现大模型准确推理。
- 数据虚拟化引擎X-Engine根据大模型输出更新融合知识,持续迭代。
数据虚拟化引擎X-Engine重要的功能之一就是将企业内部和外部各种各样的数据融合在一起。
企业内部有很多结构化的数据,比如历史沉淀的一些表格、文档;还有一些非结构化的数据,包括视频、图片、PPT、PDF文档等。数巅企业大模型在训练过程中本身也沉淀了一些prompt模板和样例。数据虚拟化引擎X-Engine可以根据用户的需求去自动融合企业内部的结构化数据和非结构化数据,并把这些增强的融合信息提供给数巅企业大模型;然后数巅企业大模型会根据我们的输入产生结果。
如果有需要的话会再反馈给数据虚拟化引擎X-Engine,X-Engine会根据反馈的结果去进一步寻找用户所需要的知识,把它融合并再次输入到数巅企业大模型的input里面,实现这样一个有效的迭代,直到数巅企业大模型能够输出一个准确的结果为止。
实用性企业级大模型能力
- 通过百亿模型微调增强超过千亿大模型准确率。大家都知道千亿的大模型效果还是不错的,但企业可能没有足够的资源去购买、去部署或者是在高并发的条件下去使用。数巅科技可以把百亿级别的大模型通过微调和增强,让它的准确度超过千亿级的大模型,让更多的企业能够去使用这样的大模型,并且满足他们所需的精度要求。
- 全数据链路自动化、大模型微调及评估工具化让大模型规模化落地成为可能。部署在toB企业中的大模型不是一成不变的,随着企业在使用过程中数据的变化和使用方法的变化,它需要不断迭代。为此,数巅科技构建了一整套自动化链路,当数巅企业大模型部署到企业中,我们会根据用户的使用和反馈,不断地通过我们的评估工具去评估它的效果,从而生成一些新样本,去进行大模型的微调,以实现数巅企业大模型的自动演化。
- 无缝集成及高效处理企业级大批量数据。数据虚拟化引擎X-Engine可以融合企业内部和外部的一些数据,通过这样的无缝衔接,也使让用户更加得心应手。
AskBI:基于自然语言交互的智能数据查询及分析平台
基于数巅企业大模型,我们构建了许多智能应用,其中之一就是AskBI,它是一个基于自然语言交互的智能数据查询分析平台,可以快速生成数据分析、图文报表,数据分析准确率达95%以上。
想让用户使用某款数据分析平台,就要确保其达到非常高的准确度,一般是90%以上;并且当结果出错的时候,用户能够看得出来。数巅企业大模型通过我刚刚介绍的一系列的能力提升,准确度可以达到95%以上。它是如何实现的呢?
从上图可以看到,AskBI的整个工作流程分为四部分:智能语言交互、业务指标体系、SQL准确生成以及数据报表和归因洞察。通过这样的拆分,Agent就可以通过一系列的工具来实现每一部分的超高精度的工作。
数巅企业大模型可以针对不同的场景进行训练。
例如在金融场景,我们基于金融行业大量的数据样本进行训练。我们的模型是可以追溯的,用户可以非常容易地了解到它为什么产生这样一个结果。当用户觉得产生的结果与预期不一致的时候,可以进行一些干预,从而得到一个更准确的结果。这种干预也会用于后续的对模型的提升中,让模型越用越丝滑。
当我们通过这样一个提参过程提出指标后,可以把指标100%准确地生成SQL。
与业界其他的指标平台不同,我们的指标平台是基于数据虚拟化技术的,我们在上面基于业务逻辑会构建很多指标等资产。因为这些指标和资产是基于业务逻辑的,所以可以非常容易适配到用户的各个应用场景中,而无需再去定制化资产的各种逻辑,这就较容易实现AskBI的规模化应用。
当SQL生成后,我们需要满足用户具体的应用需求。
比如说有些用户需要查数、看报表,有些需要看洞察。这就需要调用一些工具,包括数据报表的BI工具、洞察工具和归因工具。数巅企业大模型经过多轮沉淀和锤炼,能够非常灵活地帮助用户去生成这些报表和洞察。
值得注意的一点是,当数据量非常大的时候,查数会非常非常慢。这就需要数据虚拟化引擎X-Engine的另外一个能力。X-Engine上层是一个虚拟化的资产,下面可能有一些虚拟的数据建模,例如虚拟表。我们会根据用户具体的使用情况,比如之前使用的一些SQL,或者以前调用工具库做的一些事情,去自动进行物化加速。在这种情况下,我们可以用非常少的资源,让数巅企业大模型迅速在非常大的范围去进行数据分析,实现非常高的效能。
AskBI助力某股份制银行数字化转型
为大家分享一个案例:数巅科技通过AskBI帮助一家股份制银行实现了数字化转型和降本增效。
如上图,上面这一行是一个传统的数据分析流程。当运营有一个数据需求,首先他需要自己梳理需求,之后与数据产品对接需求,之后还可能引入比如数据工程或者数据分析的员工去帮助他产生数、分析数,最后再把它交付出来。这个流程往往会以周计算,至少是一周以上。如果反馈的结果跟运营提出的需求不一致,或者运营又提出了一些新的想法,那又要重复这个流程。
这整个过程是非常低效、冗长的,不幸的是当前很多企业,包括我以前任职的一些企业,普遍还在采用这个方法。
现在AskBI可以让这个难题迎刃而解。用户可以直接通过自然语言与AskBI进行交互来提出需求,然后Agent会理解他的需求,进行任务的规划,调用工具库的一些工具去完成数据分析工作。当运营拿到反馈后,他可以根据自己的一些发现去进一步追问,这样往复,分钟级别就可以解决这个问题。AskBI让整个流程变得非常流畅、高效。
通过使用AskBI,这家股份制银行的收益是:
- 增效:提升数据分析质量及效率,统一3万余个指标口径。满足数据需求所耗时间从1至2周缩短至1分钟,自动化分析准确率达95%。
- 增收:人效提升95%,每年节省3000万人力成本。业务自助分析提升营销迭代效率,每年助力业务增收数亿。