审 计 处

人工智能发展背景下审计数据治理研究

发布者:网站管理员发布时间:2026-05-07浏览次数:18

作者:张宏生

来源:《审计观察》2025年11期

近年来,随着数据、算力、算法要素的快速迭代升级,人工智能(AI)相关技术和产业得到迅猛发展,以AI大模型、多模态、AIGC以及智能决策为代表的AI技术,推动了AI在军事、金融、农业、医疗、交通、零售等多领域的应用。AI 使得许多烦琐、重复性工作得以自动化完成,不仅减轻了工作强度,还提高了生产效率。国家审计作为国家治理的重要组成部分,受AI快速发展的影响,被赋予了更多的使命和责任。基于AI技术的审计系统、审计方法正 被引入审计项目实践,传统审计的组织模式、业务流和数据流将被重构。将AI引入审计领域,构建基于AI的审计数据治理体系,将有助于推进传统审计模式向数字化模式转型,进而推动审计事业高质高效发展。 

AI对审计数据治理的影响 

(一)促进审计人员由经验审计向数据审计转型 

在审计项目实施过程中,数据对审计业务的支撑越来越重要,正推动审计思维、内容和方法的变革,传统审计将逐步走向数据审计,而人工智能的快速发展将加速这一过程。从海量的数据中挖掘潜在的关联关系,并进行分类、筛选、分析,将结果反馈用以帮助其判断审计证据是否充分和适当,审计过程将变得更加智能。将历史数据与实时数据相结合,利用海量数据分析结果进行实时预警,辅助作出决策也将变得更加快捷。与此同时,云计算技术的普及也使得海量审计数据的存储和传输变得更加容易,审计数据流动和使用也变得更加便捷,有助于审计人员对被审计单位信息的掌握更加全面和丰富。另外,人工智能使审计人员可以从传统的审计工作模式中解放出来,将更多时间和精力投入数据分析工作。 

(二)推动审计数据从浅 层采集向深度治理转变 

借助人工智能技术对大量数据进行分析,审计人员可以实现问题快速发现、揭示和预防,并实时监控异常情况。传统的数据采集手段主要以人工采集为主,受成本因素限制,采集的数据无法做到深层次全覆盖。AI技术的应用,可以有效弥补人工手段的不足,使数据采集由局部、浅层向全面、深度扩展,实现从多个维度全面收集数据。再通过机器学习算法来处理数据,自动提取出业务活动和管理事项中的关键风险指标,从而实现对被审计单位内部控制执行情况的全面、有效识别与监控。同时,利用人工智能技术还可以从多个角度对被审计单位进行整体分析、全面评估,揭示被审计单位内部控制的薄弱环节和管理缺陷。在人工智能技术的作用下,审计人员借助审计模型和算法对海量数据进行处理和分析,能够提高审计效率和质量,使审计工作更加精准、高效、全面、可靠。

(三)为构建新型智能审计生态奠定基础 

新型智能审计是将现代信息技术,特别是云计算、人工智能等技术与审计业务相融合,借助高度发达的网络覆盖和接入,将审计人员、审计业务、审计数据等要素,进行跨时空互联,依托信息共享和智能服务,实现智能审计。人工智能在新型智能审计生态的打造过程中处于核心位置,能够通过多种感知和识别手段,实现审计业务动态可视;通过自然语言处理和语音识别等技术,实现与智能系统的交互对话;通过快速的计算和执行能力,实现审计业务流程和审计行为智能化。人工智能在多种场景的应用,以及商用价值的不断提高,加速了人工智能技术的快速迭代,而这种发展态势也加快了新型智能审计生态的形成。

AI审计数据治理模型的构建 

(一)AI技术的基座:向量—向量化—向量数据库 

向量在人工智能领域具有举足轻重的地位。在深度学习中,通常以向量的方式表现数据;在自然语言处理 (NLP) 中,它将词汇转化为多维向量,用来捕捉词之间的语义关系;在深度学习中,神经网络的权重和偏置以向量和矩阵形式进行存储,类似的应用还很多。就数据而言,经过向量化后的数据才能为AI模型所采用,而向量化技术已经非常成熟,并存在大量开源解决方案。数据的向量化过程需要高昂的计算成本,主要来自数据预处理、特征提取以及向量化转换过程,这些过程通常涉及矩阵乘法、特征转换和统计计算等大量复杂的数学运算,将耗费大量计算资源和时间,而处理大规模数据集和高维数据的花费更加突出。向量数据库可对向量数据进行集中管理,并支持相似性搜索和多模态数据处理,多用于人工智能和数据挖掘等领域,特别是AI大模型,如GPT、PaLM和LLaMA等的快速崛起,进一步推动了向量数据库的发展。

(二)AI驱动的审计数据治理 

随着审计对象数据异构问题和多元问题的演变和深化,审计全覆盖的推进,数据在审计实施过程中所占据的位置也越来越重要,建立和完善审计数据治理体系对推动审计高质量发展具有重要意义。2019年1月1日起实施的《信息技术服务—治理第5部分:数据治理规范》中明确,数据治理是对数据资源以及相关控制、绩效与风险管理的活动集合。为此,审计数据 治理也将涉及审计组织、文化、制度、流程、 技术、目标以及战略等多个方面内容,并且在常规的数据治理框架下,审计组织开展数据治理活动,重点关注数据标准、数据安全、元数据管理和数据生命周期等内容,但人工智能的快速发展也为这种常规数据治理活动提供了新的方向。面向人工 智能的数据治理是围绕人工智能应用对数据的要求,对传统数据治理体系进行优化。从各种定义来看,数据治理的本质在于通过一系列策略和流程提高数据质量、可访问性、安全性以及可操作性,最终实现组织战略目标。从数据治理延续性来看,基于人工智能的审计数据治理,依然会顺应数据治理规范,构建元数据管理、数据资产管理、数据生命周期管理等多个组件模块。但在数据治理过程中,将更强调底层多源数据融合、数据采集方式升级、数据标准优化以及面向AI的数据结构建立。 

(三)面向AI的审计数据治理模型 

面向AI的审计数据治理模型包括四个层次,分别是数据源、数据接入、AI支撑和数据治理,如图1所示。AI 在其中的作用主要表现为三个方面:一是AI与数据源的联动,通过AI算法分析不同数据源的内容、结构和语义,自动选取合适的数据集成和采集方式,实现对数据的抓取;二是AI与数据接入层的联动,AI技术通过对数据中的错误、不一致和缺失值进行识别和纠正,自动识别和清理数据异常,降低人工成本投入,为高质量数据的产出提速; 三是AI与数据治理的联动,AI通过对数据内容进行特征提取,实现标记(标签)和分类,为AI智能迭代升级提供数据支撑。 同时,这种标记和分类有助于数据的快速检索和分析。AI大模型的实现需要大量的样本数据进行训练,而样本数据都有特定的要求,所以,在AI治理过程中,需对数据进行向量处理以及对海量向量数据进行有效管理。这是实现AI不断迭代升级的关键,也是实现AI智能效能和多场景应用的保障。

图片

面向AI的审计数据治理实践 

以某市公共资源交易领域专项审计调查为例,审计组围绕数据治理、AI多场景应用等内容展开了深入研究,并取得了较好的应用效果。

(一)数据标记与治理 

数据标记,即通过分类、标注、元数据添加等手段,为原始数据赋予语义信息的过程,其本质是将无序、碎片化的数据转化为可理解、可检索、可关联的结构化资源。在AI驱动时代,高质量的数据标记更是机器学习、深度学习算法的“营养源”。数据治理的核心目标在于确保数据的准确性、安全性、合规性,并最大化其业务价值。数据标记与治理的深度融合,正在重塑数据管理的范式。此次审计调查涵盖了2483个建设工程标段和2548个政府采购项目,采集的数据量达到了6TB,其中包括大量PDF格式文档。通过利用Python、Kaggle和SQL等技术手段,审计组开展了大量的数据标记与治理工作,完成了数据从文本、数据库表到标准表的采集和转化,以及对重要实体对象的标记。 

(二)AI支撑系统本地化部署 

DeepSeek作为新一代高性能深度学习框架,具备较强的模型推理与训练能力,但默认配置下难以直接安全访问本地私有数据。为此,审计中引入MCP本地服务作为桥梁,通过协议封装、访问控制与加密传输机制,实现DeepSeek模型对本地数据的合规交互。DeepSeek负责模型的构建、训练与推理,通过API调用MCP服务获取数据输入。MCP本地服务提供数据访问代理功能,接收DeepSeek的请求后,根据预设权限从数据库或文件系统提取数据,经加密处理后再传输给模型。本地私有数据源,存储结构化或非结构化数据,仅通过MCP的认证通道暴露给模型。在本地搭建的基于DeepSeek和MCP本地服务的AI支撑平台,通过MCP服务,允许DeepSeek大模型安全访问本地私有数据。

(三)自然语言与数据库智能交互 

传统数据库查询依赖SQL等结构化语言,要求用户具备专业知识,导致非技术用户难以直接获取所需信息。DeepSeek依托其强大的大语言模型能力,通过深度融 合自然语言处理、知识图谱和数据库技术,实现无需编写复杂SQL语句即可高效查询和分析数据的突破,构建了自然语言与数据 库的无缝桥梁,让用户通过日常对话即可完成数据检索、分析和决策,极大降低数据使用的门槛。审计组通过输入自然语言需求,模型将解析需求并生成对应的SQL语句,并支持多表关联、条件过滤、分组聚合等复杂逻辑,可快速构建数据分析模型。此次审计调查运用AI技术,共形成数据分析模型20个,揭示了12类主要问题,涉及200多家企业,极大推动了公共资源交易规范化进程。

作者单位:内蒙古自治区鄂尔多斯市审计局



Copyright © 2020 华东理工大学审计处 All rights reserved.