人工智能发展背景下审计数据治理研究

发布者：网站管理员发布时间：2026-05-07浏览次数：18

作者：张宏生

来源：《审计观察》2025年11期

近年来，随着数据、算力、算法要素的快速迭代升级，人工智能（AI）相关技术和产业得到迅猛发展，以AI大模型、多模态、AIGC以及智能决策为代表的AI技术，推动了AI在军事、金融、农业、医疗、交通、零售等多领域的应用。AI 使得许多烦琐、重复性工作得以自动化完成，不仅减轻了工作强度，还提高了生产效率。国家审计作为国家治理的重要组成部分，受AI快速发展的影响，被赋予了更多的使命和责任。基于AI技术的审计系统、审计方法正被引入审计项目实践，传统审计的组织模式、业务流和数据流将被重构。将AI引入审计领域，构建基于AI的审计数据治理体系，将有助于推进传统审计模式向数字化模式转型，进而推动审计事业高质高效发展。

AI对审计数据治理的影响

（一）促进审计人员由经验审计向数据审计转型

在审计项目实施过程中，数据对审计业务的支撑越来越重要，正推动审计思维、内容和方法的变革，传统审计将逐步走向数据审计，而人工智能的快速发展将加速这一过程。从海量的数据中挖掘潜在的关联关系，并进行分类、筛选、分析，将结果反馈用以帮助其判断审计证据是否充分和适当，审计过程将变得更加智能。将历史数据与实时数据相结合，利用海量数据分析结果进行实时预警，辅助作出决策也将变得更加快捷。与此同时，云计算技术的普及也使得海量审计数据的存储和传输变得更加容易，审计数据流动和使用也变得更加便捷，有助于审计人员对被审计单位信息的掌握更加全面和丰富。另外，人工智能使审计人员可以从传统的审计工作模式中解放出来，将更多时间和精力投入数据分析工作。

（二）推动审计数据从浅层采集向深度治理转变

借助人工智能技术对大量数据进行分析，审计人员可以实现问题快速发现、揭示和预防，并实时监控异常情况。传统的数据采集手段主要以人工采集为主，受成本因素限制，采集的数据无法做到深层次全覆盖。AI技术的应用，可以有效弥补人工手段的不足，使数据采集由局部、浅层向全面、深度扩展，实现从多个维度全面收集数据。再通过机器学习算法来处理数据，自动提取出业务活动和管理事项中的关键风险指标，从而实现对被审计单位内部控制执行情况的全面、有效识别与监控。同时，利用人工智能技术还可以从多个角度对被审计单位进行整体分析、全面评估，揭示被审计单位内部控制的薄弱环节和管理缺陷。在人工智能技术的作用下，审计人员借助审计模型和算法对海量数据进行处理和分析，能够提高审计效率和质量，使审计工作更加精准、高效、全面、可靠。

（三）为构建新型智能审计生态奠定基础

新型智能审计是将现代信息技术，特别是云计算、人工智能等技术与审计业务相融合，借助高度发达的网络覆盖和接入，将审计人员、审计业务、审计数据等要素，进行跨时空互联，依托信息共享和智能服务，实现智能审计。人工智能在新型智能审计生态的打造过程中处于核心位置，能够通过多种感知和识别手段，实现审计业务动态可视；通过自然语言处理和语音识别等技术，实现与智能系统的交互对话；通过快速的计算和执行能力，实现审计业务流程和审计行为智能化。人工智能在多种场景的应用，以及商用价值的不断提高，加速了人工智能技术的快速迭代，而这种发展态势也加快了新型智能审计生态的形成。

AI审计数据治理模型的构建

（一）AI技术的基座：向量—向量化—向量数据库

向量在人工智能领域具有举足轻重的地位。在深度学习中，通常以向量的方式表现数据；在自然语言处理 (NLP) 中，它将词汇转化为多维向量，用来捕捉词之间的语义关系；在深度学习中，神经网络的权重和偏置以向量和矩阵形式进行存储，类似的应用还很多。就数据而言，经过向量化后的数据才能为AI模型所采用，而向量化技术已经非常成熟，并存在大量开源解决方案。数据的向量化过程需要高昂的计算成本，主要来自数据预处理、特征提取以及向量化转换过程，这些过程通常涉及矩阵乘法、特征转换和统计计算等大量复杂的数学运算，将耗费大量计算资源和时间，而处理大规模数据集和高维数据的花费更加突出。向量数据库可对向量数据进行集中管理，并支持相似性搜索和多模态数据处理，多用于人工智能和数据挖掘等领域，特别是AI大模型，如GPT、PaLM和LLaMA等的快速崛起，进一步推动了向量数据库的发展。

（二）AI驱动的审计数据治理

随着审计对象数据异构问题和多元问题的演变和深化，审计全覆盖的推进，数据在审计实施过程中所占据的位置也越来越重要，建立和完善审计数据治理体系对推动审计高质量发展具有重要意义。2019年1月1日起实施的《信息技术服务—治理第5部分：数据治理规范》中明确，数据治理是对数据资源以及相关控制、绩效与风险管理的活动集合。为此，审计数据治理也将涉及审计组织、文化、制度、流程、技术、目标以及战略等多个方面内容，并且在常规的数据治理框架下，审计组织开展数据治理活动，重点关注数据标准、数据安全、元数据管理和数据生命周期等内容，但人工智能的快速发展也为这种常规数据治理活动提供了新的方向。面向人工智能的数据治理是围绕人工智能应用对数据的要求，对传统数据治理体系进行优化。从各种定义来看，数据治理的本质在于通过一系列策略和流程提高数据质量、可访问性、安全性以及可操作性，最终实现组织战略目标。从数据治理延续性来看，基于人工智能的审计数据治理，依然会顺应数据治理规范，构建元数据管理、数据资产管理、数据生命周期管理等多个组件模块。但在数据治理过程中，将更强调底层多源数据融合、数据采集方式升级、数据标准优化以及面向AI的数据结构建立。

（三）面向AI的审计数据治理模型

面向AI的审计数据治理模型包括四个层次，分别是数据源、数据接入、AI支撑和数据治理，如图1所示。AI 在其中的作用主要表现为三个方面：一是AI与数据源的联动，通过AI算法分析不同数据源的内容、结构和语义，自动选取合适的数据集成和采集方式，实现对数据的抓取；二是AI与数据接入层的联动，AI技术通过对数据中的错误、不一致和缺失值进行识别和纠正，自动识别和清理数据异常，降低人工成本投入，为高质量数据的产出提速；三是AI与数据治理的联动，AI通过对数据内容进行特征提取，实现标记（标签）和分类，为AI智能迭代升级提供数据支撑。同时，这种标记和分类有助于数据的快速检索和分析。AI大模型的实现需要大量的样本数据进行训练，而样本数据都有特定的要求，所以，在AI治理过程中，需对数据进行向量处理以及对海量向量数据进行有效管理。这是实现AI不断迭代升级的关键，也是实现AI智能效能和多场景应用的保障。

面向AI的审计数据治理实践

以某市公共资源交易领域专项审计调查为例，审计组围绕数据治理、AI多场景应用等内容展开了深入研究，并取得了较好的应用效果。

（一）数据标记与治理

数据标记，即通过分类、标注、元数据添加等手段，为原始数据赋予语义信息的过程，其本质是将无序、碎片化的数据转化为可理解、可检索、可关联的结构化资源。在AI驱动时代，高质量的数据标记更是机器学习、深度学习算法的“营养源”。数据治理的核心目标在于确保数据的准确性、安全性、合规性，并最大化其业务价值。数据标记与治理的深度融合，正在重塑数据管理的范式。此次审计调查涵盖了2483个建设工程标段和2548个政府采购项目，采集的数据量达到了6TB，其中包括大量PDF格式文档。通过利用Python、Kaggle和SQL等技术手段，审计组开展了大量的数据标记与治理工作，完成了数据从文本、数据库表到标准表的采集和转化，以及对重要实体对象的标记。

（二）AI支撑系统本地化部署

DeepSeek作为新一代高性能深度学习框架，具备较强的模型推理与训练能力，但默认配置下难以直接安全访问本地私有数据。为此，审计中引入MCP本地服务作为桥梁，通过协议封装、访问控制与加密传输机制，实现DeepSeek模型对本地数据的合规交互。DeepSeek负责模型的构建、训练与推理，通过API调用MCP服务获取数据输入。MCP本地服务提供数据访问代理功能，接收DeepSeek的请求后，根据预设权限从数据库或文件系统提取数据，经加密处理后再传输给模型。本地私有数据源，存储结构化或非结构化数据，仅通过MCP的认证通道暴露给模型。在本地搭建的基于DeepSeek和MCP本地服务的AI支撑平台，通过MCP服务，允许DeepSeek大模型安全访问本地私有数据。

（三）自然语言与数据库智能交互

传统数据库查询依赖SQL等结构化语言，要求用户具备专业知识，导致非技术用户难以直接获取所需信息。DeepSeek依托其强大的大语言模型能力，通过深度融合自然语言处理、知识图谱和数据库技术，实现无需编写复杂SQL语句即可高效查询和分析数据的突破，构建了自然语言与数据库的无缝桥梁，让用户通过日常对话即可完成数据检索、分析和决策，极大降低数据使用的门槛。审计组通过输入自然语言需求，模型将解析需求并生成对应的SQL语句，并支持多表关联、条件过滤、分组聚合等复杂逻辑，可快速构建数据分析模型。此次审计调查运用AI技术，共形成数据分析模型20个，揭示了12类主要问题，涉及200多家企业，极大推动了公共资源交易规范化进程。

作者单位：内蒙古自治区鄂尔多斯市审计局