文|James Bowers
编辑|Meister Xia
导读
随着人工智能技术的快速发展,已经在各个行业中产生深刻影响。其中,财税是一个受到广泛关注的领域。人工智能能够帮助税务机关提高反欺诈能力,打击欺诈行为。法国的公共财政总局近年来使用人工智能工具取得了诸多成果。那么,人工智能是如何检测欺诈的?准确度如何?
一览:
- 偷税漏税在税收缺口中占很大的比例,为经合组织国家所欠税款的4%至15%不等。
- 法国正在积极使用人工智能工具,加大税务欺诈打击力度。
- 法国跨部委人力资源信息技术服务中心(CISIRH)开发了一个操作框架,供世界各地的科研人员开发各自的反欺诈算法,并进行比对。
- 打击税务欺诈,不能把工作全盘交给简单的检测算法。算法是用来配合人类税务审计员的团队检测工作的。
在当前多国政府赤字居高不下的背景下,侦查税务欺诈成为了当务之急。偷税漏税在税收缺口中占很大的比例,为经合组织国家所欠税款的4%至15%不等。在法国,仅增值税偷税漏税的金额就高达200-250亿欧元左右[1]。为此,法国审计法院发布了多份研究报告,强调加强打击欺诈行为的重要性[2]。在法国,公共财政总局(DGFiP)负责监察税务欺诈,该机构近年来积极使用多种人工智能工具,取得了喜人的效果。
法国跨部委人力资源信息技术服务中心数字应用办公室主任Christophe Gaie与巴黎中央理工-高等电力学院的学生成立了一个研究项目组,旨在建立一款全新的,含有先进理论、算法、计算机代码、模拟数据的操作框架,供打击税务欺诈的部门使用[3]。
Christophe Gaie,法国跨部委人力资源信息技术服务中心数字应用办公室主任
01、这项研究的目的是什么?
我们先前的理论研究明确了研究领域,确定了各种概念的定义和值得研究的问题,并制定了未来方向[4]。当前的操作框架开发项目是理论研究的延续,该操作框架供世界各地的科研人员开发各自的反欺诈算法,并进行比对。
由于合理避税不是违法行为,因此我们重点关注检测税务违法行为的算法,特别是检测自然人的,因为法人实体有其他渠道制裁。
02、你们项目的数据库来自哪里?
公民的税务档案包含大量个人信息:家庭状况、收入、资产等,但无论是在实验室分析中还是实际案例研究中,常常难以获取全部数据。因此,我们根据预先选定的若干个维度,创建了一组虚构数据。维度包括:社会职业类别、收入、支出、财产金额。当然,在条件成熟后,我们会加载真实数据,代替虚构数据。
出于对个人数据隐私的保护,法国公共财政总局(DGFiP)不能将真实数据提供给学者用于开发税务欺诈检测工具。这意味着每个学者都得独立建立自己的数据库,十分耗时,而且要花费精力学习收入、资产等税务概念。由于每人的数据库不一样,开发出来的算法便缺乏可比性。一般而言,数字技术开发是需要统一的参考数据库的(如电信信号数据库、图像数据库等)。
03、人工智能是如何检测欺诈的?
人工智能算法采用“税务文件模型”,根据可配置的标准检查文件内容。从税务欺诈案例中总结出主要规律后,我们定义了三大类最有可能实施偷税漏税的群体:
- 消费、资产明显高于个人收入水平的群体,
- 消费、资产明显低于个人收入水平的群体,
- 财富拥有量明显超出其社会背景、职业背景水平的群体。
参考数据集[5]是利用INSEE公布的参考数据编制的,包含了多种社会职业群体、收入水平和财富水平,以及每个社会职业类别的支出水平。每个社会职业类别的人数比例参照了现实中的比例。其他参数我们使用了Singh-Maddala分布来模拟[6]。
“打击税务欺诈,不能把工作全盘交给简单的检测算法。算法是用来配合人类税务审计员的团队检测工作的。”
我们自己也成功地开发出了多种税务欺诈检测算法:有的基于多采样神经网络,有的则基于随机森林(由多个决策树组成的机器学习算法,可解决回归和分类问题)。
04、这些算法在真实案例中使用过吗?
暂未,但是我们可以将开发成果与政府部门共享,特别是法国公共财政总局的控制编程和数据分析办公室(SJCF-1D)。该办公室还接受了我们项目组的一名学生作为实习生。与政府密切合作的每一个机会,我们都会把握珍惜。
05、算法的准确度如何?
值得注意的是,算法的检测准确率(即检测出欺诈案的实际正确率)和灵敏度(即检测出的欺诈者占总群体的比率)之间,存在取舍关系。因此,算法的好坏以准确率和灵敏度之间的折衷的度量来表示,专业术语是AUPRC,即“精确度—回归曲线下的面积”。
对于灵敏度优化的随机森林,我们开发的算法实现了高达0.851的AUPRC。这是一个非常好的结果,说明使用人工智能检测潜在欺诈具有良好的前景。
06、AI能全自主检测税务欺诈吗?
不能。打击税务欺诈,不能把工作全盘交给简单的检测算法。算法是用来配合人类税务审计员的团队检测工作的。税务欺诈监管不仅是个技术问题,必须由税务审计员最终确认,在法官的监督下,依法审查定夺,从而在程序上尊重纳税人权利。
分配给税务审计员的案件,应与其业务水平、工作量、熟悉的专业领域和税法领域相符合。我们开发的算法能向审计团队的负责人建议案件分配方式,然后由他们做出最终的决定。负责人也可以根据主观标准酌情采纳算法的建议。
欺诈检测应用程序还必须集成到相关部门的行政数字系统中。因此,除了常规的研究之外,我们还要考虑开发出来的应用程序如何与其他应用互联互通,以及程序的可维护性高低。当然,也需要留出接口,以便未来集成更新、更强大的算法。
参考资料
1. https://www.insee.fr/fr/statistiques/6478533
2. https://www.ccomptes.fr/system/files/2019–11/20191202-synthese-fraude-aux-prelevements-obligatoires.pdf
3. Prolhac,J.,Gaie,C.“Providing an open framework to facilitate tax frauddetection”, International Journal of Computer Applications in Technology, In Publish, 2023, https://doi.org/10.1504/IJCAT.2023.10055494
4. Gaie,C.(2023).Struggling Against Tax Fraud, a Holistic Approach Using Artificial Intelligence. In:Gaie,C.,Mehta,M.(eds) Recent Advancesin Dataand Algorithms fore Government. Artificial Intelligence-Enhanced Soft ware and Systems Engineering, vol5. Springer, Cham. https://doi.org/10.1007/978–3031–22408-9_4
5. https://gitlab.com/jean.prolhac/detection-de-fraude/
6. Singh,A.,Narina,T.andAakanksha,S.(2016) “Areview of supervised machinelearning algorithms”, Proceedings of the 3rd International Conferenceon Computing for Sustainable Global Development (INDIACom), pp.1310–1315. https: //ieeexplore. ieee. org/ abstract/ document/7724478
评论