扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
来源: 2008年10月24日
关键字:统计
纳税评估是税务机关根据税收征管中获得的纳税人的各种相关信息资料,依据国家有关法律和政策法规,运用科学的技术手段和数据信息对比分析的方法,对纳税人和扣缴义务人纳税申报情况的真实性、准确性、合法性进行审核、分析、综合评定并做出定性和定量的判断的一项管理行为。在目前的税收征管体系中,纳税评估扮演着举足轻重的角色,一方面能及时发现和纠正纳税人在申报过程当中的某些错误,发挥纳税服务的作用,另一方面将纳税人申报过程中的疑点传递给税务稽查环节,是加强税收征管的重要工具。
自2005年3月,国家税务总局颁布《纳税评估管理办法(试行)》以来,各地税务机关都进行了许多有益的探索,在完善纳税评估指标和引入数学模型等方面做了大量的研究工作。但从实际的操作层面来看,各地的纳税评估工作多停留在简单的数据比对以及指标峰值评估的阶段,成熟的统计方法和数理模型并没有得到广泛的运用。基于这种情况,我们和某市地税局纳税评估处联合成立了纳税评估综合分析课题组,尝试将统计方法应用到纳税评估的工作实践,本文就是在课题研究过程当中的试点情况的一些介绍。
宾馆抽样数据准备
此次试点选定的行业是住宿业,重点评估的税种是营业税和企业所得税,评估的对象是某区地税局所管辖的45户宾馆饭店,评估的年度选定为2007年度。数据来源有三个方面:企业的财务报表,主要是资产负债表和损益表;地税局的征管资料,主要有企业的申报资料、入库信息以及稽查数据;企业情况调查表。企业情况调查表是课题组根据需要所设计的信息采集表,主要内容包括:经济性质、宾馆星级、管理人员数目、服务人员数目、客房的种类及各自的数目、营业收入分明细、营业成本分明细、营业费用分明细、管理费用分明细、财务费用。其中,营业收入分为客房收入、餐饮收入、其他收入,营业成本分为餐饮成本和其他成本,营业费用和管理费用分为工资、水费、电费、燃料费、低值易耗品、其他费用等。
资料收集的情况不是很理想,尤其是调查表中的缺失数据项比较多,主要原因是部分宾馆规模较小,甚至没有专业的财务人员,财务核算不规范,财务报表质量不高,对调查表的部分明细数据无法填列。因此,课题组认为有必要对缺失数据项进行修补,修补的原则是,寻找收入规模相当的企业,同时考虑经济性质和星级因素,求出这些企业所有收入(费用、成本)明细相对于总收入(费用、成本)的平均比例,然后代入有缺失项的企业,计算出相应的缺失值。
为了使统计方法更有说服力,我们在应用统计方法对评估对象进行某种分析之前,首先利用均值检验方法考虑企业的经济性质、星级、收入规模等因素是否有显著性影响,如果有,那么应该对企业按照这种标准分类后再进行进一步的处理。比如说,在对企业的营业收入和工资总额做回归分析之前,首先依次将企业按照经济性质、星级、收入规模分类,考察分类后工资总额占营业收入比重的均值是否有显著性的差异,然后找出显著影响该比重的因素,据此进行分类后再在每个类中进行回归。
各类适用的统计方法介绍
1、T检验用于分类
两个样本的均值检验一般采用t检验,由于样本方差相等与不等时所使用的计算t值的公式不同,SPSS在检验时同时给出方差是否相等的F检验的P值和两种情况下t检验的计算结果。下面给出收入规模是否影响工资总额占营业收入比重的分析过程。收入规模可以人为地将其划分为三个等级:小(0~200万元)、中(200~800万元)、大(800万元以上),由于一次检验只能比较两个样本,所以需要进行两两检验。
结果方面:N为各样本组的数量,两个样本分别是16、17户。S组的ratio均值为0.3188,M组的均值为0.1655。表2是对收入小规模(S)和中等规模(M)的工资总额占营业收入比重(ratio)的均值检验结果。方差齐次检验结果中,F=7.778,p=0.009,可以认为两组方差差异显著。t检验中,t=3.626,双尾t检验的p值为0.001,两组的均值差为0.1533,其95%的置信区间为(0.06582,0.24071),不包括0,因此可以认为两组的均值有显著差异,规模小企业的工资占收入比重明显高于规模中等的企业,需要对企业依照规模进行分组。
2、回归分析——奇异点可作为纳税异常判定标准
所谓回归分析,就是通过样本数据中某个因变量与某些自变量之间的数量关系来推断总体中这些变量的非确定性的因果关系。在纳税评估中,营业收入与各项明细成本费用的配比分析是重要内容,因此,一方面我们把营业收入作为因变量,把各个明细成本费用和总成本费用分别作为自变量,进行多次一元线性回归;另一方面我们以营业收入为因变量以成本费用项为自变量构造多元线性回归。
(1)、一元线性回归
通过一元线性回归,我们能够得出营业收入与某个明细成本费用项的线性函数关系,并且可以设定置信度,求出营业收入在该置信度下的置信区间,用以判断奇异点,找出可疑纳税人。值得一提的是,该方法有很强的指向性,当确定了疑点纳税人后,我们可以怀疑此纳税人要么是隐瞒了营业收入,要么是虚增了该项成本费用。
下面以营业收入与电费的回归分析为例详述分析过程。经过分类的步骤,我们发现营业收入规模大小显著影响电费与营业收入的比值,因此我们仅在此讨论营业收入规模小的16个样本的回归。
本次研究中,R=0.734,说明模型的拟合效果一般,DW统计量为2.085,说明残差项相互独立。方差分析显示,F=16.38,其p值为0.001,说明模型的总体有效。回归系数分析的常数项和系数项的t值分别为2.295、4.047,p值分别为0.038、0.001,拒绝常数项和系数项为0的假设。在奇异值方面,我们尤其关注标准化残差为负数的奇异点——因为我们更关注对于同等的电费消耗所实现的营业收入低于预测值的情况:如果同等电费消耗没有得到预测的营业值,则有隐瞒营业收入的可能。
(2)、多元线性回归
多元回归与一元回归在思路上是类似的。只是选取更多的自变量进入回归考量范围。如何选择某个明细成本费用项作为自变量,是多元线性回归中的一个重要问题。一方面要保证所选择的成本费用项与营业收入具有较高的相关性,另一方面要避免各成本费用项之间存在较大的多重共线性。在模型的构造过程中,我们选择逐步回归分析方法,其基本的机理是:首先选择F值最大并且大于某个阈值的候选变量进入模型,然后将模型中F值最小并且小于另一个阈值的变量剔除出模型,如此反复进行,直到没有变量引入和剔除为止。
考虑到样本的数量,我们以营业收入规模中等(M)以及规模大(L)的29个样本为例来说明回归过程。我们确定候选变量为职工人数、工资、电费、水费,设定引入变量的F值的p值为0.05,剔除变量的F值的p值为0.10。我们先后引入的变量是工资和电费,没有剔除的变量。回归系数分析中,常数项的t检验没有通过,但变量系数的t检验没有问题,方差膨胀因子(VIF)为6.866,也还在可以容忍的范围。当我们筛选奇异值样本时,同样更关注标准化残差为负数的奇异点——可以通过设置来找到这些可疑的样本。
3、判别分析
在纳税评估中,判别分析主要用于判别纳税人是否诚信纳税。训练样本数据来源于税务稽查部门历年来针对酒店住宿业的稽查数据,我们将纳税人分为两类,分别是诚信纳税人和非诚信纳税人——这些样本是已经被实际工作定性的,也就是说,在税务稽查中发现了问题的属于非诚信纳税人,没有发现问题属于诚信纳税人。训练样本数据共有21户稽查数据,其中9户属于非诚信纳税人,12户属于诚信纳税人。判定变量选取了四个,分别是利润率(LRV)、工资占营业收入比重(GZ)、电费占营业收入比重(DF)、水费占营业收入比重(SF)。待判别数据则为2007年度所有的45户纳税人。在使用SPSS进行分析的过程中,我们将非诚信纳税人的类别值定义为1,诚信纳税人的类别值定义为0,待判别企业的类别值空缺,并且假设两类纳税人的先验概率相等。这样,当我们得出两类纳税人的重要差异变量以后,就可以根据这样的差异来鉴别其他纳税人。
本次研究中,利润率(LRV)对判别值的影响最大,但它与判别值是反向相关,也就是说,利润率越高,越可能是诚信纳税人;其余判别变量的影响力依次是电费占营业收入比重(DF)、工资占营业收入比重(GZ)、水费占营业收入比重(SF)。然而这样的判别不能作为最终定性的准绳——对训练样本数据进行回判的结果有3例误判,回判准确率为85.71%,对2007年待判数据的判别结果是25户被判别为诚信纳税人,20户被判别为非诚信纳税人。
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。