扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
作者:中国人民大学金融与财税电子化研究所 周四新 2008年10月24日
关键字:
在本页阅读全文(共2页)
为了使统计方法更有说服力,我们在应用统计方法对评估对象进行某种分析之前,首先利用均值检验方法考虑企业的经济性质、星级、收入规模等因素是否有显著性影响,如果有,那么应该对企业按照这种标准分类后再进行进一步的处理。比如说,在对企业的营业收入和工资总额做回归分析之前,首先依次将企业按照经济性质、星级、收入规模分类,考察分类后工资总额占营业收入比重的均值是否有显著性的差异,然后找出显著影响该比重的因素,据此进行分类后再在每个类中进行回归。
各类适用的统计方法介绍
1、T检验用于分类
两个样本的均值检验一般采用t检验,由于样本方差相等与不等时所使用的计算t值的公式不同,SPSS在检验时同时给出方差是否相等的F检验的P值和两种情况下t检验的计算结果。下面给出收入规模是否影响工资总额占营业收入比重的分析过程。收入规模可以人为地将其划分为三个等级:小(0~200万元)、中(200~800万元)、大(800万元以上),由于一次检验只能比较两个样本,所以需要进行两两检验。
结果方面:N为各样本组的数量,两个样本分别是16、17户。S组的ratio均值为0.3188,M组的均值为0.1655。表2是对收入小规模(S)和中等规模(M)的工资总额占营业收入比重(ratio)的均值检验结果。方差齐次检验结果中,F=7.778,p=0.009,可以认为两组方差差异显著。t检验中,t=3.626,双尾t检验的p值为0.001,两组的均值差为0.1533,其95%的置信区间为(0.06582,0.24071),不包括0,因此可以认为两组的均值有显著差异,规模小企业的工资占收入比重明显高于规模中等的企业,需要对企业依照规模进行分组。
2、回归分析——奇异点可作为纳税异常判定标准
所谓回归分析,就是通过样本数据中某个因变量与某些自变量之间的数量关系来推断总体中这些变量的非确定性的因果关系。在纳税评估中,营业收入与各项明细成本费用的配比分析是重要内容,因此,一方面我们把营业收入作为因变量,把各个明细成本费用和总成本费用分别作为自变量,进行多次一元线性回归;另一方面我们以营业收入为因变量以成本费用项为自变量构造多元线性回归。
(1)、一元线性回归
通过一元线性回归,我们能够得出营业收入与某个明细成本费用项的线性函数关系,并且可以设定置信度,求出营业收入在该置信度下的置信区间,用以判断奇异点,找出可疑纳税人。值得一提的是,该方法有很强的指向性,当确定了疑点纳税人后,我们可以怀疑此纳税人要么是隐瞒了营业收入,要么是虚增了该项成本费用。
下面以营业收入与电费的回归分析为例详述分析过程。经过分类的步骤,我们发现营业收入规模大小显著影响电费与营业收入的比值,因此我们仅在此讨论营业收入规模小的16个样本的回归。
本次研究中,R=0.734,说明模型的拟合效果一般,DW统计量为2.085,说明残差项相互独立。方差分析显示,F=16.38,其p值为0.001,说明模型的总体有效。回归系数分析的常数项和系数项的t值分别为2.295、4.047,p值分别为0.038、0.001,拒绝常数项和系数项为0的假设。在奇异值方面,我们尤其关注标准化残差为负数的奇异点——因为我们更关注对于同等的电费消耗所实现的营业收入低于预测值的情况:如果同等电费消耗没有得到预测的营业值,则有隐瞒营业收入的可能。
(2)、多元线性回归
多元回归与一元回归在思路上是类似的。只是选取更多的自变量进入回归考量范围。如何选择某个明细成本费用项作为自变量,是多元线性回归中的一个重要问题。一方面要保证所选择的成本费用项与营业收入具有较高的相关性,另一方面要避免各成本费用项之间存在较大的多重共线性。在模型的构造过程中,我们选择逐步回归分析方法,其基本的机理是:首先选择F值最大并且大于某个阈值的候选变量进入模型,然后将模型中F值最小并且小于另一个阈值的变量剔除出模型,如此反复进行,直到没有变量引入和剔除为止。
考虑到样本的数量,我们以营业收入规模中等(M)以及规模大(L)的29个样本为例来说明回归过程。我们确定候选变量为职工人数、工资、电费、水费,设定引入变量的F值的p值为0.05,剔除变量的F值的p值为0.10。我们先后引入的变量是工资和电费,没有剔除的变量。回归系数分析中,常数项的t检验没有通过,但变量系数的t检验没有问题,方差膨胀因子(VIF)为6.866,也还在可以容忍的范围。当我们筛选奇异值样本时,同样更关注标准化残差为负数的奇异点——可以通过设置来找到这些可疑的样本。
3、判别分析
在纳税评估中,判别分析主要用于判别纳税人是否诚信纳税。训练样本数据来源于税务稽查部门历年来针对酒店住宿业的稽查数据,我们将纳税人分为两类,分别是诚信纳税人和非诚信纳税人——这些样本是已经被实际工作定性的,也就是说,在税务稽查中发现了问题的属于非诚信纳税人,没有发现问题属于诚信纳税人。训练样本数据共有21户稽查数据,其中9户属于非诚信纳税人,12户属于诚信纳税人。判定变量选取了四个,分别是利润率(LRV)、工资占营业收入比重(GZ)、电费占营业收入比重(DF)、水费占营业收入比重(SF)。待判别数据则为2007年度所有的45户纳税人。在使用SPSS进行分析的过程中,我们将非诚信纳税人的类别值定义为1,诚信纳税人的类别值定义为0,待判别企业的类别值空缺,并且假设两类纳税人的先验概率相等。这样,当我们得出两类纳税人的重要差异变量以后,就可以根据这样的差异来鉴别其他纳税人。
本次研究中,利润率(LRV)对判别值的影响最大,但它与判别值是反向相关,也就是说,利润率越高,越可能是诚信纳税人;其余判别变量的影响力依次是电费占营业收入比重(DF)、工资占营业收入比重(GZ)、水费占营业收入比重(SF)。然而这样的判别不能作为最终定性的准绳——对训练样本数据进行回判的结果有3例误判,回判准确率为85.71%,对2007年待判数据的判别结果是25户被判别为诚信纳税人,20户被判别为非诚信纳税人。
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。
现场直击|2021世界人工智能大会
直击5G创新地带,就在2021MWC上海
5G已至 转型当时——服务提供商如何把握转型的绝佳时机
寻找自己的Flag
华为开发者大会2020(Cloud)- 科技行者