找回密码
 快速注册

扫描二维码登录本站

手机号码,快捷登录

投行业服务、产品的撮合及交易! “投行先锋客户端” - 投行求职
      “项目”撮合 - 投行招聘

投行先锋VIP会员的开通及说明。 无限下载,轻松学习,共建论坛. 购买VIP会员 - 下载数量和升级

“投行先锋论坛会员必知和报到帖” 帮助您学习网站的规则和使用方法。 删帖密码积分先锋币评分

查看: 3021|回复: 3

[财务] 班佛定律在中国nCoV2019肺疫报告中的检验

[复制链接]
最佳答案
0 
发表于 2020-1-31 20:15:40 | 显示全部楼层 |阅读模式



班佛定律在中国nCoV2019肺疫报告中的检验


班佛定律号称「假账克星」,曾用于安然财务舞弊、2009年伊朗总统选举舞弊(TheDevil is in the Digits,Washington Post,20090620)等。
本文先绍介班佛定律在中国nCoV2019肺疫报告检验中的运用,再简介班佛定律。
一、班佛定律对中国nCoV2019肺疫的检验1、结论
1月24日午时一刻,国务院发布公告,征求关于新型冠状病毒肺炎疫情防控工作的问题线索及意见建议。以此为界,将此前期间(1231-0123)设为对照组,区间(0124-30)为考察组。截至24日或22日的区分也是合理的。下图是首位数字分布频率的呈示。
对照组的数字4和9高于、数字3低于班佛定律对应的预期,表明疫情报告并不自然,在这些数字上存在人为修饰,以3、4、9开头的省份的肺疫报告,需重点调查。这并不意味着,以3、4、9开头的省份必然有问题,而与班佛定律相符,也不意味着以该数字开头的省份就没有问题。
不符的原因,可能是人工干预,如,假如某个监控阈限是3、5、10,刻意低于监控阈限就会出现2、4、9的概率增大,3、5的概率减小。对中央政府作出的决定,地方政府可能执行不力,但要地方政府联合起来延瞒谎报、要求某一地方政府配合另一地方政府虚报,可能性很小。
考察组与班佛定律吻合得很好,说明国务院办公厅0124公告发出后,疫情报告真实性大大加强。

毛泽东同志在《关于农业合作化问题》(19550731)指出,「我们应当相信群众,我们应当相信党,这是两条根本的原理。如果怀疑这两条原理,那就什么事情也做不成了。」领导我们事业的核心力量是中国共产党,只有坚持党的领导,我们才能赢得肺疫战争的胜利。一直以来,我们政府对人民健康高度负责,相信我们政府完全有能力,打赢这场疫情防控阻击战。多难兴邦,只要坚持党的领导,我们一定能取得战「疫」胜利。
上图是次位数字分布。考察组符合好。对照组次位1、4、6概率高于班佛定律预测,有明显加工痕迹,对次位数1、4、6的省份应重点关注。
以上是借助图形的直观判断。对各数位的数字分布与班佛定律的分布两者吻合程度的定性判断,有若干统计工具可供使用,在下文中介绍。
2、前提和局限
首先,班佛定律有其适用范围,这是前提。但如何判断或预测某一数据集是否应该符合班佛定律分布,目前还没有合适的统计指标。
其次,此次分析依据的数据,依赖于人工搜集,可能存在错误、缺漏,这是局限之一。数据多取自官媒及专媒丁香园等,但有些数据冲突,如,某日新增确病例数(NCC),并不等于各省份及海外国家地区NCC之和;中央官媒与某些地方官媒公布的数字存在些许差异;有些地方统计时段端点不在24时等。对此,只能人为调整,这很容易带来误差。数据源及整个分析文档已随文附呈,以期改正。
再次,本人能力不足,对此次分析使用的工具并不擅长,对统计分析可能理解、运用有误,这是又一大局限。其他局限还有许多,于此不赘。
以上是此次分析的结论、前提和局限。
最重要是希望大家坚定对我们党和中央政府的信心,同心协力,发扬中华民族老吾老及人老幼吾幼及人幼、守望相助的传统美德,共克时艰。
其次,是提供一个不太优良的样板,抛砖引玉,咨从事财会、审计、财报分析、投资尽调、税关调查、经济统计等业内业外专业人士批判。
3、比对逻辑
Worksheet “AccumConfCasePrvn”的Table[ACCP]自动加和各省份累计确诊病例,Wksht“BLTest”将从Table[ACCP]读取相应区间对应数位的数字。
下方的表格对拟检验数位呈现的数字频率进行了统计。
红框所在列为考察组(TreatmentGroup,TrtGrp),蓝框所在列为对照组(ControlGroup,CtrlGrp)。
FrqExpt表示各数字根据班佛定律在不同数位出现的频率预期,由Excel根据检验数位的指示,在右侧的前5数位频率表中自动引得。
下文分别选用χ2检验、KS检验两种方法,考察肺疫报告与班佛定律分布的吻合程度(拟合优度),即适配度检定(Goodnessof Fit Test)。
χ2检验(χ音开,常作卡方检验)是对样本的实际观测值与理论推断值之间的偏离程度进行统计。
χ2检验步骤如下(红蓝框各自的左侧两列将在χ2检验中使用),
(1)统计对照组和考察组各数字频数的实际观测值。DCntTrt、DCntCtr分别表示考察组与对照组的DigitCount。
(2)计算两组频数的理论推断值。EDCTrt为各数字预期频率FrqExpt与考察组DCntTrt集计(上图C54=198)的乘积,即样本(样本量为DCntTrt合计)按班佛定律各数字分布的理论预期频数。相应地,EDCCtr则为各数字预期频率FrqExpt与对照组DCntCtr集计(G54=97)的乘积。
(3)计算卡方检验的P值。若P值小于置信水平0.05(5%),则该组数据与班佛定律的分布不属于同一分布。
由上表可见,对照组1231-0123的P值为0.08%,即「对照组数据不自然(或不符合班佛定律的自然分布)」有99.92%(1-0.08%)的概率。
考察组0124-30的P值为67.89%,换句话说,有67.89%的把握认为,考察组数据是自然的(或可信的)。如果将考察组区间截止在28或29日,卡方P值还会更大些(76.78%和75.29%)。

样本量比较小的情形下,在分析两组数据之间是否不同时,KS检验(Kolmogorov–Smirnov Statistic)相当常用。KS检验无须了解数据的分布,代价是数据分布已知时KS检验效果不如该已知分布的检验好。
KS检验步骤如下(红蓝框各自的右侧两列将在KS检验中使用),
(1)统计对照组和考察组各数字频率的实际观测值。FrqTrt、FrqCtr分别表示考察组、对照组的各数字在相应时期区间的频率。
(2)计算两组频率与班佛分布的频率差。ETFDif、ECFDif分别为两组频率与班佛定律预期频率的差。
(3)对绝对值最大的频率差取绝对值,作为KS检验的D值;
(4)将D值与KS检验的限界值比较。若D值大于限界值,则该组数据与班佛定律的分布不属于同一分布。
KS检验的限界值可以查表获得,在样本量较大的情况下(大于35或50),可运用下表数式求得。
根据前图,对照组与考察组的D值(9.90%和3.82%)均小于限界值,意味着,在对应的有意水准下,对照组与考察组均符合班佛定律分布。
对次位数字也可进行χ2检验和KS检验,但对照组次位数样本量有限(仅36个),可能不具有显著价值。
4、使用手册
仅需2步人工操作,余已安插数式,自动完成。若用更详细数据,可筛查疫情延瞒谎虚嫌疑大的省市区县及嫌疑时段。具体作业程式如下。
1、录入各省份新增确诊病例数(NewConfirmed Case by Province)。
在Worksheet“NewConfCasePrvn”的Table[NCCP]中区分省份按日录入。
2、设定区间起始日、截止日,选择拟检验数位。
在Worksheet“BLTest”中设定对照组和考察组区间起始日、截止日,并据以修改图表各标题。选择拟检验的数位(拟检验第几位数字)。
对照组和考察组两区间可重叠,任一起始日不得早于12/31/2019。考察组起迄日已分别设为「对照组迄日+1」「today()-1」,可任意修改。
拟检验数位预设1-5,因为第5位后的数字已接近平均分布。



二、班佛定律简介
班佛定律指出,对一自然的数据集,取集合中各元素的首数字,统计各数字的呈现频率,发现如下表,数字1-9(0不视为首数字)并非各出现1/9,明显地随数字增大而减小。
班佛定律(Benford’sLaw)有若干译名,方便读者看看不同语境文化中班佛定律运用情况。其他译文有本福德法则、本福特法则「ベンフォードの法則」「벤포드의 법칙」等。

1、渊源
班佛定律简洁有力,却很晚才被发现、普及,有必要介绍下其历史渊源。
1881年,天文学家西蒙·纽康(SimonNewcomb)发现对数表中以1起首的数的那几页较其他页破烂,后发文列示了首位和次位数字的概率表,但未提出具体的证据。
提出光速不变性假设的亨利·庞加莱(JulesHenri Poincaré)也在《Répartitiondes décimales dans une table numérique》中用数字表中的小数分布进一步发展了这个想法。
54年后(1935年),通用电气(GE)的物理学家法兰克·班佛(FrankBenford)在图书馆翻阅对数表时,重新发现了这一现象,对数表前几页比后面的页更脏一些,说明前几页被更多的人翻阅。班佛还通过检查包含街道地址、分子量和比热、河流面积、数学序列等许多数据来验证这点。1938年,班佛发表文章《The Lawof Anomalous Numbers》阐述他的发现。
R. A. Raimi(1976、69)、Daniel I. A. Cohen(1976)、Theodore P. Hill(1998、95)、M. J. Nigrini(2000,1999、96、92)、Shao & Ma(2010)、Berger & Hill(2015、11)、Bhole(2015)、Hill & Fox(2016)等相继进行研究,但至今未有严格的数学证明。
Hill自认其文章《AStatistical Derivation of the Significant-Digit Law》(1995,Statistical Science)不是严格的证明(Hill,1998),百度百科认为是“严格的证明”的表述可能错误;Nigrini的会计学博士论文(1992)的主题正是班佛定律在偷逃漏税侦测中的运用。

2、适用范围
班佛定律并不适用于所有数据集,但通常适用于具有某些联系的大量自然数据集,如,股票价格、人口数据(包括省市县乡)、对数表(平方根表不适用)等。自然界和日常生活中获得的大多数数据集都符合班佛定律。不但如此,即便分布规律不同的数据集,混合后或运算后形成的新数据集,也符合班佛定律,如会计上许多数字是单价与数量的乘积。
尽管如此,班佛定律仍受限于如下几个因素:
(1)这些数据必须量级跨度足够大,数值大小相差几个数量级;
(2)样本数量足够多;
(3)数据未经人为修饰。
世上本无「于物无不陷的利矛」,造假时有意规避,班佛定律就难以察觉。
为造假而修改过的实验数据,人为规则的数字,如电话号码、邮政编码、身份证号码、对账单号、发票编号等,不满足班佛定律。班佛定律通常也不适用于具有规定的最小值和最大值的数据集,如利率、小时工资、定价尾数末位的8和9。
「自然的数据集」需要满足什么条件,其各数位的数字才能呈现班佛定律预测的分布?人们尚未找到这样的统计判定指标。这正是至今未能严格证明班佛定律的阻碍之一。

3、数式表示与未完成的解释
以P(d1)表示首位数字为d1(d1=1,2,……,9,不包括0)的概率,则
班佛定律还可预测次顺位、第3位和随后任一位数字以及数字组合的概率。
以P(d2)表示次位数字为d2(d2=0,1,2,……,9,包括0)的概率,则
随着数位顺位的增大,该数位上各数字的分布渐趋平均,到第5顺位时,0-9各数字的分布几乎都是1/10。
班佛定律暗示着,各数位之间并非相互独立。次位(第2数位)是2的概率为10.88%(P(d2=2)),而给定首位为1的情况下次位是2的概率为11.55%(P(d1d2=12)/P(d1=1)),注意,后者概率更大。
班佛定律在十进制中成立,在其他进制中也同样成立(基数不变性,Base Invariance)。
对于b进制,只需将上述数式中的10换成b即可。如,
更一般规律的表达需要用到科学记数法(Scientificnotation)。
形如「尾数(Mantissa)x基数(Base)^幂(Exponent)」的数字表示方法,是广义的科学记数法。如,250.9775x10^0=25.09775x10^1,二百五就亲亲我,幂次调整后意义就变了。
狭义的科学记数法,指经过幂次补偿(Offset)调整后尾数介于1.0到10之间的修正的归一化表示形式(ModifiedNormalized Form)。其中,尾数的绝对值不小于1且小于10(即,1≤|Mantissa|<10),即通常所说的尾数,多用于科技文献中。如,2.509775x10^2。
计算机科学中常用的科学记数法,与狭义法的差别在于尾数小1量级,即,经过幂次补偿(Offset)调整后尾数介于0.1到1.0之间的真归一化表示形式(TrueNormalized Form)。其中,尾数绝对值不小于0.1且小于1(0.1≤|Mantissa|<1)。如,0.2509775x10^3。
不同于测量学上的“有效数字”,像2509775这样的一串数字(在计算机科学上还要求有限长度),称为有效数字(Significand)。
形如0.2509775(即绝对值不小于0.1且小于1)的尾数,称为赋范有效数字(NormedSignificand)。Mantissa、Significand、Coefficient三者在此为一个意思,由此常常混用。特殊的,以2为基数的科学记数法,若尾数形式为1.xxx,那么,这种尾数被称为归一化有效数字(NormalizedSignificand)。
用真归一化形式(0.1≤|Mantissa|<1)来表达班佛定律更一般的形式。
这就是1881年Simon Newcomb在American Journal ofMathematics发表的文章“Onthe frequency of use of the different digits in natural numbers”中表达的,“The law of probability ofthe occurrence of numbers is such that all mantissae of their logarithms areequally likely.”
班佛定律的一种朴素解释是,顺序是由1开始,1,2,…,9,至此终结的话,所有数起首的机会相同。但9之后的两位数10至19,以1起首的数大大抛离了其他数。在下一批9起首的数出现前,必然经过一拨以2,3,…,8起首的数。所以,如此顺序产生、计数或积累的数字,1起首的数出现概率比2起首的大,2起首的又比3起首的大……依次递减。
另有观点认为,班佛定律的根源,在于数字的表示形式(即尾数与基数的幂增幂减),使数字变化表现为指数增减。如下图,某事物的数量在指数曲线(如,y=1.1^x)上移动(蓝色小丸在曲线上的滑动,即自然数量增减变动),在y轴的映射是自然变动的结果,在x轴的映射是其指数x的线性变动。显然,自然变动在y轴投影较自然变动在x轴投影移动快。
借助幂增幂减的数字表示形式,数量的自然变动,可分为两个成分,指数变动成分和尾数变动成分(1≤|尾数|<10)。对于自然变动,指数变动成分是绝大多数人容易感知的变动。人们对自然变动的指数变动成分反应更灵敏,而对自然变动的尾数变动反应较为迟钝。
我们将数字(蓝色小丸)分解出指数成分(x轴)和尾数成分(橘色小丸),并作出上图,就能方便地加深对班佛定律的理解。
班佛定律是唯一符合标度不变性(ScaleInvariance)的定律。即使对数据集换一套衡量单位,或者取其相反的倒数单位,班佛定律仍然成立。
举个例子,设有9支股票,价格分别为10,20,…,90元/股。
改变其计量单位,将其股价分别用美元、日元和倒数单位(股/元)来表示,得下表。
由上表可见,原本股价首位数字1至9概率相等,采取其他标尺度量后,1和2起首的概率又增加了,班佛定律开始显现。

4、应用
前文已提及班佛定律的若干应用。这里再补充一些。
班佛定律在财报检验上的效果更显著。这是因为,即便知晓班佛定律,由于财务报告、会计账务还有会计系统自身的复式簿记约束,要在财务、税务数字上造假,难度大大增加。
班佛定律还用于贪腐案件、医事机构住院费用申报的分析等。如,在报销额度1万元的限定下,可预期金额9字开头的数字频率会比较高,进一步的调查就应围绕9开头的发票。在State ofArizona诉WayneJames Nelson贪腐案(CV92-18841)中,7、8、9三数在首位出现的概率就异常高。
我国已有地方税局、证券基金研究所、风投等将班佛定律用于偷逃漏税、财会分析等。这也同样可以运用于监察委、检察院、纪委的日常监督、检察、调查工作中。
班佛定律的应用远不止此。只要在其适用范围,班佛定律都能够发挥作用。

以上是班佛定律在疫情报告数据检验中的运用。

在传染病疫情防控中更为有用的数学工具,是传播动力学的若干模型,包括广播模型、扩散模型、SIR模型及各种变式等。这些模型可以描述传染病的传播过程,分析受感染人数的变化规律,预测传染病的发展,并提供对策建议及其预期成效评估。传播动力学模型还广泛地运用于通信科学、广告、营销等领域,发挥着重要作用。
除广播模型(单一信号源)外,这些模型大都是指数增减变动的,这也反映了线性变化外的另一种自然变化的客观事实。然而,绝大多数人都是线性思维模式,除非经过长期反复训练,否则并不容易理解和运用,以致于多数人往往对早期的平缓行进缺乏敏感,对增长初期的变化反应迟钝,而在大幅变化来临时措手不及。

这给我们的启发是,需要尽早提前教育、告知人们,提高人们的警惕,以保障人民群众的健康和生命安全,减少财产损失。应该说,绝大多数人都没有很强的分辨能力,更重要的是,绝大多数人在传播消息时是没有恶意、甚至是充满善意的。不突出肺疫严重性,很多人尤其相当部分的中老年人根本不会理睬。这使得很多年轻人及部分中年人,不得不像大人连哄带骗加恐吓地带小孩一样,采取各种措施手段来引起重视。
这一场战「疫」,很多部门、很多领域、很多人,都能从中学到很多。
多难兴邦,我们一定会迎来明天更美的太阳!
南无阿弥陀佛。愿众生安康,国家富强!







本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?快速注册

×
最佳答案
0 
 楼主| 发表于 2020-2-2 01:55:15 | 显示全部楼层

根据致死率推算病例数,是非常粗糙的估计,很不科学、很不可靠。

罹病与死亡之间影响因素(如,医疗资源紧缺、时滞差等)很多,不能通过简单相除建立因果或相关关系。

严谨而言,可以把真实、自然分别看作两个大部分重叠的圆,圈外分别是不真实、不自然,真实的大部分自然,不自然的多数不真实,不真实的可能自然(刻意伪造)也可能不自然,不自然的也有少数可能是真实的。

补充了一稿,区分省份逐日统计了死亡人数,并进行了班佛定律分布拟合优度检定,供参考。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?快速注册

×
回复

使用道具 举报

最佳答案
0 
 楼主| 发表于 2020-2-5 19:17:22 | 显示全部楼层



新更一稿,在χ2检验、KS检验的基础上,增加了适于小样本的Cho-Gaines' d、Kuiper's Vn检定,比如对单个或若干省份地区进行考察时会出现样本少的情况。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?快速注册

×
回复

使用道具 举报

最佳答案
0 
 楼主| 发表于 2020-3-24 20:09:37 | 显示全部楼层
更新截止20200323的数据,一是完全源自丁香,二是综合各网站。



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?快速注册

×
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 快速注册

本版积分规则

投行云课堂
在线客服

法律及免责声明|服务协议及隐私条款|手机版|投行先锋 ( 陕ICP备16011893号-1 )

GMT+8, 2024-3-28 19:56 , Processed in 0.201530 second(s), 31 queries , Gzip On.

Powered by Discuz! X3.5

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表