当前位置：文档视界 › 索赔次数分布拟合与应用

索赔次数分布拟合与应用

个人收集整理仅供参考学习

索赔次数分布地拟合与应用

韩天雄

华东师范大学统计系

§1 索赔次数分布

风险有两个主要因素：其一是在一定期内危险事故可能发生地次数,即索赔次数；其二是每次事故可能损失地大小,即索赔金额.这两个量都是不确定地,它们各自反映了风险地可能性地严重性.风险地数量特征是在这两个量地乘积中得到体现地,因此它也具有不确定性.我们将通过实例来介绍如何确定索赔次数分布.表1地资料取自Johnson 与Hey 地论文（1971）,它记述了1968年英国地421240张机动车综合保险单中地0,1,2,3,4,5次索赔频率数.

表1：索赔频率数

计算可得,索赔次数平均值=∑∑m

X ＝13174.0,

方差=-∑∑=222

)(X m

m X σ13852.0.

当索赔事件满足下列三个假定：

1°每一时间区间中索赔次数是相互独立地. 2°一次事故仅有一次索赔.

3°事故发生地确切时间是不确定地.

我们有把握地说,索赔次数服从泊松分布.此时,索赔次数k 地概率：

),2,1,0(,!

)( ==-k e k n k P n

其中n 为参数.按照泊松分布地性质,它地均值与方差都为n.利用这个性质与表1地资料,我们将索赔次数拟合成以参数n=0.13174地泊松分布.利用概率公

式n

k e k n k P -=!

)(以及递推公式=+)1(k P 1

)(+?k n

k P ,可计算出索赔次数

k=0,1,2,3,4,5地概率值：

8765691.013174.013174.0!

013174.0)0(=-=-=e e P

1154792.013174.0)0()1(=?=P P 0076066.02

13174.0)1()2(=?=P P

000334.03

13174.0)2()3(=?=P P

000011.04

13174.0)3()4(=?=P P

13174.0)4()5(=?=P P

将这些概率值乘上保单数目421240,则得到了泊松分布条件下索赔频数（见表2）.从表中可见,拟合得并不理想.显而易见地事实是,表1资料中得到地索赔次数均值0.13174与方差0.13852不等,所以它只能是近似地服从泊松分布.而深层次地原因是索赔事件未能完全满足三个假定.例如,在恶劣地气候条件下,路况变坏,那么很难保证索赔次数独立性假定.另外,汽车相撞事件也使条件2°不能成立.在索赔次数均值为0.13174地421240张保单中,最可能地事实是风险地不同质,即某些保单持有人风险状况很糟,而另一些持有人风险状况很好.它与汽车类型、用途、使用时间、行驶里程和驾驶技术有关.用负二项分布来描述非同质地索赔次数分布是常见地.负二项分布索赔次数k 地概率：k

a k k a P P C k P )1()(1-=-+,（

k=0,1,2,…）其中a,P 为参数.按照负二项分布地性质,其均值和方差分别为P

P a )1(-和2

)1(P P a -.利用这个性质和表1地资料,我们将索赔次数拟合成负二项分布.具体操作方法为：令 ???????=-=-13852.)1(13174.0)

1(2P

P a P

P a

将第一式除以第二式可计算出参数P=0.9510539,再代入原式求出参数a=2.5597912. 利用概率公式：

a k k a P P C k P )1()(1-=-+

以及由它而导出地递推公式：

)1()()1(++?

-?=+k k

a P k P k P

可计算出在负二项分布条件下,索赔次数k=0,1,2,3,4,5地概率值：

8794511

.0 )0489461.0(5597912.2)9510539.0(5597912

.1)0(=?= C P 110177.01

5597912.20489461.0)0()1(=?

?=P P

0096026.02

5597912

.30489461.0)1()2(=??=P P 0007145.03

5597912.40489461.0)2()3(=??=P P

0000498.04

5597912

.50489461.0)3()4(=?

?=P P

0000023.05

5597912

.60489461.0)4()5(=??=P P

将这些概率值乘上保单数421240,得到了负二项分布条件下索赔频数（表2）,很明显,它提供了比泊松分布更好地拟合.

表2：机动车综合保险索赔次数分布

描述风险不同质地另一常用技术是混合泊松分布方法,以本文所提到地英国机动车辆综合保险为例,虽然平均索赔次数为0.13174,但是天气状况明显影响索赔次数地均值.譬如,下雪天平均索赔次数将为平常地q 1倍（如q 1=3）,而全年中下雪天概率为h 1（如h 1=0.03）；下雨天平均索赔次数为平常地q 2倍（如q 2=1.2）,而全年下雨地概率为h 2

（如h 2=0.2）；晴天平均索赔次数仅为平常地q 3倍（如q 3=0.87）,而全年晴天地概率为h 3（如h 3=0.77）.上述情况可记为：3,2,1,)(===i i h i q q P 我们称q 为混合变量.按照概率论,我们要求1=∑h ,并且1=∑qh 即有：

177.02.003.0321=++=++h h h

187.077.02.12.0303.0332211=?+?+?=++q h q h q h

引入混合变量q 后地分布称为混合泊松分布.全年索

赔次数分布可看作雪天服从参数为nq 1地泊松分布,雨天服从参数为nq 2地泊松分布和晴天服从参数为nq 3地泊松分布地组合.在混合泊松分布中,可以证明均值为n,方差为q n n 222σσ+＝索赔次数k 地概率公式： ,2,1,0,!

)()()(=∑=∑=-k e k nq h k P h k P i

i nq k i i nq i .

有人曾经用表1地资料,利用1=∑hi ,1=∑hiqi ,均值n 方差q n n 22σ+及概率公式求出参数（此处混合变量q 仅取二个值）：

q 1=0.65341 h 1=0.76519 q 2=2.1293 h 2=0.23481

则)()()(2121k P h k P h k P nq nq +=

2805

.00861.0!

)2805.0(23481.0!)0861.0(76519.0e k e k k k ?+=

k=0,1,2,3,4,5

同样,将所得概率值乘保单数421240得到混合泊松分布条件下索赔数（表2）,从表中比较可见,拟合情况略好于负二项分布.一般而言,当混合变量q 取值越多时,拟合地结果将更令人满意.当然,计算量也将随之增加.研究索赔次数地分布,它地优越性在于分布仅由少量参数所概括,而不必再与冗长地观察数据打交道.即使在观察值数据很少和或难以得到地情况下,我们也能通过假定对索赔次数进行数量分析.当得到分布后,那么概率论中许多定理、性质可以利用,它将有助于许多问题地分析,解决保险业中所遇到地问题.

§2 应用举例

有了索赔次数地数量描述,可以使保险人据此推断某些保险责任地规律,也有助于问题地理论分析.

同质风险地索赔次数服从泊松分布.只要计算出过去地每张保单平均索赔次数n,那么用n 近似代替泊松分布地平均值,就可预测未来每张保单索赔次数k 地概率)2,1,0(,!

)( ==-k e k n k P n

上述公式在实际计算中有一定地困难.如果某一险种共有K 份保单,那么该险种地总索赔次数X 为一随机变量,平均总索赔次数为nK.按照中心极限

定理,只要nK ≥5,那么nk

X -就近似服从标准正态

分布,而该分布可通过查标准正态分布函数表轻而

易举地得到计算结果.

一、保险公司是否应该调整费率

问题一、某保险公司某险种地纯费率是以每张保单平均索赔次数n=0.01,平均赔款额1万元为计算基础地.但是1995年该公司承保地K=900份保单共发生了12次索赔,假定平均索赔估计正确,现在地12次索赔比预期地9次（nK=9）高出33%,问1996年是否应该提高费率？假定平均索赔次数n=0.01是正确地,那么我们利用索赔次数分布来计算总索赔次数X 为12或更多次概率)12(≥X P 是多少.该险种总索赔次数X 将服从以均值为9(0.01×900)地泊松分布,因而

++=≥--!

139!129)12(13

9129

e e X P 计算上式太难,由中心极限定理,9

-X 服从标准正

态分布,所以

)

1(1)(1)12(1)12(09

9120Φ-=Φ-≈<-=≥-X P X P 11587.08413.01≈=-= 其中0Φ为标准正态分布函数,)(0x Φ地数值可查表获得.计算表明,该公司每6年会有一年发生12次或更多次地索赔事件.一般来说,这是正常地.要提高费率必须用更强地统计数据来证明.

问题二、如果该公司在1996年承保地900份保单中又发生了13次索赔,这样95年与96年共赔付了25次,比预期18次（2×0.01×900）多了7次,问该公司97年是否应该提高费率？同上道理,如果平均索赔次数n=0.01正确,那么这两年地总索赔次数应该服从均值为18泊松分布,再简化计算得到发生25次或更多次索赔地概率 ++=≥--!

2618!2518)25(26

182518e e X P

)(1)25(118

18250-Φ-=<-=X P

1005.095.01)65.1(1≈=-=Φ-= 计算表明,1995年－96年发生25次索赔地可能性仅20年一遇,这是很少见地,因此我们不得不怀疑原来地平均索赔次数0.01地正确性（它是计算费率基础之一）,所以公司可以考虑新修正平均索赔次数n,而提高费率.

二、索赔次数地预测

问题三、该公司对某险种以平均索赔次数0.01计算纯保费率,在1997年该公司可能承保900份保单,问：（1）最多索赔次数为15地可能性,即

?)15(=≤X P

（2）以95%地把握推断,最多索赔次数k,即

%95)(=≤k X P 根据前面所述地原理,

（1）!

159!19!09)15(15

91909

---+++=≤e e e X P 054.0)2()(09

91599=Φ=≤≈--X P

即该公司1997年索赔次数最多为15次地可能性仅5.4%.

（2）)()()(9

909

9---Φ=≤=≤k k X P k X P

因为%95)(=≤k X P ,所经以%95)(9

90=Φ-k .由于

%95)65.1(0=Φ得到65.19

9=-k 即14≈k 次.

只要平均索赔次数0.01估计正确,那么该公司有95%地把握断言,1997年最多索赔14次.

三、财务预测

问题四、某寿险公司承保了10000张同质风险地一年期死亡保险单.已知该类人在一年内死亡地概率为0.005,每个投保者年初缴保险费6元（不计管理费）,死亡保险金额为1000元.问此项业务中

公司亏损地可能性如何？

公司获利不少于10000元地可能性又如何？公司若有准备金5000元,该业务无法履行赔付责任地可能性又如何？

每个保单持有人服从死亡率为0.005地二项分布.对于具有相同分布地这10000名保单持有人,年内死亡总数X 是一个随机变量,由中心极限定理,X 服从均值为50(0.005×10000),标准差为

75.4910000)995.01(005.0=?-?地正态分布,

也就是

.4950－X 服从标准正态分布.公司在该项保险业

务中收入为60000元（6×10000）,故仅当死亡人数多于60人时才会亏损(60×1000=60000).当死亡人数不超过50人时,该项业务获利不少于10000元（10000+1000×50＝60000元）.仅当死亡人数多于65人时,该项业务才可能无力偿付（1000×65=5000+60000）.根据以上分析,我们得到