十分統計呂う

十分統計量

今回は十分統計量などについてまとめていこうと思います。

1. 十分統計量について

まずは、十分統計量の定義を確認しておきましょう。

十分統計量

Let{\displaystyle X_1, X_2, ..., X_n} denote a random sample of size n from a distribution that has pdf or pmf {\displaystyle  f(x; \theta), \theta \in \Omega}. Let {\displaystyle  Y_1 = u_1(X_1, X_2,...,X_n)} be a statistic whose pdf or pmf is {\displaystyle f_{Y_1 }}. Then {\displaystyle  Y_1} is a sufficient statistics for {\displaystyle  \theta} if and only if

$$
\frac{f(x_1, x_2,...,x_n;\theta)}{f_{Y_1}[u_1(x_1, x_2,...,x_n);\theta)]} = H(x_1, x_2,...,x_n) $$

Xが離散型の変数だとすると、左の式はf(X|Y1),Y1を所与としたときのXの条件付き分布だと言えます。(Y1の値はx1...xnが得られると一意に決まるので、f(x, y;θ) = f(x;θ)です) この条件付き分布がθの関数でない(つまりθから影響を受けない)ということは、「Y1が得られたならばθの持つ情報から分布は影響を受けない→Y1がθの情報を完全に持っている」ということになります。あるデータ集合を幾つかの統計量に集約したいと思ったとき、パラメタに関する情報を失わないのが十分統計量というわけです。

つづいて、十分統計量を求めるのに利用される重要な定理.

ネイマンの分解定理

Let{\displaystyle X_1, X_2, ..., X_n} denote a random sample from a distribution that has pdf or pmf pmf {\displaystyle  f(x; \theta), \theta \in \Omega}. The statistic {\displaystyle Y_1 = u_1(X_1,...,X_n) } is a sufficient statistic for {\displaystyle \theta } if and only if we can find two nonnegative functions, k1 and k2, such that

$$ f(x_1;\theta)f(x_2;\theta)...f(x_n;\theta) = k[u_1(x_1, ...,x_n);\theta]k_2(x_1, ...,x_n)]
$$

ネイマンの分解定理を用いることで、後に見るように指数型分布族の十分統計量を簡単に導出することができます。
次も超重要な定理です.

Rao-Blackwellの定理

{\displaystyle  X_1, X_2, ..., X_n, n }a fixed positive integer, denote a random sample from a distibution(continuous or discrete) that has pdf or pmf{\displaystyle f(x;\theta), \theta \in \Omega}. Let{\displaystyle Y_1 = u_1(X_1, X_2, ..., X_n),} not a function of{\displaystyle Y_1} alone, be an unbiased estimator of {\displaystyle\theta}. Then {\displaystyle E(Y_2|y_1) = \varphi(Y_1)} defines a statistic {\displaystyle \varphi(Y_1)}. This statistic {\displaystyle\varphi(Y_1)} is a function of the sufficient statistic for {\displaystyle\theta}; it is an unbiased estimator of{\displaystyle \theta}; and its variance is less than or equal to that of Y_2.}]

この定理は、もしY2が普遍性を持つ統計量ならば、Y1で条件づけたときにその分散はY2より同じかそれ以下になると言っています。(Var(X2) >= Var(E[X2|X1])を思い出してください) この定理により、あるパラメタのMVUEを探すときは(もしそのパラメタに対する十分統計量が存在すれば)その十分統計量の関数の中から探せばよいということになります。
次に、十分推定量最尤推定量のかんけいをしめす定理です。

Let {\displaystyle  X_1, X_2, ..., X_n} denote a random sample from a distribution that has pdf or pmf {\displaystyle  f(x;\theta) \theta \in \Omega}. If a sufficient statistic {\displaystyle  Y_1 = u_1(X_1, X_2, ..., X_n)} for {\displaystyle  \theta} exists and if a maximum likelihood estimator {\displaystyle  \hat{\theta}\ of\ \theta } also exists uniquely, then {\displaystyle  \hat{\theta} } is also exists uniquely, then {\displaystyle  \hat{\theta}} is a function of {\displaystyle  Y_1 = u_1(X_1, X_2, ..., X_n)}.

もし尤度はθとYの関数であり、それが一位に最大化されるということは逆に言えばθはYの関数になる。よってMLEもY(十分統計量)の関数になる。ということを言っている。

続いて、完全性(Completeness)と唯一性(Uniqueness)について。

Definition Completeness

Let the random variable Z of either the continuous type or thediscrete type have a pdf or pmf that is one menber of the manily {\displaystyle  {h(x;\theta)\ :\ \theta \in \Omega}}, If the condition {\displaystyle  E[u(Z)]=0} , for every {\displaystyle  \theta}, requires taht {\displaystyle  u(z)} be zero except on a set of points that has probability zero for each {\displaystyle  h(z;\theta),\ \ \theta \in \Omega}, then the family {\displaystyle {h(z;\theta):\ \theta \in \Omega}} is called a complete family of probability density or mass functions.

Theorem Lehmann and Scheffe

Let {\displaystyle  X_1, X_2, ..., X_n,\ \ n} a fixed positive integer, denote arandom sample from a distribution that has pdf or pmf {\displaystyle f(x;\theta, \theta \in \Omega }, let {\displaystyle Y_1 = u_1(X_1, X_2, ..., X_n) } be a sufficient statistic for {\displaystyle  \theta}, and let the family {\displaystyle  \{f_{Y_1}(y_1;\theta): \theta \in \Omega \}} be complete. If there is a function of {\displaystyle  Y_1} that is an unbiased estimator of {\displaystyle  \theta}, then this function of {\displaystyle Y_1 } is the unique MVUE of {\displaystyle \theta  }. Here unique is used _____ .

Definition Complete Sufficient statistic

When Y_1 is a sufficient statistic for a parameter θ, and that the family {\displaystyle  \{f_{Y_1}(y_1;\theta): \theta \in \Omega \}} of probability density functions is complete, Y_1 is complete sufficient statistic.

参考文献
統計学の基礎1 線形モデルからの出発
・現代数理統計学の基礎
・Introduction to Mathematical Statistics
・数理統計学ハンドブック