Approximation forte

L'approximation forte est une notion en probabilité théorique qui est apparue durant la seconde moitié du XX^e siècle, notamment après le théorème de Strassen de 1964. Les résultats d'approximation forte permettent de créer des espaces de probabilité convenables sur lesquels les sommes partielles ou le processus empirique, vont être proches des objets (comme le mouvement brownien ou le pont brownien) vers lesquels ils convergent.

Principe

Le théorème de représentation de Skorokhod énonce qu'une suite de variables aléatoires $(X_{n})_{n\in \mathbb {N} }$ converge en loi vers une variable aléatoire $X$ s'il existe un espace aléatoire sur lequel sont définies des copies $(Y_{n})_{n\in \mathbb {N} }$ et $Y$ respectivement de $(X_{n})_{n\in \mathbb {N} }$ et $X$ tels que la suite $(Y_{n})_{n\in \mathbb {N} }$ converge presque sûrement vers $Y$ .

L'approximation forte consiste donc à construire ces espaces de probabilités sur lesquels les objets que l'on étudie, comme les sommes partielles $S_{n}=\sum _{i=1}^{n}X_{i}$ ou le processus empirique $\alpha _{n}={\sqrt {n}}(P_{n}-P)$ (où $P_{n}$ est la mesure empirique et $P$ la loi des variables $X_{i}$ supposées i.i.d.). vont être proches de leurs limites, comme le mouvement brownien ou le pont brownien. En outre de donner un moyen pratique d'établir une convergence en loi, l'approximation forte donne une vitesse de convergence vers l'objet limite.

Approximation forte des sommes partielles

Soient $X_{1},\dots ,X_{n}$ des variables i.i.d. et $S_{n}=\sum _{i=1}^{n}X_{i}$ la somme partielle de ces variables aléatoires. En 1961, le théorème de Skorokhod établit qu'on peut écrire en loi une somme partielle comme un mouvement brownien évalué en des temps d'arrêts.

À la suite de ce résultat, le théorème de Strassen apparaît en 1964 et introduit pour la première fois la notion d'approximation forte. Il établit que sous la seule condition que les variables admettent un moment d'ordre deux, on peut approcher presque-sûrement sur un espace de probabilité convenable la somme partielle $S_{n}$ par un mouvement brownien $B_{n}$ avec une borne en $o({\sqrt {n\log \log n}})$ . Bien qu'il soit optimal et puissant, ce résultat n'est pas suffisant pour démontrer des théorèmes comme le théorème de Donsker.

En 1975-1976^[1]^,^[2], les mathématiciens Komlós, Tusnády et Major établissent que si la fonction génératrice des variables aléatoires est définie sur un voisinage de 0 alors on peut approcher presque-sûrement $S_{n}$ par un mouvement brownien avec une borne en $O(\log n)$ . Ce résultat est connu comme le théorème d'approximation KMT. C'est un résultat optimal aussi bien par rapport à la borne d'approximation que par l'hypothèse d'existence de la fonction génératrice au voisinage de 0.

Approximation forte du processus empirique

Approximation du processus empirique

Le premier résultat concernant l'approximation forte du processus empirique est dû à Brillinger en 1969^[3]. Celui-ci établit que si $(U_{n})_{n\in \mathbb {N} ^{*}}$ est une suite de variables i.i.d. de loi uniforme sur $[0,1]$ alors il existe une suite de copies $({\widetilde {U}}_{n})_{n\in \mathbb {N} ^{*}}$ et une suite de ponts browniens $(P_{n}(t))_{n\in \mathbb {N} ^{*}}$ tel que presque-sûrement

\sup _{t\in [0,1]}|\alpha _{n}^{\widetilde {U}}(t)-P_{n}(t)|=O\left(n^{-1/4}(\log n)^{1/2}(\log \log n)^{1/4}\right).

Dans leurs articles^[1]^,^[2], Komlós, Tusnády et Major ont établi que si $(U_{n})_{n\in \mathbb {N} ^{*}}$ est une suite de variables i.i.d. de loi uniforme sur $[0,1]$ alors il existe une suite de ponts browniens $(P_{n}(t))_{n\in \mathbb {N} ^{*}}$ tel que presque-sûrement

\mathbb {P} \left(\sup _{t\in [0,1]}|\alpha _{n}^{U}(t)-P_{n}(t)|>n^{-1/2}(C\log n+x)\right)\leq Le^{-\lambda x}

où $C,\lambda ,L$ sont des constantes universelles positives. Ce qui entraîne d'après le lemme de Borel-Cantelli : presque-sûrement,

\sup _{t\in [0,1]}|\alpha _{n}^{U}(t)-P_{n}(t)|=O(n^{-1/2}\log n).

L'approximation du processus empirique fourni par KMT est encore cette fois optimale.

Approximation du processus empirique par un processus de Kiefer

Article détaillé : Processus de Kiefer.

Jack Kiefer fut le premier mathématicien à considérer le processus empirique $\alpha _{n}(t)$ comme un processus à deux paramètres et que celui-ci devait par conséquent être approché par un processus gaussien bidimensionnel. Il prouve notamment que si $(U_{n})_{n\in \mathbb {N} ^{*}}$ est une suite de variables i.i.d. de loi uniforme sur $[0,1]$ , il existe un processus de Kiefer $(K(t,x))_{0\leq t\leq 1,x\geq 0}$ vérifiant presque-sûrement^[4]

\sup _{t\in [0,1]}|{\sqrt {n}}\alpha _{n}(t)-K(t,n)|=O(n^{1/3}(\log n)^{2/3}).

Par la suite, le théorème KMT fournit une meilleure approximation du processus empirique par le processus de Kiefer : si $(U_{n})_{n\in \mathbb {N} ^{*}}$ est une suite de variables i.i.d. de loi uniforme sur $[0,1]$ alors il existe un processus de Kiefer $(K(y,t))_{0\leq y\leq 1,t\geq 0}$ tel que^[5]

\mathbb {P} \left(\max _{1\leq k\leq n}\sup _{t\in [0,1]}|k^{1/2}\alpha _{k}(y)-K(y,k)|>(C\log n+x)\log n\right)<Le^{-\lambda x}

où $C,\lambda ,L$ sont des constantes universelles positives. Ce qui entraîne d'après le lemme de Borel-Cantelli : presque-sûrement,

\sup _{0\leq y\leq 1}|n^{1/2}\alpha _{n}(y)-K(y,n)|=O(\log ^{2}n).

Approximation du processus empirique indexé par une classe de fonctions

Berthet et Mason ont généralisé en 2006^[6] l'approximation forte du processus empirique indexé par une classe de fonctions ${\mathcal {F}}$ soumises à des conditions d'entropie. On travaillera avec des variables $(X_{i})_{i\in \mathbb {N} ^{*}}$ i.i.d. de loi $P=\mathbb {P} ^{X}$ définies sur un espace de probabilité $(\Omega ,{\mathcal {T}},\mathbb {P} )$ à valeurs dans un espace $({\mathcal {X}},{\mathcal {A}})$ , avec une classe de fonctions ${\mathcal {F}}$ incluses dans l'ensemble des fonctions mesurables de $({\mathcal {X}},{\mathcal {A}})$ à valeurs réelles. On pose les hypothèses suivantes :

Hypothèse ${\mathcal {F}}.i$ : $\forall f\in {\mathcal {F}},||f||_{\mathcal {X}}=\sup _{x\in {\mathcal {X}}}|f(x)|<M/2$ ;

Hypothèse ${\mathcal {F}}.ii$ : ${\mathcal {F}}$ est ponctuellement mesurable, i.e. il existe un sous-ensemble dénombrable ${\widetilde {\mathcal {F}}}\subset {\mathcal {F}}$ tel que tout élément de ${\mathcal {F}}$ puisse s'écrire comme limite d'une suite d'éléments de ${\widetilde {\mathcal {F}}}$ .

Hypothèse VC : $\exists c_{0}>0,\nu _{0}>0$ et une enveloppe de fonction $F$ de ${\mathcal {F}}$ tel que

\sup _{Q}N(F,\varepsilon ||F||_{Q,2},\mathrm {d} Q)\leq c_{0}\varepsilon ^{-\nu _{0}},\quad \forall 0<\varepsilon <1,

où

le supremum est pris parmi toutes les mesures de probabilité $Q$ de $({\mathcal {X}},{\mathcal {A}})$ pour lesquelles $0<Q(F^{2})<+\infty$ ;
$N(F,\varepsilon ,d)$ est le nombre de recouvrement de $F$ par des boules de rayon $\varepsilon$ pour une distance $d$ .
$\mathrm {d} Q$ est la semi-métrique $dQ(f,g)=\left(\int _{\mathcal {X}}(f-g)^{2}\mathrm {d} Q\right)^{1/2}$ avec $Q$ une mesure de probabilité sur $({\mathcal {X}},{\mathcal {A}})$ .

Hypothèse BR : $\exists b_{0}>0,1/2<r_{0}<1,\forall 0<\varepsilon <1,H_{[\ ]}({\mathcal {F}},\varepsilon ,\mathrm {d} P)\leq b_{0}^{2}\varepsilon ^{-2r_{0}}$ où $H_{[\ ]}({\mathcal {F}},\varepsilon ,d)$ est l'entropie avec crochets de ${\mathcal {F}}$ de rayon $\varepsilon$ avec la distance $d$ , c'est-à-dire du log du nombre de recouvrement avec crochets avec les mêmes paramètres.

Si ${\mathcal {F}}$ vérifie les conditions ${\mathcal {F}}.i,{\mathcal {F}}.ii$ , VC ou BR alors $\forall \theta >0$ , il existe $C_{\theta }>0$ , une suite $(v_{n})_{n\in \mathbb {N} ^{*}}$ de réels strictement positifs et de limite nulle, des variables $(X_{i})_{i\in \mathbb {N} ^{*}}$ i.i.d. de loi $P$ et une suite indépendante $(\mathbb {G} _{i})_{i\in \mathbb {N} ^{*}}$ de processus de $P$ -pont brownien définis sur un même espace de probabilité vérifiant

\mathbb {P} \left(n^{-1/2}\max _{1\leq k\leq n}\lVert {\sqrt {k}}\alpha _{k}^{X}-\sum _{i=1}^{k}\mathbb {G} _{i}\rVert _{\mathcal {F}}>C_{\theta }v_{n}\right)\leq n^{-\theta }

et

n^{-1/2}\max _{1\leq k\leq n}\lVert {\sqrt {k}}\alpha _{k}^{X}-\sum _{i=1}^{k}\mathbb {G} _{i}\rVert _{\mathcal {F}}=O_{\textrm {p.s.}}(v_{n}).

La deuxième relation provient de la première en effectuant un raisonnement par blocs et en appliquant le lemme de Borel-Cantelli.

Remarques :

L'hypothèse ${\mathcal {F}}.i$ est une condition sur l'existence d'une enveloppe de la classe de fonction, i.e. d'une fonction mesurable $F$ telle que $\forall f\in {\mathcal {F}},\quad \forall x\in {\mathcal {X}},\quad |f(x)|\leq F(x)$ ;
La seconde condition ${\mathcal {F}}.ii$ permet de s'assurer de la bonne définition du processus limite ;
L'hypothèse VC n'est pas la définition d'une classe VC mais une propriété vérifiée par les classes VC à savoir que ce sont des classes polynomiales, c'est-à-dire que le recouvrement d'une classe VC est polynomiale en son rayon $\varepsilon$ .

Références

↑ ^{a et b} (en) J. Komlos, P. Major et G. Tusnady, « An approximation of partial sums of independent RV’-s, and the sample DF. I », Z. Wahrscheinlichkeitstheorie verw, n^o Gebiete 32,‎ 1975, p. 211-226 (lire en ligne)
↑ ^{a et b} (en) J. Komlos, P. Major et G. Tusnady, « An approximation of partial sums of independent RV'-s and the sample DF. II », Z. Wahrscheinlichkeitstheorie verw, n^o Gebiete 34,‎ 1975, p. 33-58 (lire en ligne)
↑ (en) D. L. Brillinger, « An asymptotic representation of the sample distribution function », Bulletin of the American Mathematical Society, vol. 75,‎ 1969, p. 545-547 (lire en ligne)
↑ (en) Jack Kiefer, « Skorohod Embedding of Multivariate RV's and the sample DF », Z. Wahrscheinlichkeitstheorie verw. Gebiete, vol. 24,‎ 1972, p. 1-35
↑ (en) M. Csörgo et P. Révész, Strong approximations in probability and statistics
↑ (en) Philippe Berthet et David Mason, « Revisiting two strong approximation results of Dudley and Philipp », IMS Lecture Notes–Monograph Series High Dimensional Probability, vol. 51,‎ 2006, p. 155-172 (lire en ligne)

[:0-1] {a et b} (en) J. Komlos, P. Major et G. Tusnady, « An approximation of partial sums of independent RV’-s, and the sample DF. I », Z. Wahrscheinlichkeitstheorie verw, n^o Gebiete 32,‎ 1975, p. 211-226 (lire en ligne)

[:1-2] {a et b} (en) J. Komlos, P. Major et G. Tusnady, « An approximation of partial sums of independent RV'-s and the sample DF. II », Z. Wahrscheinlichkeitstheorie verw, n^o Gebiete 34,‎ 1975, p. 33-58 (lire en ligne)

[3] (en) D. L. Brillinger, « An asymptotic representation of the sample distribution function », Bulletin of the American Mathematical Society, vol. 75,‎ 1969, p. 545-547 (lire en ligne)

[4] (en) Jack Kiefer, « Skorohod Embedding of Multivariate RV's and the sample DF », Z. Wahrscheinlichkeitstheorie verw. Gebiete, vol. 24,‎ 1972, p. 1-35

[5] (en) M. Csörgo et P. Révész, Strong approximations in probability and statistics

[6] (en) Philippe Berthet et David Mason, « Revisiting two strong approximation results of Dudley and Philipp », IMS Lecture Notes–Monograph Series High Dimensional Probability, vol. 51,‎ 2006, p. 155-172 (lire en ligne)

[1]