Concentration, loi des grands nombres

Énoncé

Partie 1. Application directe
Le nombre de pièces sortant d'une usine en une journée est une variable aléatoire d'espérance m = 50 et de variance σ2 = 25. On veut estimer la probabilité que la production, un jour donné, dépasse 75 pièces.
Partie 2. Intervalle de confiance obtenu avec l'inégalité de Bienaymé-Tchebychev.
Un institut de sondages décide de mener une enquête concernant une élection pour laquelle deux candidats A et B se présentent. On suppose, pour simplifier les choses, que chaque individu sondé répond A ou B, à l'exclusion de toute autre réponse, et que le collège électoral est suffisamment grand pour que les réponses soient considérées comme mutuellement indépendantes. La taille de l'échantillon choisi pour faire le sondage est n\: \in \: \mathbb{N}^{\ast } et, pour chaque individu i de l'échantillon, on appelle Xi la variable aléatoire égale à 1 si la réponse est favorable à A, et 0 sinon. Chaque variable Xi est une variable de Bernoulli de paramètre p inconnu que le sondage souhaite bien sûr estimer. Les variables sont indépendantes. On pose S_{n}\: =\: \sum_{i=1}^{n}X_{i} et \overline{X_{n}}\: =\: \frac{S_{n}}{n}.
1. Quelle est la loi suivie par Sn ? Que représente \overline{X_{n}} ? Calculer E\left (\overline{X_{n}} \right ) et V\left (\overline{X_{n}} \right ).
2. Montrer que quel que soit x\: \in\: ]0\, ;\, 1[, 0\: < \: x\left ( 1\: -\: x \right )\leqslant \frac{1}{4}.
3. Déduire de l'inégalité de Bienaymé-Tchebychev que quel que soit t > 0, P\left ( p\: \in \: \left [ \overline{X_{n}}-t\: ; \overline{X_{n}}\: +\: t\right ] \right )\geqslant 1-\frac{1}{4nt^{2}}.
4. 
Soit t\: =\: \frac{1}{2\sqrt{0,05n}}\: >\: 0, on a donc :
P\left ( p\: \in \left [ \overline{X_{n}}\: -\: \frac{1}{2\sqrt{0,05n}}\: ;\: \overline{X_{n}}\: +\: \frac{1}{2\sqrt{0,05n}}\right ] \right )\geqslant 0,95.
On dit que \left [ \overline{X_{n}}\: -\: \frac{1}{2\sqrt{0,05n}}\: ;\: \overline{X_{n}}\: +\: \frac{1}{2\sqrt{0,05n}}\right ] est un intervalle de confiance au niveau de confiance 95 %. Un intervalle de confiance est donc un intervalle aléatoire. Dès que la variable aléatoire \overline{X_{n}} est réalisée et donne la valeur f, l'intervalle \left [ f\: -\: \frac{1}{2\sqrt{0,05n}}\: ;\: f\: +\: \frac{1}{2\sqrt{0,05n}}\right ] qui n'est plus aléatoire est appelé une estimation de p par un intervalle de confiance au niveau de confiance 95 %.
a. On suppose que n = 1000 et que les questionnaires indiquent que 520 personnes sont favorables à A. Donner une estimation de p par un intervalle de confiance au niveau de confiance 95 %.
b. Combien faut-il choisir de sondés pour que p soit estimé par un intervalle de confiance au niveau de confiance 95 % d'amplitude inférieure à 1 % ?
La bonne méthode
Partie 1
On applique l'inégalité de Bienaymé-Tchebychev.
Partie 2
1. La variable Sn est la somme de variables de Bernoulli indépendantes et de même paramètre. On utilise les propriétés de l'espérance et de la variance.
2. Une simple étude de fonction permet de conclure.
3. On écrit l'inégalité demandée et on utilise ce qui précède.
4. 
a. Il s'agit d'une simple application numérique.
b. Il s'agit d'une simple inéquation à résoudre.

Corrigé

Partie 1
L'inégalité de Bienaymé-Tchebychev dit que si X suit une loi d'espérance m et de variance σ, alors quel que soit x > 0, on a P\left ( \left | X\: -\: m \right | \:\geqslant \: x \right )\leqslant \frac{\sigma ^{2}}{x}. Ici, il s'agit d'une application directe de la formule : P\left ( \left | X\: -\: 50 \right | \:\geqslant \: 75 \right )\leqslant \frac{25}{75}, soit P\left ( X\geqslant 125 \right )\leqslant \frac{4}{100} puisque X est à l'évidence une variable aléatoire qui prend ses valeurs dans \mathbb{N}.
Partie 2
1. Sn est la somme de n variables de Bernoulli indépendantes et de même paramètre p. On sait donc que Sn suit la loi binomiale de paramètres n et p. La variableSn compte le nombre de réponses favorables à A au cours du sondage. Ainsi, \overline{X}_{n}\: =\: \frac{S_{n}}{n} est la moyenne des réponses favorables à A au cours du sondage. On sait que E(Sn) = np et V(Sn) = np(1 − p). Ainsi, E\left ( \frac{S_{n}}{n} \right )\: =\: \frac{E\left ( S_{n} \right )}{n}\: =\: p et V\left ( \frac{S_{n}}{n} \right )\: =\: \frac{V\left ( S_{n} \right )}{n^{2}}\: =\: \frac{p\left ( 1-\: p \right )}{n}.
2. C'est clair, la fonction f:x \mapsto x\left ( 1\: -\: x \right ) est un polynôme du second degré, de coefficient dominant a = −1 < 0. Elle est donc croissante sur ]-\infty ;\frac{1}{2}] et décroissante sur [\frac{1}{2}\: ;\: +\infty[. Par ailleurs, les racines du polynômes sont 0 et 1, et le signe de f(x) est l'opposé de celui de a = −1 à l'intérieur des racines. On en déduit que quel que soit x\: \in \: ]0\: ;\: 1[, 0\: <\: f\left ( x \right )\leqslant f\left ( \frac{1}{2} \right )\: =\: \frac{1}{4}.
3. 
D'après l'inégalité de Bienaymé-Tchebychev, pour tout t\: >\: 0, on a P\left ( \left | \overline{X}_{n}\: -\: E\left ( \overline{X}_{n} \right ) \right | \geqslant t \right )\leqslant \frac{V\left ( X_{n} \right )}{t^{2}}, soit P\left ( \left | \overline{X}_{n}\: -\: p \right | \geqslant t \right )\leqslant \frac{p\left ( 1\: - p\right )}{nt^{2}}\leqslant \frac{1}{4nt^{2}}. Donc, en passant à l'événement contraire, on a 1\: -\: P\left ( \left | \overline{X}_{n}\: -\: p \right | < t \right )\leqslant \frac{1}{4nt^{2}}, autrement dit P\left ( \left | \overline{X}_{n}\: -\: p \right | < t \right )\geqslant 1\: -\: \frac{1}{4nt^{2}}, soit enfin quel que soit t > 0 :
P\left ( \overline{X}_{n}\: -\: t\: < \: p\: < \: \overline{X}_{n}\: +\: t \right )\geqslant 1\: -\: \frac{1}{4nt^{2}}.
a. La variable \overline{X}_{1000} est réalisée en f\: =\: \frac{520}{1000}\: =\: 0,52. L'estimation de p par l'intervalle de confiance est donc [0,449 ; 0,591].
b. L'amplitude de l'intervalle \left [ f\: -\: \frac{1}{2\sqrt{0,05n}}\: ; f\: +\: \frac{1}{2\sqrt{0,05n}} \right ] est \frac{1}{\sqrt{0,05n}}. Il suffit donc que \frac{1}{\sqrt{0,05n}}\: <\: \frac{1}{100}, ce qui conduit à n > 200 000. Il est évident que le nombre de sondés à recruter est trop élevé pour être économiquement viable pour l'entreprise.