Statistiques

Série univariée

  • statistiques : ce sont les méthodes pour étudier un ensemble de données souvent numériques dont on souhaite analyser certaines caractéristiques.
  • population, individus : l'ensemble de ces données s'appelle la population, les éléments,  individus ou unité statistiques.
  • échantillon : c'est une  liste d'individus issus de la population sur laquelle est effectivement effectuée l'étude statistique.
  • caractère, modalités : Un caractère, une {variable statistique}  est une caractéristique de la population mesurable à laquelle on peut attribuer plusieurs valeurs différentes (les modalités).

2 problèmes :

  • Représenter la série statistiques : graphiquement ou par des paramètres de position et de dispersion (statistiques descriptives).
  •  valider les résultats obtenus sur l'échantillon à l'ensemble de la population (statistiques inférentielles).

Représentation graphique

Soit une série statistique  $(x_i,n_i)_{1\leq i\leq p}$,

[pour une série qualitative, le diagramme en secteurs est obtenu en découpant un disque en portions dont  les angles  sont proportionnels aux effectifs ou aux fréquences.

pour une série numérique discrète,  le diagramme en bâtons des effectifs (respectivement fréquences est l'ensemble des segments d'extrémités les points de coordonnées $\begin{pmatrix}x_i\\0\end{pmatrix},\begin{pmatrix}x_i\\n_i\end{pmatrix}$, le  polygone des effectifs relie les sommets du diagramme en bâtons).

pour une série statistique continue épartie en classes $([a_i,a_{i+1}[,n_i)_{1\leq i\leq p}$, on appelle histogramme la représentation de la série obtenue en traçant des rectangles dont les \underline{aires} sont proportionnelles aux effectifs $n_i$, un des côtés du rectangle étant le segment $[a_i,a_{i+1}]$ de l'axes des abscisses.

Paramètres de position

Un caractère numérique prenant $p$ valeurs distinctes ($n$ au total) est représenté par une suite $(x_i, n_i)_{1\leq i\leq p}$, ($x_i$ : valeur du caractère\ ;\ $n_i$ : effectif).

L'effectif total de la population : $n=\displaystyle\sum_{i=1}^k n_i$.

La fréquence de la modalité $x_i$ est notée $f_i =\displaystyle\frac{n_i}{n}$.

La moyenne de la série $(x_i)$ : $\bar{x} = \displaystyle\sum_{i=1}^k f_i\times x_i$.

La variance de la série $(x_i)$ : $V(x) = \displaystyle\sum_{i=1}^k f_i\times (x_i-\bar{x})^2$ $<$moyenne des carrés des écarts à la moyenne$>$.

calcul pratique de la variance : $ V(x)=\displaystyle\left(\sum_{i=1}^n f_i\times x_i^2\right)-\bar{x}^2$ $<$moyenne des carrés moins  carré de la moyenne$>$.

L'écart-type d'une série $(x_i)$ : $\displaystyle\sigma (x)=\sqrt{V(x)}$.

Série  bivariée

But : on étudie l'intensité de la liaison qui peut exister entre deux caractères numériques $X$ et $Y$. La liaison recherchée est une relation affine $ Y = a X + b$ (régression linéaire).

La série double est donné par le tableau $\{x_i,y_i)\}_{1\leq i\leq n}$, les valeurs pouvant être identiques (sinon tableau $\{x_i,y_i,f_i)\}_{1\leq i\leq n}$).

Dans un repère orthogonal bien choisi, l'ensemble des points $M_i\begin{pmatrix}x_i\\y_i\end{pmatrix}$ avec $1\leq i\leq n$ est appelé le nuage de points associé à cette série statistiques à deux variables.

  • Moyenne des $x_i$ : $\displaystyle\overline{x}=\frac{1}{n}\sum_{i=1}^n x_i$\quad ;\quad  Moyenne des $y_i$ : $\displaystyle\overline{y}=\frac{1}{n}\sum_{i=1}^n y_i$.
  • Le point moyen $G$, isobarycentre des points du nuages, a pour coordonnées $(\overline{x},\overline{y})$.
  • Variances  : $\displaystyle V(x) =\frac{1}{n}\sum_{i=1}^n (x_i-\overline{x})^2 = \overline{x^2}-{\overline{x}}^2$ ;  $y_i$ : $\displaystyle V(y) =\frac{1}{n}\sum_{i=1}^n (y_i-\overline{y})^2 = \overline{y^2}-{\overline{y}}^2$
  • Écart-types  $\displaystyle \sigma_x= \sqrt{V(x)} ; \sigma_y= \sqrt{V(y)}$.
  • Covariance  : $\displaystyle Cov(x,y) = \frac{1}{n}\sum_{i=1}^n (x_i-\overline{x})(y_i-\overline{y}) = \overline{x \cdot y}-\overline{x} \cdot \overline{y}$\textit{$<$moyenne des produits moins  produit des  moyennes$>$}.
  • Equation de la droite de régression $T=aX+b$ avec $\displaystyle a = \frac{ Cov(x,y)}{V(x)}$ et  $b=\overline{y}-a\overline{x}$ (G appartient à la droite).
  • Le coefficient de corrélation linéaire :  $\displaystyle \rho=\frac{cov(x,y)}{\sigma_x\sigma_y}$.
    • le coefficient de corrélation linéaire n'a pas d'unité, est toujours compris entre -1 et 1.
    •  On émet, d'abord, l'hypothèse que les  deux variables sont associées linéairement sur des bases de  théorie, de conviction ou plus simplement en ayant observé le nuage de points. Le coefficient de corrélation permet alors de donner une mesure de l'intensité de cette dépendance.
    •  Une valeur proche de 1 ou de -1 ($\displaystyle |\rho| \geq 0.85$) est un signe d'une forte corrélation linéaire entre $X$ et $Y$.

On peut obtenir d'autres corrélations en cherchant une corrélation linéaire entre non pas $X$ et $Y$, mais entre $X$ ou $e^X$  ou $\ln X$ et $Y$( ou $e^Y$ ou $\ln Y$).

Fichier Joint: 

Ajouter un commentaire

Plain text

  • Aucune balise HTML autorisée.
  • Les adresses de pages web et de courriels sont transformées en liens automatiquement.
  • Les lignes et les paragraphes vont à la ligne automatiquement.
CAPTCHA
This question is for testing whether or not you are a human visitor and to prevent automated spam submissions.
Image CAPTCHA
Saisir les caractères affichés dans l'image.