StatI Cours6

download StatI Cours6

of 39

Transcript of StatI Cours6

  • 8/17/2019 StatI Cours6

    1/39

    Dispersion   Asymétrie   Résumé   Données groupées

    Statistiques I

    Alexandre Caboussat

    [email protected] : Mercredi 8h15-10h00

    Salle: C114http://campus.hesge.ch/caboussata

    A. Caboussat, HEG STAT I, 2010 1 / 45

    http://-/?-

  • 8/17/2019 StatI Cours6

    2/39

    Dispersion   Asymétrie   Résumé   Données groupées

    Exemple de quantiles

    Données:

    1, 5, 7, 12

    α = 27

    A. Caboussat, HEG STAT I, 2010 2 / 45

  • 8/17/2019 StatI Cours6

    3/39

    Dispersion   Asymétrie   Résumé   Données groupées

    Exercice 4.7

    Le nombre d’abonnés au haut débit en Suisse a évolué de la

    manière suivante:Anńee [mois=décembre] xDSL Câble2000 4416 520002001 42935 1143292002 199144 2600002003 487497 3500002004 802000 480000

    Calculer pour les deux séries de données xDSL et Câble, lamoyenne, la médiane, l’étendue, les quartiles

    Construire le Boxplot (bôıte à moustaches) pour chacune des

    deux séries de donnéesCommenter les Boxplot obtenus (Les distributions sont-ellesde même dispersion?, Y a-t-il de l’asymétrie?)

    A. Caboussat, HEG STAT I, 2010 3 / 45

  • 8/17/2019 StatI Cours6

    4/39

    Dispersion   Asymétrie   Résumé   Données groupées

    Exercice 4.7

    Le nombre d’abonnés au haut débit en Suisse a évolué de la

    manière suivante:Anńee [mois=décembre] xDSL Câble2000 4416 520002001 42935 1143292002 199144 2600002003 487497 3500002004 802000 480000

    A. Caboussat, HEG STAT I, 2010 3 / 45

  • 8/17/2019 StatI Cours6

    5/39

    Dispersion   Asymétrie   Résumé   Données groupées

    Exercice 4.7

    Le nombre d’abonnés au haut débit en Suisse a évolué de la

    manière suivante:Anńee [mois=décembre] xDSL Câble2000 4416 520002001 42935 1143292002 199144 2600002003 487497 3500002004 802000 480000

            0      e     +        0        0

            2      e     +        0        5

            4      e     +        0        5

            6      e     +        0        5

            8      e     +        0        5

    DSL

            1      e     +        0        5

            2      e     +        0        5

            3

          e     +        0        5

            4      e     +        0        5

    Cable

    A. Caboussat, HEG STAT I, 2010 3 / 45

    Di i A ´ i R´ ´ D ´ ´

  • 8/17/2019 StatI Cours6

    6/39

    Dispersion   Asymétrie   Résumé   Données groupées

    Exercice 4.8

    N Valide 15Manquant 0

    Moyenne 1999Médiane 2000Mode 2002Ecart-type 3.742Variance 14Minimum 1994Maximum 2005

    Percentiles 25 199550 200075 2002

    A. Caboussat, HEG STAT I, 2010 4 / 45

    Di i A t́ i R´ ´ D ´ ´

  • 8/17/2019 StatI Cours6

    7/39

    Dispersion   Asymetrie   Resume   Donnees groupees

    Définitions

    La variance d’une population, notée  σ

    2

    , est la moyenne des carrésdes écarts à la moyenne

    σ2 =  1

    N i =1

    (x i  − µ)2,

    où   N  est le nombre d’individus et  µ   la moyenne de la variable   x .

    L’écart-type d’une population, noté  σ, est défini par la racinecarrée de la variance:

    σ =√ 

    σ2 =

      1N 

    N i =1

    (x i  − µ)2 =  1

    N (

    N i =1

    x 2i  − N µ2)

    A. Caboussat, HEG STAT I, 2010 5 / 45

    Dispersion Asymétrie Résumé Données groupées

  • 8/17/2019 StatI Cours6

    8/39

    Dispersion   Asymetrie   Resume   Donnees groupees

    Définitions

    La variance d’un échantillon, de taille   n, notée   s 2, est

    s 2 =

      1

    n

    −1

    ni =1

    (x i  − x̄ )2,

    L’écart-type d’un échantillon de taille   n   , noté   s , est

    σ = √ σ2 =

      1

    n − 1n

    i =1

    (x i  − x̄ )2 =

      1

    n − 1 (n

    i =1

    x 2i  − nx̄ 2)

    A. Caboussat, HEG STAT I, 2010 6 / 45

    Dispersion Asymétrie Résumé Données groupées

  • 8/17/2019 StatI Cours6

    9/39

    Dispersion   Asymetrie   Resume   Donnees groupees

    Attention!

    La variance d’un échantillon n’est pas définie de la même manière

    que la variance d’une population.

    En effet, la formule utilise la moyenne de l’échantillon au lieu de lamoyenne de la population (qui est inconnue puisque l’on a recoursà un échantillon!).

    Or la moyenne de l’échantillon est (par définition) parfaitementcentrée au milieu de l’échantillon, ce qui n’est en général pas toutà fait le cas avec la moyenne de la population. Par conséquent, lerésultat obtenu aura tendance à être ĺegèrement inférieur à celuique l’on aurait obtenu en utilisant la moyenne de la population. Lecalcul de la variance d’un échantillon utilise donc   n − 1 commediviseur et non pas   n  pour corriger ceci.

    A. Caboussat, HEG STAT I, 2010 7 / 45

    Dispersion Asymétrie Résumé Données groupées

  • 8/17/2019 StatI Cours6

    10/39

    Dispersion   Asymetrie   Resume   Donnees groupees

    Exemple

    Population: {3, 5, 5, 7, 10}.µ = 6, σ2 =

     28

    5  = 5.6, σ  2.37.

    A. Caboussat, HEG STAT I, 2010 8 / 45

    Dispersion Asymétrie Résumé Données groupées

  • 8/17/2019 StatI Cours6

    11/39

    Dispersion   Asymetrie   Resume   Donnees groupees

    Exemple

    Echantillon: {3, 5, 7} ⊂ {3, 5, 5, 7, 10}.Si on divise par   n:

    x̄  = 5,   s 2 = 8

    3  2.67.

    Si on divise par   n − 1:x̄  = 5,   s 2 =

     8

    2 = 4.

    A. Caboussat, HEG STAT I, 2010 9 / 45

    Dispersion   Asymétrie   Résumé   Données groupées

  • 8/17/2019 StatI Cours6

    12/39

    p y g p

    Remarque

    Calculatrices:

    le plus souvent écart-type associé à un échantillon

    Attention de bien contrôler sur votre machine quelle formule estutilisée!

    A. Caboussat, HEG STAT I, 2010 10 / 45

    Dispersion   Asymétrie   Résumé   Données groupées

  • 8/17/2019 StatI Cours6

    13/39

    p y g p

    Coefficient de variation

    Définition

    Le coefficient de variation (CV) est le ratio entre l’écart-type et lamoyenne, exprimé en pourcent.

    Population Echantillon

    100σ

    µ  100

    x̄ 

    Le coefficient de variation permet d’obtenir un indice général,indépendant des unités de mesure employées, contrairement àl’écart-type qui dépend de la moyenne et de l’unité de mesureutilisée.

    A. Caboussat, HEG STAT I, 2010 11 / 45

    Dispersion   Asymétrie   Résumé   Données groupées

  • 8/17/2019 StatI Cours6

    14/39

    Coefficient de variation : Exemple

    En finance, le CV mesure le risque relatif d’un portefeuille.

    Supposons que le portefeuille A contient un ensemble d’actions etd’obligations donnant un rendement moyen de 12%, avec unécart-type de 3% (risque); un portefeuille B a un rendement moyende 6% avec un écart-type de 2%. Le coefficient de variationassocié à chaque portefeuille est :

    CV (A) = 100 3

    12 = 25%   CV (B ) = 100

    2

    6 = 33%

    A. Caboussat, HEG STAT I, 2010 12 / 45

    Dispersion   Asymétrie   Résumé   Données groupées

  • 8/17/2019 StatI Cours6

    15/39

    Indicateurs de Dispersion

    Mesures d’asymétrie et d’aplatissement

    A. Caboussat, HEG STAT I, 2010 13 / 45

    Dispersion   Asymétrie   Résumé   Données groupées

  • 8/17/2019 StatI Cours6

    16/39

    Objectif 

    Connâıtre et savoir interpréter:

    la mesure d’asymétrie:   Skewness la mesure d’aplatissement:   Kurtosis 

    A. Caboussat, HEG STAT I, 2010 14 / 45

    Dispersion   Asymétrie   Résumé   Données groupées

  • 8/17/2019 StatI Cours6

    17/39

    Mesure d’asymétrie : Skewness

    Définition

    Le coefficient d’asymétrie   skew  est calculé ainsi

    skew  =  n

    (n − 1)(n − 2)n

    i =1

    (x i  − µ)3σ3

    où  σ  est l’écart-type de la population, et  µ   la moyenne.

    A. Caboussat, HEG STAT I, 2010 15 / 45

    Dispersion   Asymétrie   Résumé   Données groupées

  • 8/17/2019 StatI Cours6

    18/39

    Valeurs d’asymétrie

    skew   0

    Étalement à gauche   Étalement à droite

    Commandes Informatiques

    skewness (package fbasics) (R)coefficient.asymetrie (Excel FR)

    skew (Excel AN)

    A. Caboussat, HEG STAT I, 2010 16 / 45

    Dispersion   Asymétrie   Résumé   Données groupées

  • 8/17/2019 StatI Cours6

    19/39

    Mesure d’asymétrie : Exemple

    Les pointures de chaussures d’un groupe de personnes sont

    résumées dans le diagramme en bâtons suivant:

    A. Caboussat, HEG STAT I, 2010 17 / 45

    Dispersion   Asymétrie   Résumé   Données groupées

  • 8/17/2019 StatI Cours6

    20/39

    Mesure d’asymétrie : Exemple

    Les pointures de chaussures d’un groupe de personnes sont

    résumées dans le diagramme en bâtons suivant:

    La moyenne de ces 25 observations est de 36.8, l’écart-type de5.55,et le skew est de 486, ce qui correspond bien à un étalement à

    droite.A. Caboussat, HEG STAT I, 2010 17 / 45

    Dispersion   Asymétrie   Résumé   Données groupées

    M d’ l i K i

  • 8/17/2019 StatI Cours6

    21/39

    Mesures d’aplatissement : Kurtosis

    Définition

    Le coefficient d’aplatissment  kurtosis  est calculé ainsi

    kurt  =  An

    i =1

    (x i  − µ)4σ4

      − 3B 

    où  σ  est l’écart-type de la population,  µ  la moyenne, et

    A =  n(n + 1)

    (n − 1)(n − 2)(n − 3)   B  =  (n − 1)2

    (n − 2)(n − 3)

    sont des constantes d’ajustement.

    Commandes Informatiqueskurtosis (R)

    kurtosis (Excel FR)

    kurt (Excel AN)A. Caboussat, HEG STAT I, 2010 18 / 45

    Dispersion   Asymétrie   Résumé   Données groupées

    V l d’ l i

  • 8/17/2019 StatI Cours6

    22/39

    Valeurs d’aplatissement

    kurt  > 0   kurt  

  • 8/17/2019 StatI Cours6

    23/39

    Exemple

    La distribution du nombre de tasses de café bues en une journée à

    la terrasse d’un bistro est :

    11, 13, 18, 20, 21, 23, 25, 25, 27, 28,31, 34, 35, 41, 42, 43, 44, 46, 54, 93

    A. Caboussat, HEG STAT I, 2010 20 / 45

    Dispersion   Asymétrie   Résumé   Données groupées

    E l

  • 8/17/2019 StatI Cours6

    24/39

    Exemple

    La distribution du nombre de tasses de café bues en une journée à

    la terrasse d’un bistro est :

    11, 13, 18, 20, 21, 23, 25, 25, 27, 28,31, 34, 35, 41, 42, 43, 44, 46, 54, 93

    On voit que cette distribution a une queue épaisse, à cause de lavaleur à 93. Pour cette distribution kurt=6.1. Si on remplace lavaleur 93 par 33, on obtient kurt=-0.38.

    A. Caboussat, HEG STAT I, 2010 20 / 45

    Dispersion   Asymétrie   Résumé   Données groupées

    R´ ´

  • 8/17/2019 StatI Cours6

    25/39

    Resume

    Les mesures d’asymétrie Skewness et d’aplatissement Kurtosis sont

    utiles pour déterminer la forme de la distribution. Ces mesuresutilisent dans leur calcul l’écart-type.

    A. Caboussat, HEG STAT I, 2010 21 / 45

    Dispersion   Asymétrie   Résumé   Données groupées

    Synthèses numériques : Résumé

  • 8/17/2019 StatI Cours6

    26/39

    Syntheses numeriques : Resume

    Mesures de tendance centrale (positionnement)

    Mode : valeur la plus fréquente (tous types de variables).

    Moyenne arithmétique, moyenne tronquée (variablesquantitatives).

    Médiane : 50% au dessous, 50% au dessus (variables

    quantitatives et qualitatives ordinales).Mesures de dispersion (variables quantitatives uniquement) :

    l’́etendue.

    les quartiles et l’écart interquartile.

    le boxplot.

    l’écart-type et la variance d’une population vs dun échantillon.

    Le coefficient de variation.

    A. Caboussat, HEG STAT I, 2010 22 / 45

    Dispersion   Asymétrie   Résumé   Données groupées

    Synthèses numériques : Résumé

  • 8/17/2019 StatI Cours6

    27/39

    Syntheses numeriques : Resume

    Les mesures d’asymétrie Skewness et d’aplatissement Kurtosispermettent de connâıtre des caract’eristiques supplémentaires de la

    distribution. Leurs calculs utilisent la moyenne et l’écart-type.

    skew   0Étalement à gauche   Étalement à droite

    kurt  > 0   kurt  

  • 8/17/2019 StatI Cours6

    28/39

    Données numériques groupées

    A. Caboussat, HEG STAT I, 2010 24 / 45

    Dispersion   Asymétrie   Résumé   Données groupées

    Exemple

  • 8/17/2019 StatI Cours6

    29/39

    Exemple

    Délai d’expédition de l’entreprise   Sun4all  en février

    classe fréquencei ni 

    1 [0 - 3[ 12 [3 - 6[ 03 [6 - 7.5[ 64 [7.5 - 9[ 75 [9 - 12] 5

    A. Caboussat, HEG STAT I, 2010 25 / 45

    Dispersion   Asymétrie   Résumé   Données groupées

    Objectifs

  • 8/17/2019 StatI Cours6

    30/39

    Objectifs

    Avec des données numériques groupées, savoir déterminer

    la classe modale

    la moyennela médiane et les quartiles

    l’écart type (et la variance)

    A. Caboussat, HEG STAT I, 2010 26 / 45

    Dispersion   Asymétrie   Résumé   Données groupées

    Classe modale

  • 8/17/2019 StatI Cours6

    31/39

    Classe modale

    Définition

    La classe modale est la classe ayant la plus grande fréquence.

    A. Caboussat, HEG STAT I, 2010 27 / 45

    Dispersion   Asymétrie   Résumé   Données groupées

    Exemple: classe modale

  • 8/17/2019 StatI Cours6

    32/39

    Exemple: classe modale

    Délai d’expédition de l’entreprise   Sun4all  en février

    classe fréquencei ni 

    1 [0 - 3[ 1

    2 [3 - 6[ 03 [6 - 7.5[ 64 [7.5 - 9[ 75 [9 - 12] 5

    La classe modale est la classe [7.5 - 9[

    A. Caboussat, HEG STAT I, 2010 28 / 45

    Dispersion   Asymétrie   Résumé   Données groupées

    Médiane

  • 8/17/2019 StatI Cours6

    33/39

    Mediane

    Définition

    La classe médiane est la classe contenant la médiane. Parmi les

    classes ordonnées, c’est la première dont la fréquence relativecumuĺee dépasse 0.5.

    La médiane des données groupées est ensuite approchée parinterpolation linéaire.

    A. Caboussat, HEG STAT I, 2010 29 / 45

    Dispersion   Asymétrie   Résumé   Données groupées

    Exemple: Médiane

  • 8/17/2019 StatI Cours6

    34/39

    Exemple: Mediane

    Délai d’expédition de l’entreprise   Sun4all  en février

    classe fréq. fréq. relative fréq. rel.x i    ni    f  i  =  ni /n   cumuĺee

    1 [0-3[ 1 0.0526 0.0526

    2 [3-6[ 0 0 0.05263 [6-7.5[ 6 0.3158 0.36844 [7.5-9[ 7 0.3684 0.73685 [9-12] 5 0.2632 1.0000

    n=195

    i =1

    f  i  = 1

    La classe médiane est donc [7.5 - 9[

    A. Caboussat, HEG STAT I, 2010 30 / 45

    Dispersion   Asymétrie   Résumé   Données groupées

    Exemple (suite)

  • 8/17/2019 StatI Cours6

    35/39

    Exemple (suite)

                                                                                                                                                                                                                                                                                           

                                                                                                                                                                                                                                                                                                                                                                                                                                 

    med (delai) = 7.5 +  0.5 − 0.36840.7368 − 0.3684 1.5 = 8.04

    La vraie médiane est 8 (cf. chapitre précédent).

    A. Caboussat, HEG STAT I, 2010 31 / 45

    Dispersion   Asymétrie   Résumé   Données groupées

    Cas particulier

  • 8/17/2019 StatI Cours6

    36/39

    p

    L’une des classes a une fréquence relative cumulée égale à 0.5,

    alors la médiane est égale à la borne supérieure de cette classe.

                                                                                                                                                                                                             

                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                               

    La médiane vaut 170

    A. Caboussat, HEG STAT I, 2010 32 / 45

    Dispersion   Asymétrie   Résumé   Données groupées

    Exemple (fictif)

  • 8/17/2019 StatI Cours6

    37/39

    p ( )

    classe fréq. fréq. relative fréq. rel.x i    ni    f  i  =  ni /n   cumuĺee

    1 [0-3[ 1 0.1 0.12 [3-6[ 0 0 0.1

    3 [6-7.5[ 4 0.4 0.54 [7.5-9[ 2 0.2 0.75 [9-12] 3 0.3 1.0

    n=105

    i =1

    f  i  = 1

    La classe médiane est donc [6 − 7.5[. La médiane est 7.5.

    A. Caboussat, HEG STAT I, 2010 33 / 45

    Dispersion   Asymétrie   Résumé   Données groupées

    Moyenne

  • 8/17/2019 StatI Cours6

    38/39

    y

    Convention:   chaque observation d’une classe est égale à la valeurcentrale de cette classe.

    x  =

    c i =1

    ni x i 

    n

    c    : nombre de classesni    : fréquence de la   i -ième classex i    : valeur centrale de la   i -ième classen   : nombre total de données.

    A. Caboussat, HEG STAT I, 2010 34 / 45

    Dispersion   Asymétrie   Résumé   Données groupées

    Exemple: Moyenne

  • 8/17/2019 StatI Cours6

    39/39

    p y

    Délai d’expédition de l’entreprise   Sun4all  en février.

    classe fŕeq. val. centralex i    ni    x i 

    1 [0-3[ 1 1.52 [3-6[ 0 4.53 [6-7.5[ 6 6.75

    4 [7.5-9[ 7 8.255 [9-12] 5 10.5

    n=19

    delai  =

     152.25

    19   = 8.01

    A. Caboussat, HEG STAT I, 2010 35 / 45