8/17/2019 StatI Cours6
1/39
Dispersion Asymétrie Résumé Données groupées
Statistiques I
Alexandre Caboussat
[email protected] : Mercredi 8h15-10h00
Salle: C114http://campus.hesge.ch/caboussata
A. Caboussat, HEG STAT I, 2010 1 / 45
http://-/?-
8/17/2019 StatI Cours6
2/39
Dispersion Asymétrie Résumé Données groupées
Exemple de quantiles
Données:
1, 5, 7, 12
α = 27
A. Caboussat, HEG STAT I, 2010 2 / 45
8/17/2019 StatI Cours6
3/39
Dispersion Asymétrie Résumé Données groupées
Exercice 4.7
Le nombre d’abonnés au haut débit en Suisse a évolué de la
manière suivante:Anńee [mois=décembre] xDSL Câble2000 4416 520002001 42935 1143292002 199144 2600002003 487497 3500002004 802000 480000
Calculer pour les deux séries de données xDSL et Câble, lamoyenne, la médiane, l’étendue, les quartiles
Construire le Boxplot (bôıte à moustaches) pour chacune des
deux séries de donnéesCommenter les Boxplot obtenus (Les distributions sont-ellesde même dispersion?, Y a-t-il de l’asymétrie?)
A. Caboussat, HEG STAT I, 2010 3 / 45
8/17/2019 StatI Cours6
4/39
Dispersion Asymétrie Résumé Données groupées
Exercice 4.7
Le nombre d’abonnés au haut débit en Suisse a évolué de la
manière suivante:Anńee [mois=décembre] xDSL Câble2000 4416 520002001 42935 1143292002 199144 2600002003 487497 3500002004 802000 480000
A. Caboussat, HEG STAT I, 2010 3 / 45
8/17/2019 StatI Cours6
5/39
Dispersion Asymétrie Résumé Données groupées
Exercice 4.7
Le nombre d’abonnés au haut débit en Suisse a évolué de la
manière suivante:Anńee [mois=décembre] xDSL Câble2000 4416 520002001 42935 1143292002 199144 2600002003 487497 3500002004 802000 480000
0 e + 0 0
2 e + 0 5
4 e + 0 5
6 e + 0 5
8 e + 0 5
DSL
1 e + 0 5
2 e + 0 5
3
e + 0 5
4 e + 0 5
Cable
A. Caboussat, HEG STAT I, 2010 3 / 45
Di i A ´ i R´ ´ D ´ ´
8/17/2019 StatI Cours6
6/39
Dispersion Asymétrie Résumé Données groupées
Exercice 4.8
N Valide 15Manquant 0
Moyenne 1999Médiane 2000Mode 2002Ecart-type 3.742Variance 14Minimum 1994Maximum 2005
Percentiles 25 199550 200075 2002
A. Caboussat, HEG STAT I, 2010 4 / 45
Di i A t́ i R´ ´ D ´ ´
8/17/2019 StatI Cours6
7/39
Dispersion Asymetrie Resume Donnees groupees
Définitions
La variance d’une population, notée σ
2
, est la moyenne des carrésdes écarts à la moyenne
σ2 = 1
N
N i =1
(x i − µ)2,
où N est le nombre d’individus et µ la moyenne de la variable x .
L’écart-type d’une population, noté σ, est défini par la racinecarrée de la variance:
σ =√
σ2 =
1N
N i =1
(x i − µ)2 = 1
N (
N i =1
x 2i − N µ2)
A. Caboussat, HEG STAT I, 2010 5 / 45
Dispersion Asymétrie Résumé Données groupées
8/17/2019 StatI Cours6
8/39
Dispersion Asymetrie Resume Donnees groupees
Définitions
La variance d’un échantillon, de taille n, notée s 2, est
s 2 =
1
n
−1
ni =1
(x i − x̄ )2,
L’écart-type d’un échantillon de taille n , noté s , est
σ = √ σ2 =
1
n − 1n
i =1
(x i − x̄ )2 =
1
n − 1 (n
i =1
x 2i − nx̄ 2)
A. Caboussat, HEG STAT I, 2010 6 / 45
Dispersion Asymétrie Résumé Données groupées
8/17/2019 StatI Cours6
9/39
Dispersion Asymetrie Resume Donnees groupees
Attention!
La variance d’un échantillon n’est pas définie de la même manière
que la variance d’une population.
En effet, la formule utilise la moyenne de l’échantillon au lieu de lamoyenne de la population (qui est inconnue puisque l’on a recoursà un échantillon!).
Or la moyenne de l’échantillon est (par définition) parfaitementcentrée au milieu de l’échantillon, ce qui n’est en général pas toutà fait le cas avec la moyenne de la population. Par conséquent, lerésultat obtenu aura tendance à être ĺegèrement inférieur à celuique l’on aurait obtenu en utilisant la moyenne de la population. Lecalcul de la variance d’un échantillon utilise donc n − 1 commediviseur et non pas n pour corriger ceci.
A. Caboussat, HEG STAT I, 2010 7 / 45
Dispersion Asymétrie Résumé Données groupées
8/17/2019 StatI Cours6
10/39
Dispersion Asymetrie Resume Donnees groupees
Exemple
Population: {3, 5, 5, 7, 10}.µ = 6, σ2 =
28
5 = 5.6, σ 2.37.
A. Caboussat, HEG STAT I, 2010 8 / 45
Dispersion Asymétrie Résumé Données groupées
8/17/2019 StatI Cours6
11/39
Dispersion Asymetrie Resume Donnees groupees
Exemple
Echantillon: {3, 5, 7} ⊂ {3, 5, 5, 7, 10}.Si on divise par n:
x̄ = 5, s 2 = 8
3 2.67.
Si on divise par n − 1:x̄ = 5, s 2 =
8
2 = 4.
A. Caboussat, HEG STAT I, 2010 9 / 45
Dispersion Asymétrie Résumé Données groupées
8/17/2019 StatI Cours6
12/39
p y g p
Remarque
Calculatrices:
le plus souvent écart-type associé à un échantillon
Attention de bien contrôler sur votre machine quelle formule estutilisée!
A. Caboussat, HEG STAT I, 2010 10 / 45
Dispersion Asymétrie Résumé Données groupées
8/17/2019 StatI Cours6
13/39
p y g p
Coefficient de variation
Définition
Le coefficient de variation (CV) est le ratio entre l’écart-type et lamoyenne, exprimé en pourcent.
Population Echantillon
100σ
µ 100
s
x̄
Le coefficient de variation permet d’obtenir un indice général,indépendant des unités de mesure employées, contrairement àl’écart-type qui dépend de la moyenne et de l’unité de mesureutilisée.
A. Caboussat, HEG STAT I, 2010 11 / 45
Dispersion Asymétrie Résumé Données groupées
8/17/2019 StatI Cours6
14/39
Coefficient de variation : Exemple
En finance, le CV mesure le risque relatif d’un portefeuille.
Supposons que le portefeuille A contient un ensemble d’actions etd’obligations donnant un rendement moyen de 12%, avec unécart-type de 3% (risque); un portefeuille B a un rendement moyende 6% avec un écart-type de 2%. Le coefficient de variationassocié à chaque portefeuille est :
CV (A) = 100 3
12 = 25% CV (B ) = 100
2
6 = 33%
A. Caboussat, HEG STAT I, 2010 12 / 45
Dispersion Asymétrie Résumé Données groupées
8/17/2019 StatI Cours6
15/39
Indicateurs de Dispersion
Mesures d’asymétrie et d’aplatissement
A. Caboussat, HEG STAT I, 2010 13 / 45
Dispersion Asymétrie Résumé Données groupées
8/17/2019 StatI Cours6
16/39
Objectif
Connâıtre et savoir interpréter:
la mesure d’asymétrie: Skewness la mesure d’aplatissement: Kurtosis
A. Caboussat, HEG STAT I, 2010 14 / 45
Dispersion Asymétrie Résumé Données groupées
8/17/2019 StatI Cours6
17/39
Mesure d’asymétrie : Skewness
Définition
Le coefficient d’asymétrie skew est calculé ainsi
skew = n
(n − 1)(n − 2)n
i =1
(x i − µ)3σ3
où σ est l’écart-type de la population, et µ la moyenne.
A. Caboussat, HEG STAT I, 2010 15 / 45
Dispersion Asymétrie Résumé Données groupées
8/17/2019 StatI Cours6
18/39
Valeurs d’asymétrie
skew 0
Étalement à gauche Étalement à droite
Commandes Informatiques
skewness (package fbasics) (R)coefficient.asymetrie (Excel FR)
skew (Excel AN)
A. Caboussat, HEG STAT I, 2010 16 / 45
Dispersion Asymétrie Résumé Données groupées
8/17/2019 StatI Cours6
19/39
Mesure d’asymétrie : Exemple
Les pointures de chaussures d’un groupe de personnes sont
résumées dans le diagramme en bâtons suivant:
A. Caboussat, HEG STAT I, 2010 17 / 45
Dispersion Asymétrie Résumé Données groupées
8/17/2019 StatI Cours6
20/39
Mesure d’asymétrie : Exemple
Les pointures de chaussures d’un groupe de personnes sont
résumées dans le diagramme en bâtons suivant:
La moyenne de ces 25 observations est de 36.8, l’écart-type de5.55,et le skew est de 486, ce qui correspond bien à un étalement à
droite.A. Caboussat, HEG STAT I, 2010 17 / 45
Dispersion Asymétrie Résumé Données groupées
M d’ l i K i
8/17/2019 StatI Cours6
21/39
Mesures d’aplatissement : Kurtosis
Définition
Le coefficient d’aplatissment kurtosis est calculé ainsi
kurt = An
i =1
(x i − µ)4σ4
− 3B
où σ est l’écart-type de la population, µ la moyenne, et
A = n(n + 1)
(n − 1)(n − 2)(n − 3) B = (n − 1)2
(n − 2)(n − 3)
sont des constantes d’ajustement.
Commandes Informatiqueskurtosis (R)
kurtosis (Excel FR)
kurt (Excel AN)A. Caboussat, HEG STAT I, 2010 18 / 45
Dispersion Asymétrie Résumé Données groupées
V l d’ l i
8/17/2019 StatI Cours6
22/39
Valeurs d’aplatissement
kurt > 0 kurt
8/17/2019 StatI Cours6
23/39
Exemple
La distribution du nombre de tasses de café bues en une journée à
la terrasse d’un bistro est :
11, 13, 18, 20, 21, 23, 25, 25, 27, 28,31, 34, 35, 41, 42, 43, 44, 46, 54, 93
A. Caboussat, HEG STAT I, 2010 20 / 45
Dispersion Asymétrie Résumé Données groupées
E l
8/17/2019 StatI Cours6
24/39
Exemple
La distribution du nombre de tasses de café bues en une journée à
la terrasse d’un bistro est :
11, 13, 18, 20, 21, 23, 25, 25, 27, 28,31, 34, 35, 41, 42, 43, 44, 46, 54, 93
On voit que cette distribution a une queue épaisse, à cause de lavaleur à 93. Pour cette distribution kurt=6.1. Si on remplace lavaleur 93 par 33, on obtient kurt=-0.38.
A. Caboussat, HEG STAT I, 2010 20 / 45
Dispersion Asymétrie Résumé Données groupées
R´ ´
8/17/2019 StatI Cours6
25/39
Resume
Les mesures d’asymétrie Skewness et d’aplatissement Kurtosis sont
utiles pour déterminer la forme de la distribution. Ces mesuresutilisent dans leur calcul l’écart-type.
A. Caboussat, HEG STAT I, 2010 21 / 45
Dispersion Asymétrie Résumé Données groupées
Synthèses numériques : Résumé
8/17/2019 StatI Cours6
26/39
Syntheses numeriques : Resume
Mesures de tendance centrale (positionnement)
Mode : valeur la plus fréquente (tous types de variables).
Moyenne arithmétique, moyenne tronquée (variablesquantitatives).
Médiane : 50% au dessous, 50% au dessus (variables
quantitatives et qualitatives ordinales).Mesures de dispersion (variables quantitatives uniquement) :
l’́etendue.
les quartiles et l’écart interquartile.
le boxplot.
l’écart-type et la variance d’une population vs dun échantillon.
Le coefficient de variation.
A. Caboussat, HEG STAT I, 2010 22 / 45
Dispersion Asymétrie Résumé Données groupées
Synthèses numériques : Résumé
8/17/2019 StatI Cours6
27/39
Syntheses numeriques : Resume
Les mesures d’asymétrie Skewness et d’aplatissement Kurtosispermettent de connâıtre des caract’eristiques supplémentaires de la
distribution. Leurs calculs utilisent la moyenne et l’écart-type.
skew 0Étalement à gauche Étalement à droite
kurt > 0 kurt
8/17/2019 StatI Cours6
28/39
Données numériques groupées
A. Caboussat, HEG STAT I, 2010 24 / 45
Dispersion Asymétrie Résumé Données groupées
Exemple
8/17/2019 StatI Cours6
29/39
Exemple
Délai d’expédition de l’entreprise Sun4all en février
classe fréquencei ni
1 [0 - 3[ 12 [3 - 6[ 03 [6 - 7.5[ 64 [7.5 - 9[ 75 [9 - 12] 5
A. Caboussat, HEG STAT I, 2010 25 / 45
Dispersion Asymétrie Résumé Données groupées
Objectifs
8/17/2019 StatI Cours6
30/39
Objectifs
Avec des données numériques groupées, savoir déterminer
la classe modale
la moyennela médiane et les quartiles
l’écart type (et la variance)
A. Caboussat, HEG STAT I, 2010 26 / 45
Dispersion Asymétrie Résumé Données groupées
Classe modale
8/17/2019 StatI Cours6
31/39
Classe modale
Définition
La classe modale est la classe ayant la plus grande fréquence.
A. Caboussat, HEG STAT I, 2010 27 / 45
Dispersion Asymétrie Résumé Données groupées
Exemple: classe modale
8/17/2019 StatI Cours6
32/39
Exemple: classe modale
Délai d’expédition de l’entreprise Sun4all en février
classe fréquencei ni
1 [0 - 3[ 1
2 [3 - 6[ 03 [6 - 7.5[ 64 [7.5 - 9[ 75 [9 - 12] 5
La classe modale est la classe [7.5 - 9[
A. Caboussat, HEG STAT I, 2010 28 / 45
Dispersion Asymétrie Résumé Données groupées
Médiane
8/17/2019 StatI Cours6
33/39
Mediane
Définition
La classe médiane est la classe contenant la médiane. Parmi les
classes ordonnées, c’est la première dont la fréquence relativecumuĺee dépasse 0.5.
La médiane des données groupées est ensuite approchée parinterpolation linéaire.
A. Caboussat, HEG STAT I, 2010 29 / 45
Dispersion Asymétrie Résumé Données groupées
Exemple: Médiane
8/17/2019 StatI Cours6
34/39
Exemple: Mediane
Délai d’expédition de l’entreprise Sun4all en février
classe fréq. fréq. relative fréq. rel.x i ni f i = ni /n cumuĺee
1 [0-3[ 1 0.0526 0.0526
2 [3-6[ 0 0 0.05263 [6-7.5[ 6 0.3158 0.36844 [7.5-9[ 7 0.3684 0.73685 [9-12] 5 0.2632 1.0000
n=195
i =1
f i = 1
La classe médiane est donc [7.5 - 9[
A. Caboussat, HEG STAT I, 2010 30 / 45
Dispersion Asymétrie Résumé Données groupées
Exemple (suite)
8/17/2019 StatI Cours6
35/39
Exemple (suite)
med (delai) = 7.5 + 0.5 − 0.36840.7368 − 0.3684 1.5 = 8.04
La vraie médiane est 8 (cf. chapitre précédent).
A. Caboussat, HEG STAT I, 2010 31 / 45
Dispersion Asymétrie Résumé Données groupées
Cas particulier
8/17/2019 StatI Cours6
36/39
p
L’une des classes a une fréquence relative cumulée égale à 0.5,
alors la médiane est égale à la borne supérieure de cette classe.
La médiane vaut 170
A. Caboussat, HEG STAT I, 2010 32 / 45
Dispersion Asymétrie Résumé Données groupées
Exemple (fictif)
8/17/2019 StatI Cours6
37/39
p ( )
classe fréq. fréq. relative fréq. rel.x i ni f i = ni /n cumuĺee
1 [0-3[ 1 0.1 0.12 [3-6[ 0 0 0.1
3 [6-7.5[ 4 0.4 0.54 [7.5-9[ 2 0.2 0.75 [9-12] 3 0.3 1.0
n=105
i =1
f i = 1
La classe médiane est donc [6 − 7.5[. La médiane est 7.5.
A. Caboussat, HEG STAT I, 2010 33 / 45
Dispersion Asymétrie Résumé Données groupées
Moyenne
8/17/2019 StatI Cours6
38/39
y
Convention: chaque observation d’une classe est égale à la valeurcentrale de cette classe.
x =
c i =1
ni x i
n
c : nombre de classesni : fréquence de la i -ième classex i : valeur centrale de la i -ième classen : nombre total de données.
A. Caboussat, HEG STAT I, 2010 34 / 45
Dispersion Asymétrie Résumé Données groupées
Exemple: Moyenne
8/17/2019 StatI Cours6
39/39
p y
Délai d’expédition de l’entreprise Sun4all en février.
classe fŕeq. val. centralex i ni x i
1 [0-3[ 1 1.52 [3-6[ 0 4.53 [6-7.5[ 6 6.75
4 [7.5-9[ 7 8.255 [9-12] 5 10.5
n=19
delai =
152.25
19 = 8.01
A. Caboussat, HEG STAT I, 2010 35 / 45
Top Related