4 ways to calculate covariance

4 ways to calculate covariance
4 ways to calculate covariance
Anonim

The covariance is in statistics a value which makes it possible to know to what extent the variables of a double statistical series evolve together. As a concrete example, let us take an anthropologist who would propose to study the relationship between the height and the weight of individuals belonging to the same community. Each individual is then given a pair of data, his height and weight, which will be noted in the form of a pair (x, y). By taking all the individuals and using the formula for calculating the covariance, this scientist may be able to establish a link between height and weight. It is possible to calculate the covariance in three different ways, one more manual and the other two more automatic. In this article, we are talking about sample covariance.

Steps

Method 1 of 4: Calculate the covariance by hand

Calculate Covariance Step 1

Step 1. Learn and understand the two covariance formulas

There are indeed two calculation formulas, one for populations of size N { displaystyle N}

N

, l'autre pour les échantillons aléatoires de taille n{displaystyle n}

n

. La première de ces formules est:

σxy=1N∑i=1n(xi−x¯)(yi−y¯){displaystyle \sigma _{xy}={frac {1}{N}}\sum _{i=1}^{n}(x_{i}-{bar {x}})(y_{i}-{bar {y}})}

{displaystyle \sigma _{xy}={frac {1}{N}}\sum _{i=1}^{n}(x_{i}-{bar {x}})(y_{i}-{bar {y}})}

, tandis que la seconde est:

cov(x, y)=sxy=1n−1∑i=1n(xi−x¯)(yi−y¯){displaystyle cov(x, y)=s_{text{xy}}={frac {1}{n-1}}\sum _{i=1}^{n}(x_{i}-{bar {x}})(y_{i}-{bar {y}})}

{displaystyle cov(x, y)=s_{text{xy}}={frac {1}{n-1}}\sum _{i=1}^{n}(x_{i}-{bar {x}})(y_{i}-{bar {y}})}

. Nous n'évoquerons ici que cette dernière formule. Il vous faut bien comprendre ce qui compose une telle formule qui contient des variables et des symboles.

  • ∑i=1n{displaystyle \sum _{i=1}^{n}}
  • {displaystyle \sum _{i=1}^{n}}

    : il s'agit de la lettre grecque « sigma ». En mathématiques, c'est le symbole utilisé pour une sommation. Quand ce signe ∑i=1n{displaystyle \sum _{i=1}^{n}}

    {displaystyle \sum _{i=1}^{n}}

    apparait, tout ce qui le suit doit être additionné, de i=1{displaystyle i=1}

    {displaystyle i=1}

    jusqu'à i=n{displaystyle i=n}

    {displaystyle i=n}
  • xi{displaystyle x_{i}}
  • x_{i}

    : cette expression se lit « x indice i » ou simplement « x i ». Ce « i » représente en fait le nombre total de variables x{displaystyle x}

    x

    dans votre série statistique. Il agit comme un compteur et vous devrez faire le calcul demandé avec toutes les valeurs x{displaystyle x}

    x

    de la série.

  • x¯{displaystyle {bar {x}}}
  • {displaystyle {bar {x}}}

    : cette expression est par contre une valeur fixe, puisqu'elle est la moyenne de tous les x{displaystyle x}

    x

    de votre série de données. Cette moyenne se présente parfois sous la forme d'un x{displaystyle x}

    x

    surmonté d'un trait. Cette expression se lit « x barre », mais la signification reste la même, c'est la moyenne des x{displaystyle x}

    x
  • yi{displaystyle y_{i}}
  • y_{i}

    : cette expression se lit « y indice i ». Ce « i » représente en fait le nombre total de variables y{displaystyle y}

    y

    dans votre série statistique. Il agit comme un compteur et vous devrez faire le calcul demandé avec toutes les valeurs y{displaystyle y}

    y

    de la série.

  • y¯{displaystyle {bar {y}}}
  • {displaystyle {bar {y}}}

    : cette expression est par contre une valeur fixe, puisqu'elle est la moyenne de tous les y{displaystyle y}

    y

    de vos données. Cette moyenne se présente parfois sous la forme d'un y{displaystyle y}

    y

    surmonté d'un trait. Cette expression se lit « y barre », mais la signification reste la même, c'est la moyenne des y{displaystyle y}

    y
  • n{displaystyle n}
  • n

    : c'est l'effectif de l'échantillon, pris aléatoirement dans une série plus vaste. Il est composé de paires de valeurs x{displaystyle x}

    x

    et y{displaystyle y}

    y

    . L'effectif est le nombre de ces paires, non le nombre de x{displaystyle x}

    x

    et de y{displaystyle y}

    y
Calculate Covariance Step 2

Step 2. Draw a table

Before starting the calculations, it is best to make a table that will group the pairs and the different calculations. Make a table with five referenced columns.

  • The X column { displaystyle X}

    X

    contiendra toutes vos valeurs de x{displaystyle x}

    x
  • La colonne Y{displaystyle Y}
  • {displaystyle Y}

    contiendra toutes vos valeurs de y{displaystyle y}

    y

    . Faites attention à bien mettre sur la même ligne le x{displaystyle x}

    x

    et le y{displaystyle y}

    y

    d'une même paire. Pour le calcul de la covariance, l'ordre des données et des paires a toute son importance.

  • La colonne (xi−x¯){displaystyle (x_{i}-{bar {x}})}
  • {displaystyle (x_{i}-{bar {x}})}

    sera au départ vide. Vous ne pourrez la remplir que lorsque vous aurez calculé la moyenne des x{displaystyle x}

    x
  • La colonne (yi−y¯){displaystyle (y_{i}-{bar {y}})}
  • {displaystyle (y_{i}-{bar {y}})}

    sera, elle aussi, vide. Vous ne pourrez la remplir que lorsque vous aurez calculé la moyenne des y{displaystyle y}

    y
  • La colonne Produit{displaystyle Produit}
  • {displaystyle Produit}

    sera également vide. Vous la remplirez au fur et à mesure.

Calculate Covariance Step 3

Step 3. Calculate the average of the x { displaystyle x}

x

Cette série statistique contient 9 paires, donc 9 x{displaystyle x}

x

. Pour trouver la moyenne des x{displaystyle x}

x

, il faut tous les additionner et diviser ce résultat par 9. La somme des x{displaystyle x}

x

se présente comme suit:

1 + 3 + 2 + 5 + 8 + 7 + 12 + 2 + 4 = 44. Une fois que vous avez divisé par 9, vous avez votre moyenne des x{displaystyle x}

x

: x¯=4, 89{displaystyle {bar {x}}=4, 89}

{displaystyle {bar {x}}=4, 89}

. C'est cette valeur que vous allez prendre pour vos différents calculs de corrélation.

Calculate Covariance Step 4

Step 4. Calculate the mean of the y { displaystyle y}

y

Comme précédemment pour les x{displaystyle x}

x

, cette série statistique contient 9 paires, donc 9 y{displaystyle y}

y

. On procèdera donc de la même façon pour trouver la moyenne des y{displaystyle y}

y

. La somme des y{displaystyle y}

y

se présente comme suit:

8 + 6 + 9 + 4 + 3 + 3 + 2 + 7 + 7 = 49. Une fois que vous avez divisé par 9, vous avez votre moyenne des y{displaystyle y}

y

: y¯=5, 44{displaystyle {bar {y}}=5, 44}

{displaystyle {bar {y}}=5, 44}

. C'est cette valeur que vous allez prendre pour vos différents calculs de corrélation.

Calculate Covariance Step 5

Step 5. Fill in the column (xi − x¯) { displaystyle (x_ {i} - { bar {x}})}

{displaystyle (x_{i}-{bar {x}})}

Pour chaque paire, vous allez devoir effectuer ce calcul qui consiste en la soustraction de la valeur moyenne des x{displaystyle x}

x

de chacune des valeurs x{displaystyle x}

x

. Dans l'exemple, vous devrez retrancher 4, 89 de chacune des valeurs de x{displaystyle x}

x

. Si

  • Admettons que le x{displaystyle x}
  • x

    de la première paire soit 1 (colonne des x{displaystyle x}

    x

    ), vous indiquerez dans la colonne (xi−x¯){displaystyle (x_{i}-{bar {x}})}

    {displaystyle (x_{i}-{bar {x}})}

    , sur la ligne du x{displaystyle x}

    x

    en question le résultat de: 1 - 4, 89, soit -3, 89.

  • Recommencez avec chaque x{displaystyle x}
  • x

    de la série. La seconde ligne contiendra: 3 - 4, 89, soit -1, 89, tandis que la troisième contiendra: 2 - 4, 89, soit -2, 89. Continuez ainsi pour tous les x{displaystyle x}

    x

    de la série. À l'arrivée, votre colonne contiendra les valeurs suivantes: -3, 89; -1, 89; -2, 89; 0, 11; 3, 11; 2, 11; 7, 11; -2, 89; -0, 89.

Calculate Covariance Step 6

Step 6. Fill in the column (yi − y¯) { displaystyle (y_ {i} - { bar {y}})}

{displaystyle (y_{i}-{bar {y}})}

Pour chaque paire, vous allez faire la même chose qu'avec les x{displaystyle x}

x

, mais avec les y{displaystyle y}

y

et la moyenne des y{displaystyle y}

y

. Si

  • Si l’on prend la valeur y{displaystyle y}
  • y

    de la première paire, on va avoir dans la colonne

    (yi−y¯){displaystyle (y_{i}-{bar {y}})}

    {displaystyle (y_{i}-{bar {y}})}

    le résultat suivant: 8 - 5, 44, soit 2, 56.

  • Sur la seconde ligne, vous inscrirez le résultat suivant: 6 - 5, 44, soit 0, 56.
  • Continuez ainsi pour tous les y{displaystyle y}
  • y

    de la série. À l'arrivée, votre colonne contiendra les valeurs suivantes: 2, 56; 0, 56; 3, 56; -1, 44; -2, 44; -2, 44; -3, 44; 1, 56; 1, 56.

Calculate Covariance Step 7

Step 7. Complete the last column

This last column is the product of the two preceding columns, those entitled xi − y¯ { displaystyle x_ {i} - { bar {y}}}

{displaystyle x_{i}-{bar {y}}}

et yi−y¯{displaystyle y_{i}-{bar {y}}}

{displaystyle y_{i}-{bar {y}}}

que vous avez déjà obtenues par calcul. L'opération n'est pas très compliquée, il faut juste prendre garde de multiplier les deux bonnes valeurs situées sur chaque ligne. Faites également attention avec la multiplication des valeurs négatives.

  • Reprenons notre exemple, sur la première ligne, (xi−x¯){displaystyle (x_{i}-{bar {x}})}
  • {displaystyle (x_{i}-{bar {x}})}

    vaut -3, 89 et (yi−y¯){displaystyle (y_{i}-{bar {y}})}

    {displaystyle (y_{i}-{bar {y}})}

    fait apparaitre une valeur de 2, 56. Multipliez les deux et vous obtenez: -3, 89 x 2, 56 = -9, 96. « - » par « + » donne « - ».

  • Sur la seconde ligne, vous avez -1, 88 et 0, 56, vous les multipliez (-1, 88 x 0, 56) et vous obtenez -1, 06.
  • Continuez ainsi jusqu'à la fin de la série statistique Si vous n'avez pas fait d'erreurs, vous devez avoir: -9, 96; -1, 06; -10, 29; -0, 16; -7, 59; -5, 15; -24, 46; -4, 51; -1, 39.
Calculate Covariance Step 8

Step 8. Total the last column

It is therefore a sum that we will note under the symbol Σ. All your columns are now filled, all you have to do is add up the values ​​of the last column. In our example, there are nine values ​​to add. Here there is no problem, because all the values ​​are negative, but this is not always the case: be careful to do the right operations.

In our example, the sum is -64, 57. Write this total at the bottom of the last column: it is the value which will be in numerator in the classic formula for calculating the covariance

Calculate Covariance Step 9

Step 9. Calculate the denominator of the covariance formula

At this stage, you therefore have the numerator of the formula, it remains only to find the denominator, which is very simple, since it suffices to subtract 1 from the sample size (n-1), that is, the number of pairs minus 1.

  • In our example, the size of the series is 9 (pairs), (n − 1 { displaystyle n-1}

    {displaystyle n-1}

    ) vaut donc tout logiquement 8 (9 - 1).

Calculate Covariance Step 10

Step 10. Divide the numerator by the denominator

The last step in calculating the covariance is to divide

cov (x, y) = 1n − 1Σ ​​(xi − x¯) (yi − y¯) { displaystyle cov (x, y) = { frac {1} {n-1}} Sigma (x_ {i } - { bar {x}}) (y_ {i} - { bar {y}})}

{displaystyle cov(x, y)={frac {1}{n-1}}\Sigma (x_{i}-{bar {x}})(y_{i}-{bar {y}})}

, par (n−1){displaystyle (n-1)}

(n-1)

. Le résultat que vous trouvez est la covariance de vos données.

Dans notre exemple, il faut faire: -64, 57/8, ce qui donne - 8, 07

Méthode 2 sur 4: Calculer la covariance avec Excel

Calculate Covariance Step 11

Step 1. Notice the repetitive nature of the calculations

If you only have one statistical series or want to understand the mechanism, calculating a covariance by hand is, of course, possible. As soon as you have dozens of them to calculate, the manual method is somewhat tedious. If in your business you need to calculate covariances, it would be beneficial to automate the calculations. In the first part, you saw that there may be a lot of calculations involved in calculating a covariance, but they are simple. For a series of nine pairs, you have done 2 averages, 18 subtractions, 9 multiplications, an addition and a division, or 31 elementary operations. When calculating by hand, you risk forgetting a sign, incorrectly reporting a value, which can lead to an error in the final result.

Calculate Covariance Step 12

Step 2. Prepare a spreadsheet

If you are already familiar with Excel (or any spreadsheet), it is very easy to set up a covariance calculation table. Start by giving a title to the five columns of the table. These will be the same as when calculating by hand: x { displaystyle x}

x

, y{displaystyle y}

y

, (xi−x¯){displaystyle (x_{i}-{bar {x}})}

{displaystyle (x_{i}-{bar {x}})}

, (yi−y¯){displaystyle (y_{i}-{bar {y}})}

{displaystyle (y_{i}-{bar {y}})}

et Produit{displaystyle Produit}

{displaystyle Produit}
  • Les entêtes des deux premières colonnes de calcul peuvent être simplifiés en mettant, par exemple, « différence des x{displaystyle x}
  • x

    » (troisième colonne) et « différence des y » (quatrième colonne), ce sera peut-être plus explicite.

  • Si votre tableau commence dans le coin supérieur gauche, la cellule A1 indiquera que c'est la colonne des x{displaystyle x}
  • x

    , B1, celle des y{displaystyle y}

    y

    , … jusqu'à E1.

Calculate Covariance Step 13

Step 3. Complete the first two columns

Enter by hand the values ​​of your respective pairs in the x { displaystyle x} columns

x

et y{displaystyle y}

y

. Nous vous rappelons que les deux valeurs d'une même paire se mettent sur la même ligne.

  • La première valeur de x{displaystyle x}
  • x

    est tapée dans la cellule A2, les suivantes le seront en dessous, autant que nécessaire.

  • La première valeur de y{displaystyle y}
  • y

    est tapée dans la cellule B2, les suivantes le seront en dessous, autant que nécessaire.

Calculate Covariance Step 14

Step 4. Find the two means of the x { displaystyle x}

x

et des y{displaystyle y}

y

Grâce à la fonction de la moyenne, Excel calculera rapidement les moyennes des x{displaystyle x}

x

et des y{displaystyle y}

y

. Dans la cellule qui se trouve sous la dernière ligne, vous entrerez la formule

=MOYENNE(A2:A___), l'espace laissé vacant correspond à la dernière cellule remplie.

  • Ainsi, si vous avez 100 valeurs de x{displaystyle x}
  • x

    , vous indiquerez toutes les cellules de A2 à A101, ce qui vous donnera la formule suivante: =MOYENNE(A2:A101).

  • Ce sera la même chose pour les valeurs de y{displaystyle y}
  • y

    et vous aurez la formule suivante:

    =MOYENNE(B2:B101).

  • Comme vous le voyez, il ne faut pas oublier de mettre le signe opératoire « = ».
Calculate Covariance Step 15

Step 5. Enter the formula for column (xi − x¯) { displaystyle (x_ {i} - { bar {x}})}

{displaystyle (x_{i}-{bar {x}})}

Dans la cellule C2, vous devez taper la formule de soustraction entre les x{displaystyle x}

x

et la moyenne des x{displaystyle x}

x

. Elle se présente sous la forme suivante: =A2-____, la partie laissée en banc sera la cellule dans laquelle se trouve la moyenne des x{displaystyle x}

x

Ainsi, si vous avez 100 données, la moyenne se trouvera dans la cellule A103, et la formule de la cellule C2 sera: =A2-A103

Calculate Covariance Step 16

Step 6. Enter the formula for column (yi − y¯) { displaystyle (y_ {i} - { bar {y}})}

{displaystyle (y_{i}-{bar {y}})}

Si l’on reprend l'exemple des cent données, la formule de la cellule D2 sera la suivante: =B2-B103.

Calculate Covariance Step 17

Step 7. Enter the formula for the product column

In cell E2 of the fifth column, you have to type the formula that allows the multiplication of the values ​​of the two previous columns, which gives the following simple formula:

= C2 * D2.

Calculate Covariance Step 18

Step 8. Copy the formulas throughout the table

At this stage, you have programmed the calculations for the only first row, which is cells C2, D2 and E2. You will copy them to paste them in the rest of the table. Using the mouse, select these three cells, then position the mouse cursor over the lower right corner of the rightmost cell. Wait for a small cross to appear. When it's done, press and hold the mouse. Without releasing the pressure, by dragging the mouse down, select all the cells that need to be filled with these formulas. This maneuver will automatically copy the formulas of cells C2, D2 and E2 into all the selected empty cells. In a fraction of a second, your table will show the calculated results.

Calculate Covariance Step 19

Step 9. Program the sum of the last column

For the calculation of the covariance, you need the sum of the products. In the cell that is immediately below the last product, type the following formula:

= SUM (E2: E ___). The reference of the last cell of this sum is the reference of the cell of the last product.

If we take the example of 100 pairs, the formula of cell E103 will look like this: = SUM (E2: E102)

Calculate Covariance Step 20

Step 10. Program the covariance calculation

You have automated the intermediate calculations, all that remains is to program the last calculation which will give you the covariance. The cell E103 that you just programmed has just given you the numerator of the covariance formula. Immediately under this cell, so E104, type the following formula: = E103 / ___. The second reference of this formula, the denominator in sum, will be replaced by the number of pairs in your sample minus one, or 99 (110 - 1) if we go back to our example from the beginning. The result you get is the covariance of your data.

Method 3 of 4: Calculate covariance with an online calculator

Calculate Covariance Step 21

Step 1. Find covariance calculators online

You will find it more easily in English than in French, but this is not an obstacle as the presentation is simple. In any search engine, type a query like “online covariance calculator”.

Calculate Covariance Step 22

Step 2. Enter your data

Read and carefully follow the instructions given by the site, each has a specific way of entering data. The pairs are ordered and therefore for the calculations to be correct, the values ​​must be put in the order provided by the designers of the calculation program. You will see, there are a couple of ways to enter data on sites, although the spirit is basically the same.

  • On this site, you will find on the right two superimposed horizontal fields in which you can enter your values, obligatorily separated by a comma. If you take the previous example, you will type (or paste) the series of x { displaystyle x}

    x

    suivante: 1, 3, 2, 5, 8, 7, 12, 2, 4, et dans l'espace des y{displaystyle y}

    y

    , vous mettrez les y{displaystyle y}

    y

    : 8, 6, 9, 4, 3, 3, 2, 7, 7.

  • Sur cet autre site, vous devez entrer vos valeurs de x{displaystyle x}
  • x

    dans le cadre de gauche en allant à la ligne après chaque valeur. Faites de même avec les valeurs de y{displaystyle y}

    y

    dans le cadre de droite. Les valeurs de x{displaystyle x}

    x

    apparaitront ainsi:

  • 1
  • 3
  • 2
  • 5
  • 8
  • 7
  • 12
  • 2
  • 4
Calculate Covariance Step 23

Step 3. Start the calculations

On these sites, the longest is to enter the data. Then just press the calculate button to get the desired result. Often, these sites also display other calculations, such as the size of the series or the means of the x { displaystyle x}

x

et des y{displaystyle y}

y

Méthode 4 sur 4: Bien interpréter une covariance

Calculate Covariance Step 24

Step 1. Know how to interpret positive or negative covariance

Covariance is a statistical indicator that provides information on the degree of correlation between two statistical series. We started from an example with which we tried to see the possible link between height and weight of individuals. It is intuitively assumed that an individual's weight increases with height, which explains why the covariance is positive. Take another example, that of a golf player where we compare the number of hours spent and the scores obtained, it being understood that the lower the score under Par, the better the player. Assuming the player is progressing, we will have a negative covariance.

  • Let's go back to the statistical series that we had at the start. Its covariance was calculated to be - 8.07, or negative. The sign "-" here means that plus x { displaystyle x}

    x

    augmente, plus y{displaystyle y}

    y

    diminue (variation en sens inverse) Cela peut être confirmé si vous regardez quelques-unes des paires. Ainsi, on voit que lorsque x=1{displaystyle x=1}

    x=1

    ou

    x=2{displaystyle x=2}

    x=2

    , les valeurs de y{displaystyle y}

    y

    sont 7, 8 et 9. À l'inverse, on voit aussi que pour x=8{displaystyle x=8}

    x=8

    ou x=12{displaystyle x=12}

    {displaystyle x=12}

    , les valeurs de y{displaystyle y}

    y

    sont respectivement 3 et 2.

Calculate Covariance Step 25

Step 2. Know how to interpret the magnitude of a covariance

If a covariance value, whatever its sign, positive or negative, is high, you can infer without more precision that the two elements that you have put in parallel are strongly correlated, either positively or negatively.

In our example, we found a covariance of - 8.07. With values ​​ranging from 1 to 12, a covariance of 8 is considered high. This figure therefore indicates a strong correlation in the opposite direction between the two statistical series

Calculate Covariance Step 26

Step 3. Understand what a low or no correlation is

If you get a covariance equal to or close to 0, you can only conclude that your two data sets are poorly correlated. In other words, it can, for example, mean that if a value grows, the value associated with it does not necessarily increase. The two values ​​are most often unrelated.

Say you wanted to study the correlation between the shoe size of baccalaureate candidates and the results of those same candidates. Admittedly, the example is extreme, but we suspect that the correlation between these two indicators will be close to 0. The calculation will certainly confirm that there is no link between the two, it would still be necessary to verify it

Calculate Covariance Step 27

Step 4. Observe the correlation of the points on a graph

It is possible to visualize a covariance by placing the points in a Cartesian coordinate system. If you do, you will see a point cloud appear. Depending on whether the covariance is high or not, you will be able or not to draw a curved line which passes near the points. If the covariance is negative, this curve will go from the upper left part to the lower right part: this is the case for our example with a covariance of - 8, 07. As the correlation is strong between the two series (> 8), we can see that the points are roughly aligned on a correlation line.

Popular by topic