Régression de Poisson

Dimension: px
Commencer à balayer dès la page:

Download "Régression de Poisson"

Transcription

1 Régression de Poisson 8 novembre 221 Objectifs Savoir quand et comment utiliser un modèle linéaire généralisé avec distribution de Poisson. Détecter la surdispersion dans un modèle linéaire généralisé. Adapter l estimation de paramètres et la sélection de modèles au cas de modèles surdispersés. Introduction Au dernier cours, nous avons appliqué la régression logistique à l analyse de données binaires et binomiales. Dans ce cours-ci, nous verrons un autre type de modèle linéaire généralisé, la régression de Poisson, qui sert à modéliser le nombre d observations d un certain événement dans une unité d échantillonnage définie. Voici quelques exemples de ce type de données en écologie: le nombre de semis d une espèce dans plusieurs quadrats; le nombre d espèces (richesse spécifique) observé sur différents sites; le nombre d individus d une espèce d oiseau entendus dans un certain laps de temps lors de différentes visites à un site. Ou dans d autres domaines: le nombre de patients arrivant à l urgence par heure; le nombre de voitures traversant une intersection par minute. Propriétés des données de comptage Les données de comptage sont des nombres discrets ; on peut avoir, 1, 2,... observations, mais pas -1 ou 1.5. Lorsque le nombre moyen d observations est petit, la distribution des observations est généralement asyémtrique (ex.: si la moyenne est de 1, certains sites en auront plus que 2, mais jamais sous ). La variance du nombre d observations tend à augmenter avec la moyenne: par exemple, si on observe en moyenne 1 espèce de champignon par placette de 1x1m, les observations varieront peut-être entre et 3, mais si on en observe en moyenne 1, les observations pourraient varier entre 6 et 15. Ces propriétés justifient l utilisation d une distribution différente de la normale pour modéliser la réponse observée: la distribution de Poisson. Distribution de Poisson Supposons que la réponse y représente le nombre d observations d un événement dans un intervalle donné (intervalle de temps, de longueur, de surface, etc.). Supposons de plus que ces événements sont indépendants, 1

2 c est-à-dire que l observation d un premier événement n influence pas la probabilité d en observer ou non un deuxième. Dans ce cas, la variable y suit une distribution de Poisson, avec un paramètre λ représentant le taux moyen d observations par intervalle. La probabilité d une certaine valeur de y en fonction de λ est donnée par l équation suivante. P (y λ) = λy y! e λ La distribution de Poisson n a qu un paramètre: λ correspond à la fois à sa moyenne et à sa variance (donc l écart-type est λ). Dans R, la fonction rpois permet de générer des données suivant une distribution de Poisson et dpois donne la probabilité d une valeur de y donnée selon l équation ci-dessus. # Diagramme à barres de 1 valeurs aléatoires tirées # de la distribution de Poisson avec lambda = 3 ggplot(null, aes(x = rpois(1, 3))) + geom_bar() 2 15 count rpois(1, 3) # Probabilité d'obtenir y = 1 si lambda = 3 dpois(1, 3) [1]

3 Comparaison avec la distribution binomiale Pour la distribution binomiale, nous avions une réponse positive ou négative pour chaque individu (ou unité d échantillonnage) et nous essayions de prédire la probabilité d une réponse positive p. Dans la distribution de Poisson, la réponse est le nombre d observations par unité d échantillonnage et nous essayons de prédire la moyenne de ce nombre. Si on a une réponse binomiale qui est rare au niveau individuel (p est petit) et que la population n est grande, alors on peut modéliser le nombre de cas au niveau de la population par une distribution de Poisson avec λ = np. Exemple: Nous étudions une forêt de bouleaux où le chaga est présent sur une petite proportion (ex.: ~1%) des arbres. Au lieu de compter les bouleaux affectés et non-affectés par le chaga, on pourrait seulement compter le nombre de chancres de chaga dans des placettes de taille donnée et modéliser ce nombre avec une distribution de Poisson. Comparaison avec la distribution normale Lorsque λ est assez grand, la distribution de Poisson devient plus symétrique et tend vers une distribution normale. λ = 5 λ = count 1 count y y Autrement dit, si le nombre moyen est assez grand, le nombre d observations se comporte presque comme une variable continue suivant une distribution normale avec µ = λ. Dans ce cas, la régression linéaire pourrait s appliquer. Toutefois, il faut se rappeler que les deux modèles font différentes suppositions au sujet de la variance de la réponse. Dans le modèle de régression linéaire, la moyenne µ dépend des prédicteurs, mais la variance σ 2 est constante. Dans le modèle de régression de Poisson, la moyenne et la variance dépendent des prédicteurs, parce qu elles sont toutes deux égales à λ. Il faudra donc observer les graphiques de résidus pour déterminer quel modèle est le plus approprié. Indépendance des observations et surdispersion Tel que mentionné plus haut, la distribution de Poisson suppose l indépendance des observations individuelles. Il est rare que cette condition soit parfaitement respectée dans la nature. Par exemple: 3

4 la probabilité d observer un semis d une espèce augmente à proximité d autres semis (agglomération) si les semences sont dispersées en groupes près du parent; l observation d une espèce sur une placette affecte la probabilité d en observer d autres en fonction des relations de compétition ou de facilitation entre ces espèces. Le non-respect des suppositions de la distribution de Poisson peut notamment mener à une surdispersion des observations, c est-à-dire qu on observe plus de valeurs extrêmes que prévu par le modèle de Poisson. Dans le premier exemple ci-dessus, l agglomération fait qu on a davantage de placettes avec semis et davantage de placettes avec un grand nombre de semis. Dans le graphique ci-dessous, les barres en rouge suivent une distribution de Poisson tandis que celles en bleu représentent un cas de surdispersion. La moyenne de y est de 5 dans les deux cas. 15 count y Nous verrons plus loin comment identifier et traiter les cas de surdispersion. Régression de Poisson La régression de Poisson est un modèle linéaire généralisé où la réponse y suit une distribution de Poisson: y P ois(λ) Puisque λ doit être un nombre positif, nous utiliserons la fonction de logarithme comme lien avec le prédicteur linéaire. 4

5 m log λ = η = β + β i x i Selon les propriétés de la fonction log, une valeur de du prédicteur η correspond à λ = 1, une valeur positive correspond à λ > 1 et une valeur négative à λ < 1. i= λ η En inversant le log, on obtient une relation exponentielle entre la réponse moyenne λ et les prédicteurs: ŷ = λ = e β+ m i=1 βixi Puisque l addition de puissances correspond à une multiplication, ce modèle correspond à des effets multiplicatifs des prédicteurs sur la réponse. ŷ = e β e β1x1 e β2x2... Le logarithme est la fonction de lien par défaut pour la régression de Poisson. Pour bien interpréter les résultats de la régression, il faut se rappeler qu une transformation logarithmique est appliquée à la réponse moyenne. Résumé des modèles linéaires généralisés vu dans ce cours Modèle Distribution Lien par défaut Inverse du lien Régression linéaire Régression logistique Régression de Poisson Normale: y N(µ, σ) Identité: µ = η µ = η Binomiale: y B(n, p) Logit: log(p/(1 p)) = η p = 1/(1 + e η ) Poisson: y P ois(λ) Log: log(λ) = η λ = e η 5

6 Exemple Le fichier species.csv contient un tableau de données présentant le nombre d espèces de plantes dans différents quadrats (Species) en fonction de la biomasse totale du quadrat (Biomass) et du ph codé selon trois niveaux (faible, moyen, élevé). sp <- read.csv("../donnees/species.csv") # Niveaux de ph dans le bon ordre sp$ph <- factor(sp$ph, levels = c("low", "mid", "high")) str(sp) 'data.frame': 9 obs. of 3 variables: $ ph : Factor w/ 3 levels "low","mid","high": $ Biomass: num $ Species: int Regardons la distribution de la réponse en fonction des prédicteurs: ggplot(sp, aes(x = Biomass, y = Species)) + geom_point() 4 Species Biomass ggplot(sp, aes(x = ph, y = Species)) + geom_boxplot() 6

7 4 Species low mid high ph Sur ces graphiques, nous remarquons que les conditions associées à un plus grand nombre moyen d espèces (biomasse faible, ph élevé) ont aussi une plus grande variance. Cela suggère qu une régression de Poisson pourrait être appropriée. Comme pour la régression logistique, la régression de Poisson utilise la fonction glm. Il faut spécifier la famille poisson et (optionnellement) le lien log. mod_sp <- glm(species ~ Biomass + ph, sp, family = poisson(link = "log")) summary(mod_sp) Call: glm(formula = Species ~ Biomass + ph, family = poisson(link = "log"), data = sp) Deviance Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) <2e-16 *** Biomass <2e-16 *** phmid <2e-16 *** phhigh <2e-16 *** --- Signif. codes: '***'.1 '**'.1 '*'.5 '.'.1 ' ' 1 (Dispersion parameter for poisson family taken to be 1) Null deviance: on 89 degrees of freedom Residual deviance: on 86 degrees of freedom AIC: Number of Fisher Scoring iterations: 4 Avant d interpréter les coefficients, vérifions l ajustement du modèle avec les graphiques de diagnostic. 7

8 Residuals Residuals vs Fitted Std. Pearson resid Normal Q Q Predicted values Theoretical Quantiles Std. Pearson resid Scale Location Std. Pearson resid. 2 2 Residuals vs Leverage 18 Cook's distance Predicted values Leverage Le premier graphique montre une tendance au niveau des résidus (résidus plus négatifs aux extrêmes et plus positifs au centre). Vu le nombre de points, cette tendance n est probablement pas due au hasard mais représente un effet systématique qui n est pas pris en compte dans ce modèle. Essayons donc un modèle plus complexe ou il y a interaction entre l effet de la biomasse et du ph. mod_sp_inter <- glm(species ~ Biomass * ph, sp, family = poisson) 8

9 Residuals Residuals vs Fitted Std. Pearson resid Normal Q Q Predicted values Theoretical Quantiles Std. Pearson resid Scale Location Std. Pearson resid. 3 3 Residuals vs Leverage 18 Cook's distance Predicted values Leverage Sans avoir éliminé complètement la tendance, cet ajustement semble bien meilleur. Note: Dans ce cas-ci, ces résidus s approchent de la normalité (d après le diagramme quantile-quantile) car les valeurs observées de la réponse sont assez élevées (nombre moyen de 2 espèces par quadrat). Nous avions la même situation pour la régression logistique binomiale lorsque n était élevé. Toutefois, nous ne nous attendons pas à ce que le diagramme quantile-quantile montre une droite si λ est petit, même si le modèle de Poisson s applique parfaitement. Regardons maintenant le sommaire du modèle. summary(mod_sp_inter) Call: glm(formula = Species ~ Biomass * ph, family = poisson, data = sp) Deviance Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) < 2e-16 *** Biomass e-12 *** phmid e-6 *** phhigh e-15 *** Biomass:pHmid ** Biomass:pHhigh *** 9

10 --- Signif. codes: '***'.1 '**'.1 '*'.5 '.'.1 ' ' 1 (Dispersion parameter for poisson family taken to be 1) Null deviance: on 89 degrees of freedom Residual deviance: on 84 degrees of freedom AIC: Number of Fisher Scoring iterations: 4 L AIC de ce modèle est égal à 514 comparé à 526 pour le modèle sans interaction, ce qui confirme le meilleur ajustement. Le pseudo-r 2 est aussi élevé (1-83/452 =.82). Voici un graphique montrant la superposition des valeurs attendues de la réponse (courbes tracées à partir des valeurs fitted(mod_sp_inter)) et des valeurs observées (points) en fonction de la biomasse et du ph. ggplot(sp, aes(x = Biomass, y = Species, color = ph)) + geom_point() + geom_line(aes(y = fitted(mod_sp_inter))) + scale_color_brewer(palette = "Dark2") 4 Species 3 2 ph low mid high Biomass Interprétation des coefficients L interprétation des coefficients du modèle est plus complexe avec les interactions, donc commençons avec le modèle sans interaction. 1

11 summary(mod_sp) Call: glm(formula = Species ~ Biomass + ph, family = poisson(link = "log"), data = sp) Deviance Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) <2e-16 *** Biomass <2e-16 *** phmid <2e-16 *** phhigh <2e-16 *** --- Signif. codes: '***'.1 '**'.1 '*'.5 '.'.1 ' ' 1 (Dispersion parameter for poisson family taken to be 1) Null deviance: on 89 degrees of freedom Residual deviance: on 86 degrees of freedom AIC: Number of Fisher Scoring iterations: 4 Il est plus facile de déterminer d abord l effet de chaque coefficient du modèle sur le prédicteur linéaire: η = β + m i=1 β ix i, puis de déduire l effet sur la moyenne de la réponse (λ) à partir de la fonction λ = e η. Par exemple, l ordonnée à l origine indique que dans le cas où la biomasse est et le ph est bas (niveau de référence), η = 2.71 et donc λ = e η = 15. espèces. Bien sûr, cette valeur n est pas réaliste car il ne peut pas y avoir d espèces sans biomasse. Pour les autres paramètres: Le coefficient Biomass indique que η diminue de.13 pour chaque augmentation d une unité de biomasse, si les autres variables (donc le ph) restent constantes. Un changement additif de -.13 sur l échelle logarithmique correspond à un changement multiplicatif de e.13 =.88, soit une perte de 12% du nombre moyen d espèces par unité de biomasse supplémentaire. Le coefficient de phmid indique que lorsqu on passe d un niveau bas à moyen de ph (pour la même biomasse), η augmente de.69. Puisque e.69 = 2., le nombre moyen d espèces à un ph moyen est le double de celui à un ph bas. De même, le coefficient de phhigh indique que le nombre moyen d espèces est multiplié par e 1.14 = 3.13 si on passe d un ph bas à un ph élevé pour la même biomasse. En résumé, dans le cas où il n y a pas d interactions, les effets sont additifs sur l échelle du prédicteur linéaire. Le coefficient β i de la variable x i indique qu une augmentation de 1 unité de x i, en maintenant les valeurs des autres variables, résulte en une multiplication de la réponse moyenne par e βi. Regardons maintenant le cas de l interaction: summary(mod_sp_inter) 11

12 Call: glm(formula = Species ~ Biomass * ph, family = poisson, data = sp) Deviance Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) < 2e-16 *** Biomass e-12 *** phmid e-6 *** phhigh e-15 *** Biomass:pHmid ** Biomass:pHhigh *** --- Signif. codes: '***'.1 '**'.1 '*'.5 '.'.1 ' ' 1 (Dispersion parameter for poisson family taken to be 1) Null deviance: on 89 degrees of freedom Residual deviance: on 84 degrees of freedom AIC: Number of Fisher Scoring iterations: 4 Dans le modèle avec interaction, l effet du ph dépend de la biomasse et vice versa. Considérerons donc séparément les trois niveaux de ph; pour simplifier, l effet biomasse = sera indiqué même si ce n est pas un niveau réaliste de la variable. À ph bas, nous avons: η = biomasse. Donc, le nombre d espèce moyen est de e 2.95 = 19 pour une biomasse de et diminue de 23% (e.26 =.77) par unité de biomasse. À ph moyen, nous avons: η = ( ) + ( ) biomasse, ou η = biomasse. Donc, le nombre d espèce moyen est de 3.9 pour une biomasse de et diminue de 13% par unité de biomasse. À ph élevé, nous avons: η = ( ) + ( ) biomasse, équivalent à un nombre d espèces moyen de 43.4 pour une biomasse de et une diminution de 1% par unité de biomasse. Pour une interaction entre une variable numérique et une variable catégorielle, il est plus simple de décrire les effets pour chaque niveau de la variable catégorielle, comme nous venons de faire. Pour une interaction entre deux variables numériques, nous pouvons visualiser les effets à partir des courbes de valeurs prédites, mais il devient compliqué d interpréter les coefficients individuels. Surdispersion Le sommaire des résultats des régressions de Poisson effectuées dans la partie précédente incluait le message: (Dispersion parameter for poisson family taken to be 1). Ce message nous rappelle que la variance des observations n est pas estimée de façon indépendante dans ce modèle (contrairement au modèle de régression linéaire), mais égale à la valeur moyenne λ estimée en fonction des prédicteurs pour chaque point. Tel qu il a été mentionné dans l introduction, la non-indépendance des observations individuelles peut causer une surdispersion des données par rapport aux suppositions de la distribution de Poisson. Cette surdispersion 12

13 est représentée par un paramètre φ qui multiplie la variance attendue: pour une moyenne λ, la variance devient donc φλ. De façon moins fréquente, il arrive que φ < 1, correspondant à une sous-dispersion des observations. Contrairement à la surdispersion, où les observations tendent à être regroupées (ex.: quelques quadrats avec de nombreux individus, et plusieurs avec peu ou pas d individus), la sous-dispersion signifie que les observations sont réparties de façon plus régulière que prévue. Cela pourrait être dû par exemple à la compétition intraspécifique ou à la territorialité (dans le cas d animaux) qui mène les individus à s espacer de façon régulière. Estimation du paramètre de dispersion Pour détecter la présente de surdispersion ou de sous-dispersion, nous utiliserons la statistique du χ 2, qui a déjà été vue dans le contexte des tableaux de contingence. Cette statistique est calculée à partir des écarts carrés entre les valeurs observées y et attendues ŷ, normalisés par la valeur attendue, pour chacun des n points du jeu de données. χ 2 = n (y k ŷ k ) 2 k=1 Si les données suivent la distribution de Poisson, la valeur moyenne du χ 2 est égale au nombre de degrés de liberté résiduels du modèle: df res = n p, où p est le nombre de paramètres estimés. Pour estimer le paramètre de dispersion φ, nous utiliserons donc l estimateur: ŷ k Pour le modèle avec interactions, nous obtenons presque exactement la valeur théorique de 1: ĉ = χ2 df res chisq <- sum((sp$species - fitted(mod_sp_inter))^2/fitted(mod_sp_inter)) chisq/mod_sp_inter$df.residual [1] Pour le modèle sans interaction, nous détectons une légère surdispersion: chisq <- sum((sp$species - fitted(mod_sp))^2/fitted(mod_sp)) chisq/mod_sp$df.residual [1] Pour déterminer si le χ 2 diffère significativement de la valeur attendue selon la distribution de Poisson, nous pouvons calculer la probabilité d avoir obtenu un χ 2 plus élevé si le modèle est correct. 1 - pchisq(chisq, df = mod_sp$df.residual) [1] Dans ce cas, la surdispersion n est pas significative, il n est donc pas nécessaire d ajuster les résultats du modèle. Exemple de données surdispersées Le tableau de données galapagos.csv donne le nombre d espèces de plantes (Species) et le nombre d espèces endémiques (Endemics) pour différentes îles de l archipel des Galapagos en fonction de leur superficie (Area), 13

14 de leur altitude moyenne (Elevation), de la superficie de l île la plus près (Adjacent), de la distance à l île la plus près (Nearest) et de la distance à l île de Santa Cruz (Scruz). glp <- read.csv("../donnees/galapagos.csv") str(glp) 'data.frame': 3 obs. of 8 variables: $ Name : chr "Baltra" "Bartolome" "Caldwell" "Champion"... $ Species : int $ Endemics : int $ Area : num $ Elevation: int $ Nearest : num $ Scruz : num $ Adjacent : num Supposons que nous voulons déterminer comment le nombre d espèces de plantes endémiques (celles présentent sur une seule île) varie en fonction des prédicteurs Area, Elevation, Nearest et Adjacent. Puisque chacun de ces prédicteurs est distribué de façon très asymétrique (voir l exemple ci-dessous pour la superficie), nous utiliserons le logarithme de chaque prédicteur. 4 4 log(endemics) log(endemics) Area 5 5 log(area) Nous ajustons le modèle suivant dans R. Notez que la réponse est Endemics et non log(endemics), car le lien log est inclus dans le modèle glm avec distribution de Poisson. mod_glp <- glm(endemics ~ log(area) + log(elevation) + log(nearest) + log(adjacent), data = glp, family = poisson) Les graphiques de diagnostic indiquent la présence de quelques valeurs extrêmes, bien qu aucune des distances de Cook soit >1. par(mfrow = c(2,2)) plot(mod_glp) 14

15 Residuals 2 2 Residuals vs Fitted Std. Pearson resid. 2 2 Normal Q Q Predicted values Theoretical Quantiles Std. Pearson resid Scale Location Std. Pearson resid. 2 2 Residuals vs Leverage 22.5 Cook's distance Predicted values Leverage par(mfrow = c(1, 1)) Le modèle indique des effets significatifs pour 3 paramètres: le nombre d espèces endémiques augmente avec la superficie de l île; il diminue en fonction de la distance à l île la plus près et de la superficie de cette île la plus près. summary(mod_glp) Call: glm(formula = Endemics ~ log(area) + log(elevation) + log(nearest) + log(adjacent), family = poisson, data = glp) Deviance Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) e-8 *** log(area) < 2e-16 *** log(elevation) log(nearest) ** log(adjacent) e-5 *** --- Signif. codes: '***'.1 '**'.1 '*'.5 '.'.1 ' ' 1 15

16 (Dispersion parameter for poisson family taken to be 1) Null deviance: on 29 degrees of freedom Residual deviance: on 25 degrees of freedom AIC: Number of Fisher Scoring iterations: 5 Toutefois, en faisant le test du χ 2, nous notons que les données sont surdispersées. chisq <- sum((glp$endemics - fitted(mod_glp))^2/fitted(mod_glp)) 1 - pchisq(chisq, df = mod_glp$df.residual) [1] e-9 disp <- chisq/mod_glp$df.residual disp [1] L estimé du paramètre de dispersion est égal à 3.7. Lorsque ĉ n est pas trop élevé (typiquement, on suggère ĉ < 4), les estimés des coefficients de la régression de Poisson demeurent valides, mais il faut multiplier leurs erreurs-types par ĉ. Autrement dit, la surdispersion n introduit pas de biais, mais augmente l incertitude sur les valeurs des coefficients. Si la surdispersion est très grande, il est préférable d utiliser un autre modèle. Pour corriger les erreurs-types, il suffit d ajouter un argument dispersion au moment d appeler la fonction summary: summary(mod_glp, dispersion = disp) Call: glm(formula = Endemics ~ log(area) + log(elevation) + log(nearest) + log(adjacent), family = poisson, data = glp) Deviance Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) ** log(area) e-7 *** log(elevation) log(nearest) log(adjacent) * --- Signif. codes: '***'.1 '**'.1 '*'.5 '.'.1 ' ' 1 (Dispersion parameter for poisson family taken to be ) Null deviance: on 29 degrees of freedom Residual deviance: on 25 degrees of freedom AIC: Number of Fisher Scoring iterations: 5 De façon équivalente, on peut utiliser la famille quasipoisson qui effectue automatiquement l estimation du 16

17 paramètre de dispersion. mod_quasi <- glm(endemics ~ log(area) + log(elevation) + log(nearest) + log(adjacent), data = glp, family = quasipoisson) summary(mod_quasi) Call: glm(formula = Endemics ~ log(area) + log(elevation) + log(nearest) + log(adjacent), family = quasipoisson, data = glp) Deviance Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) ** log(area) e-5 *** log(elevation) log(nearest) log(adjacent) * --- Signif. codes: '***'.1 '**'.1 '*'.5 '.'.1 ' ' 1 (Dispersion parameter for quasipoisson family taken to be ) Null deviance: on 29 degrees of freedom Residual deviance: on 25 degrees of freedom AIC: NA Number of Fisher Scoring iterations: 5 Paramètre de dispersion pour la famille binomiale Pour une régression ou la réponse est binomiale (nombre de succès y et d échecs n y), les réponses peuvent aussi être surdispersées ou sous-dispersées. Dans ce cas, on estime le paramètre de dispersion de la même façon avec la statistique du χ 2. On peut aussi utiliser la famille quasibinomial avec la fonction glm. Pour une réponse binaire ( ou 1), le concept de paramètre de dispersion ne s applique pas, car la variance est toujours p(1 p). Sélection de modèles avec surdispersion En plus d augmenter l erreur-type des coefficients du modèle, la surdispersion affecte aussi la sélection de modèles avec l AIC. Le QAIC, l équivalent de l AIC pour les modèles de type quasibinomial ou quasipoisson, est calculé en divisant le premier terme de l AIC par l estimé du paramètre de dispersion. QAIC = 2 log L ĉ + 2K On peut modifier l AICc de la même façon pour obtenir le QAICc. 17

18 QAICc = 2 log L ( ) n + 2K ĉ n K 1 Le ĉ compte lui-même comme un paramètre estimé, donc la valeur de K augmente aussi de 1 par rapport au modèle sans surdispersion. Si on compare plusieurs modèles avec le QAIC ou QIACc, il faut utiliser une seule valeur du ĉ, celle calculée à partir du modèle le plus complexe. Cette valeur est fournie aux fonctions du package (par exemple, aictab) avec l argument c.hat. Par exemple, considérons les quatres modèles suivants pour prédire le nombre d espèces endémiques sur les îles Galapagos. mod_area <- glm(endemics ~ log(area), data = glp, family = poisson) mod_area_near <- glm(endemics ~ log(area) + log(nearest), data = glp, family = poisson) mod_area_adj <- glm(endemics ~ log(area) + log(adjacent), data = glp, family = poisson) mod_comp <- glm(endemics ~ log(area) + log(nearest) + log(adjacent), data = glp, family = poisson) Remarquez que nous utilisons la famille poisson plutôt que quasipoisson; nous laisserons la fonction de sélection de modèles appliquer la correction. Le paramètre de dispersion du modèle complet peut être calculé avec la fonction c_hat de AICcmodavg. (Cette valeur diffère un peu de celle obtenue plus haut, car nous avons retranché le prédicteur Elevation.) library(aiccmodavg) disp <- c_hat(mod_comp) disp 'c-hat' 3.56 (method: pearson estimator) Voici le tableau du QAICc pour ces modèles: mod_list <- list(mod_area = mod_area, mod_area_near = mod_area_near, mod_area_adj = mod_area_adj, mod_comp = mod_comp) aictab(mod_list, c.hat = disp) Model selection based on QAICc: (c-hat estimate = ) K QAICc Delta_QAICc QAICcWt Cum.Wt Quasi.LL mod_area_adj mod_comp mod_area mod_area_near Comparons maintenant avec la version obtenue sans tenir compte de la surdispersion: aictab(mod_list) Model selection based on AICc: K AICc Delta_AICc AICcWt Cum.Wt LL mod_comp mod_area_adj mod_area_near mod_area

19 Non seulement la surdispersion change l ordre des modèles, mais elle diminue la différence entre les modèles: les QAICc sont beaucoup plus rapprochés que les AICc. Les quatre modèles ont un poids supérieur à 1% dans le premier cas, tandis que le premier modèle obtient 95% des poids dans le deuxième tableau. Ainsi, il y a davantage d incertitude sur le choix d un meilleur modele. Résumé Régression de Poisson La distribution de Poisson représente le nombre d observations indépendantes d un événement dans une unité d échantillonnage. Le modèle de régression de Poisson est basé sur une distribution de Poisson de la réponse autour de sa valeur moyenne; cette valeur est reliée au prédicteur linéaire par la fonction de logarithme. En raison du lien logarithmique, les effets additifs sur l échelle du prédicteur linéaire deviennent des effets multiplicatifs sur l échelle de la réponse. Les distributions binomiale et de Poisson supposent une certaine relation entre la valeur moyenne de la réponse et sa variance. La surdispersion correspond à une variance plus grande que prévue par la distribution. Si le paramètre de dispersion n est pas trop élevé (ĉ < 4), on peut tout de même utiliser le modèle de Poisson (ou binomial) et multiplier les erreurs-types des coefficients par ĉ. Pour la sélection de modèles, l AIC(c) doit être remplacé par le QAIC(c) pour tenir compte de la surdispersion. Modélisation statistique: points généraux à retenir Nous avons étudié différents types de modèles cette session (ANOVA, régression linéaire, modèles linéaires généralisés et modèles mixtes à venir). Vous aurez peut-être remarqué que nous appliquons des étapes semblables dans chaque cas. Exploration des données (distribution des variables individuelles et corrélations); Choix d un type de modèle et ajustement du modèle (lm, glm, etc.); Vérification des suppositions du modèle (ex.: graphiques de diagnostic, paramètre de dispersion); Interprétation des valeurs estimées des coefficients; Visualisation des prédictions du modèle; Si plusieurs modèles candidats: comparaison, sélection d un meilleur modèle et/ou prédictions multimodèles. Vous devriez être en mesure de réaliser chacune de ses étapes pour les modèles statistiques vus dans ce cours et ceux que vous appliquerez à vos travaux de recherche. 19

Données longitudinales et modèles de survie

Données longitudinales et modèles de survie ANALYSE DU Données longitudinales et modèles de survie 5. Modèles de régression en temps discret André Berchtold Département des sciences économiques, Université de Genève Cours de Master ANALYSE DU Plan

Plus en détail

Exercices M1 SES 2014-2015 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Exercices M1 SES 2014-2015 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 2015 Exercices M1 SES 214-215 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 215 Les exemples numériques présentés dans ce document d exercices ont été traités sur le logiciel R, téléchargeable par

Plus en détail

Un exemple de régression logistique sous

Un exemple de régression logistique sous Fiche TD avec le logiciel : tdr341 Un exemple de régression logistique sous A.B. Dufour & A. Viallefont Etude de l apparition ou non d une maladie cardiaque des coronaires 1 Présentation des données Les

Plus en détail

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Professeur Patrice Francour [email protected] Une grande partie des illustrations viennent

Plus en détail

Une introduction. Lionel RIOU FRANÇA. Septembre 2008

Une introduction. Lionel RIOU FRANÇA. Septembre 2008 Une introduction INSERM U669 Septembre 2008 Sommaire 1 Effets Fixes Effets Aléatoires 2 Analyse Classique Effets aléatoires Efficacité homogène Efficacité hétérogène 3 Estimation du modèle Inférence 4

Plus en détail

Lire ; Compter ; Tester... avec R

Lire ; Compter ; Tester... avec R Lire ; Compter ; Tester... avec R Préparation des données / Analyse univariée / Analyse bivariée Christophe Genolini 2 Table des matières 1 Rappels théoriques 5 1.1 Vocabulaire....................................

Plus en détail

Analyse de la variance Comparaison de plusieurs moyennes

Analyse de la variance Comparaison de plusieurs moyennes Analyse de la variance Comparaison de plusieurs moyennes Biostatistique Pr. Nicolas MEYER Laboratoire de Biostatistique et Informatique Médicale Fac. de Médecine de Strasbourg Mars 2011 Plan 1 Introduction

Plus en détail

Exemples d application

Exemples d application AgroParisTech Exemples d application du modèle linéaire E Lebarbier, S Robin Table des matières 1 Introduction 4 11 Avertissement 4 12 Notations 4 2 Régression linéaire simple 7 21 Présentation 7 211 Objectif

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

Leçon N 4 : Statistiques à deux variables

Leçon N 4 : Statistiques à deux variables Leçon N 4 : Statistiques à deux variables En premier lieu, il te faut relire les cours de première sur les statistiques à une variable, il y a tout un langage à se remémorer : étude d un échantillon d

Plus en détail

Systèmes de transmission

Systèmes de transmission Systèmes de transmission Conception d une transmission série FABRE Maxime 2012 Introduction La transmission de données désigne le transport de quelque sorte d'information que ce soit, d'un endroit à un

Plus en détail

SAS ENTERPRISE MINER POUR L'ACTUAIRE

SAS ENTERPRISE MINER POUR L'ACTUAIRE SAS ENTERPRISE MINER POUR L'ACTUAIRE Conférence de l Association des Actuaires I.A.R.D. 07 JUIN 2013 Sylvain Tremblay Spécialiste en formation statistique SAS Canada AGENDA Survol d Enterprise Miner de

Plus en détail

TABLE DES MATIERES. C Exercices complémentaires 42

TABLE DES MATIERES. C Exercices complémentaires 42 TABLE DES MATIERES Chapitre I : Echantillonnage A - Rappels de cours 1. Lois de probabilités de base rencontrées en statistique 1 1.1 Définitions et caractérisations 1 1.2 Les propriétés de convergence

Plus en détail

Imputation du salaire d ego dans TeO

Imputation du salaire d ego dans TeO Imputation du salaire d ego dans TeO Objet de la note : linéariser la réponse en tranche du salaire, et imputer le salaire en cas de non réponse Champ et principe de la méthode Les individus qui se sont

Plus en détail

Annexe commune aux séries ES, L et S : boîtes et quantiles

Annexe commune aux séries ES, L et S : boîtes et quantiles Annexe commune aux séries ES, L et S : boîtes et quantiles Quantiles En statistique, pour toute série numérique de données à valeurs dans un intervalle I, on définit la fonction quantile Q, de [,1] dans

Plus en détail

Modèles pour données répétées

Modèles pour données répétées Résumé Les données répétées, ou données longitudinales, constituent un domaine à la fois important et assez particulier de la statistique. On entend par données répétées des données telles que, pour chaque

Plus en détail

STATISTIQUES. UE Modélisation pour la biologie

STATISTIQUES. UE Modélisation pour la biologie STATISTIQUES UE Modélisation pour la biologie 2011 Cadre Général n individus: 1, 2,..., n Y variable à expliquer : Y = (y 1, y 2,..., y n ), y i R Modèle: Y = Xθ + ε X matrice du plan d expériences θ paramètres

Plus en détail

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position Arbre de NESI distribution quelconque Signe 1 échantillon distribution symétrique non gaussienne Wilcoxon gaussienne Student position appariés 1 échantillon sur la différence avec référence=0 2 échantillons

Plus en détail

TSTI 2D CH X : Exemples de lois à densité 1

TSTI 2D CH X : Exemples de lois à densité 1 TSTI 2D CH X : Exemples de lois à densité I Loi uniforme sur ab ; ) Introduction Dans cette activité, on s intéresse à la modélisation du tirage au hasard d un nombre réel de l intervalle [0 ;], chacun

Plus en détail

Chapitre 3. Les distributions à deux variables

Chapitre 3. Les distributions à deux variables Chapitre 3. Les distributions à deux variables Jean-François Coeurjolly http://www-ljk.imag.fr/membres/jean-francois.coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University 1 Distributions conditionnelles

Plus en détail

La problématique des tests. Cours V. 7 mars 2008. Comment quantifier la performance d un test? Hypothèses simples et composites

La problématique des tests. Cours V. 7 mars 2008. Comment quantifier la performance d un test? Hypothèses simples et composites La problématique des tests Cours V 7 mars 8 Test d hypothèses [Section 6.1] Soit un modèle statistique P θ ; θ Θ} et des hypothèses H : θ Θ H 1 : θ Θ 1 = Θ \ Θ Un test (pur) est une statistique à valeur

Plus en détail

Introduction à la statistique non paramétrique

Introduction à la statistique non paramétrique Introduction à la statistique non paramétrique Catherine MATIAS CNRS, Laboratoire Statistique & Génome, Évry http://stat.genopole.cnrs.fr/ cmatias Atelier SFDS 27/28 septembre 2012 Partie 2 : Tests non

Plus en détail

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

NOTE SUR LA MODELISATION DU RISQUE D INFLATION NOTE SUR LA MODELISATION DU RISQUE D INFLATION 1/ RESUME DE L ANALYSE Cette étude a pour objectif de modéliser l écart entre deux indices d inflation afin d appréhender le risque à très long terme qui

Plus en détail

Introduction aux Statistiques et à l utilisation du logiciel R

Introduction aux Statistiques et à l utilisation du logiciel R Introduction aux Statistiques et à l utilisation du logiciel R Christophe Lalanne Christophe Pallier 1 Introduction 2 Comparaisons de deux moyennes 2.1 Objet de l étude On a mesuré le temps de sommeil

Plus en détail

«Cours Statistique et logiciel R»

«Cours Statistique et logiciel R» «Cours Statistique et logiciel R» Rémy Drouilhet (1), Adeline Leclercq-Samson (1), Frédérique Letué (1), Laurence Viry (2) (1) Laboratoire Jean Kuntzmann, Dép. Probabilites et Statistique, (2) Laboratoire

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

Moments des variables aléatoires réelles

Moments des variables aléatoires réelles Chapter 6 Moments des variables aléatoires réelles Sommaire 6.1 Espérance des variables aléatoires réelles................................ 46 6.1.1 Définition et calcul........................................

Plus en détail

Aide-mémoire de statistique appliquée à la biologie

Aide-mémoire de statistique appliquée à la biologie Maxime HERVÉ Aide-mémoire de statistique appliquée à la biologie Construire son étude et analyser les résultats à l aide du logiciel R Version 5(2) (2014) AVANT-PROPOS Les phénomènes biologiques ont cela

Plus en détail

NOTIONS DE PROBABILITÉS

NOTIONS DE PROBABILITÉS NOTIONS DE PROBABILITÉS Sommaire 1. Expérience aléatoire... 1 2. Espace échantillonnal... 2 3. Événement... 2 4. Calcul des probabilités... 3 4.1. Ensemble fondamental... 3 4.2. Calcul de la probabilité...

Plus en détail

Etude des propriétés empiriques du lasso par simulations

Etude des propriétés empiriques du lasso par simulations Etude des propriétés empiriques du lasso par simulations L objectif de ce TP est d étudier les propriétés empiriques du LASSO et de ses variantes à partir de données simulées. Un deuxième objectif est

Plus en détail

Représentation d une distribution

Représentation d une distribution 5 Représentation d une distribution VARIABLE DISCRÈTE : FRÉQUENCES RELATIVES DES CLASSES Si dans un graphique représentant une distribution, on place en ordonnées le rapport des effectifs n i de chaque

Plus en détail

Étude de cas Assurance (d après une étude de Philippe Périé, CISIA)

Étude de cas Assurance (d après une étude de Philippe Périé, CISIA) Étude de cas Assurance (d après une étude de Philippe Périé, CISIA) I.1.Les données L échantillon est constitué de 1106 assurés Belges observés en 1992 et répartis en 2 groupes. - les assurés qui n ont

Plus en détail

Arithmétique binaire. Chapitre. 5.1 Notions. 5.1.1 Bit. 5.1.2 Mot

Arithmétique binaire. Chapitre. 5.1 Notions. 5.1.1 Bit. 5.1.2 Mot Chapitre 5 Arithmétique binaire L es codes sont manipulés au quotidien sans qu on s en rende compte, et leur compréhension est quasi instinctive. Le seul fait de lire fait appel au codage alphabétique,

Plus en détail

Coup de Projecteur sur les Réseaux de Neurones

Coup de Projecteur sur les Réseaux de Neurones Coup de Projecteur sur les Réseaux de Neurones Les réseaux de neurones peuvent être utilisés pour des problèmes de prévision ou de classification. La représentation la plus populaire est le réseau multicouche

Plus en détail

Chapitre 6. Fonction réelle d une variable réelle

Chapitre 6. Fonction réelle d une variable réelle Chapitre 6 Fonction réelle d une variable réelle 6. Généralités et plan d étude Une application de I dans R est une correspondance entre les éléments de I et ceu de R telle que tout élément de I admette

Plus en détail

Arbres binaires de décision

Arbres binaires de décision 1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression

Plus en détail

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS Logiciel XLSTAT version 7.0 Contact : Addinsoft 40 rue Damrémont 75018 PARIS 2005-2006 Plan Présentation générale du logiciel Statistiques descriptives Histogramme Discrétisation Tableau de contingence

Plus en détail

Calcul élémentaire des probabilités

Calcul élémentaire des probabilités Myriam Maumy-Bertrand 1 et Thomas Delzant 1 1 IRMA, Université Louis Pasteur Strasbourg, France Licence 1ère Année 16-02-2006 Sommaire La loi de Poisson. Définition. Exemple. 1 La loi de Poisson. 2 3 4

Plus en détail

Rappels sur les suites - Algorithme

Rappels sur les suites - Algorithme DERNIÈRE IMPRESSION LE 14 septembre 2015 à 12:36 Rappels sur les suites - Algorithme Table des matières 1 Suite : généralités 2 1.1 Déition................................. 2 1.2 Exemples de suites............................

Plus en détail

IBM SPSS Regression 21

IBM SPSS Regression 21 IBM SPSS Regression 21 Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Remarques sur p. 46. Cette version s applique à IBM SPSS Statistics

Plus en détail

TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options

TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options Université de Lorraine Modélisation Stochastique Master 2 IMOI 2014-2015 TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options 1 Les options Le but de ce

Plus en détail

Analyse statistique de données qualitatives et quantitatives en sciences sociales : TP RÉGRESSION LOGISTIQUE (MODÈLES CHAPITRE 1)

Analyse statistique de données qualitatives et quantitatives en sciences sociales : TP RÉGRESSION LOGISTIQUE (MODÈLES CHAPITRE 1) Analyse statistique de données qualitatives et quantitatives en sciences sociales : TP RÉGRESSION LOGISTIQUE (MODÈLES CHAPITRE 1) Modèles de régression logistique à réaliser Une explicative catégorielle

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

Exemple PLS avec SAS

Exemple PLS avec SAS Exemple PLS avec SAS This example, from Umetrics (1995), demonstrates different ways to examine a PLS model. The data come from the field of drug discovery. New drugs are developed from chemicals that

Plus en détail

Fonctions de deux variables. Mai 2011

Fonctions de deux variables. Mai 2011 Fonctions de deux variables Dédou Mai 2011 D une à deux variables Les fonctions modèlisent de l information dépendant d un paramètre. On a aussi besoin de modéliser de l information dépendant de plusieurs

Plus en détail

Analyse des durées de vie avec le logiciel R

Analyse des durées de vie avec le logiciel R Analyse des durées de vie avec le logiciel R Ségolen Geffray Des outils ainsi que des données pour l analyse des durées de vie sont disponibles dans les packages survival MASS Il est nécessaire de charger

Plus en détail

Tests statistiques et régressions logistiques sous R, avec prise en compte des plans d échantillonnage complexes

Tests statistiques et régressions logistiques sous R, avec prise en compte des plans d échantillonnage complexes , avec prise en compte des plans d échantillonnage complexes par Joseph LARMARANGE version du 29 mars 2007 Ce cours a été développé pour une formation niveau M2 et Doctorat des étudiants du laboratoire

Plus en détail

FICHE 1 Fiche à destination des enseignants

FICHE 1 Fiche à destination des enseignants FICHE 1 Fiche à destination des enseignants 1S 8 (b) Un entretien d embauche autour de l eau de Dakin Type d'activité Activité expérimentale avec démarche d investigation Dans cette version, l élève est

Plus en détail

ANNUITES. Les annuités définissent une suite de versements identiques ou non effectués à intervalles de temps égaux. -annuités non constantes

ANNUITES. Les annuités définissent une suite de versements identiques ou non effectués à intervalles de temps égaux. -annuités non constantes ANNUITES I Notions d annuités a.définition Les annuités définissent une suite de versements identiques ou non effectués à intervalles de temps égaux. Le processus de versements dépend du montant de l annuité,

Plus en détail

Le modèle de Black et Scholes

Le modèle de Black et Scholes Le modèle de Black et Scholes Alexandre Popier février 21 1 Introduction : exemple très simple de modèle financier On considère un marché avec une seule action cotée, sur une période donnée T. Dans un

Plus en détail

FctsAffines.nb 1. Mathématiques, 1-ère année Edition 2007-2008. Fonctions affines

FctsAffines.nb 1. Mathématiques, 1-ère année Edition 2007-2008. Fonctions affines FctsAffines.nb 1 Mathématiques, 1-ère année Edition 2007-2008 Fonctions affines Supports de cours de mathématiques de degré secondaire II, lien hpertete vers la page mère http://www.deleze.name/marcel/sec2/inde.html

Plus en détail

CAPTEURS - CHAINES DE MESURES

CAPTEURS - CHAINES DE MESURES CAPTEURS - CHAINES DE MESURES Pierre BONNET Pierre Bonnet Master GSI - Capteurs Chaînes de Mesures 1 Plan du Cours Propriétés générales des capteurs Notion de mesure Notion de capteur: principes, classes,

Plus en détail

Economie de l incertain et de l information Partie 1 : Décision en incertain probabilisé Chapitre 1 : Introduction à l incertitude et théorie de

Economie de l incertain et de l information Partie 1 : Décision en incertain probabilisé Chapitre 1 : Introduction à l incertitude et théorie de Economie de l incertain et de l information Partie 1 : Décision en incertain probabilisé Chapitre 1 : Introduction à l incertitude et théorie de l espérance d utilité Olivier Bos [email protected]

Plus en détail

Probabilités sur un univers fini

Probabilités sur un univers fini [http://mp.cpgedupuydelome.fr] édité le 7 août 204 Enoncés Probabilités sur un univers fini Evènements et langage ensembliste A quelle condition sur (a, b, c, d) ]0, [ 4 existe-t-il une probabilité P sur

Plus en détail

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, 2011-2012 LES STATISTIQUES INFERENTIELLES

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, 2011-2012 LES STATISTIQUES INFERENTIELLES LES STATISTIQUES INFERENTIELLES (test de Student) L inférence statistique est la partie des statistiques qui, contrairement à la statistique descriptive, ne se contente pas de décrire des observations,

Plus en détail

Exemples de dynamique sur base modale

Exemples de dynamique sur base modale Dynamique sur base modale 1 Exemples de dynamique sur base modale L. CHAMPANEY et Ph. TROMPETTE Objectifs : Dynamique sur base modale réduite, Comparaison avec solution de référence, Influence des modes

Plus en détail

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre. Université de Nantes Année 2013-2014 L3 Maths-Eco Feuille 6 : Tests Exercice 1 On cherche à connaître la température d ébullition µ, en degrés Celsius, d un certain liquide. On effectue 16 expériences

Plus en détail

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

L'intelligence d'affaires: la statistique dans nos vies de consommateurs L'intelligence d'affaires: la statistique dans nos vies de consommateurs Jean-François Plante, HEC Montréal Marc Fredette, HEC Montréal Congrès de l ACFAS, Université Laval, 6 mai 2013 Intelligence d affaires

Plus en détail

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples.

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples. LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples. Pré-requis : Probabilités : définition, calculs et probabilités conditionnelles ; Notion de variables aléatoires, et propriétés associées : espérance,

Plus en détail

3 Approximation de solutions d équations

3 Approximation de solutions d équations 3 Approximation de solutions d équations Une équation scalaire a la forme générale f(x) =0où f est une fonction de IR dans IR. Un système de n équations à n inconnues peut aussi se mettre sous une telle

Plus en détail

Chapitre 3. Quelques fonctions usuelles. 1 Fonctions logarithme et exponentielle. 1.1 La fonction logarithme

Chapitre 3. Quelques fonctions usuelles. 1 Fonctions logarithme et exponentielle. 1.1 La fonction logarithme Chapitre 3 Quelques fonctions usuelles 1 Fonctions logarithme et eponentielle 1.1 La fonction logarithme Définition 1.1 La fonction 7! 1/ est continue sur ]0, +1[. Elle admet donc des primitives sur cet

Plus en détail

Estimation et tests statistiques, TD 5. Solutions

Estimation et tests statistiques, TD 5. Solutions ISTIL, Tronc commun de première année Introduction aux méthodes probabilistes et statistiques, 2008 2009 Estimation et tests statistiques, TD 5. Solutions Exercice 1 Dans un centre avicole, des études

Plus en détail

L olivier Assurances Licence 3 Econométrie Lyon II

L olivier Assurances Licence 3 Econométrie Lyon II 15 novembre 2013 L olivier Assurances Licence 3 Econométrie Lyon II Pascal Gonzalvez 1 L olivier Assurances et le Groupe Admiral Segmentation et tarification en assurance auto Autres applications de la

Plus en détail

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc) 87 FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc) Dans le cadre de la réforme pédagogique et de l intérêt que porte le Ministère de l Éducation

Plus en détail

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p. STATISTIQUE THÉORIQUE ET APPLIQUÉE Tome 2 Inférence statistique à une et à deux dimensions Pierre Dagnelie TABLE DES MATIÈRES Bruxelles, De Boeck, 2011, 736 p. ISBN 978-2-8041-6336-5 De Boeck Services,

Plus en détail

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke www.fundp.ac.be/biostats Module 140 140 ANOVA A UN CRITERE DE CLASSIFICATION FIXE...2 140.1 UTILITE...2 140.2 COMPARAISON DE VARIANCES...2 140.2.1 Calcul de la variance...2 140.2.2 Distributions de référence...3

Plus en détail

Principe d un test statistique

Principe d un test statistique Biostatistiques Principe d un test statistique Professeur Jean-Luc BOSSON PCEM2 - Année universitaire 2012/2013 Faculté de Médecine de Grenoble (UJF) - Tous droits réservés. Objectifs pédagogiques Comprendre

Plus en détail

Bureau : 238 Tel : 04 76 82 58 90 Email : [email protected]

Bureau : 238 Tel : 04 76 82 58 90 Email : dominique.muller@upmf-grenoble.fr Dominique Muller Laboratoire Inter-universitaire de Psychologie Bureau : 238 Tel : 04 76 82 58 90 Email : [email protected] Supports de cours : webcom.upmf-grenoble.fr/lip/perso/dmuller/m2r/acm/

Plus en détail

Introduction à l étude des Corps Finis

Introduction à l étude des Corps Finis Introduction à l étude des Corps Finis Robert Rolland (Résumé) 1 Introduction La structure de corps fini intervient dans divers domaines des mathématiques, en particulier dans la théorie de Galois sur

Plus en détail

Introduction à l approche bootstrap

Introduction à l approche bootstrap Introduction à l approche bootstrap Irène Buvat U494 INSERM [email protected] 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?

Plus en détail

FORMULAIRE DE STATISTIQUES

FORMULAIRE DE STATISTIQUES FORMULAIRE DE STATISTIQUES I. STATISTIQUES DESCRIPTIVES Moyenne arithmétique Remarque: population: m xμ; échantillon: Mx 1 Somme des carrés des écarts "# FR MOYENNE(série) MOYENNE(série) NL GEMIDDELDE(série)

Plus en détail

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre : Terminale STSS 2 012 2 013 Pourcentages Synthèse 1) Définition : Calculer t % d'un nombre, c'est multiplier ce nombre par t 100. 2) Exemples de calcul : a) Calcul d un pourcentage : Un article coûtant

Plus en détail

Chapitre 2 Le problème de l unicité des solutions

Chapitre 2 Le problème de l unicité des solutions Université Joseph Fourier UE MAT 127 Mathématiques année 2011-2012 Chapitre 2 Le problème de l unicité des solutions Ce que nous verrons dans ce chapitre : un exemple d équation différentielle y = f(y)

Plus en détail

STRICTEMENT CONFIDENTIEL

STRICTEMENT CONFIDENTIEL MOIS / ANNEE ETUDE DE VALORISATION Société «EDIVAL» STRICTEMENT CONFIDENTIEL BUREAUX 31, Rue de Brest 69002 LYON Tél : +33 (0)8 71 55 11 98 SIÈGE SOCIAL 94, Rue Saint Lazare 75009 PARIS Tél : +33 (0)1

Plus en détail

Estimation: intervalle de fluctuation et de confiance. Mars 2012. IREM: groupe Proba-Stat. Fluctuation. Confiance. dans les programmes comparaison

Estimation: intervalle de fluctuation et de confiance. Mars 2012. IREM: groupe Proba-Stat. Fluctuation. Confiance. dans les programmes comparaison Estimation: intervalle de fluctuation et de confiance Mars 2012 IREM: groupe Proba-Stat Estimation Term.1 Intervalle de fluctuation connu : probabilité p, taille de l échantillon n but : estimer une fréquence

Plus en détail

Variables Aléatoires. Chapitre 2

Variables Aléatoires. Chapitre 2 Chapitre 2 Variables Aléatoires Après avoir réalisé une expérience, on ne s intéresse bien souvent à une certaine fonction du résultat et non au résultat en lui-même. Lorsqu on regarde une portion d ADN,

Plus en détail

SUIVI CINETIQUE PAR SPECTROPHOTOMETRIE (CORRECTION)

SUIVI CINETIQUE PAR SPECTROPHOTOMETRIE (CORRECTION) Terminale S CHIMIE TP n 2b (correction) 1 SUIVI CINETIQUE PAR SPECTROPHOTOMETRIE (CORRECTION) Objectifs : Déterminer l évolution de la vitesse de réaction par une méthode physique. Relier l absorbance

Plus en détail

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

Exercices Alternatifs. Une fonction continue mais dérivable nulle part Eercices Alternatifs Une fonction continue mais dérivable nulle part c 22 Frédéric Le Rou (copleft LDL : Licence pour Documents Libres). Sources et figures: applications-continues-non-derivables/. Version

Plus en détail

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

Exercices Alternatifs. Une fonction continue mais dérivable nulle part Eercices Alternatifs Une fonction continue mais dérivable nulle part c 22 Frédéric Le Rou (copyleft LDL : Licence pour Documents Libres). Sources et figures: applications-continues-non-derivables/. Version

Plus en détail

Dossier Logique câblée pneumatique

Dossier Logique câblée pneumatique Dossier Logique câblée pneumatique Festo Belgium SA Rue Colonel Bourg 11 BE-13 Bruxelles www.festo.com Logique câblée pneumatique Chaque schéma de commande est élaboré selon une logique déterminée. Cette

Plus en détail

Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs Biostatistiques : Petits effectifs Master Recherche Biologie et Santé P. Devos DRCI CHRU de Lille EA2694 [email protected] Plan Données Générales : Définition des statistiques Principe de l

Plus en détail

Loi binomiale Lois normales

Loi binomiale Lois normales Loi binomiale Lois normales Christophe ROSSIGNOL Année scolaire 204/205 Table des matières Rappels sur la loi binomiale 2. Loi de Bernoulli............................................ 2.2 Schéma de Bernoulli

Plus en détail

Le modèle de régression linéaire

Le modèle de régression linéaire Chapitre 2 Le modèle de régression linéaire 2.1 Introduction L économétrie traite de la construction de modèles. Le premier point de l analyse consiste à se poser la question : «Quel est le modèle?». Le

Plus en détail

Contexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples,

Contexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples, Non-linéarité Contexte Pour permettre aux algorithmes de cryptographie d être sûrs, les fonctions booléennes qu ils utilisent ne doivent pas être inversées facilement. Pour cela, elles doivent être très

Plus en détail

Brock. Rapport supérieur

Brock. Rapport supérieur Simplification du processus de demande d aide financière dans les établissementss : Étude de cas à l Université Brock Rapport préparé par Higher Education Strategy Associates et Canadian Education Project

Plus en détail

Evaluation des modèles non-linéaires à effets mixtes

Evaluation des modèles non-linéaires à effets mixtes Evaluation des effets mixtes INSERM UMR738 GDR Statistiques et Santé, 20 octobre 2009 Pharmacométrie Définition modélisation des données obtenues lors d essais cliniques sur des médicaments développement

Plus en détail

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ INTRODUCTION Données : n individus observés sur p variables quantitatives. L A.C.P. permet d eplorer les liaisons entre variables et

Plus en détail

enquête pour les fautes sur le fond, ce qui est graves pour une encyclopédie.

enquête pour les fautes sur le fond, ce qui est graves pour une encyclopédie. 4.0 Contrôles /4 4 e enquête pour les fautes sur le fond, ce qui est graves pour une encyclopédie. RPPEL de 0. Wikipédia 2/2 Dans le chapitre : XX e siècle : ( 4.0 mythe paroxysme ) sous la photo d un

Plus en détail

BTS Groupement A. Mathématiques Session 2011. Spécialités CIRA, IRIS, Systèmes électroniques, TPIL

BTS Groupement A. Mathématiques Session 2011. Spécialités CIRA, IRIS, Systèmes électroniques, TPIL BTS Groupement A Mathématiques Session 11 Exercice 1 : 1 points Spécialités CIRA, IRIS, Systèmes électroniques, TPIL On considère un circuit composé d une résistance et d un condensateur représenté par

Plus en détail

Table des matières. I Mise à niveau 11. Préface

Table des matières. I Mise à niveau 11. Préface Table des matières Préface v I Mise à niveau 11 1 Bases du calcul commercial 13 1.1 Alphabet grec...................................... 13 1.2 Symboles mathématiques............................... 14 1.3

Plus en détail

Formations EViews FORMATIONS GENERALES INTRODUCTIVES INTRO : INTRODUCTION A LA PRATIQUE DE L ECONOMETRIE AVEC EVIEWS

Formations EViews FORMATIONS GENERALES INTRODUCTIVES INTRO : INTRODUCTION A LA PRATIQUE DE L ECONOMETRIE AVEC EVIEWS Formations EViews FORMATIONS GENERALES INTRODUCTIVES DEB : DECOUVERTE DU LOGICIEL EVIEWS INTRO : INTRODUCTION A LA PRATIQUE DE L ECONOMETRIE AVEC EVIEWS FORMATIONS METHODES ECONOMETRIQUES VAR : MODELES

Plus en détail

TESTS D'HYPOTHESES Etude d'un exemple

TESTS D'HYPOTHESES Etude d'un exemple TESTS D'HYPOTHESES Etude d'un exemple Un examinateur doit faire passer une épreuve type QCM à des étudiants. Ce QCM est constitué de 20 questions indépendantes. Pour chaque question, il y a trois réponses

Plus en détail

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Recherche opérationnelle Les démonstrations et les exemples seront traités en cours Souad EL Bernoussi Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Table des matières 1 Programmation

Plus en détail

Fonctions de plusieurs variables

Fonctions de plusieurs variables Module : Analyse 03 Chapitre 00 : Fonctions de plusieurs variables Généralités et Rappels des notions topologiques dans : Qu est- ce que?: Mathématiquement, n étant un entier non nul, on définit comme

Plus en détail

Modèles et simulations informatiques des problèmes de coopération entre agents

Modèles et simulations informatiques des problèmes de coopération entre agents Modèles et simulations informatiques des problèmes de coopération entre agents Bruno Beaufils LIFL Axe CIM Équipe SMAC Laboratoire d'informatique Plan 1. Motivations 2. Dilemme itéré du prisonnier 3. Simulations

Plus en détail

1 Importer et modifier des données avec R Commander

1 Importer et modifier des données avec R Commander Université de Nantes 2015/2016 UFR des Sciences et Techniques Département de Mathématiques TP1 STATISTIQUE DESCRIPTIVE Frédéric Lavancier Avant propos Ouvrir l application R Saisir dans la console library(rcmdr)

Plus en détail

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures) Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures) Eercice 1 (5 points) pour les candidats n ayant pas choisi la spécialité MATH Le tableau suivant donne l évolution du chiffre

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

Statistique : Résumé de cours et méthodes

Statistique : Résumé de cours et méthodes Statistique : Résumé de cours et méthodes 1 Vocabulaire : Population : c est l ensemble étudié. Individu : c est un élément de la population. Effectif total : c est le nombre total d individus. Caractère

Plus en détail

Modélisation aléatoire en fiabilité des logiciels

Modélisation aléatoire en fiabilité des logiciels collection Méthodes stochastiques appliquées dirigée par Nikolaos Limnios et Jacques Janssen La sûreté de fonctionnement des systèmes informatiques est aujourd hui un enjeu économique et sociétal majeur.

Plus en détail