Exercice HR Bordeaux

Importations bibliothèques

1. Description des données

Observations :

2. Ajustement de la loi Beta

Observations :

Observations :

L'ajustement suit la tendance et semble satisfaisant.

Observations :

L'ajustement semble visuellement satisfaisant, même si la queue inférieure de la disribution de l'échantillon est légèrement inférieure à celle de la distribution estimée.

Conclusion sur le test :

Après avoir estimé les paramètres de la loi Beta à partir de l'échantillon, le test de Lilliefors nous indique que la loi Beta ne peut être la distribution associée à l'échantillon, malgré les bons résultats visuels obtenus à partir de la superposition des PDF et du QQPlot.

3. Distribution de l'estimation des paramètres

Par défaut, il semble que ce soit encore la méthode des moments qui est utilisée pour estimer les paramètres.

Intervalles de confiance à $95\%$

Longueur des intervalles de confiance

Observations :

Le paramètre le mieux estimé est le maximum b (dernier paramètre pour la loi Beta). En effet, la longueur de son intervalle de confiance est de l'ordre de $10^{-2}$. Par contre, toujours en observant la longueur des intervalles de confiance, on peut dire que le minimum est le parmètre le moins bien estimé. De plus, sa marginale semble faire apparaître 2 modes.

4. Recherche de la meilleure loi ajustée au sens du critère BIC

Observations :

Selon le critère BIC, c'est encore la loi Beta qui approche le mieux la distribution de notre échantillon. On remarque que c'est exactement la même distribution que celle obtenue par méthode des moments et non-validée par le test de Lilliefors.

5. Méthode d'estimation à noyau

Observations :

Observations :

Les observations sont sensiblement identiques à celles de la figure précédente à la différence qu'une troncature a été effectuée sur le bord droit de manière à observer une densité de probabilité sur des valeurs comprises entre $27\%$ et $100\%$.

Test de Kolmogorov :

Comme on fait l'hypothèse que l'on connaît la loi, via l'estimation non-paramétrique de la distribution de l'échantillon, on est bien dans le cadre du test de Kolmogorov.

Le résultat du test n'est pas concluant, ce qui est dérangeant puisqu'aucun paramêtre n'a été estimé et que la distribution prise pour réaliser le test a été construire à partir d'une méthode de lissage à noyau. Donc cette distribution est indépendante de la taille de l'échantillon sample_HR.

6. Synthèse

Observations :

Les deux lois à densité semblent correspondre à l'échantillon, sans pour autant être validées par le test basé sur la statistique de Kolmogorov-Smirnov. Dans l'immédiat, on peut dire que l'approche paramétrique par méthode des moments et l'approche non-paramétrique par lissage à noyau, ne fonctionnent pas pour notre jeu de données. Néanmoins l'hypothèse d'une loi Beta semble cohérente avec l'allure de notre échantillon.

7. Estimation d'une loi Beta par la méthode du maximum de vraisemblance

QQ-Plot

Comme précédemment, la loi ajustée semble suivre la tendance explicitée par l'histogramme. Néanmoins on peut tout de même s'interroger sur la pertinence de la loi ajustée puisque que son maximum, qui est atteint autour de 100 ($\%$ de HR), est bien supérieur au maximum de la distribution estimée par histogramme.

8 Dessin de la log-vraissemblance

Observations :

Les iso-valeurs correspondent bien aux résultats escomptés. C'est-à-dire que le point maximal se trouve bien à l'intérieur, et plutôt au centre, de la ligne d'iso-valeur la plus forte.

9. Estimation de la distribution des paramètres

Observations :

Les iso-valeurs semblent diverger en deux zones. Si on traçait une nouvelle iso-valeur, on verrait apparaître deux ellipses distinctes. On peut donc dire qu'il existe deux couples $(\hat{\alpha}, \hat{\beta})$ qui maximisent la log-vraisemblance.

La fonction ci dessous a été trouvé sur une page d'exemple d'Openturns : https://openturns.github.io/openturns/latest/auto_probabilistic_modeling/distributions/plot_minimum_volume_level_sets.html?highlight=computeminimumvolumelevelsetwiththreshold

Observations :

On peut clairement voir qu'il y a deux zones dans lesquelles on peut chercher un point de maximum. La forme du graphique des iso-valeurs de la fonction de probabilité de la loi du couple des estimateurs $(\hat{\alpha}, \hat{\beta})$, s'explique par le fait que la fonction de densité admet deux maximas locaux. La figure, ci-dessus permet de s'en convaincre. L'ellipse centrée en [2.0, 2.0] contient la majeur partie des paramètres estimés. En réalité, les paramètres par défaut, pour la loi Beta dans Openturns, sont $\alpha = 2.0$ et $\beta = 2.0$. Donc en réalité, ces estimations sont des échecs de paramétrisation.

10 Synthèse

Paramètre $\alpha$ $\beta$ $a$ $b$
méthode des moments (BetaFacotry) 1.88684 0.765074 20.9716 100.028
modèle BIC 1.88684 0.765074 20.9716 100.028
maximum de vraisemblance 1 1.45141 0.552986 21 100
maximum de vraisemblance 2 2.0 2.0 21 100

À titre informatif nous avons fait apparaître les estimations des paramètres utilisés pour calculer la meilleure distribution au sens du critère BIC, même si la méthode appelle la classe $\textit{BetaFactory}$. Les paramètres sont donc identiques. On fait aussi apparaître les deux maximas globaux obtenus par maximastion de la log-vraisemblance.

Malgré le fait que l'on ait réussi à construire plusieurs lois à densité qui s'ajustent visuellement à la distribution, soit la statistique de Kolmogorov-Smirnov contredit l'ajustement (loi Beta par méthode des moments, loi par lissage à noyau), soit l'ajustement est multiple et n'est pas forcément cohérent (loi Beta par maximisation de la vraisemblance).