Escriva, Elodie
(2024)
Amélioration des explications attributives locales pour appuyer l'analyse prédictive par apprentissage automatique : application au secteur de la santé et aux outils d'aide à la décision médicale.
École doctorale Mathématiques, Informatique et Télécommunications (Toulouse).
Preview |
Text
Download (19MB) | Preview |
Abstract
Dans le domaine de santé, l'analyse des données est un enjeu fort dans l'amélioration des prises en charge, la prévention des maladies ou l'adaptation des thérapies à chaque patient. Initialement, cette analyse de données est basée sur des méthodes statistiques telles que les statistiques descriptives et inférentielles, afin de découvrir de nouvelles connaissances dans les données. L'apparition de l'apprentissage automatique a permis de nouveaux cas d'usages grâce à son pouvoir prédictif. Son essor a également été favorisé par des applications aux retombées positives.Cependant, les modèles prédictifs sont qualifiés de boite noires à cause de leur complexité, leur architecture ou de leur statut propriétaires. Comprendre leur fonctionnement et leur prédiction est alors critique, notamment dans les domaines sensibles. Le domaine de l'Explicabilité du Machine Learning (XML) a émergé afin d'expliquer le comportement des modèles prédictifs et leur prédiction. Deux approches s'opposent entre les modèles intrinsèquement interprétables et les méthodes post-hoc d'explication. Les modèles interprétables ont des structures pouvant être directement analysé, tel que les arbres ou les règles de décisions. Les méthodes post-hoc, à l'opposé, s'appliquent sur des modèles déjà entraînés pour expliquer leur fonctionnement et leurs prédictions. Les méthodes post-hoc agnostic d'explication locale permettent notamment d'expliquer individuellement chaque prédiction, quelque soit le modèle. Ces méthodes populaires subissent cependant de nombreuses critiques quant à leur efficacité, leurs hypothèses restrictives et la nécessité de privilégier les modèles interprétables dans les domaines sensibles. Cependant, ces derniers peuvent devenir boite-noire à cause de leur complexité ou pour des raisons propriétaires. Les méthodes post-hoc sont alors la seule alternative restante actuellement pour expliquer les prédictions. Pour intégrer les explications post-hoc dans des applications médicales, plusieurs problématiques se posent autour des forces et des faiblesses des explications locales, de leur analyse et de leur utilisation par des personnels de santé non-expert en modèle prédictif. Le comportement et les limites des méthodes explicatives sont un point critique lors de leur utilisation, notamment dans les domaines sensibles. De plus, afin de comprendre les liens entre les prédictions, le modèle et les données, les explications peuvent être vues comme de nouvelles données à analyser et à explorer. Enfin, dans le cadre d'application métier, les utilisateurs finaux sont souvent peu impliqués dans la conception des applications intégrant des modèles prédictifs et des explications.Dans cette thèse, nous contribuons à l'amélioration et l'implémentation des explications dans le domaine de la santé sous quatre axes. Premièrement, nous dressons un état de l'art du domaine, des méthodes post-hoc locale et leurs évaluations, des différentes utilisations des explications et des tests réalisés avec des utilisateurs. Puis, nous améliorons la méthode d'explication locale Coalitionnelle et la comparons à la littérature afin de mettre en lumière leurs forces, faiblesses et limites. Nous montrons les meilleurs contextes d'utilisation de chaque méthode et qu'un gap existe encore pour les larges jeux de données. Ensuite, nous proposons une approche d'analyse des explications basée sur le clustering afin d'extraire des informations sur le modèle, les données et les prédictions, offrant des perspectives d'analyse de ces explications. Enfin, nous étudions, en définissant les besoins des utilisateurs, comment implémenter efficacement les explications dans des applications médicales, en combinant plusieurs approches et des analyses statistiques. Nous proposons ainsi notre protocole de tests utilisateurs évaluant l'apport des explications pour des professionnels de santé, réalisé en collaboration avec des experts métiers.
,In healthcare, data analysis is a powerful tool for improving treatment, preventing disease and adapting therapies to individual patients. Initially, this data analysis was based on statistical methods, such as descriptive and inferential statistics, to discover new knowledge in the data. The emergence of machine learning has opened up new possibilities thanks to its predictive power, its growth being boosted by applications with positive results and outcomes.However, predictive models are often described as black boxes because of their complexity, architecture or proprietary design. Understanding how they work and how they predict is therefore critical, particularly in sensitive fields like healthcare.The field of Explainable Machine Learning (XML) has arisen to explain the behaviour of predictive models and their prediction. There are two main approaches: intrinsically interpretable models and post-hoc explanation methods. Intrinsically interpretable models have structures that can be directly analysed, such as trees or decision rules. Post-hoc methods, on the other hand, are applied to already trained models to explain their behaviour and prediction. In particular, local explanation agnostic post-hoc methods explain each prediction individually, whatever the model. However, these popular methods are often criticised for their effectiveness, restrictive assumptions and the need to favour interpretable models in sensitive areas. However, these interpretable models can become black-boxed due to their complexity or for proprietary issues. Post-hoc methods are then the only alternative currently available to explain the predictions. When integrating post-hoc explanations into medical applications, several issues arise concerning the strengths and weaknesses of local explanations, their analysis and their use by healthcare personnel who are not experts in predictive models. The behaviour and limitations of explanatory methods are critical points when used, particularly in sensitive areas. In addition, to understand the links between modelling, data and predictions, explanations can be seen as new data to be analysed and explored. Finally, in medical applications, end users are often rarely involved in the application development and integration of explanations, making the explanations' contribution challenging to assess.In this thesis, we contribute to improving and implementing explanations in the healthcare domain in four areas. First, we review the current state of the art, including domain definitions, intrinsically interpretable models, post-hoc local explanation methods and their evaluations. We also describe the different uses of explanations and the tests carried out with domain expert users.We then improve the local Coalitional explanation method and compare seven local attributive explanation methods to highlight their strengths, weaknesses and limitations. We show the best contexts for using each explanation method depending on the characteristics of the datasets and the predictive model based on six metrics and more than 300 open datasets and that a gap still exists for large datasets.We then propose an approach for analysing explanations to discover insights into the model, data and predictions. We show that clustering explanations offer better groups of instances than clustering raw data for several families of clustering, offering positive outlooks for analysing explanations.Finally, we detail our implementation of explanations in medical applications. By defining user needs and the purpose of explanations, we study how to present and analyse them efficiently by combining several explanations and statistical analysis approaches. Finally, we present our user-testing protocol for evaluating the contribution of explanations for healthcare professionals, created in collaboration with medical experts.
Item Type: | Thesis (UNSPECIFIED) |
---|---|
Other titles: | Enhancing local attributive explanations to support Machine Learning predictive analysis : application to the healthcare sector and medical decision tools. |
Language: | English |
Date: | 1 March 2024 |
Keywords (French): | Intelligence artificielle en médecine, Pratique médicale -- Effets des innovations technologiques, Parcours de soins coordonnés -- Analyse informatique |
Subjects: | H- INFORMATIQUE |
Divisions: | Institut de Recherche en Informatique de Toulouse |
Ecole doctorale: | École doctorale Mathématiques, Informatique et Télécommunications (Toulouse) |
Site: | UT1 |
Date Deposited: | 21 Feb 2025 09:08 |
Last Modified: | 21 Feb 2025 12:54 |
URI: | https://publications.ut-capitole.fr/id/eprint/50553 |