Planification de la présentation du 3 mai 2023 INESSS et Wikimedica (Gestion:Partenaires/Suivi/Liste/35/6)

Planification de la présentation du 3 mai 2023 INESSS et Wikimedica [Réalisée] Modifier cette tâche Aide

Type	Tâche
Création	Michaël St-Gelais
Responsable(s)	Antoine Mercier-Linteau, Michaël St-Gelais
État	Réalisée
Date de création	2023-04-04
Échéance	2023-05-03
Priorité	Urgente
Projet(s)	Gestion:Partenaires/Suivi/Liste/35

Présentation de l'INESSS du 3 mai 2023.

Créer une sous-tâche Aucune sous-tâche à afficher.

Plan

Comment les professionnels de la santé consomment-ils de l'information ?
- https://www.jmir.org/2019/7/e13315/
Qu'est-ce que les données sémantiques ? À quoi ça sert ?
Qu'est-ce que ChatGPT ?
Quelles sont les applications possibles de ChatGPT ?
Qu'est-ce que les applications écriture collaborative ?
Computable guidelines
- https://wiki.ihe.net/index.php/Computable_Care_Guidelines
- https://www.hl7.org/fhir/
IA et santé
- Artificial Intelligence in Drug Treatment https://pubmed.ncbi.nlm.nih.gov/31348869/
- Advancing Drug Discovery via Artificial Intelligence https://www.cell.com/trends/pharmacological-sciences/fulltext/S0165-6147(19)30135-X?_returnURL=https%3A%2F%2Flinkinghub.elsevier.com%2Fretrieve%2Fpii%2FS016561471930135X%3Fshowall%3Dtrue
- Détecter des cancers de peau
- Rapport d'imagerie automatique
- Suivi des patients à distance avec des app intelligentes
- Consulter un dossier de patient, un ddx différentiel probabiliste, établir un plan d'investigation et de traitement approprié
- Résumer des textes
Licences
- Licence de ChatGPT = le input et le output nous appartient (https://openai.com/policies/terms-of-use)
- Creative Commons
Questionnement par rapport aux IA
- À qui va appartenir les IA ? Combien cela coûtera-t-il ?
- Vie privée et protection des données
- Responsabilité en cas d'erreurs médicales
- Interopérabilité des systèmes
- Interopérabilité des licences

Présentation


#	Titre	Contenu	Image
1	IA, données sémantiques et transformation numérique en santé
2	Plan de la présentation	À déterminer à la fin
3	Présentation et déclaration de conflits d'intérêt	Michaël St-Gelais, président de CA de Wikimedica Pas de lien financier avec les IA Médecin dépanneur Antoine Mercier-Linteau, président de CA de Wikimedica Pas de lien financier avec les IA Ingénieur en informatique Médecin dépanneur
4	Réalité des cliniciens	À l'hôpital Certains centres ont des archives « numériques » (PDF) Laboratoire et imagerie informatisés (PDF) Travail papier dans les centres hospitaliers En clinique externe (médecin de famille) DME implanté dans la majorité des lieux Dossier informatisé Prescripteur électronique Pas de système intelligent ou de système d'aide à la décision clinique
5	Comment les professionnels de la santé consomment-ils de l'information théorique au chevet de leurs patients ?	Bases de connaissance annexés aux DME (ex. Rx Vigilance) Bases de connaissance sur téléphone ou ordinateur (ex. UpToDate, Dynamed, Medscape) Applications sur téléphones intelligents (ex. calculateurs médicaux) Livre = marginal Numérique = crucial pour le transfert de connaissance
6	Impact of Clinicians' Use of Electronic Knowledge Resources on Clinical and Learning Outcomes: Systematic Review and Meta-Analysis (2019)	10,811 total 25 études retenues Conflit d'intérêt commercial dans plusieurs études UpToDate, Epocarates, Isabel, ressources locales, InfoRetriever, Quantité insuffisante d'études pour chaque paramètre Signal favorable en faveur des bases de connaissance électroniques Décès (très humble 0.1 % et financé par UpToDate) Réduction des coûts de 50 % (une étude...) Amélioration de la qualité des soins, diminution des complications, durée des soins Base de connaissance électronique > journaux scientifiques (vitesse) Surprise ! D'autres études sont nécessaires ! 10.2196/13315
7	Conclusion	Même si les études ne démontrent pas de bénéfice ou si la qualité des études est faible, les cliniciens accèdent au contenu via des bases de connaissance médicales.
8	Qu'est-ce que les données sémantiques ?	Méthode de structuration des bases de données Décrit la relation entre les concepts Permet à des systèmes intelligents de comprendre le lien entre les concepts
9	Exemple de données sémantiques	Personne : Jean Tremblay Père : Jacques Tremblay Mère : Jacqueline Tremblay Jean Tremblay a comme propriété sémantique Jacques Tremblay (champs Père) et Jacqueline Tremblay (champs Mère).
10	Exemple pour une maladie	Propriété du STEMI Symptômes : Douleur thoracique, Douleur à la mâchoire, Douleur cervicale antérieure, Douleur au bras gauche, Douleur au bras droit, Douleur aux bras bilatérales, Douleur thoracique augmentée à l'effort, Douleur thoracique soulagée au repos, Dyspnée à l'effort, Dyspnée au repos, Dyspnée aiguë, etc. Signes cliniques : diaphorèse, B3 +, etc. Complications : Choc cardiogénique, Rupture de la paroi libre ventriculaire, Régurgitation mitrale aiguë, Oedème aigu du poumon, Bloc auriculo-ventriculaire de haut grade, Rupture du septum interventriculaire, Fibrillation ventriculaire, Arrêt cardiaque et Tachycardie ventriculaire. Traitement : ASA 325 mg PO X 1 puis 80 mg PO die, perfusion de nitroglycérine, plavix, brillinta 180 mg PO X 1 puis 90 mg PO die, etc. Examen clinique : examen cardiaque, signes vitaux, examen pulmonaire, examen abdominal, etc. Examen paraclinique : ECG, troponine, FSC, ions, créatininémie, INR, TCA, etc. Signes paracliniques : augmentation du segment ST, onde Q, inversion onde T, sous-décalage du segment ST, etc. Étiologies : ... Facteurs de risque : ... Diagnostic différentiel : ...
11	Exemple pour une maladie (suite)	Symptômes : Douleur thoracique Se, Sp, VPP, VPN, prévalence Modificateur : irradiation, palliation, provoqué, quantité, qualité, temporalité, âge, texture, coloration, pas de, etc. Signes cliniques B3 Se, Sp, VPP, VPN, prévalence Modificateur : irradiation, palliation, provoqué, quantité, qualité, temporalité, âge, texture, coloration, pas de, augmenté, diminué, etc. Complications : Tachycardie ventriculaire Prévalence Qualité : sévère Traitement : Traitement pharmacologique Médicament : ASA Dose : 325 Unité : mg Voie d'administration : PO Durée : X 1 Etc. NNT NNH RRR RRA etc. Examen clinique : Examen cardiaque : Se, Sp, VPP, VPN, prévalence Étiologies : Fraction étiologique Modificateurs Examen paraclinique : ECG, troponine, FSC, ions, créatininémie, INR, TCA, etc. Signes paracliniques : augmentation du segment ST, onde Q, inversion onde T, sous-décalage du segment ST, etc. Étiologies : ... Facteurs de risque : ... Diagnostic différentiel : ...
12	Exemple pour un symptôme	Douleur thoracique Provoqué à l'effort Maladie XYZ Provoqué à l'inspiration profonde Maladie XYZ Provoqué à la palpation Maladie XYZ Soulagé au repos Maladie XYZ Soulagé assis et penché vers l'avant Maladie XYZ Irradiation Épaule gauche Maladie XYZ Épaule droite Maladie XYZ Cervicale antérieure Maladie XYZ
13	Exemple pour un traitement pharmacologique (médicament)	Nom générique Nom commercial Voie d'administration Formes posologiques Catégorie en grossesse Allaitement Interactions Indication Contre-Indication Effet indésirable Dosage en insuffisance rénale (en fonction du stade) Dosage en insuffisance hépatique Dosage en pédiatrie Absorption Distribution Métabolisme Élimination Etc.
14	Autres possibilités	Signes cliniques Signes paracliniques Examen clinique Examen paraclinique Procédure Programme d'exercices Etc.
15	À quoi ça peut servir ?	Faire des requêtes inversées À partir des signes et des symptômes XYZ, quelle est la maladie ? Particulièrement utile pour les maladies rares Établir la probablité pré-test d'une maladie à partir des signes, des symptômes, des facteurs de risque, etc. Lister des examens paracliniques en fonction de signes et de symptômes Établir la probabilité post-test d'une maladie à partir des signes, des symptômes, des facteurs de risque et des signes paracliniques Navigation des maladies à partir d'un nuage de point Lister les plans de traitement possibles pour une maladie donnée À partir d'une liste de médicament, détecter les interactions médicamenteuses.
16	Comment cela peut-il être utile ?	En l'absence de DME, utilité limitée. Si annexé à un DME, utilité +++. Si annexé à un « ChatGPT » même sans DME, utilité +++.
17	Qu'est-ce que ChatGPT ?	Modèle d'intelligence artificielle (IA) de traitement du langage naturel Développé par OpenAI Technologie NLP (Natural language processing) Répond à des questions en fonction d'instructions fournies par les utilisateurs Ne possède pas de conscience ou de compréhension réelle Analyse des schémas linguistiques et en générant des réponses en fonction de ces schémas	Image de la question que j'ai posé à ChatGPT
18	Pourquoi ChatGPT change-t-il la donne ?	Gratuit pour la version de base. Payante pour l'usage via API. Entreprise à « but lucratif plafonné »
19
20
21
22		https://glass.health/ai/ https://merlin.foyer.work/
23
24
25
26
27
28
29
30

Trucs

Apprentissage supervisé : L'apprentissage supervisé est une méthode d'apprentissage où un modèle est entraîné à partir d'un ensemble de données étiquetées, c'est-à-dire des données pour lesquelles les résultats souhaités (étiquettes) sont déjà connus. L'objectif de l'apprentissage supervisé est de créer un modèle capable de généraliser à partir des exemples d'apprentissage pour faire des prédictions sur de nouvelles données inconnues. Les algorithmes d'apprentissage supervisé incluent la régression linéaire, la régression logistique, les machines à vecteurs de support (SVM), les arbres de décision, les forêts aléatoires et les réseaux de neurones.
Apprentissage non supervisé : L'apprentissage non supervisé est une méthode d'apprentissage où un modèle est entraîné à partir d'un ensemble de données non étiquetées, c'est-à-dire des données pour lesquelles les résultats souhaités ne sont pas connus. L'objectif de l'apprentissage non supervisé est de découvrir des structures et des modèles cachés dans les données. Les algorithmes d'apprentissage non supervisé incluent le regroupement (clustering), comme K-means, les cartes auto-organisatrices (SOM) et la réduction de dimensionnalité, comme l'analyse en composantes principales (PCA) et l'analyse factorielle.
Apprentissage semi-supervisé : L'apprentissage semi-supervisé est une méthode d'apprentissage qui combine des aspects de l'apprentissage supervisé et non supervisé. Il utilise un ensemble de données partiellement étiquetées, c'est-à-dire un mélange de données étiquetées et non étiquetées. L'objectif de l'apprentissage semi-supervisé est d'améliorer la performance du modèle en utilisant les données non étiquetées pour aider le modèle à apprendre des structures cachées et à mieux généraliser sur les données étiquetées. Les algorithmes d'apprentissage semi-supervisé incluent les graphes de propagation de labels, les modèles génératifs et les autoencodeurs.
Apprentissage par renforcement : L'apprentissage par renforcement est une méthode d'apprentissage où un agent apprend à prendre des décisions en interagissant avec un environnement. L'agent reçoit des récompenses (positives ou négatives) en fonction des actions qu'il effectue, et son objectif est d'apprendre une politique optimale pour maximiser la somme des récompenses au fil du temps. L'apprentissage par renforcement diffère des autres méthodes de supervision en ce qu'il n'y a pas d'ensembles de données étiquetées ou non étiquetées, mais plutôt un processus d'interaction et de rétroaction avec l'environnement. Les algorithmes d'apprentissage par renforcement incluent Q-learning, Deep Q-Networks (DQN), Policy Gradient et Proximal Policy Optimization (PPO).

Intelligence artificielle faible (Weak AI) : L'intelligence artificielle faible est conçue pour effectuer des tâches spécifiques sans posséder de véritable conscience ou de compréhension globale. Elle est limitée à un domaine particulier et ne peut pas généraliser ses compétences. Les systèmes de recommandation, les chatbots et les assistants vocaux, tels que Siri ou Alexa, sont des exemples d'IA faible.
Intelligence artificielle générale (AGI) : L'intelligence artificielle générale, également appelée IA forte, est une forme d'IA qui a la capacité de comprendre, d'apprendre et de raisonner de manière équivalente à un être humain dans n'importe quel domaine. Contrairement à l'IA faible, l'AGI peut transférer des compétences d'un domaine à un autre et résoudre des problèmes complexes de manière autonome. L'AGI reste un objectif théorique et n'a pas encore été réalisée.
Intelligence artificielle super-intelligente : L'intelligence artificielle super-intelligente est un concept futuriste qui dépasse largement les capacités cognitives humaines dans presque tous les domaines. Elle pourrait résoudre des problèmes extrêmement complexes, créer des avancées scientifiques et technologiques majeures et même surpasser les humains dans des domaines tels que la créativité, la prise de décision et l'émotion. L'IA super-intelligente est encore loin de la réalité et soulève des questions éthiques et de sécurité importantes.

Les LLM (Large Language Models) comme ChatGPT sont des modèles de traitement du langage naturel (NLP) basés sur des architectures de réseaux neuronaux profonds, tels que le Transformer. Le Transformer a été introduit en 2017 par Vaswani et al., et est devenu la base de nombreux modèles de langage populaires, tels que GPT (Generative Pre-trained Transformer) développé par OpenAI. Voici un aperçu du processus de création et de fonctionnement de ces modèles :
1. Entraînement préliminaire (Pré-entraînement) : Les LLM sont d'abord pré-entraînés sur d'énormes corpus de texte provenant du web, tels que des articles, des livres, des blogs, etc. Pendant cette phase, le modèle apprend à prédire le mot suivant dans une phrase, compte tenu des mots précédents (apprentissage non supervisé). Le modèle absorbe ainsi une grande quantité de connaissances linguistiques, de grammaire et même de certaines informations factuelles.
2. Entraînement spécifique (Fine-tuning) : Après le pré-entraînement, les modèles sont affinés sur des tâches spécifiques en utilisant des ensembles de données plus petits et annotés (apprentissage supervisé). Cette étape permet au modèle d'apprendre à résoudre des problèmes particuliers, tels que la réponse à des questions, la traduction, la classification de texte, etc.
3. Tokenisation et encodage : Lorsqu'un utilisateur envoie une requête, le texte est d'abord découpé en unités plus petites appelées tokens. Ces tokens sont ensuite convertis en vecteurs numériques (encodage) pour être traités par le modèle.
4. Génération de réponse : Le modèle traite la requête et génère une réponse en utilisant les connaissances acquises lors de la phase de pré-entraînement et d'affinage. Le modèle utilise un mécanisme d'attention pour pondérer l'importance des différents mots et générer des réponses cohérentes et pertinentes.
5. Décodage et détokenisation : La réponse générée est décodée et détokenisée pour la convertir en une réponse textuelle lisible par l'utilisateur. Les LLM comme ChatGPT sont conçus pour comprendre et générer du texte de manière cohérente et pertinente, en imitant le raisonnement et le langage humains.
Un vecteur numérique est une représentation mathématique et géométrique d'un ensemble de nombres disposés sous la forme d'un tableau unidimensionnel. Les vecteurs sont souvent utilisés pour représenter des données et des informations dans divers domaines, notamment la science, l'ingénierie, la finance et la technologie de l'information. Dans le contexte du traitement du langage naturel (NLP) et de l'intelligence artificielle (IA), les vecteurs numériques sont utilisés pour représenter des éléments tels que des mots, des phrases ou des documents. Ils permettent de convertir des informations textuelles en données numériques qui peuvent être traitées par des algorithmes et des modèles de machine learning. L'un des avantages de représenter les éléments linguistiques sous forme de vecteurs est la possibilité d'effectuer des opérations mathématiques et de mesurer les similitudes ou les distances entre les éléments. Par exemple, en utilisant des méthodes telles que l'encodage en sac de mots (Bag-of-Words) ou des modèles plus avancés tels que Word2Vec, on peut calculer la similarité entre deux mots en mesurant la distance entre leurs vecteurs numériques correspondants. Les vecteurs numériques jouent donc un rôle clé dans la représentation et le traitement des données textuelles dans les domaines de l'IA et du NLP.
Bien sûr, voici un exemple concret d'un vecteur numérique dans le contexte du traitement du langage naturel (NLP) en utilisant l'approche "Bag-of-Words" pour représenter des phrases. Considérons ces deux phrases :
1. "Le chat mange la souris."
2. "La souris est mangée par le chat." Supposons que nous ayons un vocabulaire constitué des mots suivants : {"le", "chat", "mange", "la", "souris", "est", "mangée", "par"} Nous pouvons représenter chaque phrase par un vecteur numérique où chaque élément du vecteur correspond à la fréquence d'un mot dans la phrase. Pour notre exemple, les vecteurs numériques seraient les suivants : Phrase 1 : [1, 1, 1, 1, 1, 0, 0, 0] Phrase 2 : [1, 1, 0, 1, 1, 1, 1, 1] Dans ces vecteurs, chaque position correspond à un mot de notre vocabulaire. Par exemple, la première position correspond au mot "le", la deuxième position au mot "chat", et ainsi de suite. Les valeurs dans les vecteurs indiquent la fréquence d'apparition de chaque mot dans la phrase. Dans notre exemple, le mot "mange" apparaît une fois dans la première phrase et zéro fois dans la deuxième phrase. Cet exemple est simpliste et l'approche "Bag-of-Words" a ses limites, notamment le fait qu'elle ne prend pas en compte l'ordre des mots et la sémantique. Néanmoins, il illustre comment les phrases peuvent être représentées sous forme de vecteurs numériques dans le contexte du NLP. Des méthodes plus avancées, comme Word2Vec ou GloVe, permettent de créer des vecteurs numériques qui capturent la sémantique des mots et les relations entre eux.
Word2Vec est une technique de représentation vectorielle des mots développée par Tomas Mikolov et son équipe chez Google en 2013. Elle vise à créer des vecteurs numériques pour les mots de manière à capturer leur contexte sémantique et les relations entre eux. Word2Vec utilise des réseaux neuronaux pour apprendre ces représentations vectorielles à partir de grands corpus de texte. Il existe deux architectures principales de Word2Vec : le modèle CBOW (Continuous Bag-of-Words) et le modèle Skip-gram. Les deux modèles sont basés sur l'idée qu'un mot peut être prédit en fonction de son contexte (mots environnants).
1. Modèle CBOW : Le modèle CBOW cherche à prédire un mot en fonction de son contexte, c'est-à-dire des mots qui l'entourent. Le réseau neuronal prend en entrée un ensemble de mots contextuels et tente de prédire le mot cible (le mot central). Pendant l'apprentissage, les poids du réseau neuronal sont ajustés pour minimiser l'erreur de prédiction. Les représentations vectorielles des mots sont ensuite extraites à partir des poids du réseau.
2. Modèle Skip-gram : Le modèle Skip-gram inverse le problème : il cherche à prédire les mots contextuels à partir du mot central. Le réseau neuronal prend en entrée un mot cible et tente de prédire les mots environnants (le contexte). Comme pour le modèle CBOW, les poids du réseau sont ajustés pendant l'apprentissage, et les vecteurs de mots sont extraits à partir de ces poids. Les représentations vectorielles obtenues à l'aide de Word2Vec ont des propriétés intéressantes. Les mots similaires d'un point de vue sémantique auront des vecteurs proches dans l'espace vectoriel. De plus, les relations entre les mots peuvent être capturées par des opérations vectorielles. Par exemple, le célèbre cas où "roi - homme + femme ≈ reine" illustre comment Word2Vec capture les relations sémantiques et analogiques entre les mots. En résumé, Word2Vec est une méthode d'apprentissage non supervisée pour obtenir des représentations vectorielles de mots qui capturent la sémantique et les relations entre eux en utilisant des réseaux neuronaux pour prédire les mots en fonction de leur contexte.
GloVe (Global Vectors for Word Representation) est une méthode de représentation vectorielle des mots développée par Jeffrey Pennington, Richard Socher et Christopher Manning de l'université de Stanford en 2014. GloVe vise à créer des vecteurs numériques pour les mots de manière à capturer leur contexte sémantique et les relations entre eux, de manière similaire à Word2Vec. Cependant, GloVe utilise une approche différente, basée sur la factorisation matricielle et les statistiques de cooccurrence des mots. Le processus de création des représentations vectorielles avec GloVe est le suivant :
1. Construction de la matrice de cooccurrence : GloVe commence par construire une matrice de cooccurrence à partir d'un grand corpus de texte. Cette matrice contient les fréquences de cooccurrence des mots, c'est-à-dire le nombre de fois où deux mots apparaissent ensemble dans un contexte donné (généralement une fenêtre de mots).
2. Factorisation matricielle : L'objectif principal de GloVe est d'apprendre des vecteurs de mots de telle sorte que leur produit scalaire soit égal au logarithme de la probabilité de cooccurrence des mots. Pour ce faire, GloVe effectue une factorisation matricielle de la matrice de cooccurrence en utilisant une fonction d'erreur quadratique pondérée pour minimiser la différence entre le produit scalaire des vecteurs de mots et le logarithme de la cooccurrence.
3. Extraction des vecteurs de mots : Une fois la factorisation matricielle terminée, les vecteurs de mots sont extraits à partir des matrices factorisées. Ces vecteurs capturent la sémantique des mots et leurs relations dans l'espace vectoriel. Les représentations vectorielles obtenues avec GloVe présentent des propriétés similaires à celles de Word2Vec. Les mots similaires d'un point de vue sémantique auront des vecteurs proches dans l'espace vectoriel, et les relations entre les mots peuvent être capturées par des opérations vectorielles. En résumé, GloVe est une méthode d'apprentissage non supervisée pour obtenir des représentations vectorielles de mots en se basant sur les statistiques de cooccurrence des mots et la factorisation matricielle. GloVe combine les avantages des approches basées sur la factorisation matricielle (comme LSA) et des approches basées sur les modèles de prédiction contextuelle (comme Word2Vec) pour produire des représentations vectorielles riches en informations sémantiques.

Discussion