Informations

Quel filtre doit être appliqué au signal EEG pour le stimulus de stress ?

Quel filtre doit être appliqué au signal EEG pour le stimulus de stress ?

Je suis étudiant en génie électrique et électronique. Je viens de commencer à travailler avec l'EEG. J'effectue un test d'effort sur des sujets et enregistre les activités EEG avec un casque à 5 capteurs. J'utilise Matlab pour l'analyse. Je me demande si quelqu'un peut me dire la meilleure méthode d'analyse des données. Est-ce que nous nous attendons à ce que le signal soit localisé à une certaine plage de fréquences dans les données EEG sous un stimulus de stress ? Si oui, quelle est la gamme de fréquence ? Quel filtre doit être appliqué au signal EEG pour le stimulus de stress ?


But du test

Un EEG est une mesure de l'activité électrique continue du cerveau. Ceci est détecté via de petits disques métalliques appelés électrodes qui sont positionnés selon des modèles standardisés sur le cuir chevelu. Chaque électrode a des fils qui se connectent à un ordinateur, bien que selon l'Epilepsy Foundation of America (EFA) en 2013, les systèmes sans fil soient de plus en plus utilisés dans les EEG vidéo. Les électrodes détectent l'activité électrique produite par le cerveau et transmettent cette information à un ordinateur, où elle est traitée et enregistrée électroniquement ou imprimée. Les ondes cérébrales sont enregistrées sous forme de lignes ondulées appelées traces, et chaque trace représente une zone différente dans le cerveau.

Les EEG sont le plus souvent utilisés pour évaluer la présence ou le risque de convulsions - des décharges électriques anormales dans le cerveau qui peuvent provoquer de la confusion, de l'agitation, des mouvements incontrôlés, des hallucinations et même un collapsus. Si vous êtes évalué pour l'épilepsie, votre neurologue recherchera des modèles sur votre EEG appelés épileptiformes qui peuvent se manifester par des pointes, des ondes pointues ou des décharges de pointes et d'ondes. Si une activité anormale apparaît sur votre EEG, la trace peut montrer où dans votre cerveau la crise a pris naissance. ??

Par exemple, si vous avez des crises généralisées, ce qui signifie qu'elles impliquent les deux côtés de votre cerveau, il y aura probablement des décharges de pointes et d'ondes réparties dans tout votre cerveau. Si vous avez des crises focales, c'est-à-dire qu'elles n'impliquent qu'une seule zone de votre cerveau, il y aura des pointes et/ou des vagues pointues peuvent être vues à cet endroit spécifique. ??

Bien que la principale raison pour laquelle un EEG est effectué est de diagnostiquer l'épilepsie, le test a de nombreuses autres utilisations. Il s'agit notamment de rechercher une activité cérébrale anormale qui peut être causée par :  

  • Une blessure à la tête
  • Une tumeur au cerveau
  • Une infection telle que l'encéphalite (inflammation du cerveau qui est généralement causée par un virus)
  • Troubles du sommeil causés par des convulsions. À cette fin, un EEG peut être effectué en conjonction avec une étude du sommeil standard appelée polysomnogramme, qui surveille les étapes et les cycles du sommeil pour identifier les perturbations des habitudes de sommeil et les raisons pour lesquelles elles peuvent se produire. Chez les personnes ayant des mouvements ou des comportements anormaux pendant le sommeil, il peut être important d'exclure les crises comme cause potentielle.

Un EEG peut également être utilisé pour déterminer pourquoi une personne est dans le coma ou dans un état de délire, si une personne dans un coma persistant est en état de mort cérébrale, ou pour évaluer une intoxication médicamenteuse.

Une personne dans un coma artificiel peut avoir une surveillance continue des ondes cérébrales à l'aide d'un EEG pour s'assurer qu'elle reçoit le bon niveau d'anesthésie. Un patient subissant une chirurgie cérébrale ou vasculaire peut être surveillé avec un EEG pour s'assurer que la chirurgie ne cause pas de dommages permanents.

Types d'EEG

Il existe plusieurs types d'électroencéphalogrammes, ainsi que différentes versions de chacun. Votre expérience sera basée sur votre situation spécifique. De manière très générale, cependant, il existe deux types de base d'EEG :  

  • EEG de routine : Ce test de base est généralement effectué après que quelqu'un a une crise pour la première fois. Ceci est idéalement effectué dans les 24 heures, c'est pourquoi il est important d'appeler les secours d'urgence ou de vous rendre immédiatement aux urgences d'un hôpital si vous ou quelqu'un d'autre avez une crise. Un EEG de routine peut être effectué avec ou sans surveillance vidéo, dans lequel vous serez filmé pendant le test pour voir si vous avez des ondes cérébrales anormales lors de mouvements ou d'activités spécifiques.
  • EEG ambulatoire : Ce test utilise l'équipement qu'une personne porte afin que l'activité cérébrale puisse être enregistrée en continu pendant qu'elle vaque à ses activités normales. Cela peut être fait avec la vidéo tant qu'il y a une autre personne pour faire l'enregistrement.

Discussion

L'accumulation de preuves indique la possibilité fascinante que nous puissions, dans une certaine mesure, contrôler activement nos souvenirs en récupérant certaines expériences tout en essayant d'en supprimer d'autres (Anderson et Green, 2001 Anderson et Hanslmayr, 2014 Benoit et al., 2016 Depue et al., 2016 Ryckman et al., 2018). En utilisant le paradigme bien établi penser/ne pas penser (Anderson et Green, 2001 Hanslmayr et al., 2009), nous avons testé ici si le stress aigu peut interférer avec la capacité de contrôler intentionnellement la mémoire. Nous démontrons que le stress interférait en particulier avec la suppression active des souvenirs. De plus, l'incapacité à contrôler intentionnellement les souvenirs sous stress était liée à une activité thêta altérée dans l'IPL droit et à des changements de connectivité fonctionnelle entre l'hippocampe et le dlPFC droit.

La capacité de contrôler intentionnellement la mémoire a été démontrée dans plusieurs études utilisant le paradigme penser/ne pas penser (Anderson et Green, 2001 Anderson et al., 2004 Benoit et Anderson, 2012 Paz-Alonso et al., 2013 Benoit et al., 2015). Conformément à ces études antérieures, le groupe témoin a démontré un rappel plus élevé de la pensée par rapport aux paires de mots-visages sans réflexion reflétant le contrôle intentionnel de la mémoire. Plus important encore, cependant, le stress aigu avant la tentative de renforcer ou de supprimer intentionnellement les souvenirs (c. Il est intéressant de noter que le stress altère principalement la suppression active des souvenirs, conformément à la conclusion selon laquelle le stress altère l'oubli induit par la suppression des peurs futures (Ashton et al., 2020). Lorsqu'elles ne sont pas accompagnées d'une activation noradrénergique, il a été suggéré que les actions (génomiques) des glucocorticoïdes interfèrent avec le traitement inhibiteur (Shields et al., 2015). Ceci est conforme à la découverte actuelle d'une suppression altérée en cas de stress et soutient l'idée qu'un contrôle inhibiteur est nécessaire pour les éléments sans réflexion (Anderson et Hanslmayr, 2014 Anderson et al., 2016). De plus, le fait que nos données aient montré un effet spécifique à l'oubli induit par la suppression va clairement à l'encontre de l'opinion selon laquelle nos résultats représentent un autre exemple des changements bien connus de récupération induits par le stress (de Quervain et al., 1998, 2000, 2007 Gagnon et Wagner, 2016 Shields et al., 2017). Si le stress avait affecté la récupération en soi, la mémoire pour la récupération (éléments de base vs éléments de réflexion) aurait également dû être affectée, ce qui n'était cependant pas le cas.

Au cours de la phase de contrôle intentionnel, le stress aigu a modulé l'activité thêta dans le cortex pariétal inférieur droit, ce qui était directement lié à la réponse du cortisol. Dans la condition de stress, une augmentation plus prononcée du cortisol était associée à une diminution de l'activité thêta de l'IPL droit pour les éléments de réflexion par rapport à ceux sans réflexion, suggérant que le cortisol pourrait en effet être une force motrice. Ceci est conforme aux recherches antérieures suggérant que les actions (génomiques) des glucocorticoïdes, lorsqu'elles ne sont pas accompagnées d'une activation noradrénergique, réduisent l'activité dans un réseau comprenant des régions temporo-pariétales (Hermans et al., 2014). Corroborant la suggestion selon laquelle le cortex pariétal prend en charge la récupération de la mémoire (Shimamura, 2011), nous avons trouvé une association positive entre l'activité thêta de l'IPL et l'indice de récupération (baseline-think) dans la condition de contrôle alors que cette association était absente dans la condition de stress. Le cortex pariétal latéral s'est avéré être un intermédiaire clé dans la modulation du lobe temporal médian par PFC latéral lors de la suppression de la mémoire (Paz-Alonso et al., 2013).

Le stress aigu a modulé l'association entre la connectivité hippocampe-dlPFC droit et l'oubli induit par la suppression et l'augmentation totale du cortisol. Chez les participants témoins, une connectivité plus forte entre l'hippocampe et le dlPFC droit était associée à un meilleur oubli, tandis que cette association faisait défaut chez les participants stressés. Ce changement induit par le stress dans l'association entre la connectivité hippocampe-dlPFC et la suppression de la mémoire pourrait bien être à nouveau provoqué par le cortisol, car des réponses plus élevées au cortisol étaient associées à une synchronisation réduite de la phase thêta entre l'hippocampe-dlPFC droit. La synchronisation de la phase thêta a été considérée comme un indicateur important du contrôle descendant et de la communication entre le PFC latéral et le lobe temporal médian, y compris l'hippocampe (Vincent et al., 2006 Depue et al., 2013 Daume et al., 2017a,b) . Il faut cependant noter que la conception actuelle ne permet pas une dissociation explicite des traitements descendants et ascendants.

Au cours de la phase d'initiation, lorsque les participants se préparaient à réactiver ou à supprimer un souvenir, le stress a modulé l'activité thêta dans le lobe temporal inférieur. Le paradigme think/no-think est basé sur la mémoire visuelle dans laquelle le lobe temporal inférieur joue un rôle critique via le lobe temporal médian (Axmacher et al., 2008). De plus, il a été suggéré que le lobe temporal inférieur fonctionne comme un filtre de mémoire adaptatif (Miller et al., 1991). La modulation induite par le stress de l'activité thêta trouvée dans la présente étude pourrait impliquer un filtre de mémoire ascendant fonctionnellement altéré en cas de stress et donc le besoin de plus de contrôle pendant la phase de contrôle intentionnel.

Nous nous sommes concentrés ici sur l'analyse des oscillations thêta car elles ont été impliquées dans la récupération de la mémoire (Klimesch, 1999), la maintenance (Nyhus et Curran, 2010) et le contrôle intentionnel de la mémoire (Ketz et al., 2014 Waldhauser et al., 2015) , et une réduction induite par le stress des oscillations thêta a été démontrée (Gärtner et al., 2014, 2015). Nos résultats ouvrent la voie à de futures recherches car il est d'un grand intérêt de montrer comment la puissance thêta en tant que marqueur d'une suppression déficiente de la mémoire sous contrainte est liée aux changements de puissance dans d'autres gammes de fréquences. De plus, pour obtenir des rapports signal sur bruit comparables entre les conditions, les nombres d'essais avec réflexion et sans réflexion ont été stratifiés. Cela a abouti à un large éventail de nombres d'essais, certains participants ayant moins de 100 essais. Les études futures devraient considérer plus fortement que pour les analyses de connectivité et pour détecter l'activité des structures cérébrales profondes avec le MEG, un grand nombre d'essais aboutit à des estimations plus précises (Quraan et al., 2011 Ruzich et al., 2019). Enfin, il convient de noter que les performances de mémoire étaient globalement très élevées dans le test de rappel final, en ligne avec les études précédentes utilisant ce paradigme penser/ne pas penser (Anderson et Green, 2001 Hanslmayr et al., 2009 Benoit et Anderson, 2012 Depue et al., 2013 Paz-Alonso et al., 2013 Ketz et al., 2014 Benoit et al., 2015 Waldhauser et al., 2015). Ce niveau de performance de mémoire peut avoir empêché les effets de stress sur les éléments de réflexion (ou de base). Cependant, le fait que le contrôle intentionnel de la mémoire ait entraîné une diminution des éléments de réflexion par rapport aux éléments sans réflexion, malgré la force de performance globale de la mémoire, et que le stress ait interféré avec ce contrôle de la mémoire est une découverte remarquable en soi.

En somme, nos données montrent que le stress aigu altère le contrôle intentionnel de la mémoire. Ce déficit induit par le stress dans le contrôle intentionnel de la mémoire était principalement lié à une modulation de la puissance thêta et de l'activité source correspondante dans le cortex pariétal latéral, une région qui médie le contrôle exécutif du lobe temporal médian par la PFC latérale pendant la suppression de la mémoire (Paz-Alonso et al., 2013). De plus, la déficience induite par le stress dans la suppression active de la mémoire était liée à une connectivité altérée entre l'hippocampe et le dlPFC droit, qui à son tour était négativement corrélée avec le cortisol induit par le stress. Ces données indiquent des conditions dans lesquelles le contrôle actif de la mémoire se détériore et peuvent nous aider à comprendre les troubles liés au stress, tels que le SSPT, dans lesquels les patients sont en proie à des souvenirs récurrents et vifs d'événements aversifs et les tentatives de contrôle de ces souvenirs indésirables échouent (Catarino et al., 2015 Waldhauser et al., 2018 Mary et al., 2020).


Article de recherche original

Johannes Vosskuhl 1† , Tuomas P. Mutanen 2† , Toralf Neuling 3,4 , Risto J. Ilmoniemi 2 et Christoph S. Herrmann 1,5*
  • 1 Laboratoire de psychologie expérimentale, Pôle d'excellence “Hearing4all”, École de médecine européenne, Université d'Oldenburg, Oldenburg, Allemagne
  • 2 Département de neurosciences et de génie biomédical, École des sciences de l'Université Aalto, Espoo, Finlande
  • 3 Laboratoire de psychologie physiologique, Université de Salzbourg, Salzbourg, Autriche
  • 4 Centre des sciences de l'esprit/du cerveau, Université de Trente, Trente, Italie
  • 5 Centre de recherche en sciences neurosensorielles, Université d'Oldenburg, Oldenburg, Allemagne

Fond: Pour sonder le rôle fonctionnel des oscillations cérébrales, la stimulation transcrânienne à courant alternatif (tACS) s'est avérée être un outil neuroscientifique utile. En raison de l'artefact excessif causé par le tACS à la fréquence de stimulation dans les signaux d'électroencéphalographie (EEG), les études tACS + EEG ont été principalement limitées à comparer l'activité cérébrale entre les enregistrements avant et après le tACS simultané. De manière critique, les tentatives de suppression de l'artefact dans les données ne peuvent garantir que l'ensemble de l'artefact est supprimé tandis que l'activité cérébrale est préservée. La présente étude vise à évaluer la faisabilité de techniques de correction d'artefacts spécifiques pour nettoyer les données EEG contaminées par le tACS.

Nouvelle méthode : Dans la première expérience, nous avons utilisé une tête fantôme pour avoir un contrôle total sur le signal à analyser. Conduisant des signaux d'oscillation du cerveau humain préenregistrés via une source de courant dipolaire dans le fantôme, nous avons simultanément appliqué le tACS et comparé les performances de différentes techniques de correction d'artefacts : soustraction sinusoïdale, soustraction modèle et projection signal-espace (SSP). Dans la deuxième expérience, nous avons combiné tACS et EEG sur un sujet humain pour démontrer l'approche de correction de données la plus performante dans une preuve de principe.

Résultats: L'artefact tACS a été fortement atténué par SSP dans le fantôme et l'EEG humain ainsi, nous avons pu récupérer l'amplitude et la phase de l'activité oscillatoire. Dans l'expérience humaine, la désynchronisation liée à l'événement pourrait être restaurée après avoir corrigé l'artefact.

Comparaison avec les méthodes existantes : Les meilleurs résultats ont été obtenus avec SSP, qui a surpassé la soustraction de sinus et la soustraction de modèle.

Conclusion: Nos résultats démontrent la faisabilité du SSP en l'appliquant à une mesure fantôme avec un signal préenregistré et un ensemble de données tACS + EEG humain. Pour une validation complète du SSP, davantage de données sont nécessaires.


RÉSULTATS

Résultats comportementaux

Les taux d'erreur moyens et les RT ainsi que les erreurs-types intra-participants (Morey, 2008) ont été calculés pour chaque condition et sont illustrés à la figure 4. La proportion d'erreurs dans toutes les conditions s'est avérée faible (ne dépassant pas 5 %). Pour quantifier les différences de performances comportementales pour le type de stimulus et la difficulté de décision, nous avons construit des LME. En utilisant une procédure d'ajustement par étapes, nous nous sommes retrouvés avec la même structure d'effets fixes et aléatoires pour la RT et la précision (p < .001 pour RT et p < .05 pour la précision) : type de stimulus, difficulté de décision et leur interaction en tant que participant à effets fixes en tant qu'interception aléatoire et type de stimulus et essai en tant que pentes aléatoires.

RT moyens et taux d'erreur avec des erreurs types intra-participants pour chaque condition.

RT moyens et taux d'erreur avec des erreurs-types intra-participants pour chaque condition.

Tout d'abord, les RT ont été tracés par rapport à une distribution normale théorique, et comme ils se sont avérés asymétriques à droite, une transformation logarithmique a été appliquée. Ensuite, un modèle LME avec log (RT) comme variable dépendante a été ajusté. Pour les conditions faciles, le type de stimulus a atteint une signification, indiquant que les participants étaient plus rapides lors de la discrimination entre les formes faciles que les caractères faciles. Pour les conditions difficiles, la figure 4 suggère l'effet inverse du type de stimulus, mais il n'a pas atteint la signification. Pour les formes et les personnages, la difficulté de décision a eu un effet significatif sur les RT, à savoir que les RT augmentaient lorsque les mêmes stimuli étaient présentés, mais la décision était plus difficile (pour les statistiques, voir le tableau 1). De plus, pour toutes les conditions, l'interaction entre le type de stimulus et la difficulté de décision était significative.

. Variable de réponse .
Journal (RT) . Précision .
Estimation . Valeur t . Valeur p . Estimation . Valeur z . Valeur p .
Référence : Formes faciles
Intercepter 6.25 168.73 <.001 4.78 22.28 <.001
Type de stimulation 0.14 3.88 <.001 −0.27 −1 .31
Difficulté de décision 0.47 8.99 <.001 −1.27 −4.63 <.001
Type de stimulus × Difficulté de décision −0.18 −3.51 <.001 0.82 2.47 <.05
Référence : Personnages Difficiles
Intercepter 6.68 143.34 <.001 4.06 15.2 <.001
Type de stimulation 0.04 1.08 .28 −0.55 −2.35 <.05
Difficulté de décision −0.28 −4.29 <.001 0.44 1.19 .23
. Variable de réponse .
Journal (RT) . Précision .
Estimation . Valeur t . Valeur p . Estimation . Valeur z . Valeur p .
Référence : Easy Shapes
Intercepter 6.25 168.73 <.001 4.78 22.28 <.001
Type de stimulation 0.14 3.88 <.001 −0.27 −1 .31
Difficulté de décision 0.47 8.99 <.001 −1.27 −4.63 <.001
Type de stimulus × Difficulté de décision −0.18 −3.51 <.001 0.82 2.47 <.05
Référence : Personnages Difficiles
Intercepter 6.68 143.34 <.001 4.06 15.2 <.001
Type de stimulation 0.04 1.08 .28 −0.55 −2.35 <.05
Difficulté de décision −0.28 −4.29 <.001 0.44 1.19 .23

Pour la précision en tant que variable dépendante, un modèle LME binomial a été ajusté. Pour la condition Formes, la difficulté de décision a eu un effet significatif mais n'a pas atteint la signification pour la condition Personnages. De plus, pour les conditions difficiles, le type de stimulus a eu un effet significatif sur la précision. Pour toutes les conditions, l'interaction entre le type de stimulus et la difficulté de décision était significative.

Pour résumer, la difficulté de décision a eu l'effet le plus important : elle a conduit à des RT significativement plus longues pour les deux types de stimulus. De plus, les participants ont répondu plus lentement aux Caractères qu'aux Formes, mais uniquement lorsque la décision était facile.

Résultats d'accumulation de preuves

Pour identifier comment ces différences dans les RT étaient causées par des composants de décision et de non-décision, nous avons adapté des modèles de Wald décalés aux RT. Divers modèles, du modèle d'interception uniquement au modèle le plus complexe où le taux de dérive (v), temps de non-décision (t0) et seuil (B) pouvaient différer — ont été comparés en ce qui concerne les poids WAIC. Ces poids représentent la probabilité qu'un modèle particulier soit le « vrai » modèle (c'est-à-dire le modèle qui a généré les données) en supposant que le « vrai » modèle se trouve dans l'ensemble des modèles comparés (Wagenmakers & Farrell, 2004). Les poids WAIC quantifiés ont montré qu'il n'y avait pas de modèle gagnant clair parmi les participants. Par conséquent, une moyenne du modèle a été appliquée (voir la section Modélisation de l'accumulation de preuves).Les valeurs pondérées résultantes sont présentées dans la figure 5.

Les valeurs moyennes pondérées (pondérées par les poids WAIC correspondants) sont présentées pour chaque condition et pour chacun des paramètres du modèle de Wald : taux de dérive, temps de non-décision et seuil.

Les valeurs moyennes pondérées (pondérées par les poids WAIC correspondants) sont présentées pour chaque condition et pour chacun des paramètres du modèle de Wald : taux de dérive, temps de non-décision et seuil.

Pour tester si ces valeurs différaient selon le type de stimulus et la difficulté de décision, des modèles LME distincts ont été construits avec le paramètre (v, t0, B) comme variable dépendante et participant comme effet aléatoire. L'estimation du modèle a été effectuée selon une routine d'ajustement par étapes : elle a commencé avec les modèles simples (type de stimulus ou difficulté de décision comme seul prédicteur) et s'est terminée avec les modèles complets (effets principaux du type de stimulus et de la difficulté de décision ainsi que leur interaction ainsi que prédicteurs). Pour comparer ces modèles, nous avons calculé les facteurs de Bayes (BF) avec le package BayesFactor (Morey et al., 2015). BF représente une preuve relative en faveur des hypothèses nulles et alternatives fournies par les données (Kass & Raftery, 1995). En termes de comparaison de modèles, les BF signalés indiquent si les données favorisent un modèle avec effet par rapport à un modèle sans effet, le modèle à l'interception uniquement.

Pour le taux de dérive, les BF ont fourni des preuves solides pour le modèle avec difficulté de décision (voir le tableau 2 pour les statistiques). Ce modèle a surpassé tous les autres modèles : par rapport au modèle avec type de stimulus, BF = 65762,5 (±0,03%) par rapport au « modèle à effets principaux » du type de stimulus et de la difficulté de décision, BF = 4,23 (±0,9%) et par rapport au « modèle complet » avec principaux effets du type de stimulus et de la difficulté de décision et de leur interaction, BF = 3,59 (± 1,11 %). Pour le paramètre de seuil, les BF ont fourni des preuves contre des modèles avec un type de stimulus et une difficulté de décision. Pour le temps de non-décision, les BF ont fourni des preuves solides pour le modèle avec type de stimulus. Ce modèle a surperformé tous les autres modèles à l'exception du « modèle à effets principaux » : versus modèle avec difficulté de décision, BF = 6056,83 (±0%) versus « modèle à effets principaux », BF = 1,16 (±9,4%) et versus « modèle complet », BF = 3,78 (± 4,16 %). Bien que les deux modèles - le modèle avec type de stimulus et le "modèle à effets principaux" - décrivent bien les données, nous étions enclins à procéder avec le modèle avec type de stimulus car il a la valeur BF la plus élevée par rapport au modèle d'interception uniquement et est le modèle le plus parcimonieux.

Prédicteurs . Variable de réponse .
Taux de dérive (v) . Seuil (B) . Temps de non-décision (t0) .
Type de stimulation 0.23 ± 0.03% 0.21 ± 0.03% 3791,48 ± 0% a
Difficulté de décision 15227,53 ± 0% a 0.23 ± 0.03% 0.63 ± 0%
Modèle à effets principaux (type de stimulus + difficulté de décision) 3595.3 ± 0.9% 0.05 ± 1.86% 3259.01 ± 9.4%
« Modèle complet » (Type de stimulus × Difficulté de décision) 4245.34 ± 1.11% 0.01 ± 8.82% 1004.02 ± 4.16%
Prédicteurs . Variable de réponse .
Taux de dérive (v) . Seuil (B) . Temps de non-décision (t0) .
Type de stimulation 0.23 ± 0.03% 0.21 ± 0.03% 3791,48 ± 0% a
Difficulté de décision 15227,53 ± 0% a 0.23 ± 0.03% 0.63 ± 0%
Modèle à effets principaux (type de stimulus + difficulté de décision) 3595.3 ± 0.9% 0.05 ± 1.86% 3259.01 ± 9.4%
« Modèle complet » (Type de stimulus × Difficulté de décision) 4245.34 ± 1.11% 0.01 ± 8.82% 1004.02 ± 4.16%

Les BF signalés indiquent un ajustement relatif en comparant ces modèles à un modèle à l'interception uniquement.

Indiquez les modèles avec les BF les plus élevés.

Pour résumer, des modèles de Wald décalés ont été ajustés aux données RT de toutes les conditions. Conformément à notre hypothèse, nous avons trouvé des preuves que la difficulté de décision affectait le taux de dérive du processus de prise de décision et que le type de stimulus affectait le temps de non-décision.

Résultats HsMM-MVPA

Pour mieux comprendre les étapes de traitement qui comprennent les processus de décision et de non-décision, le HsMM-MVPA a été appliqué à toutes les conditions séparément pour trouver le nombre optimal d'étapes. Pour toutes les conditions, un modèle avec quatre bosses et cinq étapes représentait le mieux les données. Ensuite, pour tester si les stades cognitifs découverts différaient selon le type de stimulus, pour les conditions faciles et difficiles, une gamme de modèles HsMM-MVPA ont été construits dans lesquels les bosses et les durées des stades ont été partagées de différentes manières. L'estimation du modèle a été réalisée avec une routine d'ajustement par étapes et comprenait un modèle général dans lequel nous avons émis l'hypothèse que les topologies du cuir chevelu et les durées des étapes pour les deux conditions sont les mêmes, des modèles où nous avons fait varier chaque bosse consécutive entre les conditions et, enfin, des modèles complètement séparés pour les deux conditions. Les ajustements du modèle ont été comparés pour chaque participant, et un modèle a été préféré lorsque l'ajustement s'est amélioré pour un nombre important de participants par rapport à un modèle plus simple. Le tableau 3 répertorie les résultats.

. Modèle général . Coup 1 . Coup 2 . Coup 3 . Bosse 4 . Bump 2 + Étape 3 . Somme des modèles séparés .
Formes et caractères faciles
Modèle général 0 8 5 6 4 2 2
Coup 1 17 0 8 9 6 4 3
Coup 2 2017 0 13 14 7 7
Bosse 3 1916 12 0 11 7 5
Bosse 4 211911 14 0 8 5
Bump 2 + Étape 3 a 2321181817 0 8
Somme des modèles séparés 232218202017 0
. Modèle général . Coup 1 . Coup 2 . Coup 3 . Bosse 4 . Étape 4 . Somme des modèles séparés .
Formes et personnages difficiles
Modèle général a 0 13 9 10 13 12 13
Coup 1 12 0 10 14 13 12 15
Coup 2 16 15 0 14 17 16 15
Bosse 3 15 11 11 0 16 15 16
Bosse 4 12 12 8 9 0 6 11
Étape 4 13 13 9 10 190 14
Somme des modèles séparés 12 10 10 9 14 11 0
. Modèle général . Coup 1 . Coup 2 . Bosse 3 . Bosse 4 . Bump 2 + Étape 3 . Somme des modèles séparés .
Formes et caractères faciles
Modèle général 0 8 5 6 4 2 2
Coup 1 17 0 8 9 6 4 3
Coup 2 2017 0 13 14 7 7
Coup 3 1916 12 0 11 7 5
Bosse 4 211911 14 0 8 5
Bump 2 + Étape 3 a 2321181817 0 8
Somme des modèles séparés 232218202017 0
. Modèle général . Coup 1 . Coup 2 . Bosse 3 . Bosse 4 . Étape 4 . Somme des modèles séparés .
Formes et personnages difficiles
Modèle général a 0 13 9 10 13 12 13
Coup 1 12 0 10 14 13 12 15
Coup 2 16 15 0 14 17 16 15
Bosse 3 15 11 11 0 16 15 16
Bosse 4 12 12 8 9 0 6 11
Étape 4 13 13 9 10 190 14
Somme des modèles séparés 12 10 10 9 14 11 0

Les valeurs rapportées expriment le nombre de participants pour lesquels le modèle s'est amélioré (ligne par rapport à la colonne). Les chiffres en gras indiquent une prédiction du modèle nettement meilleure (comme déterminé par un test de signe, p < .05).

Les meilleurs modèles pour les conditions faciles et difficiles.

Pour les conditions faciles, le modèle où Bump 2 variait par type de stimulus avait la probabilité logarithmique moyenne la plus élevée sur les participants, à l'exception des modèles complètement séparés. Comme une étape cognitive dans un modèle HsMM-MVPA est représentée à la fois dans la topologie des bosses et dans la durée de l'étape, la durée de l'étape consécutive (étape 3) a également varié. Le modèle résultant dans lequel nous avons fait varier à la fois le Bump 2 et la durée du Stage 3 a nettement surperformé tous les autres modèles combinés et n'a été surpassé par aucun autre modèle. Bien que ce soit également le cas pour des modèles complètement séparés pour chaque condition, ces modèles nécessitent plus de paramètres. Nous avons donc décidé de procéder avec le modèle plus parcimonieux, dans lequel seuls Bump 2 et Stage 3 étaient différents par type de stimulus.

Pour les conditions difficiles, nous avons également estimé des modèles où chaque bosse pouvait être différente entre les conditions. Cependant, aucun de ces modèles n'a surpassé le modèle général (tableau 3). Parce que nous avons observé une différence de durée de l'étape 4 pour les différents types de stimulus dans les modèles initiaux, nous avons complété l'analyse avec un modèle où l'étape 4 était variée. Cependant, ce modèle n'a pas non plus surpassé le modèle général.

Les représentations topographiques et les débuts d'étape des modèles finaux sont présentés à la figure 6, et la durée moyenne de ces étapes et les erreurs types sont présentées à la figure 7. Comme le suggère la figure 6, même les topologies résultant de différentes analyses étaient fortement corrélées, suggérant robustesse de la méthode (Bump 1 : Facile-Difficile = 0,84 Bump 2 : Caractères faciles-Formes faciles = 0,81, 0,97 bosse 4 : facile à difficile = 0,76).

Les représentations topographiques et les emplacements temporels des stades HsMM-MVPA résultants tracés par condition. Notre interprétation cognitive de ces stades est décrite dans la section Interprétation fonctionnelle des stades HsMM-MVPA.

Les représentations topographiques et les emplacements temporels des stades HsMM-MVPA résultants tracés par condition. Notre interprétation cognitive de ces stades est décrite dans la section Interprétation fonctionnelle des stades HsMM-MVPA.

Les durées moyennes des étapes avec les erreurs standard par condition des modèles HsMM-MVPA.

Les durées moyennes des étapes avec les erreurs standard par condition des modèles HsMM-MVPA.

Enfin, pour étudier l'effet de la difficulté de décision, les stades HsMM-MVPA découverts ont été comparés entre les conditions faciles et difficiles. Les durées des étapes résultantes ont été inspectées visuellement (Figure 7), et les étapes qui semblaient être différentes pour la difficulté de décision—étape 4 et étape 5—ont été soumises à une analyse statistique. Ainsi, un modèle LME avec les durées des étapes comme variable dépendante, la difficulté de décision comme prédicteur et le participant comme intersection aléatoire a été ajusté. Pour évaluer l'ajustement relatif de ces modèles, des BF ont été calculés (BayesFactor package Morey, 2008). Les BF ont fourni des preuves solides de l'effet de la difficulté de décision pour le stade 4 (1,9 × 10 16 ± 0 %) et pour le stade 5 (3,5 × 10 19 ± 0 %). Non seulement la durée de l'étape 4 et de l'étape 5 mais aussi la topologie de la bosse 4 située entre ces étapes varie selon la difficulté de décision (Figure 6). Cette bosse se caractérise par une amplitude plus élevée pour les conditions faciles avec la positivité centrale la plus importante.

Pour résumer, pour toutes les conditions, un modèle HsMM-MVPA avec cinq étapes représentait le mieux les données. Pour les conditions faciles, le HsMM-MVPA a démontré que Bump 2 et la durée de l'étape 3 variaient selon le type de stimulus, alors que les autres étapes étaient partagées. Pour les conditions difficiles, aucune étape ne varie selon le type de stimulus. Lors de la comparaison des conditions faciles et difficiles, la durée des étapes 4 et 5 et la topologie de la bosse 4 située entre elles varient en fonction de la difficulté de décision.

Identification des étapes d'accumulation de preuves avec HsMM-MVPA

Nous avons émis l'hypothèse que les étapes découvertes avec la méthode HsMM-MVPA devraient être cohérentes avec les résultats des EAM. À cette fin, nous avons comparé la durée des étapes de traitement des modèles HsMM-MVPA avec les résultats des modèles de Wald. Nous supposons que la méthode HsMM-MVPA décompose le temps de décision de Wald (basé sur le taux de dérive et les paramètres de seuil) et le temps de non-décision en une séquence plus détaillée d'étapes de traitement. Cela suggère qu'une somme particulière de durées d'étape dans le modèle HsMM-MVPA devrait correspondre à la décision de Wald ou aux durées de non-décision. Si cette hypothèse est vérifiée, un modèle de régression ajusté aux durées correspondantes dans HsMM-MVPA et Wald devrait avoir une pente non différente de 1.

Pour tester cette hypothèse, nous avons d'abord calculé la durée du processus de décision dans le modèle de Wald en divisant la valeur seuil (B) par taux de dérive (v). Le temps de non-décision est simplement donné par le paramètre de non-décision t0. Ensuite, des modèles de régression linéaire avec une intersection de 0 ont été ajustés aux durées. Dans ces modèles, le temps de décision ou de non-décision de Wald a agi comme variable dépendante, tandis que divers stades HsMM-MVPA et leurs combinaisons ont été utilisés comme prédicteurs. Si la valeur de pente pour ces modèles n'est pas différente de 1, on peut en déduire que les méthodes produisent les mêmes valeurs.

Pour le temps de décision de Wald, divers modèles de régression ont été construits avec une seule étape HsMM-MVPA ou une somme d'étapes consécutives comme prédicteurs (pour un aperçu des valeurs de tous les modèles estimés, voir le tableau 4). Pour tester laquelle de ces étapes représente le temps de décision de Wald, les modèles résultants ont été comparés à un modèle restreint où la valeur de pente est 1. Ensuite, le F statistique et correspondant p les valeurs ont été calculées pour ces modèles. Le modèle avec la durée combinée des étapes HsMM-MVPA 3, 4 et 5 était le seul modèle avec une pente qui n'était pas différente de 1 (p > .05). La figure 8A illustre la relation claire entre la durée de ces étapes et la durée du temps de décision de Wald.

Le temps de décision de Wald comme variable de réponse . Le temps de non-décision de Wald comme variable de réponse .
Prédicteurs . Valeur de la pente . Prédicteurs . Valeur de la pente .
Étape 3 + Étape 4 + Étape 5 0,983 un Étape 1 + Étape 2 1.032 un
Étape 3 + Étape 4 1.114 Étape 2 + Étape 3 0.796
Étape 2 + Étape 3 + Étape 4 + Étape 5 0.845 Étape 1 + Étape 2 + Étape 5 0.688
Étape 1 + Étape 2 + Étape 3 + Étape 4 0.837 Étape 3 1.315
Étape 4 + Étape 5 1.25 Étape 1 + Étape 2 + Étape 3 0.588
Étape 4 1.384 Étape 4 0.383
Étape 1 + Étape 2 + Étape 3 1.58 Étape 4 + Étape 5 0.374
Étape 2 + Étape 3 2.114 Étape 3 + Étape 4 0.34
Étape 1 + Étape 2 2.843 Étape 3 + Étape 4 + Étape 5 0.313
Étape 3 3.422 Étape 2 + Étape 3 + Étape 4 + Étape 5 0.274
Étape 5 4.247 Étape 1 + Étape 2 + Étape 3 + Étape 4 0.268
Étape 2 5.3 Étape 5 1.743
Étape 1 6.115 Étape 1 2.2
Le temps de décision de Wald comme variable de réponse . Le temps de non-décision de Wald comme variable de réponse .
Prédicteurs . Valeur de la pente . Prédicteurs . Valeur de la pente .
Étape 3 + Étape 4 + Étape 5 0,983 un Étape 1 + Étape 2 1.032 un
Étape 3 + Étape 4 1.114 Étape 2 + Étape 3 0.796
Étape 2 + Étape 3 + Étape 4 + Étape 5 0.845 Étape 1 + Étape 2 + Étape 5 0.688
Étape 1 + Étape 2 + Étape 3 + Étape 4 0.837 Étape 3 1.315
Étape 4 + Étape 5 1.25 Étape 1 + Étape 2 + Étape 3 0.588
Étape 4 1.384 Étape 4 0.383
Étape 1 + Étape 2 + Étape 3 1.58 Étape 4 + Étape 5 0.374
Étape 2 + Étape 3 2.114 Étape 3 + Étape 4 0.34
Étape 1 + Étape 2 2.843 Étape 3 + Étape 4 + Étape 5 0.313
Étape 3 3.422 Étape 2 + Étape 3 + Étape 4 + Étape 5 0.274
Étape 5 4.247 Étape 1 + Étape 2 + Étape 3 + Étape 4 0.268
Étape 2 5.3 Étape 5 1.743
Étape 1 6.115 Étape 1 2.2

Ces valeurs sont ordonnées par leur différence absolue par rapport à une pente de 1 (à partir du modèle dont la pente est la plus proche de 1).

Les valeurs ne sont pas significativement différentes de 1 (p > .05).

Comparaison des durées des modélisations HsMM-MVPA et Wald. Les points de la figure indiquent les valeurs pour chaque participant et condition et sont complétés par une ligne diagonale.

Comparaison des durées des modélisations HsMM-MVPA et Wald. Les points de la figure indiquent les valeurs pour chaque participant et condition et sont complétés par une ligne diagonale.

Le temps de non-décision de Wald devrait logiquement être représenté dans les deux étapes HsMM-MVPA restantes : stade 1 et 2. Pour tester cette hypothèse, divers modèles de régression ont été ajustés pour le temps de non-décision de Wald (tableau 4). Conformément à notre hypothèse, le modèle de régression avec la durée combinée des stades 1 et 2 HsMM-MVPA était le seul modèle avec une pente non différente de 1 (p > .05). Le temps de non-décision de Wald ainsi que les deux premières étapes cumulatives de HsMM-MVPA sont représentés sur la figure 8B. Il convient de noter que, bien que les deux méthodes produisent des résultats similaires pour la durée du temps de non-décision, dans les modèles de Wald, ces processus ont une plus grande variation entre les participants.

Pour résumer, il existe une correspondance claire entre les temps de décision des deux méthodes, où le temps de décision des EAM correspond aux trois dernières étapes du HsMM-MVPA. De plus, le temps de non-décision des EAM correspondait aux deux premières étapes.

Interprétation fonctionnelle des stades HsMM-MVPA

Dans les quatre conditions, nous avons trouvé des preuves de l'existence de cinq stades cognitifs. L'étape suivante consiste à interpréter ces étapes en termes de « processus cognitifs » sous-jacents. Les EAM suggèrent que les étapes 1 à 2 sont perceptives, tandis que les étapes 3 à 5 concernent la prise de décision. Ici, nous passerons en revue la littérature pour obtenir des preuves indépendantes d'une telle interprétation fonctionnelle des étapes découvertes.

La première bosse de toutes les conditions a un début moyen d'environ 100 ms et est caractérisée par une négativité centrale-pariétale (Figure 6). Ces résultats ressemblent à un composant ERP N1 standard qui a été largement associé à l'attention (Luck, 2005 Luck, Woodman, & Vogel, 2000). Le stade 1 est donc très probablement un stade de « pré-attention ». Bien que la bosse 2 se soit avérée différente entre les formes faciles et les caractères faciles, après une inspection minutieuse, il apparaît que cette bosse a des distributions topologiques très similaires dans toutes les conditions, avec des amplitudes différentes. Avec son apparition moyenne d'environ 200 ms et une positivité frontale proéminente (la plus saillante pour les conditions difficiles), la bosse ressemble à une composante P2. Depuis sa découverte, ce composant a été largement associé à l'attention (par exemple, Miltner, Johnson, Braun, & Larbig, 1989 Rugg, Milner, Lines, & Phalp, 1987) et plus récemment au traitement de texte initial (Lee, Liu, & Tsai , 2012 Mangels, Picton, & Craik, 2001). Cela fournit des preuves pour l'interprétation de l'étape 2 comme l'étape de traitement du stimulus. Pris ensemble, cela correspond à l'interprétation de ces étapes en tant qu'étapes de non-décision des MAE.

Dans sa négativité frontocentrale et son apparition moyenne, Bump 3 est similaire au composant FN400 qui a été largement accepté pour désigner la reconnaissance axée sur la familiarité (Paller, Voss, & Boehm, 2007 Curran, 2000 Rugg et al., 1998). Dans une approche alternative, cet effet de négativité frontale était lié à un compte décisionnel (Hayama, Johnson, & Rugg, 2008 Dobbins & Han, 2006). La négativité frontale et le début moyen du stade 3 sont compatibles avec les deux interprétations. Ainsi, si nous acceptons l'interprétation familière de la composante frontale négative, nous supposerions que, pendant cette étape, les participants reconnaissaient les modèles dans les stimuli (par exemple, la forme ou la couleur). Si nous acceptons l'interprétation décisionnelle, nous supposerions que cette activité découle d'un certain nombre de décisions internes que les participants ont dû prendre. Les résultats actuels ne peuvent pas arbitrer entre ces différentes interprétations cependant, étant donné la tâche actuelle, nous proposons provisoirement l'interprétation de cette étape comme étape de familiarité.

Dans les deux conditions Formes et Caractères, les deux dernières étapes (étape 4 et étape 5) se sont avérées varier dans leur durée en fonction de la difficulté de décision. La plus grande différence était représentée à l'étape 4—étant significativement plus longue lorsque la décision était plus difficile. De plus, Bump 4 qui a terminé cette étape avait une topologie différente avec une forme d'onde plus positive à travers le cuir chevelu lorsque la décision était plus facile. Nous interprétons donc l'étape 4 comme l'étape de prise de décision centrale dans laquelle les détails du stimulus sont reconnus et mappés sur une réponse. La dernière étape représente alors l'exécution de la réponse. Les différences dans la durée de cette étape étaient également statistiquement significatives, quoique dans le sens inverse : étant significativement plus courtes lorsque la décision était plus difficile. Comme la cartographie des réponses pour les conditions faciles et difficiles était identique, nous supposons que les participants ont commencé à préparer l'exécution de la réponse tout en prenant une décision dans des conditions difficiles (étape 4), ce qui a conduit à une étape d'exécution de la réponse plus courte. Pris ensemble, cela correspond à l'interprétation des trois dernières étapes (étapes 3, 4 et 5) en tant qu'étapes de décision du modèle de Wald, où nous devons noter que la prise de décision inclut l'exécution motrice.

Bien que notre interprétation fonctionnelle des processus cognitifs sous-jacents soit basée sur la littérature ERP, il existe une similitude frappante entre les étapes découvertes et les étapes rapportées dans les articles HsMM-MVPA précédents, fournissant une forme de validation croisée. Par exemple, les deux premières étapes étaient similaires aux deux premières étapes d'Anderson et al.(2016) et Zhang, Walsh et al. (2017, 2018). Dans ces études, les tâches cognitives nécessitaient une prise de décision plus complexe, suggérant que ces deux étapes initiales représentent un traitement de stimulus de niveau relativement bas, en accord avec l'interprétation actuelle comme des étapes de non-décision. De plus, dans Zhang, Borst et al. (2017), l'interprétation des étapes était cohérente avec un modèle cognitif computationnel développé dans l'architecture cognitive ACT-R (Anderson, 2007). Semblables aux stades perceptuels, les stades de décision (stades 3 à 5) étaient comparables dans les topologies cérébrales et les débuts temporels aux résultats d'études HsMM-MVPA antérieures. Par exemple, l'étape 3 de notre étude, interprétée comme une étape de familiarité, ressemble à l'étape de familiarité découverte dans une tâche de reconnaissance associative (Borst & amp Anderson, 2015). Les deux dernières étapes appelées « décision » et « réponse » sont similaires aux étapes correspondantes d'Anderson et al. (2016). Dans l'ensemble, cela suggère la robustesse des résultats et l'interprétation de l'étape cognitive dans la présente étude.


MÉTHODES

Participants

Vingt participants ont participé à l'étude. Un participant a été éliminé de l'analyse de groupe en raison de son incapacité à apprendre la tâche (performance comportementale supérieure à 2 écarts-types en dessous de la moyenne), résultant en un échantillon de 19 participants (18 droitiers, 11 hommes, âge moyen = 24,0 ans, plage = 18-33 ans). L'Institutional Review Board de l'Université de Georgetown a approuvé les procédures expérimentales et le consentement éclairé écrit a été obtenu de tous les participants avant l'expérience.

Stimuli

Les participants ont été formés à une tâche de catégorisation visuelle impliquant des stimuli de voiture générés par un système de morphing capable de manipuler finement et paramétriquement la forme du stimulus (Shelton, 2000). En transformant différentes quantités des quatre prototypes de voitures, nous pourrions générer des milliers d'images uniques, faire varier continuellement la forme et définir avec précision les limites des catégories (Figure 1A et B). La catégorie de chaque stimulus a été définie par la catégorie de prototypes qui contribuait le plus (> 50%) à une morphe donnée (Jiang et al., 2007 Freedman et al., 2003). Ainsi, deux échantillons de stimuli pourraient être similaires mais situés de part et d'autre de la frontière de catégorie, tandis que les stimuli appartenant à la même catégorie pourraient être différents. Ce contrôle minutieux de la similitude physique au sein et entre les catégories nous a permis de démêler les signaux neuronaux représentant explicitement l'appartenance à la catégorie des signaux neuronaux liés à la forme du stimulus physique. Les images de voitures en niveaux de gris ont été présentées sur un fond blanc pour la formation et sur un fond gris neutre pour les tests. Les images d'entraînement variaient en taille (entre 200 et 320 pixels de large) et avaient des résolutions différentes pour empêcher les participants de se concentrer sur les indices locaux et pour décourager une stratégie basée sur le verrouillage des différences d'images locales individuelles. Des images composées de mélanges de trois ou quatre prototypes ont été utilisées pour l'apprentissage des étiquettes et couvraient un espace de morphing à quatre dimensions excluant un couloir de distances inférieures à 5 % de la limite de catégorie. Pour les tests d'étiquettes de catégorie, 21 images ont été positionnées par incréments de 5 % à partir de chacune des quatre lignes de morphing prototypes un à un distinctes. Les résultats des tests de catégorie ont été utilisés pour sélectionner quatre images de chaque ligne de morphe pour les tests EEG (voir Figure 1B). Ces quatre images ont été positionnées à des distances de 0 %, 33 %, 67 % et 100 % par rapport aux limites subjectives des catégories des participants, telles que déterminées par le test de catégorisation de chaque individu. L'espace morph s'étendait de -20% à +120% pour toutes les lignes morph, permettant l'extraction d'un quadruplet équilibré pour chaque ligne morph même lorsqu'une limite de catégorie individuelle s'écartait légèrement de 50%. Ainsi, pour un participant dont les résultats de la catégorisation perceptive placent la limite de catégorie pour une ligne de morphing donnée à 45%, par exemple, le quadruplet de stimulus de test EEG pour cette ligne de morphing et ce participant particuliers consisterait en des images de positions -5%, 28%, 62 % et 95 %.

Stimuli et paradigmes comportementaux. (A) Les stimuli visuels ont été générés à partir de mélanges de quatre prototypes, avec des mélanges composés de >50% de deux prototypes appartenant à la catégorie "Sovor" et des mélanges composés de >50% des deux autres prototypes appartenant à la catégorie "Zupud". Les flèches indiquent les lignes de morph « inter-catégorie » entre deux prototypes appartenant à des catégories différentes. (B) Stimuli et conditions pour le paradigme EEG-RA, illustrés à l'aide d'un exemple de ligne de morphing. Chaque condition présentait une paire de stimuli tirés de lignes de morphing inter-catégorie par incréments de tiers. La ligne pointillée reflète la limite de la catégorie. Les conditions de « même catégorie » (M0, M3w) étaient constituées de deux stimuli de la même catégorie Les conditions de « catégorie différente » (M3b, M6) étaient constituées de paires de stimuli de différentes catégories. Le changement de forme entre les stimuli pour les différentes conditions était petit (M0), intermédiaire (M3w, M3b) ou grand (M6). (C) Paradigme de formation d'étiquette de catégorie. (D) Paradigme EEG-RA. La tâche des participants était de juger si les deux voitures présentées dans un essai appartenaient à la même catégorie ou à des catégories différentes.

Stimuli et paradigmes comportementaux. (A) Les stimuli visuels ont été générés à partir de mélanges de quatre prototypes, avec des mélanges composés de >50% de deux prototypes appartenant à la catégorie "Sovor" et des mélanges composés de >50% des deux autres prototypes appartenant à la catégorie "Zupud". Les flèches indiquent les lignes de morph « inter-catégorie » entre deux prototypes appartenant à des catégories différentes. (B) Stimuli et conditions pour le paradigme EEG-RA, illustrés à l'aide d'un exemple de ligne de morphing. Chaque condition présentait une paire de stimuli tirés de lignes de morphing inter-catégorie par incréments de tiers. La ligne pointillée reflète la limite de la catégorie. Les conditions de « même catégorie » (M0, M3w) étaient constituées de deux stimuli de la même catégorie Les conditions de « catégorie différente » (M3b, M6) étaient constituées de paires de stimuli de différentes catégories. Le changement de forme entre les stimuli pour les différentes conditions était petit (M0), intermédiaire (M3w, M3b) ou grand (M6). (C) Paradigme de formation d'étiquette de catégorie. (D) Paradigme EEG-RA. La tâche des participants était de juger si les deux voitures présentées dans un essai appartenaient à la même catégorie ou à des catégories différentes.

Entraînement

Les participants ont suivi une formation sur les étiquettes de catégorie à distance avec une implémentation Web. Les participants ont appris à classer les stimuli en deux catégories intitulées « SOVOR » et « ZUPUD ». Un seul essai d'entraînement consistait en un stimulus de test présenté pendant 400 ms, suivi d'un masque de 300 ms, suivi des deux étiquettes de catégorie positionnées au hasard sur les côtés gauche et droit de l'écran pour chaque essai (illustré à la figure 1C) pour éviter l'espace associations avec les étiquettes de catégorie. Les participants avaient jusqu'à 3 secondes pour indiquer l'étiquette correcte du stimulus de test avec la touche fléchée gauche ou droite. Des réponses incorrectes ont suscité un retour auditif ainsi qu'un affichage contenant l'étiquette correcte adjacente au stimulus de test que les participants ont visualisé aussi longtemps que souhaité. La difficulté de la tâche de catégorisation a été augmentée en introduisant des morphs avec des contributions de plus en plus importantes de l'autre catégorie jusqu'à ce que les participants puissent identifier de manière fiable (performance >80%) l'appartenance à la catégorie d'images choisies au hasard composées jusqu'à 40% de l'autre catégorie (similaire à Jiang et al., 2007).

Test de catégorisation

Enregistrements électrophysiologiques

Les tensions du cuir chevelu ont été mesurées à l'aide d'un réseau de capteurs géodésiques Hydrocel à 128 canaux de géodésique électrique (EGI, Eugene, OR) et d'un amplificateur Net Amps 300. Les données entrantes ont été numériquement filtrées passe-bas à 200 Hz et échantillonnées à 500 Hz en utilisant une réjection de mode commun avec référence de sommet. Les impédances ont été réglées en dessous de 40 kΩ avant le début de l'enregistrement et maintenues en dessous de ce seuil tout au long de la session d'enregistrement avec un contrôle d'impédance pendant chaque pause entre les blocs. Au cours de l'expérience, les participants ont effectué une tâche de catégorisation sur des paires de stimuli présentées séquentiellement (figure 1D). Comme dans notre précédente étude IRMf-RA (Jiang et al., 2007), des paires de stimulus ont été tirées de lignes de morphes individuelles selon l'une des quatre conditions, chaque condition apparaissant avec une probabilité égale : M0, correspondant à la présentation du même stimulus deux fois M3-intérieur (ci-après abrégé en M3w), correspondant à la présentation de deux stimuli différant par un changement de forme de 33 % le long de la ligne de morphologie de la même catégorie (c'est-à-dire 0 % et 33 % ou 67 % et 100 % des positions le long de la ligne de morphe relative à la limite de catégorie des participants) M3-entre (ci-après abrégé en M3b), correspondant à la présentation de deux stimuli de catégories différentes différant de 33 % (soit 33 % et 67 % de positions le long de la ligne de morphe) et M6, correspondant à la présentation de deux stimuli différant par un changement de forme de 67% de différentes catégories, comme illustré sur la figure 1B. Les conditions M0, M3w, M3b et M6 se sont produites avec une probabilité et une fréquence égales dans un ordre aléatoire. Les participants ont répondu avec leur index droit ou leur majeur pour indiquer si la paire d'images appartenait à la même catégorie ou à des catégories différentes. Dans un cinquième type d'essai, une seule voiture a été présentée. Les participants n'ont pas répondu à ces essais. Les résultats de ces essais ne sont pas examinés plus avant dans cet article. La durée de l'essai était une fixation de 500 ms, un écran blanc pendant 500 à 1 000 ms, le stimulus 1 pendant 200 ms, un blanc pendant 200 ms, un stimulus 2 pendant 200 ms, un blanc jusqu'à ce que la réponse du participant ou 2 300 ms se soient écoulées (voir Figure 1D). Les participants ont effectué cinq blocs de 240 essais ou huit blocs de 180 essais, pour un total de 1200 ou 1280 essais par participant avec un nombre égal d'essais par condition dans tous les cas. Des pauses entre les blocs d'essais ont été utilisées pour maintenir les impédances en dessous du seuil de 40 kΩ.

L'analyse des données

Le traitement des données et les analyses statistiques ont été effectués en utilisant EEGLAB (Delorme & Makeig, 2004), FieldTrip (Oostenveld, Fries, Maris, & Schoffelen, 2011) versions 20120204 et 20121212, et des scripts personnalisés dans Matlab 7.10.0 (R2010a). Les données ont été filtrées passe-haut à 0,1 Hz et filtrées passe-bas à 30 Hz à l'aide d'un filtrage FIR des moindres carrés bidirectionnel dans EEGLAB. l'intervalle de temps [-200 400] par rapport au début du stimulus 2 pour les analyses statistiques, et basé sur l'intervalle [-200 0] ms par rapport au début du stimulus pour comparer les réponses au deuxième stimulus dans toutes les conditions. Les mauvais canaux ont été identifiés par inspection visuelle et remplacés par la moyenne de leurs voisins par interpolation (Oostenveld et al., 2011). Les essais contenant des artéfacts ou des clignements étaient rejetés si le signal enregistré changeait de plus de 75 μV au cours d'un essai sur quatre canaux EOG verticaux, comme dans Scott et al. (2008). Les ERP reflètent les essais pour lesquels les participants ont répondu correctement.

Les signaux EEG ont été analysés pour la sélectivité des stimuli à l'aide de tests de permutation basés sur des grappes (Maris & Oostenveld, 2007). Cette approche permet de prendre en compte toutes les données EEG sans imposer de contraintes a priori concernant les canaux et les points temporels qui reflètent les manipulations expérimentales tout en contrôlant les comparaisons multiples. Les clusters espace-temps ont été identifiés en soumettant chaque paire (canal, point de temps) entre deux conditions à une paire bilatérale t test pour identifier les points où les conditions différaient à p <battre avant de corriger les comparaisons multiples. Ces points ont ensuite été regroupés en clusters spatio-temporels basés sur l'adjacence temporelle et spatiale. Deux points étaient considérés comme temporellement adjacents s'ils se produisaient à des moments ultérieurs. Pour chaque cluster, une seule statistique a été extraite sur la base de la somme de tous les t valeurs dans le cluster. La signification de chaque cluster a été calculée en recalculant chaque statistique de cluster pour 10 4 partitions aléatoires des conditions d'essai. La signification globale de chaque cluster a été calculée en utilisant la proportion de permutations pour lesquelles la statistique de cluster résultante était supérieure à la statistique calculée avec les étiquettes correctes, résultant en une mesure de probabilité contrôlée pour l'erreur de type I (Maris & Oostenveld, 2007).

Les clusters spatio-temporels sélectifs pour les stimuli sur les 128 canaux et les fenêtres temporelles sélectionnées ont été identifiés en contrastant les conditions M0 et M6 pour identifier les clusters qui montraient globalement une adaptation aux stimuli utilisés. Pour ces contrastes primaires, les deux conditions M3 (M3w et M3b) n'ont pas été impliquées dans le processus d'identification des clusters, ce qui permet d'évaluer indépendamment la forme ou l'accord de catégorie conceptuel des clusters identifiés en comparant les amplitudes relatives de M3w et M3b dans les clusters sélectifs du stimulus identifiés par le contraste M0 versus M6. Semblable à notre précédente étude IRMf (Jiang et al., 2007), nous avons estimé que les signaux suscités par les populations de neurones sensibles à une forme de stimulus particulière auraient des niveaux de réponse équivalents aux deux conditions M3, comme les stimuli dans chaque paire pour les deux conditions diffère d'une quantité équivalente de changement de forme physique. On s'attendait donc à ce que les modèles d'activation neuronale provoqués par le deuxième stimulus aient des degrés similaires de chevauchement et présentent ainsi des niveaux similaires d'adaptation aux conditions M3w et M3b. Contrairement aux neurones à forme ajustée, les populations de neurones explicitement sélectives pour la catégorie de stimulus (c'est-à-dire montrant un réglage conceptuel) devaient présenter des niveaux de réponse différents dans les deux conditions M3, car les essais M3w, qui contenaient deux stimuli appartenant à la même catégorie, devraient stimuler à plusieurs reprises les neurones accordés à la même catégorie, provoquant l'adaptation. En revanche, étant donné que les essais M3b contenaient deux stimuli appartenant à des catégories différentes, les deux stimuli devraient activer différents groupes de neurones sélectifs par catégorie et donc provoquer une réponse plus forte et inadaptée. Des recherches de groupes de suivi secondaires ont été menées en comparant les conditions de « même catégorie » (M0 et M3w) par rapport aux conditions de « catégorie différente » (M3b et M6) et aux conditions M3w et M3b. Ces contrastes ont servi à identifier la topographie spatiale et l'étendue temporelle de la sélectivité des catégories.

Nous avons effectué deux recherches de clusters basées sur des hypothèses a priori : une recherche de clusters sans contrainte sur l'ensemble de la fenêtre de temps de 400 ms suivant le début du deuxième stimulus pour identifier les signatures du traitement sélectif du stimulus dans tout le cerveau et la fenêtre de temps de traitement (avec le [0 400] msec fenêtre de latence motivée par le RT médian du participant le plus rapide pour la condition M0, qui était de 429,4 msec). Nous avons utilisé une analyse plus focalisée sur le temps pour cibler la composante N1 en utilisant un intervalle de temps de 50 ms de 150 à 200 ms par rapport au début du stimulus 2. Étant donné l'absence de consensus universel concernant les canaux à inclure dans l'analyse du N1 (par exemple, Eimer, Gosling, Nicholas, & Kiss, 2011 Caharel et al., 2009 Scott et al., 2008 Schweinberger et al., 2002), la recherche de cluster N1 a été initialement menée sur les 128 canaux en utilisant un seuil d'identification de cluster de αbattre = 0,05. Des recherches de cluster de suivi ont été effectuées avec un inférieurbattre valeurs pour sonder la spécificité des effets observés, comme indiqué dans les résultats.

La connectivité fonctionnelle a été évaluée par un calcul de cohérence dans FieldTrip. Quatre groupes de canaux (hémisphère gauche et droit N1, P2 et clusters sélectifs de catégorie postérieure) ont été identifiés par analyse de cluster, et la cohérence a été calculée par paire pour chaque combinaison de canaux entre le cluster sélectif de catégorie postérieur et les canaux de cluster N1 et entre le canaux de clusters postérieurs sélectifs par catégorie et les canaux de cluster P2. Pour limiter l'étendue spatiale des canaux du cluster P2 à une taille comparable à l'étendue du cluster sélectif de catégorie postérieure (10 canaux), les canaux appartenant au cluster P2 au début du cluster ont été considérés (voir Figure 5). Pour préserver la résolution temporelle tout en capturant adéquatement les variations de puissance dans le temps, la fenêtre temporelle pour le calcul de cohérence variait par fréquence de 2 à 30 Hz par pas de 2 Hz sur une durée de 1/F, de sorte que la fenêtre temporelle à 2 Hz était de 500 ms, à 4 Hz était de 250 ms, et ainsi de suite jusqu'à une fenêtre de durée de 33 ms à 30 Hz. La cohérence a été calculée par pas de 10 ms, moyennée sur des bandes de fréquences de 2 à 30 Hz et normalisée par rapport à une ligne de base de préstimulus de 200 ms pour donner un pourcentage de changement de cohérence au fil du temps. La signification a été évaluée en comparant chaque évolution temporelle de cohérence avec une hypothèse nulle de 0% de changement de cohérence par rapport à la ligne de base. L'importance est marquée là où deux fenêtres temporelles consécutives ou plus atteignent p < .01.

Les corrélations avec le comportement ont été calculées en extrayant les différences de signal moyennes entre les conditions M3b et M3w au sein des clusters identifiés en contrastant les conditions M0 et M6 et en calculant les valeurs de Pearson. r entre ces différences de signal et la précision moyenne des participants sur les conditions M3w et M3b.


4. Description du système proposé

En pléthysmographie, les modifications volumétriques des organes sont mesurées à partir de la peau éclairée par la lumière émise par un oxymètre de pouls PPG [47]. Les capteurs PPG de nos appareils sont utilisés pour mesurer l'activité cardiaque en mesurant le flux sanguin pendant les actions de pompage du cœur. Le signal d'activité cardiaque est composé de différents pics et creux. Le pic R est le plus important, qui est utilisé pour calculer la variabilité de la fréquence cardiaque. PPG fournit l'intervalle RR en mesurant la durée entre deux pics R consécutifs qui peuvent également être appelés intervalle d'intervalle (IBI).

L'EDA, également connue sous le nom de réponse galvanique de la peau (GSR), est le changement des propriétés électriques de la peau. Sous l'excitation émotionnelle et le stress, les sueurs corporelles et la conductance de la peau augmentent. L'EDA est l'un des signaux discriminants les meilleurs et les plus largement utilisés avec le signal de fréquence cardiaque pour mesurer le stress [48]. L'amplitude moyenne, l'écart type, les valeurs minimales et maximales, le RMS, le délai entre les stimuli appliqués et la réponse, le nombre de pics, la hauteur des pics, le temps de montée, le temps de récupération, la position des caractéristiques maximales et minimales ont été utilisés dans la littérature pour mesurer le stress niveaux de l'utilisateur [49].

Dans cette étude, nous avons développé un système de détection de stress à plusieurs niveaux, qui a utilisé les données d'activité cardiaque du capteur PPG, les données de conductance cutanée du capteur EDA et les données d'accéléromètre et de température. Notre outil de prétraitement EDA utilise des signaux d'accéléromètre et de température pour nettoyer les artefacts de ce signal. Nous avons ensuite extrait les caractéristiques du capteur de l'accéléromètre, mais les données de température n'ont pas été utilisées pour l'extraction des caractéristiques. L' augmentation de la fréquence cardiaque et des niveaux d' activité électrodermique est visible sur la figure 1 . Des outils de prétraitement et d'extraction de caractéristiques pour chaque modalité ont été développés.Pour chaque capteur, des outils spécifiques à la modalité ont été appliqués pour éliminer les artefacts, nettoyer les signaux et extraire les caractéristiques. Après l'extraction des caractéristiques, les algorithmes d'apprentissage automatique les plus performants de la littérature ont été appliqués aux données physiologiques pour la tâche de classification. Notre système est compatible avec différents dispositifs portables intelligents portés au poignet malgré le fait qu'ils disposent de différentes plates-formes et capteurs. Les schémas du système pour les appareils de la famille Samsung Gear S et les appareils Empatica E4 sont illustrés à la Figure 2 . Notez que tous les paramètres des algorithmes de détection d'artefacts et de prétraitement sont universels et indépendants de la personne.

Signaux physiologiques enregistrés avant et après le début des stimuli. L'augmentation du niveau du signal EDA et du nombre de pics et d'irrégularités et les augmentations soudaines de la VRC peuvent être observées sur cette figure.

Le schéma fonctionnel du système de détection de niveau de stress pour Samsung Gear S et S2 et Empatica E4. Étant donné que les capteurs et les plates-formes sont différents, veuillez noter que les signaux EDA et de température ne sont disponibles que pour E4.

4.1. Outils de prétraitement du signal d'activité électrodermique et d'extraction de caractéristiques

4.1.1. Prétraitement et suppression des artefacts

Le signal d'activité électrodermique est affecté par l'augmentation de l'activité physique et les changements de température. Dans ces situations, le signal obtenu est contaminé et doit être filtré. À cette fin, nous avons utilisé l'outil EDA Explorer de Taylor et al. [50]. Les artefacts du signal EDA sont étiquetés manuellement par les experts pour former un modèle d'apprentissage automatique. En appliquant le classificateur SVM (Support Vector Machine) avec l'accéléromètre et les données de température, cet outil atteint une précision de 95% sur la détection des artefacts dans les signaux EDA (voir Figure 3 et Figure 4). Nous avons ajouté une fonctionnalité de traitement par lots à cet outil. Si un segment de données est détecté en tant que segment d'artefact, il est exclu du processus d'extraction de caractéristiques. De cette façon, nous avons éliminé les faux pics causés par l'augmentation de la température ou de l'activité physique lors de l'extraction des caractéristiques.

L'exemple a filtré le signal EDA en fonction des changements du signal de l'accéléromètre. Notez que les composants rouges ont été supprimés en raison de la forte intensité d'activité.

L'intensité de l'activité est indiquée en utilisant les composants X, Y et Z du capteur accéléromètre correspondant à l'exemple de signal EDA de la figure 3 Notez que cet exemple a été enregistré au cours d'une activité très intensive.

4.1.2. Extraction de caractéristiques

Après avoir nettoyé les artefacts des signaux, les caractéristiques ont été extraites. Le signal EDA a deux composantes : phasique et tonique. Nous avons décomposé le signal EDA en appliquant le cvxEDA l'outil [51] sur le signal EDA, qui utilise une approche d'optimisation convexe pour décomposer le signal EDA. Le composant du niveau de conductance cutanée (tonique) comprend des changements lents à plus long terme, tandis que les composants phasiques incluent des changements plus rapides (liés à un événement). Lors de l'évaluation des caractéristiques de moyenne, d'écart type et de centile, les chercheurs utilisent la composante tonique car ils ne veulent pas surestimer ces changements à long terme avec des changements rapides liés aux événements. La partie phasique est soustraite et les caractéristiques sont calculées. D'autre part, certaines caractéristiques liées aux pics, telles que les pics par 100 s, l'amplitude des pics et les pics forts (pics supérieurs à 1 μ Siemens) par 100 s, sont calculées à partir de l'élément phasique. Un exemple de signal décomposé est illustré à la figure 5 . Après cela, nous avons extrait sept caractéristiques du signal EDA : moyenne, écart type, pic, pic fort, 20e centile, 80e centile et écart de quartile (75e centile & centile).

Signal EDA décomposé du bracelet Empatica E4 en appliquant l'outil cvxEDA.

4.2. Outils de prétraitement des signaux d'activité cardiaque et d'extraction de caractéristiques

4.2.1. Prétraitement et suppression des artefacts

Le signal d'activité de la fréquence cardiaque est également sensible au mouvement des sujets et des dispositifs de poignet portés de manière lâche. Pour faire face à ces problèmes et nettoyer les artefacts du signal, notre groupe de recherche a développé un outil de prétraitement dans MATLAB. Avec cet outil, nous avons utilisé un seuil de pourcentage de détection d'artefacts entre les données et la moyenne locale. Dans la littérature, ce seuil est généralement fixé à 20 % [38] et nous avons également utilisé ce seuil. Après avoir détecté les artefacts dans le signal d'activité cardiaque, un utilisateur peut choisir de supprimer et d'appliquer des contraintes supplémentaires ou de les remplacer par une interpolation spline cubique préservant la forme après suppression (voir Figure 6). Si les points de données d'artefact sont supprimés et non interpolés, de nouvelles règles peuvent être définies sur les données saines restantes. Une quantité minimale d'échantillons de données consécutifs et des règles de temps consécutifs minimum peuvent être définies pour évaluer les segments restants. Ces règles sont utilisées pour exclure une petite quantité de données consécutives interrompues (avec des trous de données supprimées) dans le processus d'extraction de caractéristiques. Nous avons appliqué la suppression avec des règles d'exclusion supplémentaires et la suppression et l'interpolation séparément et avons observé leur effet sur les performances de notre système.

Lacunes dues au mouvement et au bracelet mal usé à partir des données PPG (photopléthysmographie) (La gauche) sont remplis avec la fonction d'interpolation cubique (Droit).

L'outil dispose également d'une fonction de traitement par lots. La longueur de la moyenne locale, le pourcentage de seuil de détection d'artefact, le temps consécutif minimum et les contraintes d'échantillon de données peuvent être modifiés avec des paramètres.

4.2.2. Extraction de caractéristiques

Pour l'extraction de caractéristiques, nous avons utilisé les outils intégrés de MATLAB ainsi que la boîte à outils HRV de Marcus Vollmer [52] ainsi que notre outil de prétraitement. Les caractéristiques du domaine temporel utilisées sont la valeur moyenne de la fréquence cardiaque (Mean HR), l'écart type de l'intervalle inter-battements (IBI), la valeur moyenne des intervalles inter-battements (RR) (Mean RR), la moyenne quadratique de différence successive des intervalles RR (RMSSD), le pourcentage du nombre d'intervalles RR successifs variant de plus de 50 ms par rapport à l'intervalle précédent (pNN50), le nombre total d'intervalles RR divisé par la hauteur de l'histogramme de tous les intervalles RR mesurés sur une échelle avec des cases de 1/128 s (indice triangulaire HRV), et interpolation triangulaire de l'histogramme d'intervalle RR (TINN).

Nous avons également appliqué la transformée de Fourier rapide (FFT) et le périodogramme de Lomb–Scargle [53] et les caractéristiques suivantes du domaine fréquentiel sont calculées : puissance à basse fréquence (LF), puissance à haute fréquence (HF), puissance à très basse fréquence (VLF), fréquence (pLF), haute fréquence prédominante (pHF), rapport LF/HF (LF/HF), (de Lomb–Scargle) LF, HF et LF/HF. Les définitions de ces caractéristiques sont données dans le tableau 2 .

Tableau 2

Fonctionnalités de variabilité de la fréquence cardiaque et leurs définitions.

CaractéristiqueLa description
RR moyenValeur moyenne des intervalles inter-battements (RR)
STD RRÉcart-type de l'intervalle inter-temps
RMSSDRacine moyenne quadratique de la différence successive des intervalles RR
pNN50Pourcentage du nombre d'intervalles RR successifs variant de plus de 50 ms
de l'intervalle précédent
Indice triangulaire HRVNombre total d'intervalles RR divisé par la hauteur de l'histogramme de tous les intervalles RR
mesuré sur une échelle avec des bacs de 1/128 s
ÉTAINInterpolation triangulaire de l'histogramme de l'intervalle RR
LFPuissance dans la bande basse fréquence (0,04𠄰.15 Hz)
HFPuissance dans la bande haute fréquence (0,15𠄰.4 Hz)
BF/HFRatio de LF-à-HF
pLFOscillation basse fréquence répandue de la fréquence cardiaque
pHFOscillation haute fréquence répandue de la fréquence cardiaque
VLFPuissance dans la bande très basse fréquence (0,00𠄰,04 Hz)
SDSDÉcart type associé des différences d'intervalle RR successives

4.3. Traitement de l'accéléromètre et extraction de caractéristiques

Les mouvements du corps et de la tête peuvent être utilisés pour détecter les émotions et le niveau d'excitation [54]. Le capteur accéléromètre enregistre l'accélération sur trois axes avec la gravité. Nous avons utilisé la modalité accéléromètre de deux manières. Premièrement, pour détecter les artefacts dans les données EDA, les données de l'accéléromètre ont été utilisées avec les données de température. Deuxièmement, nous avons utilisé ces données pour l'extraction de caractéristiques. La valeur moyenne est calculée pour chaque fenêtre. L'énergie du signal est également calculée par FFT.

4.4. Outils d'apprentissage automatique

Pour la classification des données, nous avons utilisé la boîte à outils Weka [55]. Pour le prétraitement des caractéristiques, nous avons appliqué une transformation numérique à nominale à la colonne de classe. Étant donné que notre ensemble de données est déséquilibré en termes d'appartenance aux instances de classe, nous avons ajouté des instances de la classe minoritaire et supprimé les échantillons de la classe majoritaire pour surmonter le problème de déséquilibre de classe. Par conséquent, nous avons empêché les classificateurs de biaiser vers la classe avec plus d'instances. Dans cette étude, nous avons évalué les performances de six classificateurs bien connus.

Analyse en Composantes Principales (ACP) et Analyse Linéaire Discriminante (LDA)

PCA et Support Vector Machine avec noyau radial (SVM)

K-Les voisins les plus proches (m = 1) (kNN)

Forêt aléatoire (RF avec 100 arbres)

Une validation croisée de 10 fois a été appliquée. Un système de classification à trois classes a été développé. Les paramètres des classificateurs ont été sélectionnés à partir des études de détection de niveau de stress dans la littérature.


2. Matériels et méthodes

2.1. Participants

Sept étudiants droitiers masculins (tranche d'âge 20� ans) de notre faculté ont volontairement participé à cette étude. Tous les participants ont approuvé les critères d'inclusion suivants : (je) savoir conduire un véhicule soit à embrayage manuel soit à embrayage automatique (ii) pour avoir un permis de conduire valide (iii) ne pas avoir d'antécédents médicaux de maladies neurologiques et/ou psychiatriques (iv) pour avoir une vision normale ou corrigée à la normale. Le protocole a été approuvé par le Comité de Ética en Investigación de la Escuela de Medicina del Instituto Tecnológico y de Estudios Superiores de Monterrey et le Comité de Investigación de la Escuela de Medicina del Instituto . #x000F3gico y de Estudios Superiores de Monterrey. Tous les sujets ont donné leur consentement éclairé écrit conformément à la Déclaration d'Helsinki et ils ont été dûment informés des objectifs de la recherche.

2.2. Système de conduite et environnement

Le système de conduite se composait d'un ensemble de pédales d'accélérateur, de frein et d'embrayage, d'un volant et d'un levier de vitesses (G27 Logitech Racing Wheel) assemblés dans un rack de simulateur de voiture, d'un écran plat de 19 pouces pour visualiser l'environnement de conduite et d'un ordinateur personnel. pour gérer et contrôler l'exécution de l'expérience et l'acquisition des signaux (voir figure 1A). L'environnement de conduite a été développé à l'aide du logiciel open source The Open Racing Car Simulator (TORCS) (Wymann et al., 2014) et se composait d'une piste ovale à deux voies de 3700 m, du véhicule du participant et d'un véhicule de guidage. Cet environnement contient également d'autres véhicules contrôlés par ordinateur qui n'interfèrent pas avec les participants et les véhicules de guidage. Le véhicule du participant est affiché dans une perspective à la première personne (voir la figure 1B), dispose d'un embrayage automatique et est entièrement contrôlé par le volant et les pédales (le levier de vitesses n'a pas d'effet dans le véhicule). Le véhicule de guidage est une voiture contrôlée par ordinateur qui est affichée sur la voie devant le véhicule du participant. Deux signaux de véhicule ont été enregistrés à partir du système de conduite et de l'environnement : (je) l'état des feux de stop arrière du véhicule de guidage ou simplement “LIGHT” (signal numérique où un niveau bas correspond à des feux éteints et un niveau haut correspond à des feux allumés) (ii) le niveau de la pédale de frein du véhicule du participant ou simplement 𠇋RAKE” (signal compris entre 0 et 1 avec une résolution de 0,01, où 0 correspond à aucune flexion tandis que 1 correspond à une flexion complète de la pédale). Ces signaux de véhicules ont été enregistrés à une fréquence d'échantillonnage de 50 Hz.

Figure 1. (A) Illustration du système de conduite et de l'environnement. Le système de conduite se composait d'un ensemble commercial de pédales, d'un volant et d'un levier de vitesses pour les simulateurs de conduite, d'un écran plat de 19 pouces et d'un ordinateur pour contrôler l'exécution de l'expérience. L'environnement de conduite consistait en une piste ovale et contenait le véhicule du participant et un véhicule de guidage. (B) Image de l'environnement de conduite à la première personne vue par les participants. (C) Emplacements des électrodes EEG utilisés dans cette expérience. (RÉ) Instantané de l'expérience avec un participant portant les électrodes EEG (le participant a donné son consentement éclairé écrit pour publier cette image).

2.3. Signaux bioélectriques

L'activité électroencéphalographique (EEG) et électromyographique (EMG) a été enregistrée pendant l'exécution de l'expérience. Ces signaux bioélectriques ont été acquis, amplifiés et numérisés à l'aide du dispositif portable à 8 canaux pour l'enregistrement de signaux physiologiques humains BIORADIO PG (Great Lakes NeuroTech, USA). Sept signaux EEG ont été enregistrés à partir du lobe frontal, central et pariétal (F3, F4, C3, C4, Cz, P3, P4) conformément au système international 10/10 (voir Figure 1C). Le sol et les électrodes de référence ont été placés au-dessus du processus mastoïdien dans la partie droite et gauche de la tête, respectivement. Des électrodes en coupe d'or ont été utilisées et un gel conducteur a été appliqué pour assurer une impédance inférieure à 5 K&# x003A9. Un signal EMG a été enregistré à partir du muscle tibial antérieur de la jambe droite en utilisant un montage monopolaire. La masse et la référence étaient les mêmes que pour les signaux EEG. Une électrode jetable de surface a été utilisée et l'impédance a été maintenue en dessous de 20 K&# x003A9. Les signaux EEG et EMG ont été enregistrés à une fréquence d'échantillonnage de 500 Hz et aucun filtrage n'a été appliqué.

2.4. Description de l'expérience

Les participants étaient assis dans le siège d'auto devant les pédales, le volant, le levier de vitesses et l'écran de l'ordinateur (voir Figure 1D). La tâche expérimentale consistait à conduire le véhicule du participant tout en suivant le véhicule guide à une distance constante et fixe de 縐 m. Pour illustrer cette distance aux participants, au début de chaque session expérimentale les véhicules étaient arrêtés et séparés de 10 m. Le véhicule de guidage roule de manière autonome à une vitesse constante de 100 km/h et effectue des pauses inattendues et soudaines jusqu'à atteindre une vitesse de 60 km/h. Ces actions de freinage s'accompagnent de l'allumage des feux stop arrière fournissant un stimulus visuel aux participants qui indique d'effectuer une réponse pour éviter la collision, c'est-à-dire d'appuyer sur la pédale de frein. Après 3 s, le véhicule guide accélère progressivement jusqu'à atteindre à nouveau 100 km/h et le participant doit conduire son véhicule en maintenant une distance de 縐 m. En cas de collision, les participants ont été invités à l'interpréter comme une circonstance normale sans effet sur leurs performances de conduite ou sur les données enregistrées. De plus, après une collision, la session expérimentale est redémarrée normalement. Cette situation de freinage d'urgence est exécutée de manière répétée à des intervalles d'occurrence variables comme suit : vitesse de 100 km/h. Cet intervalle de temps a été prévu pour qu'un freinage d'urgence soit effectué entre les vitesses mentionnées dans le descriptif d'expérience (de 100 à 60 km/h) et que les participants n'anticipent pas et ne génèrent pas de réponse de freinage précoce.

Au cours de l'exécution des expériences, les participants ont été exposés à différentes combinaisons d'absence ou de présence de stress, de charge de travail et de fatigue. Le stress a été induit par un son de sirène d'ambulance à une intensité de 90 dB, ce qui se situe dans la plage d'inconfort pour l'audition humaine (70� dB) (Chepesiuk, 2005). Ce son externe, répétitif et très gênant génère de la perturbation et de l'anxiété chez les conducteurs conduisant à des épisodes de stress (Wester et al., 2008). La charge de travail était induite par une tâche d'attention simultanée (SAT) qui devait être effectuée en conduisant (Borghini et al., 2012 Maglione et al., 2014). Le SAT consistait à toucher le levier de vitesses avec la main droite (ce qui n'a aucun effet sur la conduite du véhicule) en réponse à la présentation d'une image avec le symbole “X.” Cette image a été présentée aléatoirement dans un écran secondaire 7 pouces situé devant le participant sans obstruer le champ de vision vers l'écran principal. Enfin, la fatigue a été induite en considérant l'épuisement physique et mental naturel associé à l'exécution des activités de la vie quotidienne au cours de la journée. Par conséquent, les expériences ont été menées pendant une journée le matin (entre 09h00 et 12h00, où il est supposé que le participant est détendu et reposé en raison de la nuit de sommeil récente) et l'après-midi (entre 16 : 00 et 19h00, où l'on suppose que le participant est fatigué à cause des activités quotidiennes) (Baulk et al., 2001 Horne et Baulk, 2004 Komada et al., 2013). Afin de garder un épuisement physique et mental naturel, il a été demandé aux participants de dormir au moins 7 h de sommeil réparateur la nuit précédant l'expérience, il leur a été demandé de ne pas dormir pendant la journée de l'expérience, de ne pas boire de café ou d'autres boissons énergisantes et on leur a dit de ne pas fumer pendant la durée de toutes les expériences. De plus, les participants ont été interrogés sur leurs niveaux de fatigue avant et après l'exécution de l'expérience grâce à l'indice de charge de tâche de la NASA (NASA-TLX) (Hart et Staveland, 1988). Les huit combinaisons possibles avec absence ou présence de stress, charge de travail et fatigue ont été prises en compte lors de l'exécution du freinage d'urgence au cours des expériences. Ces combinaisons expérimentales sont présentées dans le tableau 1.

Tableau 1. Description des huit combinaisons expérimentales avec absence (–) ou présence (✓) de stress, de charge de travail et de fatigue qui ont été considérées lors de la réalisation du freinage d'urgence.

L'expérience a été réalisée en quatre sessions (deux le matin et deux l'après-midi) de 縰 min chacune où le participant devait conduire en continu. Dans chaque session, 120 situations de freinage d'urgence ont été présentées, donc 480 situations de freinage d'urgence ont été enregistrées au total par participant. La période de repos entre les sessions était de 縐 min. Chaque session était composée de huit blocs et chaque bloc contenait 15 situations de freinage d'urgence issues de la même combinaison expérimentale. Chaque bloc avait une durée de ߣ min tandis que la séparation entre les blocs était de ߡ min. Pour éviter l'accoutumance, l'ordre des blocs dans chaque session était pseudo-aléatoire. La figure 2 illustre la séquence temporelle d'une session du matin et d'une session de l'après-midi. Les deux sessions matinales contiennent des blocs avec des situations de freinage d'urgence qui correspondent à des combinaisons expérimentales Co, Cs, Cw, et Cs+w tandis que les deux séances de l'après-midi contiennent des blocs avec freinage d'urgence qui correspondent à des combinaisons expérimentales CF, Cs+F, Cw+F, et Cs+w+F.

Figure 2. Illustration de la séquence temporelle d'une séance matinale (Sommet) et une séance l'après-midi (Bas). Chaque session comportait huit blocs. Chaque bloc contenait 15 freinages d'urgence de la même combinaison expérimentale. L'expérience s'est déroulée en quatre séances (deux le matin et deux l'après-midi). Au total, 120 situations de freinage d'urgence ont été présentées à chaque session, ce qui donne un total de 480 situations de freinage d'urgence par participant.

2.5. Prétraitement

Les signaux LIGHT et BRAKE ont été suréchantillonnés tandis que les signaux EEG et EMG ont été sous-échantillonnés, dans les deux cas à une fréquence d'échantillonnage de 250 Hz. Les signaux EEG ont été filtrés passe-bas à une fréquence de coupure de 45 Hz à l'aide d'un filtre de type Chebychev à décalage de phase zéro d'ordre 2, puis référencés à moyenne commune (CAR). Le signal EMG a été filtré en bande passante de 1 à 90 Hz à l'aide d'un filtre de type Chebychev de 2e ordre et d'une bande d'arrêt filtrée à 60 Hz pour réduire les interférences de la ligne électrique. Le décalage de 0 à 1 du signal LIGHT a été utilisé comme référence pour identifier l'instant de chaque stimulus (c'est-à-dire le moment où les feux de freinage arrière du véhicule de guidage se sont allumés) tandis que le premier temps post-stimulus pour lequel BRAKE & #x02265 0,01 a été utilisé comme référence pour identifier l'instant temporel de chaque réponse (c'est-à-dire l'heure de la première déviation notable de la pédale de frein après qu'un stimulus s'est produit). Les instants temporels de tous les stimuli ont été utilisés comme référence pour découper les signaux en segments de données consécutifs qui s'étendent jusqu'à 2 s après le stimulus (voir Figure 3). Ainsi, chaque segment de données contient un freinage d'urgence et inclut la réponse (ceci a été vérifié dans l'analyse des données qui a montré des réponses inférieures à 2 s). Chaque segment de données a subi une inspection visuelle et ceux avec des signaux de véhicule incongrus (sans activation post-stimulus de la pédale de frein), des signaux EMG incongrus (sans augmentation de l'amplitude post-stimulus) et des signaux EEG bruyants (contaminés par des artefacts musculaires ou oculaires) ont été déchargés et non utilisé dans le reste de l'étude. En conséquence, le nombre de segments de données pour tous les participants était en moyenne de 428 ± 56 (minimum 300 et maximum 474).

figure 3. Illustration graphique des segments de données et des trois types d'époques extraits de chacun d'eux : (je) Périodes sans freinage : signaux de 1,5 s à plus de 3 s de tout stimulus et/ou réponse (données sans freinage d'urgence) (ii) époques de pré-réponse : signaux dans l'intervalle de temps [𢄡.5, 0] s où la référence t = 0 correspond à la réponse (la première déviation notable de la pédale de frein du véhicule du participant) (iii) époques post-stimulus : signaux dans l'intervalle de temps [0, 1,5] s où la référence t = 0 correspond au stimulus (l'allumage du véhicule guide des feux stop arrière).

Pour chaque segment de données, trois époques de 1,5 s ont été extraites (Figure 3) : (je) périodes sans freinage ou conduite normale : signaux de 1,5 s à plus de 3 s de tout stimulus et/ou réponse. Ces époques n'incluent pas du tout les situations de freinage et ne se chevauchent pas avec les époques post-stimulus ou pré-réponse. (ii) époques de pré-réponse : signaux dans l'intervalle de temps [𢄡.5, 0] s où la référence t = 0 correspond à la réponse. Ces époques contiennent des informations qui précèdent exclusivement le débattement de la pédale de frein (iii) époques post-stimulus : signaux dans l'intervalle de temps [0, 1,5] s où la référence t = 0 correspond au stimulus. Ces époques contiennent des informations immédiatement après l'allumage des feux stop arrière. Cette procédure a donné lieu à trois jeux de données différents. L'ensemble de données des époques post-stimulus a été utilisé pour étudier les situations de freinage d'urgence tandis que les ensembles de données des époques de pré-réponse et de conduite normale ont été utilisés pour distinguer l'intention de freinage d'urgence de la conduite normale à l'aide de signaux cérébraux.

2.6. L'analyse des données

Pour étudier les situations de freinage d'urgence, l'ensemble de données des époques post-stimulus a été utilisé pour évaluer :

1. Temps de réaction de freinage (BRT) : cette analyse mesure le temps nécessaire pour appuyer sur la pédale de frein une fois que les feux de freinage arrière du véhicule de guidage sont allumés (voir Figure 3). Le BRT a été calculé pour chaque situation de freinage d'urgence simplement comme la différence entre le temps de réponse et le temps de stimulation.

2. Mouvement des jambes basé sur l'EMG (LEG): Cette analyse montre le mouvement de la jambe droite (au niveau musculaire) qui est effectué par le conducteur pour appuyer sur la pédale de frein. LEG a été calculé comme suit : (je) le signal EMG a été filtré passe-haut à 10 Hz en utilisant un filtre de type Chebyshev du 2ème ordre (ii) la valeur absolue du signal filtré a ensuite été calculée (iii) la transformée de Hilbert (Myers et al., 2003) a été calculée (iv), l'amplitude du signal transformé de Hilbert a été utilisée comme mouvement des jambes basé sur les muscles.

2.7. Détection de l'intention de freinage d'urgence

La reconnaissance de l'intention de freinage d'urgence à partir de la conduite normale a été évaluée à l'aide des caractéristiques du domaine temporel des signaux EEG et de deux algorithmes de classification différents, Support Vector Machine (SVM) et Convolutional Neural Network (CNN). Pour cela, des époques de pré-réponse et de conduite normale ont été utilisées.

2.7.1. Extraction de caractéristiques

Les caractéristiques temporelles des signaux EEG ont été calculées pour reconnaître l'intention de freinage d'urgence de la conduite normale. Le signal EEG de chaque électrode (durée de 1,5 s) a été divisé en 10 intervalles consécutifs de 150 ms sans chevauchement et la moyenne arithmétique a été calculée pour chaque intervalle. Les valeurs de toutes les électrodes ont été utilisées pour construire une matrice de caractéristiques (c'est-à-dire une carte 2D) X ∈ ℝ M×N , ou de manière équivalente, ils ont été concaténés pour construire le vecteur de caractéristiques X ∈ ℝ (M·N)൱ , où M = 7 est le nombre d'électrodes et N = 10 est le nombre d'intervalles de temps. Les caractéristiques extraites de la conduite normale et des époques de pré-réponse ont été étiquetées comme instances de conduite normales ou 𢄡 et intentions de freinageinstances ou Ư, en conséquence. Le nombre total d'instances moyenné pour tous les participants était de 890 ± 48. Notez que les ensembles de données résultants ont été équilibrés car les caractéristiques ont été extraites de deux époques différentes des segments de données (c'est-à-dire les époques de pré-réponse et de non-freinage) .

2.7.2. Classificateurs

Un réseau neuronal convolutif (CNN) a été utilisé pour faire la distinction entre l'intention de freinage d'urgence et la conduite normale. Un CNN est un type spécial d'algorithme de classification basé sur l'apprentissage profond supervisé (LeCun et al., 1989b, 2015 Goodfellow et al., 2016) qui a démontré un succès remarquable dans la classification d'images multidimensionnelles (Krizhevsky et al., 2012 Farabet et al. ., 2013 Szegedy et al., 2015) et il a été utilisé pour certaines études EEG avec des résultats positifs (Ren et Wu, 2014 Schirrmeister et al., 2017 Tabar et Halici, 2017).

L'architecture d'un CNN est basée sur un empilement de couches cachées nommées convolution et pooling, et un réseau de neurones artificiels (ANN), qui, ensemble, transforment progressivement une carte d'entrée pour obtenir des probabilités de classe. L'équation qui décrit l'opération convolutive est :

Où un noyau K de taille m × m est alambiquée (glissée sur la carte d'entrée spatialement) avec une carte d'entrée de taille je(je, j) et somme au biais b pour construire une carte des caractéristiques en sortie S(je, j). Les couches de convolution et de regroupement sont généralement connectées une par une dans le but de transformer une carte d'entrée en plusieurs cartes de caractéristiques, leur effet est donc d'effectuer une extraction automatique de caractéristiques (LeCun et al., 1989a LeCun et Bengio, 1998). Dans un CNN, le nombre de couches de convolution, le nombre de noyaux, la taille du noyau, le nombre de couches de pooling, la taille de pooling et la structure du feed forward ANN sont des paramètres réglables (également appelés hyperparamètres), tandis que les poids et le biais dans les noyaux et dans le feed forward ANN sont des paramètres qui sont appris à partir d'un ensemble d'apprentissage.

L'architecture du CNN employée dans ce travail est illustrée à la figure 4. Elle se compose de deux paires de couches de convolution et de pooling suivies d'un ANN feed-forward avec une couche cachée (Nous avons testé plusieurs architectures CNN pour trouver celle qui nous donnerait le meilleur rapport entre des performances supérieures et un temps de calcul réduit. Pour cela, nous avons ajusté les hyperparamètres : le nombre de couches CNN, le nombre de noyaux, le nombre d'époques et la taille du lot de données d'apprentissage). La taille de la carte d'entrée est M = 7 × N = 10, c'est-à-dire 10 caractéristiques du domaine temporel pour chacune des 7 électrodes. La première paire de convolution-pooling consistait en K = 50 noyaux de taille 4 × 4, l'unité linéaire rectifiée comme fonction d'activation, la mise en commun maximale avec des régions non chevauchantes de taille 2 × 2 et la technique d'abandon a été appliquée avec un taux de rétention de 15 % donnant 720 paramètres estimés correspondant à 680 poids du noyau convolutif, 50 biais du noyau convolutif. La carte de sortie de cette couche a donné lieu à 50 cartes de caractéristiques de taille 4 × 5 La deuxième paire de convolution-pooling consistait en K = 100 noyaux de taille 4 × 4 avec l'unité linéaire rectifiée comme fonction d'activation tandis que le regroupement ultérieur consistait également en une polarisation maximale avec des régions non chevauchantes de taille 2 × 2 technique de décrochage a également été appliquée avec le même taux de rétention ce qui donne 68 100 paramètres correspondant à 68000 poids de noyau convolutif, 100 biais de noyau convolutif. La carte de sortie de cette couche a résulté en 100 cartes de caractéristiques de taille 2 × 3. Le feed forward ANN se composait de 100 neurones d'entrée et de 2 neurones dans la couche de sortie. La fonction d'activation dans la couche cachée est le sigmoïde tandis que dans la couche de sortie est le soft-max. L'abandon a été appliqué avec un taux de rétention de 85 %. Au total, les couches ANN donnant lieu à 51187 paramètres correspondant à 51085 poids de nœuds, 102 biais. En résumé, cette architecture CNN contient 120.017 paramètres apprenables.

Figure 4. Illustration de l'algorithme CNN mis en œuvre pour discriminer l'intention de freinage d'urgence de la conduite normale. Le CNN se compose de deux paires de couches de convolution et de mise en commun suivies d'un ANN d'anticipation.

De plus, nous avons utilisé une machine à vecteurs de support (SVM) pour la classification car cet algorithme a montré de bonnes performances dans les applications avec des signaux EEG (Lotte et al., 2007 Vega et al., 2017). Une machine à vecteurs de support prend en entrée un ensemble de m vecteurs de caractéristiques x i → avec leurs étiquettes ouije ∈ <1, 𢄡>. L'idée derrière les SVM est de trouver l'hyperplan qui maximise la distance entre les exemples des deux classes <1, 𢄡>. Ceci est fait en trouvant une solution au problème d'optimisation

où w → est la normale à l'hyperplan, et ξje ≥ 0 sont des variables d'écart qui mesurent l'erreur dans la mauvaise classification de x i → .

2.7.3. Entraînement

La mise en œuvre et la formation des deux algorithmes de classification se sont appuyées sur la bibliothèque logicielle TensorFlow (Abadi et al., 2015). Étant donné un ensemble d'entraînement, les algorithmes ont été entraînés en 200 étapes d'entraînement suivant les instructions suivantes : (je) pour initialiser aléatoirement les paramètres estimés (uniquement pour l'étape d'apprentissage 1) (ii) des données de lot sont échantillonnées à partir des données d'apprentissage (la taille du lot correspond à 20 % des données d'apprentissage) (iii) le modèle de classification est alimenté par les données du lot (iv) obtenir les sorties de prédiction du modèle de classification (v) comparaison des sorties prédites avec les étiquettes réelles (pour trouver l'erreur à travers une fonction de coût) (vi) optimisation de la fonction de coût (vii) la mise à jour des paramètres estimés et (viii), le reste de l'ensemble d'apprentissage a été utilisé pour évaluer les performances du modèle pour chaque étape d'apprentissage (test de validation). Le taux d'apprentissage a été fixé à 0,005 et l'entropie croisée a été utilisée comme fonction de coût.

2.7.4. Évaluation

Le total des données enregistrées a été divisé en deux ensembles mutuellement exclusifs. L'ensemble d'apprentissage comprenait 75 % des données et l'ensemble d'évaluation comprenait 25 % des données. Les classificateurs sont entraînés à l'aide de l'ensemble d'apprentissage et la classification finale est effectuée sur l'ensemble d'évaluation. La mesure de performance était la précision de la classification qui a été calculée comme suit :

TP est le vrai taux positif, TN est le vrai taux négatif, PF est le taux de faux positifs, et FN est le taux de faux négatifs. Cette procédure est répétée 100 fois, et moyenne ± std des mesures de performance ont été calculées. Nous ne rapportons ici que les résultats obtenus dans le classement final. Cependant, les résultats de validation et d'évaluation pendant la formation sont fournis dans la section Matériel supplémentaire.

Le niveau de chance significatif de précision de la classification a été calculé avec la distribution binomiale (Combrisson et Jerbi, 2015) en utilisant le nombre de classes Ncours = 2, le nombre minimum d'échantillons pour tous les participants Néchantillons = 600 et un niveau de confiance de α = 0,05. Par conséquent, le niveau significatif de probabilité d'exactitude de la classification est précisionchance = 53,6%. Pour examiner les différences significatives entre une distribution de précision et précisionchance le test des rangs signés de Wilcoxon a été appliqué, tandis que pour examiner les différences significatives entre deux distributions de précision, le test de la somme des rangs de Wilcoxon a été appliqué.

Nous avons estimé les graphiques des caractéristiques de fonctionnement du récepteur (ROC) et l'aire sous la courbe ROC (AUC). La courbe ROC fournit une visualisation optimale des performances d'un classificateur et permet de comparer les performances entre différents classificateurs. La courbe ROC est utile pour montrer une distribution asymétrique des classes et des coûts d'erreur de classification inégaux (Fawcett, 2006). Les graphiques ROC sont des graphiques bidimensionnels dans lesquels le vrai taux positif est tracé sur le oui-axe et le taux de faux positifs est tracé sur le X-axe. Une méthode pour comparer les classificateurs consiste à calculer l'aire sous la courbe ROC. AUC réduit les performances ROC à une seule valeur scalaire représentant les performances attendues. L'AUC est une valeur comprise entre 0 et 1,0 car elle représente une partie de l'aire du carré unitaire. De plus, nous avons signalé les graphiques de rappel de précision comme autre moyen de mesurer le succès de la prédiction des classificateurs. Ces résultats sont fournis dans la section Matériel supplémentaire.


Introduction

Le construit de la charge de travail mentale peut être compris comme le niveau d'engagement cognitif qui a un impact direct sur l'efficacité et la qualité d'un processus d'apprentissage [1]. Alors qu'un niveau optimal de charge de travail mentale facilite un apprentissage efficace, la surcharge mentale pourrait affecter négativement la performance des tâches et entraîner plus d'erreurs [2]. Une personne surchargée peut même présenter des symptômes psychologiques, tels que la frustration, le stress et la dépression [3]. Pourtant, il manque une mesure en temps réel de la charge de travail mentale qui peut aider un individu à identifier le niveau optimal de charge de travail mentale et donc à améliorer ses performances d'apprentissage.

Classiquement, le niveau de charge de travail mental est évalué à travers la rétroaction verbale ou écrite d'un individu. Cependant, la fiabilité de telles mesures autodéclarées dépend des compétences métacognitives de l'individu [4]. Dans un cadre éducatif, une évaluation continue de l'engagement cognitif de l'élève peut être utilisée pour déterminer le rythme de l'enseignement et améliorer l'efficacité du processus d'apprentissage. Néanmoins, c'est une tâche difficile pour un enseignant d'évaluer l'engagement cognitif de 30 à 40 élèves dans une salle de classe typique. Bien qu'un enseignant puisse évaluer les performances d'apprentissage des étudiants en fonction de leurs cours et de leurs examens (c'est-à-dire une évaluation hors ligne), le besoin immédiat des étudiants pendant le processus d'apprentissage peut ne pas être satisfait en raison de l'absence d'une évaluation en temps réel de la charge de travail mentale.

Pour boucler la boucle de rétroaction dans le système d'enseignement et d'apprentissage, les chercheurs se sont penchés sur l'utilisation de technologies de pointe pour l'évaluation en temps réel des performances d'apprentissage. Par exemple, des capteurs portables et ambiants ont été utilisés pour collecter les informations environnementales externes, telles que l'emplacement, la température ambiante et les personnes en contact, et fournir des données contextuelles pour soutenir l'apprentissage réflexif des employés en milieu de travail [5]. Dans une étude sur l'engagement comportemental, Liu et al. ont rapporté que la performance d'écriture des participants a bénéficié de la rétroaction d'un système d'analyse d'apprentissage qui détermine le niveau d'engagement en fonction des états intermédiaires de développement du document et de la façon dont le document est modifié [6]. Cependant, bon nombre de ces technologies sont spécifiques à une tâche ou limitées par la nature et les caractéristiques de la tâche.

Des recherches récentes se sont penchées sur l'utilisation des réponses physiologiques pour quantifier la charge de travail mentale individuelle. De l'expérimentation animale telle que l'utilisation d'une électrode invasive [7] à l'expérimentation humaine utilisant un dispositif non invasif. Kapoor et al. ont utilisé plusieurs capteurs corporels, notamment le suivi des yeux, la sensibilité de la souris, la conductance cutanée et la pression de la chaise, pour estimer la charge de travail mentale d'un individu avec une précision de 80 % [8]. Des études ont également utilisé les technologies EEG pour déterminer la charge de travail mentale en fonction des activités cérébrales. Hogervorst et al. ont utilisé une configuration EEG multicanal traditionnelle pour examiner la charge de travail mentale d'une période de 2 minutes et ont offert une précision de classification élevée (>80%) [9]. Donc et al. corréler le signal EEG à l'EMG musculaire simple pour étudier les performances motrices [10]. Néanmoins, la configuration de l'EEG traditionnel avec des électrodes humides nécessite au moins 30 à 60 minutes. Un tel réglage limite l'utilisation de l'EEG conventionnel dans un environnement contrôlé, comme un laboratoire de recherche.

Récemment, une gamme de systèmes EEG mobiles, qui n'ont que quelques canaux d'électrodes et transmettent le signal neuronal enregistré à un ordinateur sans fil, ont été développés pour mesurer les activités cérébrales en dehors du laboratoire [11-13]. Par exemple, Wong et al. ont examiné les spectres EEG frontaux associés à la tâche d'acquisition motrice à l'aide d'un système EEG sans fil à canal unique [14]. Les chercheurs ont également utilisé le système EEG à capteur sec pour développer un programme d'entraînement en neurofeedback pour les enfants atteints de trouble déficitaire de l'attention avec hyperactivité [12]. De plus, l'EEG mobile a été utilisé dans le développement de l'interface cerveau-ordinateur (BCI) pour le divertissement [15, 16]. Néanmoins, le potentiel de quantification de la charge de travail mentale avec un système EEG mobile n'a pas encore été exploré.


Système de détection du bonheur basé sur l'EEG en temps réel

Nous proposons d'utiliser le signal EEG en temps réel pour classer les émotions heureuses et malheureuses suscitées par les images et la musique classique. Nous utilisons PSD comme fonctionnalité et SVM comme classificateur. Les précisions moyennes du modèle dépendant du sujet et du modèle indépendant du sujet sont d'environ 75,62 % et 65,12 %, respectivement. Considérant chaque paire de canaux, la paire temporelle de canaux (T7 et T8) donne un meilleur résultat que l'autre zone. Compte tenu des différentes bandes de fréquences, les bandes hautes fréquences (Beta et Gamma) donnent un meilleur résultat que les bandes basses fréquences.Compte tenu des différentes durées de déclenchement des émotions, le résultat de 30 secondes n'a pas de différence significative par rapport au résultat de 60 secondes. À partir de tous ces résultats, nous implémentons un système de détection de bonheur basé sur l'EEG en temps réel en utilisant une seule paire de canaux. De plus, nous développons des jeux basés sur le système de détection de bonheur pour aider l'utilisateur à reconnaître et à contrôler le bonheur.

1. Introduction

Le but de l'interaction homme-machine (IHM) est d'améliorer les interactions entre l'homme et l'ordinateur. Parce que la plupart des ordinateurs ne comprennent pas les émotions de l'utilisateur, ils sont parfois incapables de répondre automatiquement et correctement aux besoins de l'utilisateur [1]. L'une des émotions les plus intéressantes est le bonheur. Le rapport sur le bonheur dans le monde reflète une nouvelle demande mondiale pour une plus grande attention au bonheur et à l'absence de misère en tant que critères de la politique gouvernementale [2]. Être heureux est lié à de nombreux effets positifs, notamment la confiance, l'optimisme, l'auto-efficacité, la sympathie, l'activité, l'énergie, le bien-être physique, la flexibilité, la créativité et la capacité à faire face au stress [3]. Tous ces avantages sont les raisons pour lesquelles nous devrions être heureux.

Au cours des dernières décennies, la plupart des recherches sur la reconnaissance des émotions se sont uniquement concentrées sur l'utilisation des expressions faciales et de la parole. Cependant, il est facile de simuler des expressions faciales ou de changer le ton de la parole et ces signaux ne sont pas disponibles en permanence, et ils diffèrent de l'utilisation de signaux physiologiques, qui se produisent en continu et sont difficiles à dissimuler, tels que la réponse galvanique de la peau (GSR), l'électrocardiogramme ( ECG), température de la peau (ST) et, surtout, électroencéphalogramme (EEG). L'EEG est le signal des fluctuations de tension dans le cerveau, c'est-à-dire le centre des émotions [1, 4]. On pense que les émotions sont liées à l'activité dans les zones du cerveau qui dirigent notre attention, motivent notre comportement et déterminent l'importance de ce qui se passe autour de nous. L'émotion est liée à un groupe de structures au centre du cerveau appelé système limbique, qui comprend l'amygdale, le thalamus, l'hypothalamus et l'hippocampe [5, 6].

L'électroencéphalogramme (EEG) est l'enregistrement de l'activité électrique sur le cuir chevelu. L'EEG mesure les changements de tension résultant des flux de courant ionique dans les neurones du cerveau. Il existe cinq ondes cérébrales principales qui se distinguent par leurs différentes bandes de fréquences (nombre d'ondes par seconde) comme le montre la figure 1. Ces bandes de fréquences des basses aux hautes fréquences, respectivement, sont appelées Delta (1–3 Hz), Thêta (4– 7 Hz), Alpha (8-13 Hz), Bêta (14-30 Hz) et Gamma (31-50 Hz). La figure 2 montre le système 10-20 de placement des électrodes, c'est-à-dire une méthode internationalement reconnue pour décrire et appliquer l'emplacement des électrodes du cuir chevelu. Chaque site a une lettre pour identifier le lobe et un numéro pour identifier l'emplacement de l'hémisphère [7, 8].


(une)
(b)
(c)
(ré)
(e)
(une)
(b)
(c)
(ré)
(e)


2. La revue de la littérature

De nos jours, les recherches sur la reconnaissance des émotions basées sur l'EEG sont très actives. Le but de ceux-ci est de trouver une technique appropriée donnant un bon résultat qui peut éventuellement être mis en œuvre dans la reconnaissance des émotions en temps réel. La liste des recherches sur la reconnaissance des émotions basées sur l'EEG est présentée dans le tableau 1. Il est difficile de comparer les résultats entre eux car de nombreux facteurs donnent des résultats différents à partir de différentes recherches, notamment le participant, le modèle d'émotion, le stimulus, la caractéristique, le temps. fenêtre et classificateur. Les six principaux facteurs sont décrits ci-après pour clarifier la compréhension.

2.1. Participant

Le plus grand nombre de participants rend le résultat plus fiable. De plus, nous pouvons diviser la méthode de construction de la classification des émotions en modèles dépendants et indépendants du sujet. Le deuxième modèle est plus difficile que le premier modèle en raison de la variabilité interparticipants [10, 11]. Le modèle dépendant du sujet évite les problèmes liés à l'interparticipation mais un nouveau modèle de classification doit être construit pour chaque nouvel utilisateur. Dans cette recherche, nous construisons des modèles dépendants et indépendants du sujet pour comparer les résultats.

2.2. Modèle d'émotion

Le plus grand nombre d'émotions rend la reconnaissance des émotions plus difficile et certaines émotions peuvent se chevaucher. Un bon modèle d'émotion doit clairement séparer ces émotions. Plusieurs modèles ont été proposés tels que l'émotion de base et le modèle dimensionnel. Les émotions de base les plus largement utilisées sont les 6 émotions de base (c'est-à-dire la colère, le dégoût, la peur, la joie, la tristesse et la surprise) qui ont été principalement utilisées dans la reconnaissance des expressions faciales [12]. Le modèle dimensionnel commun est caractérisé par deux dimensions principales (c'est-à-dire la valence et l'excitation). L'émotion de valence va de négative à positive, tandis que l'émotion d'éveil va de calme à excité [13]. Ce modèle est utilisé dans la plupart des recherches car il est plus facile d'exprimer une émotion en termes de valence et d'excitation plutôt que des émotions de base qui peuvent être confondues par des noms d'émotion [14]. Comme le montre la figure 3, les émotions dans toutes les coordonnées du modèle dimensionnel sont représentées par l'expression du visage. Dans cette recherche, nous utilisons les modèles dimensionnels. Les émotions utilisées sont heureuses et malheureuses (tristes). L'émotion heureuse a une valence positive et une faible excitation alors que l'émotion malheureuse a une valence négative et une faible excitation.


2.3. Stimulus

Il existe diverses méthodes pour susciter des émotions, qui sont l'auto-déclenchement, le rappel et l'utilisation de stimuli externes tels que l'image, le son et l'odeur. Les bases de données largement utilisées pour l'élicitation des émotions sont International Affective Picture System (IAPS) [15] et International Digitized Sound System (IADS) [16]. Ces bases de données sont généralement accompagnées d'évaluations émotionnelles à partir des jugements moyens de plusieurs personnes. Dans cette recherche, nous choisissons des images de la Geneva Affective Picture Database (GAPED) [17] et des sons issus de l'élicitation d'émotions classique, car l'utilisation d'un stimulus visuel-audio donne un meilleur résultat que l'utilisation d'un stimulus visuel ou audio [18].

2.4. Caractéristique

Plusieurs caractéristiques de signal de l'EEG ont été utilisées pour être les caractéristiques. La caractéristique largement utilisée est la densité spectrale de puissance (PSD), la puissance du signal EEG dans les bandes de fréquences focalisées. En outre, d'autres tels que l'asymétrie de puissance spectrale (ASM), le modèle spatial commun (CSP), les croisements d'ordre supérieur (HOC), la carte d'auto-organisation (SOM), les spectres d'ordre supérieur (HOS), la dimension fractale (FD), l'asymétrie spatiale Pattern (ASP) et Entropy ont été utilisés comme fonctionnalités et certains donnent un bon résultat. Dans cette recherche, la fonctionnalité que nous utilisons est PSD car elle donne de bonnes performances dans plusieurs recherches, comme le montre le tableau 1, et elle utilise relativement peu de calculs, ce qui convient à la mise en œuvre de la reconnaissance des émotions en temps réel.

2.5. Fenêtre temporelle

La longueur appropriée de la fenêtre temporelle dépend d'un type d'émotion et de signal physiologique. La durée globale des émotions se situe approximativement entre 0,5 et 4 secondes [42]. En utilisant une fenêtre inappropriée, l'émotion peut être mal classée car différentes émotions peuvent être couvertes lorsque des périodes trop longues ou trop courtes sont mesurées. La littérature existante ne fournit pas de taille de fenêtre appropriée à utiliser pour obtenir une reconnaissance optimale des émotions basée sur l'EEG [4]. Dans cette recherche, nous utilisons la fenêtre temporelle 1 seconde.

2.6. Classificateur

Plusieurs algorithmes d'apprentissage automatique ont été utilisés comme classificateurs d'émotions tels que Support Vector Machine (SVM), Naïve Bayes (NB), Quadratic Discrimining Analysis (QDA), K-Nearest Neighbors (KNN), Linear Discriminant Analysis (LDA) et Multilayer Perceptron (MLP). Comme le montre le tableau 1, la SVM est implémentée dans de nombreuses recherches de classification des émotions en raison de nombreux avantages. SVM est connu pour avoir de bonnes propriétés de généralisation et pour être insensible au surentraînement et à la malédiction de la dimensionnalité. Le principe d'entraînement de base de SVM est de trouver l'hyperplan optimal où l'erreur de classification attendue des échantillons de test est minimisée. L'hyperplan optimal est celui qui maximise les marges. La maximisation des marges est connue pour augmenter la capacité de généralisation. SVM utilise le paramètre de régularisation (C) qui permet l'adaptation aux valeurs aberrantes et autorise les erreurs sur l'ensemble d'apprentissage [43]. Dans cette recherche, nous utilisons le SVM gaussien pour être un classificateur.

Outre les facteurs susmentionnés, il existe un facteur qui affecte les résultats de classification de différentes recherches. Nous avons constaté que certaines recherches n'ont pas complètement séparé l'ensemble d'apprentissage et l'ensemble de test, bien qu'elles aient effectué une validation croisée (CV). Étant donné que la méthode de validation croisée simple sélectionne au hasard certaines données à tester et le reste des données à former, certaines données d'entraînement et données de test peuvent se trouver dans le même essai. Bien que le résultat hors ligne soit bon, il ne garantit pas le résultat en ligne. Dans la reconnaissance des émotions en ligne, l'ensemble d'entraînement est utilisé pour construire le modèle de classification et l'ensemble de test est une donnée d'EEG en temps réel, de sorte que les données d'entraînement et les données de test sont absolument séparées. Pour un résultat fiable qui peut être garanti lors de l'utilisation de la reconnaissance des émotions en ligne, nous devons séparer complètement l'ensemble d'entraînement et l'ensemble de test. Dans cette recherche, nous utilisons la validation croisée Leave-one-trial-out (LOTO-CV) et la validation croisée Leave-one-subject-out (LOSO-CV) pour évaluer les modèles dépendants et indépendants du sujet, respectivement.

Comme le montre le tableau 1, la plupart des recherches sur la reconnaissance des émotions basées sur l'EEG ne sont pas destinées à une mise en œuvre en temps réel. Il existe quelques recherches qui mettent en œuvre la reconnaissance des émotions en temps réel, telles que [29, 40]. Wijeratne et Perera [40] ont proposé un système de détection des émotions en temps réel utilisant l'EEG et l'expression faciale. Cependant, la partie acquisition du signal EEG était toujours hors ligne en raison de leurs contraintes de temps, ils ont donc utilisé des données EEG préenregistrées au lieu de données EEG en temps réel. Liu et al. [29] ont proposé un système de détection d'émotions en temps réel utilisant l'EEG. Les émotions de l'utilisateur sont reconnues et visualisées en temps réel sur son avatar. Cependant, il y a un problème dans leur approche qui doit être mentionné. Afin de reconnaître une émotion, ils n'ont pas utilisé de classificateur et ils ont seulement comparé les valeurs de la dimension fractale (FD) avec un seuil prédéfini, mais ils n'ont pas montré comment définir ce seuil.

Pour y parvenir, nous avons l'intention de mettre en œuvre un système de détection des émotions basé sur l'EEG qui peut être véritablement mis en œuvre en temps réel. En raison du traitement en temps réel, un temps de calcul minimum est requis. Nous comparons les résultats entre chaque paire de canaux et différentes bandes de fréquences afin de réduire les canaux et les bandes de fréquences non significatifs. De plus, nous développons des jeux basés sur le système de détection du bonheur pour reconnaître et contrôler le bonheur.

3. Méthodologie

Le processus de classification des émotions se compose de plusieurs étapes, comme le montre la figure 4. Tout d'abord, un stimulus tel que l'image, l'audio et le film est nécessaire. Pendant l'expérience, le participant est exposé aux stimuli pour susciter l'émotion, et le signal EEG est enregistré en conséquence. Ensuite, les artefacts qui contaminent le signal EEG sont supprimés. Ces données EEG sont analysées et les caractéristiques pertinentes sont extraites. Certaines parties des données sont entraînées pour créer un modèle de classification et le reste des données, qui sont des données de test, sont classées à l'aide de ce modèle.


3.1. Stimulus

Les images et la musique classique ont été utilisées pour stimuler l'émotion. Pour les images de GAPED [17], nous avons sélectionné les 50 images à valence la plus élevée pour être un stimulus heureux (c. des préoccupations humaines et des mauvais traitements infligés aux animaux). Pour la musique classique, nous avons sélectionné les morceaux à valence la plus élevée et la plus faible selon Vempala et Russo [44] comme étant des stimuli heureux et malheureux, respectivement. Les pièces heureuses et malheureuses étaient respectivement Tritsch Tratsch Polka de Johann Strauss et Asas’ Death d’Edvard Grieg.

3.2. Enregistrement EEG

Nous avons utilisé EMOTIV sans fil à 14 canaux [45] (c'est-à-dire AF3, AF4, F3, F4, F7, F8, FC5, FC6, P7, P8, T7, T8, O1 et O2). La fréquence d'échantillonnage est de 128 Hz. La résolution est de 16 bits (14 bits effectifs). Avant d'enregistrer l'EEG, nous plaçons EMOTIV sur la tête du participant pendant un certain temps pour éviter les émotions indésirables qui peuvent résulter de sentiments inconnus ou inconfortables. Ensuite, nous avons décrit le processus d'enregistrement et conseillé au participant de rester aussi immobile que possible pour éviter un artefact pouvant survenir en déplaçant le corps. Lorsque le participant était prêt, nous avons ensuite enregistré l'EEG et l'expérience a commencé. Comme le montre la figure 5, il y avait 5 essais, où chaque essai consistait en un stimulus heureux et un stimulus malheureux. Chaque stimulus était composé de 10 images et d'un morceau de musique classique joué pendant 60 secondes. Après cela, un écran vide a été affiché pendant 12 secondes pour ajuster l'émotion du participant à l'état normal, puis le prochain stimulus a été affiché. Lorsque les 5 essais ont été complètement montrés, le processus d'enregistrement s'est terminé. Toutes ces étapes ont duré environ 15 minutes. Il y avait 10 participants (c'est-à-dire 1 homme et 9 femmes dont l'âge moyen est de 34,60 ans) prenant part à cette expérience.


3.3. Prétraitement

Le signal EEG a été filtré à l'aide d'un filtre sinc d'ordre 5 pour éliminer le bruit de la ligne électrique à 50 Hz et 60 Hz [45]. Nous avons supprimé la ligne de base du signal EEG pour chaque canal afin que les valeurs du signal soient réparties autour de 0.

3.4. Extraction de caractéristiques

Le signal EEG avec fenêtre 1 seconde a été décomposé en 5 bandes de fréquences qui sont Delta (0-4 Hz), Theta (4-8 Hz), Alpha (8-16 Hz), Beta (16-32 Hz) et Gamma ( 32–64 Hz) par transformée en ondelettes comme indiqué dans le tableau 2. Ensuite, la PSD de chaque bande a été calculée pour être la caractéristique. Étant donné qu'EMOTIV a 14 canaux, le nombre total de caractéristiques est de 70. Les caractéristiques ont été normalisées pour chaque participant en mettant à l'échelle entre 0 et 1 comme indiqué dans (1) pour réduire la variabilité interparticipant [11] :


Gating sensoriel

Gating sensoriel décrit les processus neurologiques de filtrage des stimuli redondants ou inutiles dans le cerveau de tous les stimuli environnementaux possibles. Également appelée synchronisation ou filtrage, la synchronisation sensorielle empêche une surcharge d'informations non pertinentes dans les centres corticaux supérieurs du cerveau. La synchronisation sensorielle peut également se produire sous différentes formes à travers des changements à la fois de la perception et de la sensation, affectés par divers facteurs tels que "l'excitation, l'exposition récente à un stimulus et l'attention sélective". [1]

Bien que le déclenchement sensoriel soit en grande partie automatique, il se produit également dans le contexte du traitement de l'attention lorsque le cerveau recherche sélectivement des informations pertinentes pour l'objectif. [2] Des études antérieures ont montré une corrélation entre la synchronisation sensorielle et différentes fonctions cognitives, mais il n'y a pas encore de preuve solide impliquant que la relation entre la synchronisation sensorielle et les fonctions cognitives est indépendante de la modalité.


Voir la vidéo: Les Filtres. (Décembre 2021).