Informations

Existe-t-il une implémentation R du modèle d'accumulateur balistique linéaire ou du modèle de diffusion de Ratcliff pour mesurer le temps de réponse et la précision ?

Existe-t-il une implémentation R du modèle d'accumulateur balistique linéaire ou du modèle de diffusion de Ratcliff pour mesurer le temps de réponse et la précision ?

Je recherche une implémentation du modèle d'accumulateur balistique linéaire ou du modèle de diffusion de Ratcliff (par exemple dans R, MATLAB ou Python).


Voici quelques options. Je ne les ai pas encore essayé personnellement.

Comme mentionné ci-dessous, le package rtdists dans R est capable de s'adapter aux modèles LBA et diffusion.

Autres options

LBA

Scott Brown a une copie de Donkin et al (2009) sur sa page Web avec du code en R, Excel et WinBUGS pour ajuster le modèle LBA :

Il y a aussi leglbapackage sur CRAN par Ingmar Visser.

Modèle de diffusion

Le modèle Diffusion est disponible sous forme de boîte à outils matlab appelée (DMAT).

Les références

  • Donkin, C., Averell, L., Brown, S.D. et Heathcote, A. (2009) Tirer le meilleur parti des données de précision et de temps de réponse : méthodes d'ajustement du modèle d'accumulateur balistique linéaire. Méthodes de recherche sur le comportement, 41, 1095-1110. PDF
  • Vandekerckhove, J., & Tuerlinckx, F. (2008). Analyse du modèle de diffusion avec MATLAB : A DMAT primer. Méthodes de recherche sur le comportement, 40, 61-72. doi:10.3758/BRM.40.1.61 PDF

Pour le modèle de diffusion, il existe également le « modèle EZ-diffusion » d'Eric-Jan Wagenmakers, que vous pouvez retrouver ici.

Cet article compare trois logiciels différents pour l'estimation des paramètres du modèle de diffusion :

von Ravenzwaaij D., & Oberauer, K. (2009). Comment utiliser le modèle de diffusion : Récupération des paramètres de trois méthodes : EZ, fast-dm et DMAT. Journal de psychologie mathématique, 53 (6), 463-473. [PDF]


Le package R diffIRT (http://www.dylanmolenaar.nl/jss1265.pdf) estime à la fois les modèles de diffusion Q et D (voir son site Web pour l'article de van der Maas et al. discutant des différences entre ces modèles). Le code R pour l'approche EZ2, qui est beaucoup plus rapide si cela est important pour vos applications, est http://raoul.socsci.uva.nl/EZ2/.


Dans le sous-titre, vous mentionnez également que vous êtes intéressé par les implémentations matlab / python :

J'ai personnellement utilisé DMAT dans matlab, c'est un bon package. Cependant, le package HDDM basé sur Python est peut-être l'un des meilleurs du moment (à mon avis) et il dispose d'un bon guide d'utilisation.

http://ski.clps.brown.edu/hddm_docs/abstract.html

et le papier associé au colis :

Wieki et al (2013) : http://journal.frontiersin.org/article/10.3389/fninf.2013.00014/full

Les références

  • Wiecki, T.V., Sofer, I., & Frank, M.J. (2013). HDDM : estimation bayésienne hiérarchique du modèle de dérive-diffusion en python. Frontières en neuroinformatique, 7, 14. http://journal.frontiersin.org/article/10.3389/fninf.2013.00014/full

Le pack R rtdistes est une autre excellente option :

Fournit des distributions de temps de réponse (densité/PDF, fonction de distribution/CDF, fonction quantile et génération aléatoire) : (a) modèle de diffusion Ratcliff basé sur le code C d'Andreas et Jochen Voss et (b) accumulateur balistique linéaire (LBA) avec différentes distributions sous-jacent au taux de dérive.


Introduction¶

Les modèles d'échantillonnage séquentiel (SSM) ([24]) se sont imposés comme la norme de facto pour la modélisation des données de temps de réaction à partir de tâches de prise de décision à choix forcé simples à deux alternatives ([22]). Chaque décision est modélisée comme une accumulation d'informations bruyantes indiquant un choix ou l'autre, avec une évaluation séquentielle des preuves accumulées à chaque pas de temps. Une fois que cette preuve franchit un seuil, la réponse correspondante est exécutée. Cette simple hypothèse sur le processus psychologique sous-jacent a la propriété attrayante de reproduire non seulement les probabilités de choix, mais la distribution complète des temps de réponse pour chacun des deux choix. Les modèles de cette classe ont été utilisés avec succès en psychologie mathématique depuis les années 60 et plus récemment adoptés dans les recherches en neurosciences cognitives. Ces études s'intéressent typiquement aux mécanismes neuronaux associés au processus d'accumulation ou à la régulation du seuil de décision (voir par exemple [7], [3], [18]). L'un des problèmes de ces approches de neurosciences cognitives basées sur des modèles est que le nombre d'essais dans chaque condition est souvent faible, ce qui rend difficile l'estimation des paramètres du modèle. Par exemple, les études avec des populations de patients, en particulier si elles sont combinées à des enregistrements peropératoires, ont généralement des contraintes importantes sur la durée de la tâche. De même, les études d'IRMf ou d'EEG basées sur un modèle ne s'intéressent souvent pas aux paramètres de modèle statiques, mais à la façon dont ceux-ci varient de manière dynamique avec les variations essai par essai de l'activité cérébrale enregistrée. Des méthodes d'estimation efficaces et fiables qui tirent parti de la structure statistique complète disponible dans les données à travers les sujets et les conditions sont essentielles au succès de ces efforts.

Les méthodes d'analyse de données bayésiennes gagnent rapidement en popularité dans les sciences cognitives en raison de leurs nombreuses propriétés souhaitables ([12], [10]). Premièrement, les méthodes bayésiennes permettent l'inférence de la distribution postérieure complète de chaque paramètre, quantifiant ainsi l'incertitude dans leur estimation, plutôt que de simplement fournir leur valeur la plus probable. Deuxièmement, la modélisation hiérarchique est naturellement formulée dans un cadre bayésien. Traditionnellement, les modèles psychologiques supposent soit que les sujets sont complètement indépendants les uns des autres, adaptant les modèles séparément à chaque individu, soit que tous les sujets sont les mêmes, adaptant les modèles au groupe comme s'ils étaient tous des copies d'un "sujet moyen". Les deux approches sont sous-optimales dans la mesure où la première ne parvient pas à tirer parti de la force statistique offerte par le degré de similitude des sujets dans un ou plusieurs paramètres du modèle, tandis que la seconde approche ne tient pas compte des différences entre les sujets, et pourrait donc conduire à une situation où le modèle estimé ne peut s'adapter à aucun sujet individuel. Les mêmes limitations s'appliquent aux progiciels DDM actuels tels que DMAT [25] et fast-dm [28]. Les méthodes hiérarchiques bayésiennes apportent une solution à ce problème en permettant d'estimer simultanément les paramètres du groupe et du sujet à différents niveaux hiérarchiques ([12], [10], [26]). Les paramètres du sujet sont supposés être tirés d'une distribution de groupe, et dans la mesure où les sujets sont similaires les uns aux autres, la variance de la distribution de groupe sera estimée comme étant faible, ce qui a réciproquement une plus grande influence sur les estimations des paramètres contraignants de tout individu. . Même dans ce scénario, la méthode permet toujours au postérieur pour tout sujet individuel donné de différer considérablement de celui du reste du groupe étant donné les données suffisantes pour submerger le groupe antérieur. Ainsi, la méthode capitalise sur la force statistique partagée entre les individus, et peut le faire à des degrés différents même au sein du même échantillon et modèle, selon la mesure dans laquelle les sujets sont similaires les uns aux autres dans un paramètre par rapport à un autre. Dans le DDM par exemple, il se peut qu'il y ait relativement peu de variabilité entre les sujets dans le temps de perception pour l'encodage du stimulus, quantifié par le « temps de non-décision » mais plus de variabilité dans leur degré de prudence de réponse, quantifié par le “seuil de décision”. L'estimation devrait pouvoir capitaliser sur cette structure afin que le temps de non-décision dans un sujet donné soit ancré par celui du groupe, permettant potentiellement une estimation plus efficace du seuil de décision de ce sujet. Cette approche peut être particulièrement utile lorsque relativement peu d'essais par condition sont disponibles pour chaque sujet et lors de l'incorporation de données neuronales bruitées essai par essai dans l'estimation des paramètres DDM.

HDDM est un progiciel open source écrit en Python qui permet (i) la construction flexible de modèles hiérarchiques bayésiens de diffusion de dérive et (ii) l'estimation de ses distributions de paramètres a posteriori via PyMC ([16]). Les modèles définis par l'utilisateur peuvent être créés via un simple script python ou être utilisés de manière interactive via, par exemple, le shell interpréteur IPython (:cite:PER-GRA2007). Toutes les fonctions critiques d'exécution sont codées en Cython ([1]) et compilées nativement pour une vitesse qui permet l'estimation de modèles complexes en quelques minutes. HDDM comprend de nombreuses statistiques et fonctionnalités de traçage couramment utilisées pour évaluer l'ajustement du modèle. Le code est publié sous la licence permissive BSD à 3 clauses, couvert par des tests pour assurer un comportement correct et bien documenté. Enfin, HDDM permet une estimation flexible des régressions essai par essai où une mesure externe (par exemple, l'activité cérébrale mesurée par IRMf) est corrélée avec un ou plusieurs paramètres de prise de décision.

Avec HDDM, nous visons à fournir un outil convivial mais puissant qui peut être utilisé par les expérimentateurs pour construire et ajuster des modèles complexes spécifiés par l'utilisateur en utilisant des méthodes d'estimation de pointe pour tester leurs hypothèses. Le but de ce rapport est de présenter la boîte à outils et de fournir un tutoriel sur la façon de l'utiliser les rapports suivants caractériseront quantitativement son succès dans la récupération des paramètres du modèle et des avantages par rapport aux méthodes non hiérarchiques ou non bayésiennes en fonction du nombre de sujets et essais (:cite: SoferWieckiFrank ).


Conclusion

Nous avons présenté un principe de conception sur la façon dont la prise de décision doit être mise en œuvre dans le cerveau, et résumé brièvement les preuves à l'appui, nous proposons spécifiquement que la prise de décision dans les systèmes basés sur des seuils doit faire un compromis entre la vitesse et la précision de la prise de décision en manipulant l'activation de base. dans les populations neuronales de prise de décision, plutôt qu'une manipulation des seuils, afin de mettre en œuvre des décisions stéréotypées sous divers compromis vitesse-précision. Cela pourrait être formalisé comme un argument d'optimalité, que les systèmes de prise de décision devraient minimiser la variabilité dans la mise en œuvre de la décision, à travers les scénarios de décision, de tels arguments d'optimalité sont courants dans les disciplines comportementales telles que l'écologie comportementale, où leurs prédictions sont testées par rapport à des données empiriques, et tout désaccord utilisé affiner la théorie [28]. En appliquant cette approche normative de la biologie évolutive aux modèles de neurosciences, nous espérons apporter une modeste contribution au programme de conciliation des explications fonctionnelles et mécanistes du comportement [29]. Une limitation potentielle de notre analyse est que l'équivalence des changements de seuil et des changements d'activation de base n'a été formellement démontrée que pour les modèles linéaires. Les systèmes neuronaux réels sont généralement non linéaires, mais nous soutenons que même si l'équivalence susmentionnée ne s'applique pas à certains modèles non linéaires importants, le principe de maintenir un seuil cohérent et une activation de base variable, même si la dynamique de décision est modifiée en fonction de un résultat et cela doit être compensé par les mécanismes neuronaux, reste un élément important que nous devrions nous attendre à voir réalisé les preuves neurophysiologiques soutenant cette hypothèse, examinée ci-dessus, soutiennent ce point de vue.

Nous suggérons que notre principe n'est pas spécifique mais devrait être applicable à tout système de réponse. La prise de décision a lieu à de nombreux niveaux différents du traitement cérébral, et bien que des séquences motrices plus complexes liées à la décision puissent sans aucun doute être affectées par la difficulté de la tâche de décision, nous pensons que notre principe devrait également s'appliquer aux niveaux les plus fondamentaux de sélection d'action dans le cerveau. . Même les mécanismes de prise de décision conceptuellement les plus simples, tels que le modèle de course [14], peuvent être exprimés sous forme de modèles d'accumulateur. Les accumulateurs sont également susceptibles d'être impliqués dans des processus de prise de décision plus complexes. Un modèle mathématique biologiquement plausible des ganglions de la base a été proposé, capable de mettre en œuvre une prise de décision statistiquement optimale sur plusieurs alternatives [30]. Comme pour les modèles accumulateurs décrits ci-dessus, ce modèle est basé sur des populations décisionnelles qui doivent atteindre un seuil pour précipiter l'action correspondante, et ce seuil peut être ajusté pour faire un compromis entre la rapidité et la précision de la prise de décision. Il y a une différence intéressante cependant que, dans ce modèle, les noyaux de sortie des noyaux gris centraux doivent tomber au dessous de un seuil d'activation pour que l'action correspondante soit entreprise. Cependant, le principe est le même, que pour assurer la cohérence de la mise en œuvre des décisions, nous nous attendrions à ce que ce seuil reste constant. tandis que les décisions rapides devraient être mises en œuvre par une activation de base inférieure. Bogacz et al. [10] passent en revue quatre théories principales sur la façon dont les compromis vitesse-précision peuvent être gérés dans le circuit cortico-basal, et notent que trois impliquent un changement dans l'activation d'une partie du circuit, que ce soit le striatum [12], les intégrateurs corticaux [31]–[32], ou noyau sous-thalamique [33], alors qu'aucun ne modifie le seuil des noyaux de sortie. Nous suggérons qu'il pourrait être intéressant d'interpréter non seulement les modèles mais aussi d'autres données déjà existantes, ou encore à générer, en fonction de la proposition que nous avons faite ici sur la manière dont la mise en œuvre cohérente des décisions devrait être réalisée.


Introduction

Comprendre les mécanismes neurocognitifs qui sous-tendent la prise de décision et l'apprentissage par renforcement[1–3] a des implications potentielles pour de nombreux troubles neurologiques et psychiatriques associés à un comportement de choix inadapté[4–6]. Le travail de modélisation dans la prise de décision basée sur la valeur et l'apprentissage par renforcement repose souvent sur des fonctions logistiques simples (softmax) [7,8] pour lier les valeurs de décision basées sur un modèle aux choix observés. En revanche, dans la prise de décision perceptive, les modèles d'échantillonnage séquentiel tels que le modèle de diffusion par dérive (DDM) qui tiennent compte non seulement des choix observés mais aussi des distributions du temps de réponse complet (RT) ont une longue tradition [9-11]. Des travaux récents sur l'apprentissage par renforcement[12–15], le choix intertemporel[16,17] et le choix basé sur la valeur[18–21] ont montré que les modèles d'échantillonnage séquentiel peuvent être appliqués avec succès dans ces domaines.

Dans le DDM, les décisions découlent d'un processus bruyant d'accumulation de preuves qui se termine lorsque les preuves accumulées atteignent l'une des deux limites de réponse[9]. Dans sa forme la plus simple, le DDM a quatre paramètres libres : le paramètre de séparation aux limites ?? régit le nombre de preuves requises avant de prendre une décision. La limite supérieure correspond au cas où les preuves accumulées dépassent ??, tandis que la limite inférieure correspond au cas où les preuves accumulées dépassent zéro. Le paramètre de taux de dérive v détermine le taux moyen d'accumulation de preuves. Un taux de dérive plus élevé reflète un taux d'accumulation de preuves plus élevé et donc une réponse plus rapide et plus précise. En revanche, un taux de dérive de zéro indiquerait une performance au niveau du hasard, car le processus d'accumulation de preuves aurait une probabilité égale de se terminer aux limites supérieure ou inférieure (pour un biais neutre). Le point de départ ou paramètre de biais z détermine le point de départ du processus d'accumulation de preuves en unités de séparation des limites, et le temps de non-décision ?? reflète les composants du RT liés à l'encodage du stimulus et/ou à la préparation de la réponse qui ne sont pas liés au processus d'accumulation de preuves. Le DDM peut rendre compte d'un large éventail d'effets expérimentaux sur les distributions RT au cours de deux tâches de choix forcé alternatives [9].

L'application de modèles d'échantillonnage séquentiel tels que le DDM présente plusieurs avantages potentiels par rapport aux règles de choix traditionnelles softmax[7]. Premièrement, l'inclusion des données RT lors de l'estimation du modèle peut améliorer à la fois la fiabilité des paramètres estimés[12] et la récupération des paramètres[13], conduisant ainsi à des estimations plus robustes. Deuxièmement, la prise en compte des distributions RT complètes peut révéler des informations supplémentaires concernant la dynamique des processus de décision [14,15]. Ceci est d'un intérêt potentiel, en particulier dans le contexte des comportements inadaptés dans les populations cliniques[14,22-25] mais aussi lorsque l'objectif est de mieux rendre compte de la manière dont les décisions surviennent au niveau neuronal[10].

Dans la présente étude de cas, nous nous concentrons sur une région du cerveau qui a longtemps été impliquée dans la prise de décision, l'apprentissage basé sur la récompense et la régulation des impulsions [26,27], le cortex orbitofrontal préfrontal/médial (vmPFC/mOFC). Les altérations de la performance sur l'Iowa Gambling Task sont bien répliquées chez les patients vmPFC/mOFC [26,28,29]. Les dommages causés aux vmPFC/mOFC augmentent également l'actualisation temporelle[30,31] (mais voir[32]) et la prise de risque[33-35], compromettent l'apprentissage basé sur les récompenses[36-38] et ont été liés à des comportements de choix incohérents[ 39-41]. Des méta-analyses d'études de neuroimagerie fonctionnelle impliquent fortement cette région dans l'évaluation de la récompense [42,43]. Sur la base de ces observations, nous avons estimé que les dommages vmPFC/mOFC pourraient également rendre les RT pendant la prise de décision moins dépendants de la valeur. Dans le contexte du DDM, cela pourrait se traduire par des changements dans la dépendance à la valeur du taux de dérive v. En revanche, des déficiences plus générales dans le traitement des options de décision, l'exécution et/ou la préparation de la réponse se traduiraient par des changements dans le temps de non-décision. Fait intéressant, cependant, une analyse précédente sans modèle chez les patients vmPFC/mOFC a révélé une modulation similaire des RT par valeur chez les patients et les témoins [40].

La présente étude avait donc les objectifs suivants. Le premier objectif était une validation de l'applicabilité du DDM comme règle de choix dans un contexte de choix intertemporel et risqué. À cette fin, nous avons d'abord effectué une comparaison de modèles de variantes du DDM dans un ensemble de données de neuf patients atteints de lésions vmPFC/mOFC et de dix-neuf témoins. Étant donné que des travaux récents sur l'apprentissage par renforcement ont suggéré que le mappage des différences de valeur aux taux de dérive par essai pourrait être non linéaire [15] plutôt que linéaire [14], nous avons comparé ces différentes variantes du DDM dans nos données et effectué des vérifications prédictives postérieures. sur les modèles DDM gagnants pour explorer dans quelle mesure les différents modèles pourraient expliquer les distributions de RT et la relation entre les RT et la valeur subjective. Deuxièmement, nous avons réanalysé les données d'actualisation temporelle précédemment publiées chez les témoins et les patients atteints de lésions vmPFC/mOFC pour examiner dans quelle mesure nos analyses sans modèle précédemment rapportées [30] pouvaient être reproduites à l'aide d'une analyse hiérarchique basée sur un modèle bayésien avec le DDM comme la règle de choix. Troisièmement, nous avons utilisé le même cadre de modélisation pour analyser des données inédites d'une tâche de prise de décision risquée chez les mêmes patients atteints de lésions et des contrôles pour examiner si la prise de risque en l'absence d'une exigence d'apprentissage est augmentée suite à des dommages vmPFC/mOFC. Enfin, nous avons exploré les changements dans la dynamique de choix révélés par les paramètres DDM à la suite de lésions vmPFC/mOFC, et examiné si les lésions à vmPFC/mPFC avaient un impact sur le degré de sensibilité des RT aux différences de valeurs subjectives, à la fois en examinant les paramètres DDM et via Modèles de mélange DDM.


Résultats

Distributions RT à partir d'un et de plusieurs accumulateurs.

Nous avons commencé par identifier les conditions dans lesquelles un modèle d'accumulateur individuel (m = 1) et un modèle d'accumulateur à grand ensemble (m = 1 000) prédisent des distributions RT avec des formes similaires, définies comme des intervalles de confiance à 95 % se chevauchant sur les cinq quintiles RT (0,1, 0,3, 0,5, 0,7, 0,9). Nous avons observé qu'un modèle d'accumulateur individuel et un modèle d'accumulateur de grand ensemble prédisent des distributions RT avec des formes pratiquement indiscernables si les taux d'accumulation sont au moins modérément corrélés (rv ≥ 0,6) avec des règles de terminaison intermédiaires. Des corrélations de taux beaucoup plus élevées (rv ≥ 0.9) sont nécessaires selon les règles de terminaison extrêmes (Fig. 2). Des résultats similaires ont été obtenus sous un mécanisme de pooling (Fig. 2, colonne la plus à droite).Ainsi, les distributions RT peuvent être expliquées à la fois par un accumulateur modèle individuel et par l'accumulation d'activité de grands ensembles neuronaux uniquement si leurs dynamiques d'activation sont modérément corrélées et que RT n'est pas régie par des accumulateurs extrêmement rapides ou lents.

Distributions RT prédites en fonction de la taille de l'ensemble (N), règle de résiliation (pN) et la corrélation du taux d'accumulation (rv). Chaque panneau montre les quantiles 0,1, 0,3, 0,5, 0,7 et 0,9 RT sur une échelle log-log (le X l'axe va de 10 0 à 10 3 le oui l'axe va de 10 2 à 10 3 ) en fonction de N, pN, et rv varient selon les colonnes et les lignes, respectivement. Nous avons identifié des conditions (pN et rv) sous lesquelles les distributions RT étaient (je) invariant sur tout l'intervalle de N (c'est-à-dire 1 1 000 panneaux blancs], (ii) invariant avec N sur l'intervalle (10 1 000 panneaux gris clair), (iii) invariant avec N sur l'intervalle (100,1 000 panneaux gris moyen), et (iv) non invariant avec N (panneaux gris foncé).

Distributions RT sur une plage de tailles d'ensembles d'accumulateurs.

Nous avons également étudié l'invariance des distributions de RT sur une gamme de tailles d'ensemble pour déterminer si les RT peuvent être invariants une fois qu'une certaine taille d'ensemble critique est atteinte. Le fait de savoir que les mêmes distributions RT sont prédites, qu'un ensemble comporte 10 accumulateurs ou 1 000 accumulateurs ou plus, fournit des informations importantes sur les propriétés de la dynamique d'ensemble. Il se peut que les ensembles aient besoin d'être « assez grands », mais que la taille précise de l'ensemble ait peu d'effet sur le RT que l'ensemble génère.

En prolongeant l'analyse ci-dessus, nous avons étudié comment les distributions RT évoluent avec la taille de l'ensemble d'accumulateurs. Nous avons identifié les conditions dans lesquelles un modèle de petit ensemble (m = 10) et un modèle d'ensemble intermédiaire (m = 100) prédisent les distributions RT avec des formes similaires à celles d'un modèle de grand ensemble (m = 1 000). Les distributions RT étaient invariantes dans les ensembles avec au moins 10 accumulateurs si les taux d'accumulation étaient au moins modérément corrélés (rv ≥ 0,3) et les règles de résiliation évitaient les extrêmes (10% ≤ pN 90%). Les distributions RT étaient invariantes dans les grands ensembles (m ≥ 100) avec des corrélations de taux encore plus faibles (rv 0,1). Seulement si les taux d'accumulation n'étaient pas corrélés (rv = 0,0) ou les règles de résiliation étaient extrêmes (pN = premier et pN = dernier) les distributions de RT variaient-elles considérablement en échelle et en forme avec la taille de l'ensemble (Fig. 2). Des résultats similaires ont été observés lorsque la RT a été déterminée par le mécanisme de terminaison de mise en commun (Fig. 2, colonne la plus à droite) et avec d'autres variantes du modèle d'accumulateur que nous avons étudiées (Texte SI, Robustesse des résultats).

La variabilité de la RT reste remarquablement constante à travers différentes tailles d'ensemble sur une grande partie de l'espace des paramètres. Uniquement pour les accumulateurs non corrélés et les règles de terminaison extrêmes (pN = premier ou pN = dernier) la taille de l'ensemble affecte-t-elle la variabilité RT, un manque d'invariance anticipé par les statistiques des valeurs extrêmes. Par analogie avec le théorème central limite, on peut peut-être anticiper pourquoi le RT médian reste invariant avec la taille de l'ensemble. Cependant, il n'y a pas de propriété mathématique unique qui pourrait nous permettre d'anticiper pourquoi la variabilité de la RT est invariante avec la taille de l'ensemble à travers des échantillons corrélés et des règles de terminaison intermédiaires, nous devons donc nous fier à la simulation. Pour commencer, nous savons que pour pN = premièrement, la variabilité diminue avec la taille de l'ensemble, et pour pN = enfin, la variabilité augmente avec la taille de l'ensemble. Ainsi, à un certain point dans l'éventail des règles de terminaison, nous pouvons nous attendre à une invariance de la variabilité avec la taille de l'ensemble. Ce qui est frappant, c'est que cette invariance est observée pour toutes les règles de terminaison intermédiaires que nous avons étudiées, et pas seulement pour une seule valeur de règle de terminaison. De plus, pour les petites tailles d'ensemble, la variabilité est largement dominée par la variabilité d'échantillonnage entre ces quelques accumulateurs, et de faibles corrélations entre les taux d'accumulateur peuvent n'avoir qu'une faible influence sur la variabilité prévue d'un essai à l'autre. En revanche, pour les grands ensembles, la variabilité est largement dominée par la variabilité entre les essais introduite par la corrélation entre les taux d'accumulation. Ces effets antagonistes de la taille de l'ensemble et de la corrélation s'annulent largement, produisant une invariance dans les distributions RT sur une gamme de paramètres de modèle et d'architectures de modèle (Texte SI, Robustesse des résultats) que nous n'avions pas anticipé.

Invariance de UNERT avec RT.

Nous avons ensuite étudié comment la moyenne des essais UNERT d'un accumulateur individuel peut être invariant avec RT même si RT est produit par un grand ensemble d'accumulateurs. La plupart des modèles d'accumulateurs sont basés sur des seuils invariants pour la RT (40 –42), et plusieurs laboratoires ont observé des seuils invariants de taux de décharge neuronale (6 ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ –17). Cependant, le UNERT d'un accumulateur individuel participant à l'ensemble n'est pas garanti d'atteindre la même valeur à chaque essai en raison de la nature stochastique de son processus d'accumulation - sur certains essais, il a atteint et contribue au RT mesuré, mais sur d'autres essais il n'a pas encore atteint θ et ne contribue donc pas (Fig. 1C). Bien qu'il soit trivialement vrai pour un seul accumulateur qui UNERT sera invariant avec RT, on ne sait pas si de grands ensembles d'accumulateurs avec des règles de terminaison intermédiaires et des corrélations de taux d'accumulation reproduisent l'invariance de UNERT avec une RT qui est régulièrement mesurée en neurophysiologie.

Tout comme une expérience de neurophysiologie échantillonnerait au hasard un neurone dans une région du cerveau, nous avons sélectionné au hasard un accumulateur dans l'ensemble et mesuré UNERT pour cet accumulateur à chaque essai simulé. Nous avons ensuite quantifié comment la pente de la régression linéaire de UNERT sur RT variait pour des ensembles de 10, 100 et 1 000 accumulateurs (Fig. 3), imitant l'approche utilisée dans les analyses neurophysiologiques. Pour les petits ensembles (m = 10), UNERT était invariant sur RT selon les règles de terminaison intermédiaires (10% ≤ pN ≤ 90 %) et des corrélations de taux modérées (rv 0,4). Avec de nombreux accumulateurs (m = 1 000), l'invariance de UNERT avec RT n'a été violé que pour la première règle de terminaison (pN = premier) et des corrélations de faible taux d'accumulation (rv 0,3). Dans le cadre d'un mécanisme de mise en commun, l'invariance de UNERT avec RT n'a jamais été violé. Ainsi, l'invariance de UNERT avec RT émerge de la dynamique d'accumulateurs individuels fonctionnant dans de grands ensembles, même si la dynamique d'aucun accumulateur ne détermine de manière unique RT.

Relation entre UNERT et RT en fonction de la taille de l'ensemble (N), règle de résiliation (pN) et la corrélation du taux d'accumulation (rv). Chaque panneau montre la pente de régression linéaire de UNERT sur RT, exprimé en pixels colorés, pour trois tailles d'ensemble (La gauche, m = 10 Centre, m = 100 Droit, m = 1 000) et toutes les combinaisons de règles de résiliation et de corrélations de taux d'accumulation. Les pixels hachurés indiquent les combinaisons de paramètres pour lesquelles UNERT variait systématiquement avec RT. Ainsi, les pixels beiges non hachurés représentent des combinaisons de paramètres pour lesquelles la pente de la relation linéaire entre UNERT et la RT était nulle et non significative.

Relation entre UNERT et .

Enfin, nous avons exploré comment le UNERT mesurée à partir d'un accumulateur individuel se rapporte au seuil réel de cet accumulateur (θ). Dans la littérature neurophysiologique, il est communément admis que le UNERT d'un neurone individuel représente un seuil comme celui des modèles d'accumulateur stochastique. Cependant, parce que UNERT est une mesure moyenne d'essai et le vrai seuil d'un neurone (θ) est inconnu, nous ne savons pas à quel point la valeur de UNERT se rapproche de la valeur de .

Comme prévu, avec m = 1, UNERT était constant avec la RT et identique d'un essai à l'autre, et le UNERT égal au paramètre du modèle θ. Cependant, dans les ensembles fonctionnant selon des règles de terminaison intermédiaires (10% < pN < 90%) UNERT variait significativement entre les essais (Fig. 4). Ainsi, les accumulateurs individuels agissant dans des ensembles n'atteignent pas le même niveau d'activation à RT à chaque essai, ce qui signifie que mesuré UNERT n'est pas nécessairement équivalent au seuil spécifié par le modèle (θ) pour un accumulateur donné. Une non-équivalence analogue a été observée pour les mécanismes de mise en commun. Nous avons en outre observé que la règle de résiliation déterminait à quel point UNERT approximé θ. En vertu des règles de résiliation anticipée (pN < 50%), moyenne UNERT était inférieur à θ. En vertu des règles de résiliation tardive (pN > 50%), moyenne UNERT était supérieur à θ. En vertu de la règle de résiliation médiane (pN = 50%), moyenne UNERT égal à θ cela implique que la relation entre UNERT et θ ne peut pas être déterminé sans connaître la règle de terminaison. La corrélation du taux d'accumulation a déterminé l'ampleur de la variabilité UNERT. Plus les accumulateurs sont homogènes, plus la variabilité de UNERT et plus l'accord avec θ est proche, ce qui implique que le degré de variation stochastique de UNERT est révélateur de l'homogénéité du processus d'accumulation dans l'ensemble. Ensemble, bien que ces résultats démontrent une complexité inattendue dans la relation entre UNERT mesuré dans un accumulateur individuel et le vrai θ qui définit sa dynamique, dans des conditions dans lesquelles un accumulateur ressemble à plusieurs, la moyenne UNERT mesuré à partir des neurones est une bonne approximation de la relation de à RT.

Distribution du niveau d'activation mesuré autour de RT (UNERT) entre les essais dans un accumulateur sélectionné au hasard en fonction de la taille de l'ensemble (N), règle de résiliation (pN) et la corrélation du taux d'accumulation (rv). Les X l'axe va de 10 0 à 10 3 , et le oui l'axe va de 10 2 à 10 3 . Autres conventions comme sur la figure 2. Le seuil individuel (θ, ligne rouge) était identique pour tous les accumulateurs. Ainsi, la correspondance entre UNERT et θ est indiqué par le chevauchement des distributions (lignes noires) et le seuil (ligne rouge).


Résultats

Le contrôle inhibiteur s'adapte aux statistiques contextuelles

Les sujets ont effectué une version anticipative de la tâche de signal d'arrêt (Fig. 2UNE voir Tâche de signal d'arrêt adaptatif) similaire à celle rapportée précédemment (Dunovan et al., 2015), à l'exception de la façon dont les informations contextuelles ont été transmises au sujet. Plutôt que d'indiquer explicitement au sujet la probabilité de voir un signal d'arrêt à chaque essai, comme cela a été utilisé dans notre étude précédente, les sujets de l'expérience actuelle ont dû se fier au retour d'informations sur les performances pour apprendre la distribution temporelle des signaux d'arrêt dans l'un des trois contextes.

Tâche de signal d'arrêt adaptatif et statistiques SSD contextuelles. UNE, Tâche de signal d'arrêt anticipé. En haut, essais On Go, les sujets devaient appuyer sur une touche lorsque la barre ascendante franchissait une ligne cible, se produisant toujours 520 ms après le début de l'essai. Un retour a été donné informant le sujet si sa réponse était antérieure ou postérieure à l'objectif de Go (maximum 100 points). En bas, lors des essais d'arrêt, la barre s'est arrêtée et est devenue rouge avant d'atteindre la ligne cible. Si aucune réponse n'était donnée (correcte), le sujet recevait un bonus de 200 points. Le fait de ne pas inhiber la pression sur la touche a entraîné une pénalité de -100 points. B, Arrêtez les statistiques de signal dans tous les contextes. Les distributions montrent les distributions d'échantillonnage pour les SSD sur les essais contextuels dans les groupes Early (bleu), Uniform (gris) et Late (violet). Les SSD précoces et tardifs étaient normalement distribués (paramètres indiqués sous forme de texte sur la figure, N(μ, σ)). Sous les distributions, chaque rangée de coches indique les SSD de contexte pour un seul sujet d'exemple dans chaque groupe. La rangée inférieure de coches rouges indique les cinq SSD de sonde inclus pour tous les sujets, quel que soit le contexte.

Pour évaluer les différences de comportement entre les contextes, nous avons comparé la précision des essais de signal d'arrêt à chaque SSD de la sonde entre les groupes, ainsi que les RT moyens des réponses correctes (réponse à l'essai Go) et d'erreur (c'est-à-dire la réponse à l'essai Arrêt). Des ANOVA unidirectionnelles séparées ont révélé un effet principal significatif du contexte entre les groupes sur les deux RT corrects, F(2,72) = 10.07, p < 0,001, et erreur RT (réponses aux essais de signal d'arrêt), F(2,72) = 21.72, p < 0,00001. Conformément à notre hypothèse, nous avons trouvé une interaction significative entre la condition contextuelle et la sonde SSD, F(2.23,80.15) = 3.60, p = 0,027 (Fig. 3UNE). Le décalage de la moyenne de la distribution SSD du contexte plus tard dans l'essai a entraîné un retard de réponse aux essais de Go (Fig. 3UNE, milieu, droite) ainsi qu'une plus grande précision d'arrêt sur les essais de sonde (Fig. 3UNE, à gauche) dans les groupes uniforme et tardif par rapport au groupe précoce. Ainsi, comme prévu, les participants pourraient apprendre de manière fiable à moduler leur efficacité de contrôle inhibiteur en fonction de la structure probabiliste de la synchronisation du signal d'arrêt préalable (Shenoy et Yu, 2011).

Effets du contexte sur la précision des arrêts et les RT. UNE, Précision d'arrêt moyenne du sujet (à gauche) et distributions RT cumulatives pour les réponses correctes (Aller les essais au milieu) et les réponses d'erreur (Arrêter les essais à droite) dans les contextes Début (bleu), Uniforme (gris) et Fin (violet). B, Ralentissement post-erreur après l'échec des essais Stop dans chaque contexte et décroissance ultérieure sur cinq essais. C, Le ralentissement post-erreur observé immédiatement après un arrêt manqué (tse tromper + 1) dans chaque contexte (par exemple, premier point de données dans B). Les barres d'erreur et la zone ombrée représentent l'IC à 95 % calculé entre les sujets.

Nous avons ensuite examiné si l'échec des essais Stop a provoqué des changements systématiques de la RT dans les essais ultérieurs. figure 3B montre le ralentissement immédiat et la décroissance subséquente des RT à la suite d'une erreur d'arrêt (essais de sonde uniquement), calculés par rapport au RT moyen sur les cinq essais qui ont précédé l'erreur. Une ANOVA à un facteur a révélé un effet significatif du contexte sur le degré auquel les sujets ont ralenti les réponses immédiatement après les erreurs d'arrêt, F(2,72) = 4.27, p = 0,018. Contrairement aux effets observés sur la RT et la précision, qui s'échelonnaient avec les différences de SSD moyen dans chaque contexte, les différences de groupe dans le ralentissement post-erreur semblaient être dues à la variance des SSD, les erreurs d'arrêt provoquant un ralentissement plus important dans le contexte uniforme que dans le contexte Early. et les contextes tardifs (Fig. 3C). Collectivement, ces résultats suggèrent que le contrôle adaptatif est sensible à plusieurs dimensions de tâches et que ces dimensions se manifestent dans des profils comportementaux dissociables.

Identificabilité des paramètres DPM statiques

Le DPM (Dunovan et al., 2015) suppose qu'une décision d'exécution est prise lorsqu'un processus d'exécution s'accumule, avec un temps de début tr et taux de dérive ve, traverse une limite de décision supérieure une (voir Modèles informatiques). Essais On Stop, un processus de freinage imbriqué, avec un taux de dérive négatif vb, est initié à l'état actuel du processus d'exécution au moment du SSD et s'accumule vers la limite inférieure (toujours égal à 0 Fig. 1UNE). Le modèle annule avec succès une action lorsque le processus de freinage atteint la limite inférieure avant que le processus d'exécution ne se termine au seuil d'exécution supérieur.

Pour qu'un modèle cognitif soit informatif, il est important de vérifier que ses paramètres sont identifiables, ou qu'ils peuvent être estimés de manière fiable à partir de mesures observables du comportement cible. La question de l'identifiabilité du modèle est particulièrement pertinente pour les nouvelles variantes des modèles d'échantillonnage séquentiel, car plusieurs modèles récemment proposés dans cette classe se sont avérés présenter une faible identifiabilité malgré des ajustements convaincants aux données expérimentales (Miletić et al., 2017 White et al., 2018). Des variantes plus courantes, cependant, telles que le modèle de dérive-diffusion et l'accumulateur balistique linéaire, sont raisonnablement identifiables avec un nombre d'essais suffisant et l'application de procédures d'optimisation appropriées (Ratcliff et Tuerlinckx, 2002 van Ravenzwaaij et Oberauer, 2009 Visser et Poessé, 2017) .

En pratique, l'identifiabilité d'un modèle peut être évaluée en effectuant des ajustements sur des données simulées, pour lesquelles les vrais paramètres sont connus, et en comparant les estimations récupérées. Pour évaluer l'identifiabilité des paramètres dans le DPM, nous avons adopté la procédure suivante. Tout d'abord, nous avons identifié trois ensembles de paramètres génératifs qui approchaient la courbe de précision d'arrêt moyenne et les distributions RT observées dans chaque condition de contexte, garantissant que les ensembles de paramètres génératifs produisaient des modèles de comportement plausibles. Chacun de ces trois ensembles de paramètres génératifs a servi d'hyperparamètres décrivant la moyenne d'une population normalement distribuée à partir de laquelle 25 ensembles de paramètres "au niveau du sujet" ont été échantillonnés et utilisés pour simuler 1 000 essais (pour les détails de l'échantillonnage, voir Modèles informatiques). Cela a produit un ensemble de données simulé similaire en taille et en dimension à celui des données empiriques tout en capturant l'hypothèse selon laquelle les valeurs des paramètres du sujet dans chaque contexte varient autour d'une moyenne partagée. Chacun des trois ensembles de paramètres au niveau du groupe a été utilisé pour générer 20 ensembles de données simulés (chacun composé de 25 sujets échantillonnés au hasard avec 1000 essais par sujet). Le DPM a ensuite été ajusté à la précision d'arrêt moyenne du sujet et aux quantiles RT pour chacun des ensembles de données simulés en suivant la routine d'optimisation décrite dans Matériaux et méthodes (c. sur les SSD de la sonde, les quantiles RT corrects et les quantiles RT d'erreur pour chaque sujet, puis en calculant la moyenne pour chacune de ces valeurs à travers les sujets).

Les estimations de paramètres récupérées à partir des ajustements sont résumées dans la figure 4UN D, avec les valeurs récupérées pour chaque paramètre tracées par rapport à la valeur générative respective pour chacun des trois ensembles. Tous les paramètres ont été récupérés avec une grande précision. En plus de récupérer avec précision les valeurs des paramètres génératifs, le DPM a fourni des ajustements de haute qualité aux ensembles de données générés à partir des trois ensembles de paramètres, comme le montre la distribution positivement asymétrique des valeurs χ 2 dans la figure 4E. Les résultats de cette simulation et analyse de récupération suggèrent que les paramètres du DPM sont identifiables lors de l'ajustement des données au niveau du groupe et sont robustes à la variabilité des valeurs des paramètres des sujets individuels.

Simulation et analyse de récupération des paramètres de DPM. UNE, Hauteur limite vraie et estimée (une bleu), (B) taux de dérive de freinage (vb rouge), (C) heure d'apparition (tr violet), et () taux de dérive d'exécution (ve vert) pour trois jeux de paramètres génératifs. Les lignes indiquent les vraies moyennes des paramètres génératifs. Les couleurs plus claires représentent la plage d'estimations au niveau du sujet échantillonnées. Les carrés représentent les moyennes des paramètres estimés. Les barres d'erreur représentent ±1 SD. E, Distribution des valeurs de χ 2 pour les ajustements à tous les 60 ensembles de données simulés (gris).

Ajustements DPM de sujet individuel

Pour mieux comprendre les mécanismes cognitifs sous-jacents aux effets observés de la rétroaction sur le comportement de synchronisation et de contrôle dans tous les contextes, nous adaptons les données de précision RT et stop au DPM. Pour isoler les paramètres qui ont été influencés par les manipulations expérimentales, les ajustements du modèle ont été effectués en plusieurs étapes consécutives. Pour réduire l'espace combinatoire des configurations de modèle possibles, nous avons adopté une approche de sélection de modèle par étapes vers l'avant où nous avons commencé par comparer des modèles dans lesquels un seul paramètre était libre de varier selon les conditions (tableau 3), la dérive d'exécution (ve), dérive de freinage (vb), délai d'apparition (tr) ou la hauteur de limite (une).

Statistiques d'ajustement statique pour les contextes précoces et tardifs

Étant donné que les effets comportementaux d'intérêt étaient déterminés par la rétroaction essai par essai (c. des données comportementales pour des sujets individuels, permettant aux paramètres sélectionnés de varier entre la première et la seconde moitié des essais de l'expérience, et aux données au niveau du groupe, permettant aux paramètres de varier selon les contextes.

Conformément à notre étude précédente dans laquelle les sujets ont modulé de manière proactive le taux de dérive du processus d'exécution (ve) dans un paradigme de repérage probabiliste (Dunovan et al., 2015), nous avons trouvé que permettre ve varier entre la première et la seconde moitié des essais a fourni le meilleur ajustement moyen entre les sujets de l'expérience actuelle (AICv = −206,5, BICv = −202,2, ET = 23,47 Figure 5UNE). Des scores IC comparables ont été fournis par des modèles alternatifs (par exemple, AICtr = −201.70, BICtr = −199,34, ET = 21,86). Ainsi, nous avons également inspecté le nombre de sujets pour lesquels chaque modèle surpassait les autres et avons constaté que le ve modèle était le modèle le mieux adapté pour plus de sujets (N = 33) que tout autre modèle (voir Fig. 5B). Estimations des paramètres (Fig. 5C) a montré que le ve les valeurs avaient tendance à augmenter au cours de l'expérience, plus élevées dans la seconde par rapport à la première moitié des essais. Notamment, cet effet était le plus prononcé dans le contexte Early, suivi des contextes Uniform et Late, respectivement, suggérant que les sujets du contexte Early étaient plus sensibles aux erreurs de synchronisation que ceux des contextes Uniform et Late.

Ajustements DPM à sujet unique et comparaison de modèles. Des variantes du DPM ont été adaptées à tous les ensembles de données de sujets individuels avec différents paramètres laissés libres de varier entre la première et la seconde moitié des essais. UNE, Scores BIC et AIC moyens des sujets pour la hauteur des limites (une bleu), taux de dérive d'exécution (ve vert), taux de dérive de freinage (vb rouge) et le délai d'apparition (tr jaune) (cernes foncés). Les cercles plus clairs représentent un sujet individuel. Les barres d'erreur représentent 95% CI. B, Mêmes valeurs moyennes que dans UNE, mais avec la taille des points mise à l'échelle pour refléter le nombre de sujets pour lesquels chaque modèle avait le score AIC/BIC le plus bas. Le texte en blanc indique le nombre de sujets le mieux décrits par chaque modèle (par exemple, le facteur utilisé pour mettre à l'échelle la taille des points). C, Augmentation observée de ve valeurs estimées pour le premier (v1) et la seconde moitié (v2) d'essais dans chaque contexte. Les barres d'erreur représentent 95% CI. Le schéma représente l'augmentation relative de ve dans des contextes précoces (cyan), uniformes (gris) et tardifs (violet), par rapport à un taux de dérive initial partagé (c'est-à-dire avant d'apprendre la ligne pointillée noire).

Modulation contextuelle des paramètres DPM

Ensuite, nous avons examiné si le même mécanisme était capable de tenir compte des différences observées dans la précision de la RT et de l'arrêt au niveau du groupe, en optimisant d'abord les paramètres aux données moyennes dans le contexte uniforme, où le moment du signal d'arrêt est imprévisible, et puis aux données moyennes dans les contextes Early et Late, en maintenant tous les paramètres constants aux valeurs Uniformes les mieux adaptées, à l'exception d'un ou deux paramètres d'intérêt. Le modèle qui expliquait le mieux les différences dans la précision d'arrêt et les quantiles RT dans les trois conditions contextuelles a été sélectionné pour une enquête plus approfondie sur les mécanismes d'apprentissage dépendant de la rétroaction. La routine d'ajustement (pour plus de détails, voir Matériels et méthodes) a été répétée un total de 20 fois en utilisant différentes valeurs d'initialisation pour tous les paramètres au début de chaque analyse afin d'éviter les biais dans le processus d'optimisation. Le résumé des ajustements aux données du contexte uniforme est fourni dans le tableau 1. Conformément à nos conclusions précédentes (Dunovan et al., 2015), ainsi qu'aux résultats des ajustements à un seul sujet dans l'étude actuelle, laissant le taux de dérive d'exécution free a fourni une meilleure prise en compte des changements de comportement dépendant du contexte par rapport aux modèles alternatifs à paramètre unique (Best-Fit AICve = −363.02 Fig. 6UNE).

Comparaison de modèles au niveau du groupe et prédictions les mieux adaptées au contexte. UNE, les scores AIC (foncé) et BIC (clair) pour tous les modèles à paramètre unique, permettant la hauteur de la limite d'exécution (une bleu), taux de dérive d'exécution (ve vert), taux de dérive de freinage (vb rouge), ou délai d'apparition (tr jaune) pour varier selon les contextes. Trois modèles à deux paramètres ont également été inclus pour tester les avantages possibles de l'autorisation ve (modèle à paramètre unique le mieux adapté) pour varier avec une (sarcelle), vb (violet), ou tr (vert foncé). Les barres d'erreur indiquent l'IC à 95 %. B, Effets qualitatifs du contexte sur une (en haut) et ve estimations des paramètres (en bas) dans les contextes précoce et tardif. C, Données prédites du modèle (lignes et cercles transparents plus grands) simulées avec les meilleurs paramètres d'ajustement du ve, une modèle, correspondant au cercle en pointillé dans UNE superposées aux données empiriques moyennes pour les contextes précoces (cyan), uniformes (gris) et tardifs (violet). Les barres d'erreur représentent 95% CI.

Pour tester davantage la relation entre le taux de dérive d'exécution et le contexte, nous avons effectué une autre série d'ajustements pour tester les interactions possibles entre le taux de dérive d'exécution et un deuxième paramètre libre, la hauteur de la limite (une), taux de dérive de freinage (vb), ou le délai d'apparition (tr). Les scores AIC et BIC de ces ajustements ont montré qu'une combinaison de la hauteur de la limite et du taux de dérive d'exécution (ve et une) a fourni le meilleur ajustement global aux données (Best Fit AICun Ve = −372,26, dépassant raisonnablement celui du modèle à dérive seule (|AICve −AICun Ve| = 9,24) pour justifier la complexité supplémentaire du modèle à deux paramètres. Figure 6C présente une évaluation qualitative de la une et vE la qualité de l'ajustement du modèle, révélant un degré élevé de chevauchement entre la précision d'arrêt simulée et observée et les données RT dans les conditions précoces et tardives. Ces résultats suggèrent qu'il peut y avoir deux cibles d'apprentissage dans le processus de décision : une forte modulation du taux de dérive d'exécution et une modulation plus subtile de la hauteur de la frontière.

DPM adaptatif avec mécanismes de double apprentissage

Il n'est pas clair d'après l'analyse précédente si les changements induits par des erreurs dans le taux de dérive et la hauteur de la limite sont capables de capturer les ajustements d'essai en essai de la vitesse de réponse et de la précision d'arrêt, car les statistiques de l'environnement sont apprises par l'expérience. Ici, nous explorons comment les mécanismes de taux de dérive et de hauteur de limite s'adaptent à titre d'essai à différentes sources de rétroaction pour piloter le contrôle et la prise de décision en fonction du contexte.

Nous avons mis en place deux formes d'apprentissage correctif (Fig. 7UNE) : un ciblant le taux de dérive d'exécution v et un autre ciblant la hauteur de la limite d'exécution une. Nous désignons ci-après le taux de dérive d'exécution par v plutôt que ve pour éviter plusieurs indices dans les équations du modèle adaptatif. Sur des essais de Go corrects (Fig. 7UNE, gauche, milieu), le taux de dérive actuel (vt) a été mis à jour (vt+1 Éq. 6) pour refléter la différence signée entre le RT du modèle sur l'essai en cours et le temps cible (T G = 520 ms), en augmentant le taux de dérive suite aux réponses « lentes » (c'est-à-dire RTt > T G ) et en diminuant le taux de dérive à la suite de réponses « rapides » (c.-à-d. RTt < T G ). En cas d'échec des essais d'arrêt, vt a été mis à jour selon la même équation mais avec le terme d'erreur reflétant la différence entre RTt et le délai de réponse d'essai (T S = 680 ms), ralentissant ainsi le taux de dérive pour réduire la probabilité d'échec des arrêts à l'avenir. Cette forme de modulation RT-dépendante du taux de dérive est motivée par des découvertes récentes démontrant l'adaptation de la vitesse d'action par la signalisation d'erreur de prédiction dopaminergique dans le striatum (Yttri et Dudman, 2016). Dans le contexte du cadre « croyant-sceptique » (Dunovan et Verstynen, 2016), les erreurs de RT rapides pourraient renforcer le « sceptique » (c'est-à-dire la voie indirecte) et supprimer le « croyant » (c'est-à-dire la voie directe) en diminuant le tonus dopaminergique dans le striatum comme suit : en plus de recevoir des commentaires sur les erreurs de synchronisation de l'action, les sujets ont également reçu des pénalités pour ne pas avoir supprimé les réponses lors des essais d'arrêt. Dans le DPM adaptatif, les arrêts échoués (Fig. 7UNE, à droite) a provoqué une augmentation de la hauteur de la limite (une0) selon une fonction δ de hauteur βt et décroît de façon exponentielle à chaque essai suivant (unet<se tromper>) jusqu'à atteindre sa valeur de référence une0 ou jusqu'à ce qu'une autre erreur d'arrêt se produise (Eq. 7) comme suit : cette forme d'adaptation de la hauteur de la limite est motivée par des preuves physiologiques que le STN joue un rôle critique dans la définition du seuil d'exécution de l'action et que cette relation est modulée par les commissions d'erreur (Cavanagh et al., 2014). Sur tous les essais de Go corrects et le premier essai d'arrêt échoué, les erreurs de synchronisation ont été mises à l'échelle par le même taux d'apprentissage (α0). Un paramètre supplémentaire a été inclus pour moduler la sensibilité (π) aux erreurs d'arrêt au fil du temps (Eq. 8), permettant au modèle de capturer une diminution observée de la précision d'arrêt au fil du temps dans chacun des groupes de contexte (Fig. 8C). Selon l'équation 8, a chuté de façon exponentielle au fil du temps à un taux p, agissant comme un scalaire sur αt (Éq. 9) ett (Eq. 10) avant de mettre à jour les valeurs du taux de dérive (Eq. 6) et de la hauteur limite (Eq. 8) après un arrêt raté. Des valeurs plus élevées de p conduit à une décroissance plus rapide de vers zéro et, ainsi, une désensibilisation plus rapide pour arrêter les erreurs d'essai comme suit :

Récupération des paramètres DPM adaptative et prédictions d'apprentissage dans un contexte uniforme. UNE, Schéma montrant comment le taux de dérive d'exécution est modulé suite à des erreurs de synchronisation sur les essais Go (à gauche) et comment la hauteur de la limite est modulée suite à des inhibitions échouées sur les essais Stop. B, Résultats de récupération des paramètres pour α (gauche, bleu sarcelle), β (milieu, violet) et p (à droite, orange) dans la version principale du DPM adaptatif. Les lignes horizontales indiquent les vraies moyennes des paramètres génératifs. Les couleurs claires représentent la plage d'estimations au niveau du sujet échantillonnées. Les carrés représentent les moyennes des paramètres estimés. Les barres d'erreur représentent ±1 SD. Séries temporelles moyennes par sujet (ligne foncée) et IC à 95 % (zone grise) montrant le (C) Essais RT sur Go et () précision sur les essais d'arrêt. Chaque point de la série temporelle (m = 30) représente la RT/précision moyenne fenêtrée sur ∼30 essais. Les prédictions du modèle adaptatif correspondantes sont superposées (ligne pointillée), moyennées sur des simulations pour les données de chaque sujet individuel.

Le DPM adaptatif module le comportement en fonction des demandes de contrôle spécifiques au contexte. UNE, Courbes moyennes de précision d'arrêt (à gauche) et distributions RT correctes (au milieu) et d'erreur (à droite) prédites par des simulations de modèles adaptatifs dans les contextes Early (bleu) et Late (violet) (initialisés avec les paramètres optimaux du contexte Uniforme). B, Séries temporelles empiriques de go RT avec des prédictions de modèle superposées pour les contextes Early (gauche), Uniform (milieu) et Late (droite). C, Séries temporelles prédites empiriques et modélisées de la précision des arrêts pour les mêmes conditions que dans B.

Identificabilité adaptative des paramètres DPM

Avant d'adapter le DPM adaptatif aux données observées du sujet, nous avons d'abord effectué une analyse de récupération des paramètres, similaire à celle menée pour le DPM statique, afin de garantir que le taux d'apprentissage et les paramètres de décroissance introduits dans le modèle adaptatif pouvaient être identifiés de manière fiable (pour les détails de la procédure, voir Matériels et méthodes). Les résultats de récupération des paramètres sont affichés dans la Figure 7B, montrant les estimations récupérées pour α, β et p superposée aux vraies valeurs. Pour les trois ensembles de paramètres génératifs, la procédure d'optimisation pour l'ajustement du DPM adaptatif a récupéré avec précision les vraies valeurs de , et p. Dans un cas (estimations de récupération de pour l'ensemble de paramètres 2), l'IC à 95 % des estimations de paramètres récupérés n'a pas chevauché la plage de valeurs génératives, cependant, la tendance des estimations de α récupérées a suivi la tendance des valeurs vraies dans les ensembles de paramètres 1 ( le plus élevé), 2 ( moyen) et 3 ( le plus bas).

Ajustements adaptatifs dans le contexte uniforme

Après avoir confirmé l'identifiabilité des paramètres d'apprentissage dans le DPM adaptatif, nous avons ensuite cherché à confirmer que le comportement moyen d'essai du modèle adaptatif était préservé après ajustement des taux d'apprentissage (par exemple, la courbe de précision d'arrêt sur les essais de sonde et les quantiles RT sur correct et erreur essais). Les prédictions du DPM adaptatif sont en effet étroitement alignées sur les statistiques empiriques utilisées pour ajuster le modèle statique (DPM adaptatif χ 2 statique = 0,005, DPM statique 2 statique = 0,011 Tableau 4). Bien que cela ne soit pas nécessairement surprenant, il est prometteur de confirmer que l'introduction d'une adaptation dépendante de la rétroaction dans les paramètres de taux de dérive et de hauteur de limite ne compromet pas l'ajustement du modèle aux statistiques moyennes d'essai. Ensuite, nous avons inspecté dans quelle mesure ce modèle a capturé les changements dans la précision de l'essai Go et Stop dans le contexte uniforme. En effet, l'évolution temporelle prédite des deux mesures comportementales a montré un degré élevé de correspondance avec les modèles comportementaux observés (Fig. 7C,). Ces ajustements qualitatifs montrent qu'il est en effet possible de capturer les changements dépendants de la rétroaction dans la RT et la précision d'arrêt avec les types spécifiques d'apprentissage d'erreur dans ve (Éq. 6) et une (Eq. 7) paramètres. Sans un modèle alternatif avec lequel comparer, cependant, il est impossible de conclure quoi que ce soit sur la spécificité de ces règles d'apprentissage particulières (par exemple, les dépendances hypothétiques de ve et une sur les erreurs de synchronisation et de contrôle, respectivement). Par conséquent, nous avons comparé les ajustements offerts par la version principale du DPM adaptatif avec une version alternative dans laquelle une a été modulé par des erreurs de synchronisation et ve a été modulée par des arrêts ratés. Dans la version alternative du modèle, l'équation 6 devient unet+1 = unet · , croissant et décroissant une suivant rapide (RTt < 520 ms) et lent (RTt > 520 ms) réponses sur les essais de Go, et augmentation une sur les essais d'arrêt échoués proportionnellement à la vitesse de la vitesse de réponse. De plus, l'équation 7 devient υtse tromper =0tetse tromper , ralentir ve d'une magnitude det. En effet, cette version alternative du modèle adaptatif a permis une amélioration par rapport aux ajustements du modèle statique aux statistiques moyennes d'essai (DPM adaptatifalt 2 statique = 0,007, modèle statique χ 2 statique = 0,011 Tableau 4) cependant, par rapport au DPM adaptatif dans lequel ve a été modulé par des erreurs de synchronisation et une a augmenté après des arrêts manqués (χ ​​2 adapter = 0,235, AIC = −326.4, BIC = −320,1), ajustements du modèle adaptatif alternatif (χ 2 adapter = 0,861, AIC = -248,6, BIC = -242,3) ont fourni un ajustement plus défavorable aux changements dépendants de la rétroaction de la précision de RT et d'arrêt au fil du temps dans le contexte uniforme (tableau 4).

Statistiques d'ajustement du modèle de processus dépendant adaptatif

Prédictions adaptatives dans des contextes précoces et tardifs

Conformément à nos hypothèses d'origine, les ajustements de la version primaire du DPM adaptatif au comportement dans le contexte uniforme mettent en évidence deux mécanismes possibles pour acquérir le prior sur le SSD : la modulation adaptative de la vitesse de réponse par le taux de dérive et les augmentations prudentes de la hauteur de la limite après le contrôle. les erreurs. Pour confirmer que ces mécanismes fonctionnent ensemble pour un apprentissage adaptatif basé uniquement sur les statistiques des signaux d'entrée précédents, nous avons pris le schéma de paramètres moyen des ajustements de contexte uniformes et simulé chaque sujet dans les contextes précoce et tardif. Si les changements dépendant du contexte dans les distributions RT et la précision d'arrêt reflètent bien les mécanismes d'apprentissage proposés, alors les simulations du modèle devraient révéler des évolutions temporelles de RT et de précision similaires à celles du comportement observé.

Figure 8UNE montre la courbe d'arrêt simulée et les distributions RT générées par le modèle adaptatif sur la base de la rétroaction dans les conditions Early et Late. Comme dans les données observées (Fig. 3UNE), l'adaptation aux SSD précoces a entraîné une diminution de la précision d'arrêt, mais des RT plus rapides par rapport aux prédictions simulées dans la condition tardive. Dans la figure 8B, C, les panneaux du milieu montrent les mêmes moyens de précision de RT et d'arrêt d'essai que dans la figure 7C, (condition uniforme), flanquée de cours de temps correspondants des simulations aux conditions précoces (à gauche) et tardives (à droite). Les prédictions du modèle adaptatif montrent un degré élevé de flexibilité, se conformant aux changements idiosyncratiques de la dynamique comportementale d'essai dans chaque condition SSD de contexte. Par exemple, les RT dans la condition Early présentent une décroissance relativement mineure et progressive au cours de l'expérience (Fig. 8B, à gauche), contrastant nettement avec l'augmentation précoce et la volatilité générale des RT dans la condition tardive (Fig. 8B, droit). Le DPM adaptatif capture en grande partie les deux modèles, soulignant l'adaptation par rétroaction du taux de dérive en tant qu'outil puissant et flexible pour commander le contrôle inhibiteur dans une variété de paramètres.En plus de prédire les différences de groupe dans l'évolution temporelle des RT, les simulations de la figure 8C montrent un degré de précision frappant dans les changements estimés par le modèle de la précision des arrêts, à la fois au fil du temps et entre les groupes.

Parce que les ajustements du modèle statique ont révélé des preuves marginales pour le modèle de dérive uniquement (Fig. 6UNE), nous avons ensuite demandé si ce modèle plus simple était capable de prendre en compte les changements de comportement liés à l'apprentissage avec la même précision que le modèle à double apprentissage (c'est-à-dire dérive et limite). Pour tester cette hypothèse, nous avons effectué des simulations dans lesquelles le taux d'apprentissage des limites a été fixé à zéro, ne laissant ainsi que le taux de dérive libre de varier en réponse à la rétroaction. Figure 9UNE montre l'erreur entre les estimations observées et prédites par le modèle pour chacune des mesures comportementales de la figure 3 (par exemple, RT, précision d'arrêt et ralentissement post-erreur) sur la base de 20 simulations des modèles à dérive uniquement et à double apprentissage. Par rapport au modèle à dérive seule, le modèle à double apprentissage n'a montré aucun avantage significatif en termes d'ajustement à la RT d'essai (t(24) = 1.09, p = 0,28) ou précision (t(24) = 0.23, p = 0,82) mais a montré une nette amélioration de l'ajustement au ralentissement post-erreur (t(24) = −6.91, p < 0,00001) (Fig. 9UNE). Il est important de noter que l'interaction du taux de dérive et de l'adaptation des limites dans le modèle à double apprentissage a non seulement réduit l'erreur dans l'ajustement du modèle, mais a également récupéré le même modèle qualitatif de ralentissement post-erreur dans les contextes observés dans les données (Fig. 9B). En revanche, le modèle de dérive seule a prédit le plus grand effet de ralentissement post-erreur dans la condition Early (Fig. 9B, la gauche). Ceci est particulièrement révélateur car aucune information sur le ralentissement post-erreur observé n'a été incluse dans la fonction de coût adaptative lors de l'ajustement des paramètres de taux d'apprentissage. Collectivement, ces résultats suggèrent que le réglage axé sur les objectifs de la synchronisation des mouvements (c. .

Utilité d'inclure l'adaptation des limites par rapport au modèle à dérive seule. UNE, Erreur relative de la RT simulée par rapport à la RT observée, de la précision et du ralentissement post-erreur sur les mesures d'essai de la sonde basées sur 20 ensembles de données simulées pour les modèles adaptatifs à dérive seule et à dérive et liés. Ralentissement post-erreur dans chaque condition de contexte comme prédit par le (B) dérive uniquement et (C) dérive et modèles liés. Pour une comparaison avec les tendances observées dans les données empiriques, voir la figure 3C. Les barres d'erreur indiquent l'IC à 95 % autour de la moyenne.


Existe-t-il une implémentation R du modèle d'accumulateur balistique linéaire ou du modèle de diffusion de Ratcliff pour mesurer le temps de réponse et la précision ? - Psychologie

Psychon Bull Rev (2017) 24: 547-556 DOI 10.3758/s13423-016-1081-y

Le modèle de diffusion EZ fournit un test puissant d'effets empiriques simples Don van Ravenzwaaij1 · Chris Donkin2 · Joachim Vandekerckhove3

Publié en ligne : 28 juin 2016 © The Author(s) 2016. Cet article est publié en libre accès sur Springerlink.com

Résumé Au cours des quatre dernières décennies, les modèles d'accumulation séquentielle pour les temps de réponse aux choix se sont répandus à travers la psychologie cognitive comme une traînée de poudre. Le style de modèle d'accumulateur le plus populaire est le modèle de diffusion (Ratcliff Psychological Review, 85, 59-108, 1978), qui s'est avéré tenir compte des données d'un large éventail de paradigmes, y compris la discrimination perceptive, l'identification des lettres, la décision lexicale, mémoire de reconnaissance et détection de signal. Depuis sa création, le modèle est devenu de plus en plus complexe afin de prendre en compte des modèles de données subtils mais fiables. La complexité supplémentaire du modèle de diffusion en fait un outil réservé aux experts. En réponse, Wagenmakers et al. (Psychonomic Bulletin & Review, 14, 3-22, 2007) a proposé que les chercheurs puissent utiliser une version plus basique du modèle de diffusion, la diffusion EZ. Ici, nous simulons les effets expérimentaux sur les données générées à partir du modèle de diffusion complète et comparons la puissance du modèle de diffusion complète et de la diffusion EZ pour détecter ces effets. Nous montrons que le modèle de diffusion EZ, de par sa relative simplicité, sera parfois mieux à même de détecter

Matériel électronique supplémentaire La version en ligne de cet article (doi:10.3758/s13423-016-1081-y) contient du matériel supplémentaire, qui est disponible pour les utilisateurs autorisés. Don van Ravenzwaaij

Université de Groningen, Département de psychologie, Grote Kruisstraat 2/1, Heymans Building, salle 169, 9712 TS Groningen, Pays-Bas

Université de Nouvelle-Galles du Sud, Sydney, Australie

Université de Californie, Irvine CA, États-Unis

effets expérimentaux que le modèle de diffusion complète générant des données. Mots clés Modèles à accumulateurs séquentiels · Analyse du temps de réponse · Puissance · Complexité du modèle

Dans la vie de tous les jours, nous sommes constamment confrontés à des situations qui nécessitent une action ou une décision rapide et précise. Les exemples incluent des tâches banales telles que faire la vaisselle (nous ne voulons pas casser la porcelaine, mais nous ne voulons pas non plus passer l'heure suivante à récurer), ou passer l'aspirateur (nous aimons obtenir autant de coins et de coins que possible, mais aussi voulez recommencer à finir ce papier), mais aussi des activités plus sérieuses, comme taper une lettre ou effectuer un test de classement. Pour toutes ces actions, il existe un compromis, tel qu'une plus grande vitesse se fait au détriment de plus d'erreurs. Ce phénomène est appelé compromis vitesse-précision (Schouten & Bekker, 1967 Wickelgren, 1977). En psychologie expérimentale, il est courant d'étudier ce compromis vitesse-précision avec des tâches relativement simples. Le plus souvent, la tâche demande aux participants de choisir entre l'une des deux alternatives aussi rapidement et précisément que possible. Des exemples notables incluent le paradigme de décision lexicale (Rubenstein et al., 1970) dans lequel le participant est invité à classer des chaînes de lettres en mots anglais (par exemple, LEMON) ou des non-mots (par exemple, LOMNE), et la tâche de points mobiles (Ball & Sekuler, 1982) dans laquelle les participants doivent déterminer si un nuage de points se déplaçant partiellement de manière cohérente semble se déplacer vers la gauche ou vers la droite. En règle générale, les variables observées à partir de ces tâches et d'autres à deux choix forcés alternatifs sont les distributions des temps de réponse (RT) pour les réponses correctes et incorrectes. Une façon d'analyser les données de ces types de tâches consiste à tirer des inférences sur la base de l'une des, ou des deux, la moyenne des RT corrects,

Psychon Bull Rev (2017) 24: 547-556

ou le pourcentage de bonnes réponses. Ces mesures, cependant, ne parlent pas directement des processus psychologiques sous-jacents, tels que le taux de traitement de l'information, la prudence de réponse et le temps nécessaire pour l'encodage du stimulus et les processus de non-décision (c'est-à-dire l'exécution de la réponse). Ils n'abordent pas non plus le compromis vitesse-précision. La motivation des psychologues cognitifs à pouvoir tirer des conclusions sur ces processus psychologiques non observés a conduit à l'avènement des modèles d'accumulateurs séquentiels. Un exemple frappant d'un tel modèle est le modèle de diffusion (Ratcliff, 1978). Le modèle suppose qu'un observateur accumule des preuves pour les réponses jusqu'à ce qu'un niveau seuil de preuves pour l'une des réponses soit atteint. Le temps pris pour accumuler ces preuves, plus un temps de non-décision, donne le temps de réponse observé, et le choix est régi par quel seuil particulier est atteint. Au cours des quatre dernières décennies, alors que des modèles de données de plus en plus complexes ont été observés, le modèle de diffusion s'est développé afin de prendre en compte ces données. Ratcliff (1978) a ajouté l'hypothèse que le taux d'accumulation variait d'un essai à l'autre afin de tenir compte de l'observation selon laquelle les réponses incorrectes étaient plus lentes que les réponses correctes. Ratcliff et Rouder (1998) ont supposé que le point de départ de la preuve pouvait varier d'un essai à l'autre (à la suite de Laming, 1968), leur permettant de tenir compte des réponses incorrectes qui étaient plus rapides que les réponses correctes. Enfin, Ratcliff et Tuerlinckx (2002) ont également proposé que le temps de non-décision varie d'un essai à l'autre, une hypothèse qui a permis au modèle de tenir compte des modèles de vitesse à laquelle les réponses les plus rapides ont été apportées. La version du modèle de diffusion qui inclut toutes les composantes de la variabilité inter-essais est désormais connue sous le nom de modèle de diffusion « complet ». En tant que modèle théorique de prise de décision, le modèle de diffusion complète est impressionnant – il rend compte d'un large éventail de phénomènes empiriques fiables. Entre autres, le modèle de diffusion a été appliqué avec succès à des expériences sur la discrimination perceptive, l'identification des lettres, la décision lexicale, la catégorisation, la mémoire de reconnaissance et la détection de signaux (par exemple, Ratclif,f 1978 Ratcliff et al., 2004, 2006 Klauer et al., 2007 Wagenmakers et al., 2008 van Ravenwaaij et al., 2011 Ratcliff et al., 2010). À l'aide du modèle de diffusion, les chercheurs ont examiné les effets sur la prise de décision de la consommation d'alcool (van Ravenzwaaij et al. 2012), des jeux vidéo (van Ravenzwaaij et al. 2014), de la privation de sommeil (Ratcliff & van Dongen, 2009), de l'anxiété ( White et al., 2010) et l'hypoglycémie (Geddes et al. 2010). Le modèle a également été largement appliqué dans les neurosciences (Ratcliff et al., 2007 Philiastides et al., 2006 Mulder et al., 2012). Ces dernières années, les chercheurs ont commencé à utiliser le modèle de diffusion complète comme modèle de mesure. Une analyse du modèle de diffusion prend en entrée l'ensemble de la distribution RT pour les réponses correctes et incorrectes. Le modèle cartographie le

RT observés et taux d'erreur dans un espace de paramètres psychologiques, tels que la vitesse de traitement et la prudence de réponse. Une telle analyse présente des avantages évidents par rapport aux analyses traditionnelles, qui ne tentent pas d'expliquer les données observées en termes de processus psychologiquement significatifs. L'analyse d'un modèle de diffusion complète est compliquée, pour deux raisons. Premièrement, le modèle est compliqué à utiliser. Les paramètres du modèle sont estimés à l'aide d'une optimisation sur des fonctions qui impliquent une intégration numérique et des sommes infinies. Bien que de vaillants efforts aient été déployés pour rendre ces modèles plus faciles à utiliser (Donkin et al., 2009, 2011 Vandekerckhove & Tuerlinckx, 2007, 2008 Voss & Voss , 2007), l'application d'un modèle de diffusion intégrale reste une approche plus adaptée pour les experts. Deuxièmement, le modèle lui-même peut être plus complexe que ne l'exigent les données pour lesquelles il est utilisé, du moins lorsque le modèle est utilisé comme modèle de mesure. Lorsque les données ne fournissent pas suffisamment de contraintes sur l'estimation des paramètres du modèle, le modèle le plus complexe surajuste les données, ce qui entraîne une variabilité accrue des estimations des paramètres.1 En réponse à la complexité du modèle de diffusion complète, Wagenmakers et al. (2007) ont préconisé l'utilisation du « modèle de diffusion EZ ». Le modèle de diffusion EZ renonce à la variabilité entre les essais du taux d'accumulation, du point de départ et du temps de non-décision, ainsi qu'au biais de réponse a priori (mais voir Grasman et al., 2009). En supprimant tous ces composants de modèle supplémentaires, aucune routine d'ajustement n'est nécessaire pour estimer les paramètres du modèle de diffusion EZ. Au lieu de cela, la diffusion EZ prend la moyenne RT, la variance RT et le pourcentage correct, et les transforme en un taux moyen d'accumulation d'informations, de précaution de réponse et un temps de non-décision. Le modèle EZ a été salué pour la facilité avec laquelle il peut être appliqué aux données. Cependant, les critiques ont affirmé qu'il est « trop EZ » (Ratcliff, 2008, mais voir Wagenmakers et al., 2008). Il est vrai que le modèle de diffusion EZ ne peut pas rendre compte de la très large gamme de modèles de données pour lesquels la diffusion complète a été développée. Cependant, les modèles d'erreurs rapides et lentes et les bords d'attaque changeants, qui justifient toute la complexité du modèle de diffusion, sont souvent observés dans des expériences spécialement conçues pour observer de tels modèles, impliquant généralement plusieurs milliers d'essais. Il n'est pas clair si de tels modèles complexes peuvent être détectés dans des données provenant d'expériences plus simples, au moins au point qu'ils contraignent l'estimation de paramètres de modèle supplémentaires.

voyez cela, imaginez une conception expérimentale dans laquelle la variabilité entre les essais du paramètre de taux d'accumulation dans le modèle de diffusion, , n'est pas identifiable (c'est-à-dire que chaque valeur de peut donner la même valeur de probabilité). Si nous devions ajuster un modèle à des données qui incluent ν, la valeur de vraisemblance maximale des autres paramètres du modèle, , sera estimée en fonction de νˆ . Comme les paramètres du modèle de diffusion sont corrélés, la valeur de dépend de ν. ˆ Ainsi, l'estimation de ν augmente artificiellement la variabilité des estimations de θ .

Psychon Bull Rev (2017) 24: 547-556

Fig. 1 Le modèle de diffusion et ses paramètres appliqués à une tâche de points mobiles (Ball & Sekuler, 1982). L'accumulation de preuves commence au point de départ z, progresse dans le temps guidé par le taux de dérive moyen , et s'arrête chaque fois que la limite supérieure ou inférieure est atteinte. La séparation des limites a quantifie la prudence de réponse. Le RT observé est une combinaison additive du temps pendant lequel les preuves sont accumulées et du temps de non-décision Ter

Van Ravenzwaaij et Oberauer (2009) ont examiné la capacité du modèle complet et du modèle EZ à récupérer la structure moyenne et les différences individuelles des valeurs des paramètres utilisées pour générer de fausses données. Les auteurs ont conclu que EZ était bien capable de récupérer les différences individuelles dans la structure des paramètres, mais présentait un biais dans la récupération de la structure moyenne. Il est intéressant de noter que le modèle de diffusion complète n'a pas pu récupérer les différences individuelles dans les paramètres de variabilité entre les essais, ce qui jette le doute sur la valeur ajoutée de ces paramètres supplémentaires dans des ensembles de données plus « typiques ». La récupération de la structure moyenne dépendait beaucoup de la mise en œuvre spécifique. Ici, nous montrons que la complexité supplémentaire du modèle de diffusion complète a des conséquences néfastes lorsque l'on vise à utiliser le modèle pour détecter l'existence d'un effet empirique. La simplification des hypothèses paramétriques du modèle de diffusion conduit à une précision accrue dans l'estimation des paramètres au prix d'un possible biais dû à une mauvaise spécification du modèle (compromis biais-variance (Geman et al., 1992)). Cependant, aux fins de la prise de décision, le biais n'est pas nécessairement préjudiciable (Gigerenzer & Brighton, 2009) tandis qu'une précision plus élevée conduit à une inférence plus forte et plus précise (Hastie et al., 2005). L'un des objectifs de ce manuscrit est d'aider les non-experts à aborder la notion de quand utiliser le modèle EZ sur le modèle de diffusion complète. Nous simulons des données dans lesquelles nous faisons systématiquement varier les trois principaux paramètres du modèle de diffusion entre deux conditions : le taux de dérive, la séparation des frontières et le temps de non-décision. Les données sont simulées à partir d'un modèle de diffusion complète. Nous montrons ensuite que, par rapport au modèle de diffusion complète, le modèle de diffusion EZ est l'outil le plus puissant pour identifier les différences entre deux conditions sur la vitesse d'accumulation d'informations ou la prudence de réponse. Nous montrons que cela est valable pour toutes les simulations qui diffèrent par le nombre d'essais par

participant, le nombre de participants par groupe et la taille de l'effet entre les groupes. Nous comparons la proportion de fois où le modèle EZ et le modèle de diffusion complète ont détecté un effet entre les groupes sur la vitesse moyenne d'accumulation d'informations, la prudence de réponse ou les paramètres de non-temps de décision (en termes de résultat d'un échantillon indépendant t- test). Le reste de cet article est organisé comme suit : dans la section suivante, nous discutons en détail du modèle de diffusion. Nous examinons le modèle de diffusion simple, le modèle de diffusion complète et EZ. Dans la section suivante, nous discutons de nos réglages de paramètres spécifiques pour notre étude de simulation. Ensuite, nous présentons les résultats de nos simulations. Nous concluons l'article par une discussion de nos résultats et des implications pour les psychologues cognitifs cherchant à analyser leurs données avec le modèle de diffusion.

Le modèle de diffusion Dans le modèle de diffusion pour les tâches accélérées à deux choix (Ratcliff, 1978 Vandekerckhove & Tuerlinckx, 2007 van Ravenzwaaij et al., 2012), le traitement des stimuli est conceptualisé comme l'accumulation de preuves bruyantes au fil du temps. Une réponse est déclenchée lorsque les preuves accumulées atteignent un seuil prédéfini (Fig. 1). Le processus de décision commence au point de départ z, après quoi les informations sont accumulées avec un rapport signal/bruit qui est régi par le taux de dérive moyen et l'écart-type intra-essai s.2 Moyenne 2 Mathématiquement, le changement dans la preuve X

est décrit par une équation différentielle stochastique dX(t) = · dt + s · dW (t), où s · dW (t) représente le processus de bruit de Wiener avec une moyenne 0 et une variance s 2 · dt. Le paramètre d'écart type s est souvent appelé « coefficient de diffusion » et sert de paramètre d'échelle qui est souvent défini sur 0,1 ou sur 1.

Psychon Bull Rev (2017) 24: 547-556

taux de dérive des valeurs proches de zéro produisent des RT longs et des performances quasi aléatoires. La séparation des limites a détermine le compromis vitesse-précision, l'abaissement de la séparation des limites a conduit à des RT plus rapides au prix d'un plus grand nombre d'erreurs. Ensemble, ces paramètres génèrent une distribution de temps de décision DT . Le RT observé, cependant, comprend également des composants non spécifiques au stimulus tels que la préparation de la réponse et l'exécution motrice, qui constituent ensemble le temps de non-décision Ter . Le modèle suppose que Ter décale simplement la distribution de DT , de sorte que RT = DT +Ter (Luce, 1986). Par conséquent, les quatre composants principaux du modèle de diffusion sont (1) la vitesse de traitement de l'information, quantifiée par le taux de dérive moyen ν (2) la prudence de réponse, quantifiée par la séparation des frontières a (3) le biais de réponse a priori, quantifié par le point de départ z et (4) signifient le temps de non–décision, quantifié par Ter .

besoin est d'exécuter quelques lignes de code et les paramètres EZ seront calculés instantanément. Les solutions de forme fermée pour le modèle de diffusion EZ nécessitent l'hypothèse qu'il n'y a pas de variabilité entre les essais du taux de dérive, , point de départ, sz , ou du temps de non-décision, st . De plus, le modèle suppose que les réponses ne sont pas biaisées (c'est-à-dire que z est fixé à la moitié de a). Le modèle de diffusion EZ convertit la moyenne RT, la variance RT et le pourcentage correct en les trois paramètres clés du modèle de diffusion : taux de dérive moyen , séparation des limites a et temps de non-décision Ter . Les paramètres du modèle de diffusion EZ sont calculés de telle sorte que le taux d'erreur soit parfaitement décrit. EZ calcule les paramètres du modèle de diffusion pour chaque participant et chaque condition séparément.Pour les applications du modèle de diffusion EZ, voir par exemple, Schmiedek et al. (2007), Schmiedek et al. (2009), Kamienkowski et al. (2011), et van Ravenzwaaij et al. (2012).

Diffusion totale Le modèle de diffusion simple peut rendre compte de la plupart des modèles de données typiquement trouvés dans les expériences RT, mais a des difficultés à prendre en compte les temps de réponse aux erreurs qui ont une moyenne différente des temps de réponse corrects (Ratcliff, 1978). Une façon pour le modèle de produire des erreurs lentes consiste à inclure la variabilité entre les essais dans le taux de dérive. Une telle variabilité conduira à des dérives élevées qui produisent des réponses correctes rapides et des dérives faibles qui produisent des réponses d'erreur lentes. Une façon pour le modèle de produire des erreurs rapides consiste à inclure la variabilité entre les essais dans le point de départ (Laming, 1968 Link, 1975 Ratcliff & Rouder, 1998). Une telle variabilité entraînera la plupart des erreurs à cause d'un accumulateur commençant relativement près de la limite d'erreur, alors que des réponses correctes sont encore relativement susceptibles de se produire quel que soit le point de départ. En conséquence, les preuves accumulées seront en moyenne plus faibles pour les réponses erronées que pour les réponses correctes, ce qui entraînera des erreurs rapides. Pour une explication plus élaborée de ces deux phénomènes, le lecteur est renvoyé à Ratcliff & Rouder (1998, Fig. 2). Ainsi, le modèle de diffusion complète comprend des paramètres qui spécifient la variabilité entre les essais du taux de dérive, , et du point de départ, sz . De plus, le modèle comprend un paramètre de variabilité entre les essais pour le temps de non-décision, st , afin de mieux tenir compte de la pointe des distributions de temps de réponse (par exemple, Ratcliff et Tuerlinckx, 2002). Diffusion EZ Le modèle de diffusion EZ présente au chercheur cognitif une alternative qui ne nécessite pas de familiarité avec des routines d'ajustement complexes, ni d'attente potentiellement longue sur le modèle pour estimer les paramètres à partir des données (Wagenmakers et al., 2007). Tout le chercheur

Simulations de puissance Nous avons effectué quatre séries de simulations. Pour chaque ensemble, nous avons généré 4 500 ensembles de données à partir du modèle de diffusion complète. Tous les ensembles de données étaient destinés à imiter une expérience à deux conditions entre sujets. Dans les trois premiers ensembles de simulations, nous avons fait varier systématiquement l'un des trois principaux paramètres du modèle de diffusion entre les deux groupes. La quatrième série de simulations était identique à la première, sauf que nous avons fait varier le paramètre de point de départ moyen. La gamme de paramètres que nous avons utilisée était basée sur la distribution des paramètres du modèle de diffusion observés, comme indiqué dans Matzke et Wagenmakers (2009). Pour le groupe 1, nous avons échantillonné les paramètres de diffusion des participants individuels à partir des distributions de groupe suivantes : ν ∼ N(0.223, 0.08)T(0, 0.586) a ∼ N(0.125, 0.025)T(0.056, 0.393) Ter ∼ N(0.435, 0,09)T(0,206, 0,942) z = biais × a η ∼ N(0,133, 0,06)T(0,05, 0,329) sz ∼ N(0,3 × a, 0,09 × a)T(0,05 × a, 0,9 × a) st ∼ N(0,183, 0,037)T(0, 0,95 × Ter ) La notation ∼ N(, ) indique que les valeurs ont été tirées d'une distribution normale avec des paramètres de moyenne et d'écart-type donnés par le premier et le deuxième nombre entre parenthèses, respectivement. La notation T() indique que les valeurs échantillonnées à partir de la distribution normale ont été tronquées entre le premier et le deuxième nombre entre parenthèses. Notez que dans les trois premiers ensembles de simulations, nous avons fixé le biais = 1 2 à la fois dans les simulations et les ajustements du modèle, reflétant un processus sans biais comme on pourrait s'y attendre si les différents

Psychon Bull Rev (2017) 24: 547-556

les limites indiquent une réponse correcte ou incorrecte. Dans la quatrième série de simulations, nous avons assoupli cette hypothèse et varié le biais en fonction du biais ∼ N(0,5, 0,04)T (0,25, 0,75)

les modèles de diffusion EZ. Nous avons enregistré si la valeur p obtenue était inférieure au α traditionnel de 0,05. Notre analyse est centrée sur la proportion des 100 simulations pour lesquelles la valeur p était inférieure à α. Résultats

Pour le groupe 2, tous les paramètres de diffusion des participants individuels ont été échantillonnés à partir des mêmes distributions de groupe, à l'exception du taux de dérive ν (ensembles 1 et 4), de la séparation des limites a (ensemble 2) ou du temps de non-décision Ter (ensemble 3).3 Pour chaque paramètre, nous avons exécuté trois types différents de simulations de taille d'effet : une petite, une moyenne et une grande taille d'effet. Selon la taille de l'effet, la moyenne du groupe 2 du paramètre d'intérêt était supérieure à la moyenne du groupe 1 de 0,5, 0,8 ou 1,2 écart-type au sein du groupe pour la petite, la moyenne et la grande taille d'effet, respectivement. Pour illustrer le taux de dérive ν, en fonction de la simulation, nous avons échantillonné les paramètres de diffusion des participants individuels pour le groupe 2 à partir des distributions de groupe suivantes :

Les résultats des simulations du taux de dérive , de la séparation des frontières a et du temps de non-décision Ter (ensembles 1 à 3) sont présentés sur les Fig. 2, 3 et 4, respectivement. Dans tous les graphiques, l'axe des y trace la proportion de 100 simulations pour lesquelles un test t sur le paramètre focal des deux groupes a donné un p 511 Ko Tailles 1 Téléchargements 4 Vues


Résumé de l'auteur

Dans les modèles de prise de décision, les preuves sont accumulées jusqu'à ce qu'elles franchissent un seuil. La quantité de preuves est directement liée à la force de l'entrée sensorielle pour les alternatives de décision. De tels modèles à une étape prédisent que si deux alternatives de stimulus sont présentées successivement, l'alternative de stimulus présentée en premier domine la décision, car les preuves accumulées atteindront le seuil de cette alternative en premier. Ici, nous montrons que pour de courtes durées de stimulus, la prise de décision n'est pas dominée par le premier, mais par le second stimulus. Ce résultat ne peut pas être expliqué par les modèles de décision classiques à une étape. Nous présentons un modèle en deux étapes où l'entrée sensorielle est d'abord intégrée avant que son résultat ne soit introduit dans un processus de décision classique.

Citation: Rüter J, Marcille N, Sprekeler H, Gerstner W, Herzog MH (2012) Intégration des preuves paradoxales dans les processus de décision rapide. PLoS Comput Biol 8(2) : e1002382. https://doi.org/10.1371/journal.pcbi.1002382

Éditeur: Olaf Sporns, Université de l'Indiana, États-Unis d'Amérique

A reçu: 4 mai 2011 Accepté: 23 décembre 2011 Publié : 16 février 2012

Droits d'auteur: © 2012 Rüter et al. Il s'agit d'un article en libre accès distribué selon les termes de la licence d'attribution Creative Commons, qui permet une utilisation, une distribution et une reproduction sans restriction sur n'importe quel support, à condition que l'auteur et la source d'origine soient crédités.

Le financement: JR est financé par le projet n° 320030-119736 du Fonds national suisse de la recherche scientifique (FNS) « La dynamique de la fusion de caractéristiques ». MHH et WG reçoivent le soutien du projet SNF Sinergia CRSIKO-122697 « Représentation de l'état dans l'apprentissage basé sur la récompense - des modèles de neurones à pointes à la psychophysique ». Les bailleurs de fonds n'ont joué aucun rôle dans la conception de l'étude, la collecte et l'analyse des données, la décision de publier ou la préparation du manuscrit.

Intérêts concurrents : Les auteurs ont déclaré qu'ils n'existaient pas de conflit d'intérêts.


Remerciements

Les auteurs tiennent à remercier Isabel Gauthier pour ses conseils sur l'utilisation du NOMT.

Le financement

Ce travail a été soutenu par un prix d'amélioration de la recherche clinique et translationnelle du Département de pathologie, de microbiologie et d'immunologie du Centre médical de l'Université Vanderbilt. JST et WRH ont été soutenus par la subvention SES-1556415 de la National Science Foundation.

Disponibilité des données et des matériaux

Toutes les données anonymisées sont disponibles sur Open Science Framework à l'adresse https://osf.io/r3gzs/.


Méthodes

Sujets

Trente sujets sains avec une vision normale ou corrigée à la normale ont été recrutés et ont terminé une session de test. Dix sujets n'ont pas été invités pour le reste de l'expérience et exclus des analyses ultérieures car ils ont eu des difficultés à générer cinq niveaux distincts de stress de vitesse. Aucune des analyses rapportées dans l'article n'a été utilisée comme critère d'exclusion et n'a jamais été réalisée sur les données de la première session uniquement. Les vingt sujets restants ont terminé les cinq sessions de l'expérience (13 femmes, tranche d'âge : 18-28). Tous les sujets ont signé un consentement éclairé et ont été rémunérés pour leur participation. Le protocole a été approuvé par le Georgia Institute of Technology Institutional Review Board. Toutes les méthodes ont été mises en œuvre conformément aux directives et réglementations en vigueur.

Les sujets ont effectué une tâche de discrimination d'orientation dans laquelle ils ont indiqué si un patch Gabor (rayon = 4°) intégré dans un bruit de pixel aléatoire était incliné dans le sens antihoraire («gauche») ou dans le sens horaire («droit») par rapport à la verticale. L'orientation du patch Gabor était de ± 45° par rapport à la verticale et a été déterminée au hasard à chaque essai. Immédiatement, après avoir fourni leur réponse, les sujets ont reçu des commentaires détaillés indiquant (i) si leur réponse était correcte ou fausse, (ii) le temps de réponse exact sur l'essai, (iii) les points gagnés ou perdus sur l'essai, et ( iv) le total des points accumulés jusqu'à ce point de l'expérience (Fig. 2).

Chaque essai a commencé avec des sujets se fixant sur un petit point blanc au centre de l'écran pendant 1000 ms et a été suivi d'une présentation du patch Gabor pendant 33 ms. Il n'y avait pas de date limite pour la réponse, mais les grands RT ont été pénalisés dans toutes les conditions, à l'exception de la condition « extrêmement lente ». Les commentaires sont restés à l'écran jusqu'à ce que le sujet appuie sur un bouton du clavier pour passer à l'essai suivant.

L'expérience comprenait cinq conditions de compromis vitesse-précision différentes : « extrêmement rapide », « rapide », « moyen », « lent » et « extrêmement lent ». Chaque condition comportait une pénalité différente sur le temps de réponse (RT) commençant par aucune pénalité du tout dans la condition « extrêmement lente » et augmentant la taille de la pénalité pour les quatre autres conditions. Sur la base de la précision et de la RT de chaque essai, les sujets ont gagné des points selon la formule suivante :

où (Acc) est la précision de l'essai en cours (1 pour les bonnes réponses, 0 pour les mauvaises réponses), (pénalité_) et (réglage_) sont l'amplitude de la pénalité sur RT et l'ajustement pour la condition particulière. Le paramètre (pénalité_) a été fixé à 4, 2, 1, 0,5 et 0, respectivement pour les cinq conditions avec une contrainte de vitesse décroissante. Pour s'assurer que les cinq conditions aboutissent à des gains relativement similaires pour les sujets, nous avons ajouté le paramètre (ajustement_) qui a ajouté ou soustrait un nombre fixe de points sur chaque essai de telle sorte que les conditions avec une plus grande contrainte de vitesse ont reçu les plus grands ajustements positifs. Plus précisément, la valeur de (ajustement_) a été fixé à + 1, + 0,3, 0, − 0,2 et − 0,5, respectivement pour les cinq conditions avec une contrainte de vitesse décroissante. Enfin, nous voulions éviter une stratégie où un sujet tenait simplement le bouton du clavier enfoncé avant même que le stimulus n'apparaisse. Par conséquent, un temps de réponse inférieur à 34 ms (correspondant à peu près à la durée de la présentation du stimulus lui-même) a été pénalisé en soustrayant 3 points. couplé avec des informations sur les 3 points perdus et le nombre total de points jusqu'à présent. À la fin de l'expérience, chaque point était récompensé par 1 centime de bonus.

Procédure

Les sujets sont venus pour cinq sessions différentes comprenant chacune 1000 essais expérimentaux. Avant le début de la première session, les sujets ont reçu des instructions détaillées sur les différentes conditions et leurs formules associées pour gagner des points. Il a été spécifiquement souligné que la meilleure stratégie dans la condition « extrêmement rapide » était de répondre le plus rapidement possible, quelle que soit la précision. Cette instruction a été donnée explicitement parce que la majorité des sujets ne semblaient pas disposés à deviner au hasard pour tous les essais d'une condition donnée sans être explicitement informés qu'une telle stratégie était autorisée. Avant le début des sessions 2 à 5, les sujets ont été brièvement rappelés ces instructions. Chaque session a commencé par une courte formation qui comprenait un bloc de 25 essais de chacune des cinq conditions.

Dans chaque session, les sujets ont effectué 4 courses, chacune consistant en 5 blocs de 50 essais chacun. Chaque bloc consistait en une seule condition, et chaque série comprenait des blocs des cinq conditions différentes dans un ordre aléatoire. Au début de chaque bloc, les sujets ont reçu le nom de la condition pour ce bloc (« extrêmement rapide », « rapide », « moyen », « lent » ou « extrêmement lent »). Dans chaque bloc, nous avons entrelacé de manière pseudo-aléatoire des essais avec cinq contrastes de patch Gabor différents de telle sorte que chaque contraste a été présenté exactement 10 fois. Les contrastes étaient les mêmes pour chaque sujet et ont été choisis sur la base d'essais pilotes pour produire une gamme de niveaux de performance. Les contrastes exacts utilisés étaient de 4,98 %, 6,39 %, 8,21 %, 10,54 % et 13,53 % (les contrastes ont été choisis pour être équidistants dans l'espace log : ils sont égaux à (e^< - 3>) , ( e^< - 2.75>) , (e^< - 2.5>) , (e^< - 2.25>) , et (e^< - 2>) , respectivement).

Appareil

L'expérience a été conçue dans un environnement MATLAB à l'aide de Psychtoolbox 3 52 . Les stimuli ont été présentés sur un moniteur iMac de 21,5 pouces (résolution de 1920 × 1080 pixels, taux de rafraîchissement de 60 Hz) dans une pièce sombre. Les sujets étaient assis à 60 cm de l'écran et fournissaient leurs réponses à l'aide d'un clavier d'ordinateur.

Analyses comportementales

Nous avons supprimé tous les essais avec des TR inférieurs à 150 ms ou supérieurs à 1 500 ms. Cette étape a entraîné la suppression d'une moyenne de 2,3 % du nombre total d'essais (plage de 0,3 à 4,7 % pour chaque sujet). Des résultats similaires ont été obtenus si les valeurs aberrantes de la RT étaient plutôt déterminées séparément pour chaque condition en utilisant le critère interquartile de Tukey. Nous avons ensuite calculé, pour chaque combinaison de condition SAT et de contraste de patch Gabor, la différence moyenne entre l'erreur et les RT corrects ( (RT_ -RT_) ), le RT médian pour chaque condition, le rapport entre l'écart type et le RT moyen ( (frac <droit)>> < ight)>>) ), et l'asymétrie de la distribution RT. L'asymétrie a été calculée comme le coefficient d'asymétrie du moment de Pearson, qui est égal à (frac < ight)^ <3>> ight]>> <>>) où (mu) et (sigma) sont respectivement la moyenne et l'écart type de la distribution . De plus, nous avons calculé le paramètre de la théorie de détection du signal ′ qui quantifie la sensibilité du stimulus en unités signal/bruit 53 . Spécifiquement, ′ a été calculé en traitant les orientations dans le sens des aiguilles d'une montre correctement jugées comme des coups et en appliquant la formule :

où (Phi^< - 1>) est l'inverse de la distribution normale standard cumulative qui transforme HR et FAR en scores z.

Nous avons quantifié les tendances quadratiques de différentes courbes produites par les cinq conditions SAT différentes en ajustant un modèle quadratique (y = ax^ <2>+ bx ​​+ c) . Le modèle a été ajusté séparément à chaque contraste de chaque sujet. Des tests t au niveau du groupe ont ensuite été effectués sur les coefficients quadratiques obtenus pour chaque sujet. Les tests statistiques étaient basés sur des tests t bilatéraux à un échantillon, des tests t appariés et des ANOVA à mesures répétées.

Analyses de modèles de diffusion

Nous adaptons le modèle de diffusion 10 aux données en utilisant à la fois le package python 22 du modèle de diffusion de dérive hiérarchique (HDDM) et la boîte à outils d'analyse du modèle de diffusion (DMAT) dans MATLAB 24. Pour les deux packages, tous les ajustements ont été effectués sur les données de chaque sujet (l'option hiérarchique de HDDM n'a pas été utilisée). Nous avons effectué deux ensembles différents d'ajustement de modèle. Dans le premier ajustement du modèle, nous laissons le paramètre de taux de dérive varier pour différents contrastes et le paramètre limite varier pour différentes conditions SAT (et en fixant tous les autres paramètres à travers les contrastes et les conditions). Dans le deuxième ajustement du modèle, nous laissons tous les paramètres du modèle de diffusion autres que le point de départ (qui était toujours fixé à mi-chemin entre les deux limites) varier à la fois avec le contraste du patch de Gabor et la condition SAT.

Le premier ensemble d'ajustements de modèle - que nous appelons ajustements « contraints » - a été conçu pour tester si le modèle de diffusion peut expliquer les modèles de données en utilisant l'hypothèse d'influence sélective selon laquelle la difficulté du stimulus ne devrait affecter que le taux de dérive et que le réglage SAT ne devrait affecter que la limite 10 . Pour ces ajustements, nous ajustons un paramètre de taux de dérive différent pour chacun des cinq contrastes de patch de Gabor, et un paramètre limite différent pour chacune des cinq conditions SAT. Nous avons fixé tous les autres paramètres pour qu'ils soient les mêmes pour les contrastes et les conditions SAT. Le temps de non-décision et trois paramètres de variabilité ont été estimés dans le cadre de l'ajustement du modèle, tandis que le point de départ n'a pas été traité comme un paramètre libre mais a été fixé à la moitié de la valeur de la limite. Cette paramétrisation a résulté en 14 paramètres libres (5 taux de dérive, 5 paramètres aux limites et 4 paramètres supplémentaires qui étaient les mêmes pour tous les contrastes et conditions). Pour évaluer si ces ajustements « contraints » pouvaient expliquer les modèles observés dans les données, une fois les ajustements des paramètres obtenus, nous avons généré des données simulées sur la base des paramètres récupérés. Pour chaque sujet, nous avons simulé 1 000 points de données pour chaque combinaison de contraste et de condition SAT (pour un total de 25 000 points de données simulés par sujet). Nous avons ensuite analysé ces données simulées de la même manière que les analyses des données originales du sujet.

Il est à noter ici que HDDM et DMAT traitent les paramètres pour le point de départ de l'accumulation ( (z) ) et la variabilité du point de départ ( (s_) ) différemment les uns des autres. HDDM définit ces deux paramètres en tant que proportion de la valeur du paramètre de limite (a) . Par conséquent, lors de l'utilisation de HDDM, il est uniquement possible de fixer les ratios (frac) et (frac <<>>>) à travers les conditions mais pas les valeurs réelles de (z) et (s_) comme cela a été proposé à l'origine par Ratcliff et Rouder 15 lors de l'introduction du paramètre (s_) . La question de savoir comment les paramètres sont fixés entre les conditions était discutable pour le point de départ de l'accumulation (paramètre (z) ) puisqu'il était fixé à mi-chemin entre les deux limites mais était critique pour la variabilité du point de départ (paramètre (s_) ) comme indiqué dans la section Résultats. D'autre part, DMAT fixe les valeurs brutes des paramètres (z) et (s_) à travers les conditions. Cependant, un problème qui se pose est que le paramètre (s_) est contraint de telle sorte que (z + s_ < a) . Ceci est fait pour garantir que l'accumulation commence toujours entre les deux frontières et, en effet, il est sans doute absurde de supposer que le point de départ de l'accumulation peut être au-delà de l'une ou l'autre des frontières. Cependant, la condition « extrêmement rapide » dans notre expérience est naturellement ajustée par une très petite valeur de la frontière (a) . Parce que le paramètre (s_) est contraint d'être le même dans toutes les conditions (y compris la condition « extrêmement rapide »), cela a conduit à (s_) prenant toujours de très petites valeurs, minimisant ainsi la taille de la variabilité du point de départ dans toutes les conditions. Étant donné que cela a entraîné de mauvais ajustements du modèle, dans un ensemble de simulations, nous avons supprimé la contrainte que (z + s_ < a) . Nous notons que bien que cette décision ait permis de meilleurs ajustements du modèle (en particulier pour la différence entre les erreurs et les RT corrects), elle crée des difficultés conceptuelles pour le modèle de diffusion concernant la plausibilité de l'accumulation commençant au-delà des deux frontières.

Le deuxième ensemble d'ajustements du modèle a permis à tous les paramètres du modèle de diffusion de varier librement entre les conditions, c'est pourquoi nous les appelons ajustements « libres ». Nous ajustons chaque combinaison de contraste de patch Gabor et de réglage SAT indépendamment de toutes les autres données de l'expérience en utilisant six paramètres libres (pour le taux de dérive, la limite, le temps de non-décision, la variabilité du taux de dérive, la variabilité du temps de non-décision et la variabilité du point de départ). le point de départ était à nouveau défini à mi-chemin entre les deux limites et n'était pas adapté en tant que paramètre libre). Dans l'ensemble, sur les 25 combinaisons de contraste x réglage SAT, nous avons estimé un total de 150 paramètres pour chaque sujet. Cependant, comme les performances dans la condition « extrêmement rapide » étaient aléatoires pour de nombreux sujets, nous n'avons analysé les ajustements des paramètres que pour les quatre conditions SAT où les performances étaient supérieures aux chances pour tous les sujets. Nous avons utilisé des ANOVA à mesures répétées pour tester quels paramètres du modèle de diffusion variaient en fonction du contraste et du réglage SAT.

Tous les ajustements ont été effectués en utilisant les fonctionnalités par défaut dans HDDM et DMAT. Plus précisément, les ajustements HDDM ont été effectués à l'aide de l'inférence bayésienne, en tirant 4000 échantillons à partir de la méthode a posteriori en utilisant la technique de Markov Chain Monte Carlo (MCMC) et en rejetant les 50 premiers échantillons. Pour augmenter la robustesse de l'estimation, 5 % des données ont été considérées comme des valeurs aberrantes et modélisées à l'aide d'une distribution uniforme non générée par un processus de diffusion 22 mais le choix de valeurs différentes ici n'a pas modifié substantiellement les résultats. DMAT présente un léger écart entre les plages de paramètres autorisées pour la procédure d'ajustement et la procédure de simulation des données pour un ensemble donné de paramètres. Plus précisément, les plages autorisées sont plus larges pour deux des paramètres lors de l'ajustement, créant ainsi des situations où DMAT ne peut pas simuler des données basées sur les paramètres récupérés. Pour éviter ce problème, nous avons modifié les plages autorisées lors de l'ajustement pour qu'elles soient identiques aux plages autorisées pour la simulation de données. Plus précisément, nous avons fixé la valeur absolue du taux de dérive estimé à moins de 0,5 et sa variabilité à moins de 0,3. Les paramètres obtenus avec ces restrictions étaient généralement identiques à ceux obtenus en utilisant les plages par défaut.


Une introduction à l'analyse de données bayésienne pour les sciences cognitives

Il a longtemps été remarqué que lorsque nous sommes confrontés à des choix multiples qui nécessitent une décision immédiate, nous pouvons accélérer la décision au détriment de la précision et devenir plus précis au détriment de la vitesse. off (Wickelgren 1977) . La classe de modèles la plus populaire qui peut intégrer à la fois les temps de réponse et la précision et rendre compte du compromis vitesse-précision est la classe des modèles d'échantillonnage séquentiel, qui comprend le modèle de diffusion de dérive (Ratcliff 1978), l'accumulateur balistique linéaire ( Brown et Heathcote 2008) , et d'autres pour une revue voir Ratcliff et al. (2016) .

Cependant, un modèle alternatif qui a été proposé dans le passé est le modèle d'estimation rapide simple d'Ollman (Ollman 1966) . Bien qu'il soit pour la plupart tombé en désuétude (mais voir Dutilh et al. 2011 pour une variante plus moderne de ce modèle), il présente un cadre très simple utilisant une modélisation de mélange fini qui peut également rendre compte du compromis vitesse-précision. Dans la section suivante, nous utiliserons ce modèle pour illustrer l'utilisation de mélanges finis pour représenter différents processus cognitifs.

20.1.1 Un modèle de compte rendu rapide de la tâche de détection de mouvement globale

Une façon d'examiner le comportement de sujets humains et primates face à deux choix forcés alternatifs est la détection du mouvement global d'un cinématogramme de points aléatoire (Britten et al. 1993) . Dans cette tâche, un participant voit un certain nombre de points aléatoires sur l'écran à partir desquels une proportion d'entre eux se déplacent dans une seule direction (par exemple, vers le haut) et les autres se déplacent dans des directions aléatoires. L'objectif du participant est d'estimer la direction globale du mouvement. Une des raisons de la popularité de cette tâche est qu'elle permet d'affiner la difficulté des épreuves (Dutilh et al. 2019) : La tâche est plus difficile lorsque la proportion de points qui se déplacent de manière cohérente (le niveau de la cohérence) est inférieur voir Fig. 20.1.

FIGURE 20.1 : Trois niveaux de difficulté de la tâche de détection de mouvement globale. Les chiffres montrent un mouvement ascendant constant avec trois niveaux de cohérence (10 %, 50 % et 100 %). Les participants voient les points se déplacer dans la direction indiquée par les flèches. Les participants ne voient pas les flèches et tous les points semblent identiques dans la tâche réelle. Adapté de Han et al. (2018) sous licence CC BY 4.0.

Le modèle de conjecture rapide d'Ollman (1966) suppose que le comportement dans cette tâche (et dans toute autre tâche de choix) est régi par deux processus cognitifs distincts : (i) un mode de conjecture et (ii) un mode engagé dans la tâche. En mode devinette, les réponses sont rapides et la précision est au niveau du hasard. En mode tâche, les réponses sont plus lentes et la précision approche les 100 %. Cela signifie que des valeurs intermédiaires de temps de réponse et de précision ne peuvent être obtenues qu'en mélangeant les réponses des deux modes. D'autres hypothèses de ce modèle sont que les temps de réponse dépendent de la difficulté du choix, et que la probabilité d'être sur l'un des deux états dépend des incitations à la vitesse pendant les instructions. (Pour simplifier les choses, nous ignorerons la possibilité que l'exactitude du choix soit également affectée par la difficulté du choix.)

20.1.1.1 Ensemble de données

Nous implémentons les hypothèses sous-jacentes au modèle de supposition rapide d'Ollman et examinons son ajustement aux données d'une tâche de détection de mouvement globale de Dutilh et al. (2019) .

L'ensemble de données de Dutilh et al. (2019) contient

2800 essais de chacun des 20 sujets participant à une tâche globale de détection de mouvement. Il y avait deux niveaux de cohérence donnant des essais difficiles et faciles (diff), et les essais étaient effectués selon des instructions qui mettaient l'accent sur la précision ou la vitesse (emphase).

Nous pourrions imaginer que si le modèle de suppositions rapides était vrai, nous verrions une distribution bimodale, lorsque nous traçons un histogramme des données. Malheureusement, lorsque deux distributions similaires sont mélangées, nous ne verrons aucune bimodalité apparente :

Cependant, un autre graphique révèle que les réponses incorrectes sont généralement plus rapides, et cela est particulièrement vrai lorsque les instructions mettent l'accent sur la précision :

20.1.1.2 Une implémentation très simple du modèle de conjecture rapide

La description du modèle indique clairement qu'un participant idéal qui ne devine jamais a un temps de réponse qui dépend de la difficulté de l'essai. Comme nous l'avons fait dans les chapitres précédents, nous supposons que les temps de réponse sont log-normalement distribués, et pour simplifier nous commençons par modéliser le comportement d'un seul sujet :

[commencer rt_n sim LogNormal(alpha + eta cdot x_n, sigma) end]

Dans l'équation précédente, (x) est plus grand pour les épreuves difficiles. Si nous centrons (x) , (alpha) représente les temps de réponse logarithmiques moyens transformés pour un participant engagé dans la tâche, et (eta) est l'effet de la difficulté d'essai sur le temps de réponse log. On suppose un processus non déterministe, avec un paramètre de bruit (sigma) . Voir aussi l'encadré 4.3 pour plus d'informations sur les temps de réponse distribués normalement.

Alternativement, un participant qui devine dans chaque essai afficherait un temps de réponse indépendant de la difficulté de l'essai :

[commencer rt_n sim LogNormal(gamma, sigma_2) end]

Ici (gamma) représente le temps de réponse logarithmique moyen transformé lorsqu'un participant ne fait que deviner. Nous supposons que les réponses du mode devinette peuvent avoir une composante de bruit différente de celle d'un mode engagé dans une tâche.

Le modèle de conjecture rapide fait l'hypothèse que pendant une tâche, un seul participant se comporterait de ces deux manières : ils seraient engagés dans la tâche une partie des essais et devineraient le reste des essais. Cela signifie que pour un seul participant, il existe une probabilité sous-jacente d'être engagé dans la tâche, (p_) , qui détermine s'ils choisissent réellement ( (z=1) ) ou devinent ( (z=0) ):

La valeur du paramètre (z) dans chaque essai détermine le comportement du participant. Cela signifie que la distribution que nous observons est un mélange des deux distributions présentées précédemment :

[commencer rt_n sim egin LogNormal(alpha + eta cdot x_n, sigma), & ext < if >z_n =1 LogNormal(gamma, sigma_2), & ext < if >z_n=0 end ag <20.1>end]

Afin d'avoir une implémentation bayésienne, nous devons également définir des a priori. Nous utilisons des priors qui encodent ce que nous savons des expériences de temps de réaction voir aussi 4.2.

[commencer commencer alpha &sim Normal(6, 1) eta &sim Normal(0, .1) sigma &sim Normal_+(.5, .2) end finir]

Pour l'instant, nous ne nous engageons sur aucune valeur pour la probabilité d'avoir une réponse engagée en définissant ce qui suit avant (p_) :

Cela représente un a priori plat sur les probabilités, (p_) est également susceptible d'être un nombre compris entre 0 et 1.

Avant d'adapter notre modèle aux données réelles, nous générons des données synthétiques pour nous assurer que notre modèle fonctionne comme prévu. Nous suivons Cook, Gelman et Rubin (2006) , et pour l'instant nous allons vérifier que notre modèle est à peu près correct (une approche plus approfondie est présentée dans Talts et al. 2018b et Daniel J Schad, Betancourt et Vasishth 2020) . Nous allons générer 1000 observations, où nous connaissons les vraies valeurs des paramètres.

Nous définissons d'abord le nombre d'observations, de prédicteurs et de vraies valeurs. Nous supposons 1000 observations et deux niveaux de difficulté -.5 et .5. Les valeurs des paramètres sont relativement réalistes (basées sur notre expérience précédente sur les expériences de temps de réaction). Bien que dans les priors nous essayons de coder la plage de valeurs possibles pour les paramètres, dans cette simulation nous supposons qu'une seule instance de cette plage possible :

Nous vérifions que nos données simulées sont réalistes, c'est-à-dire qu'elles sont sur la même plage que les données d'origine :

Pour implémenter le modèle de mélange défini dans l'Eq. (3.8) dans Stan, le paramètre discret (z) doit être marginalisé :

[commencer commencer p(rt_n | Thêta) &= p_ cdot LogNormal(rt_n | alpha + eta cdot x_n, sigma) + & (1 - p_) cdot LogNormal(rt_n | gamma, sigma_2) end finir]

De plus, nous devons travailler dans l'espace de journalisation, en tenant compte du fait que Stan définit le journal (PDF) plutôt que les PDF : [egin commencer log(p(rt | Theta)) &= log(p_ cdot LogNormal(rt_n | alpha + eta * x_n, sigma) + & (1 - p_) cdot LogNormal(rt_n | gamma, sigma_2)) &= log( exp( log(p_) + log(LogNormal(rt_n | alpha + eta * x_n, sigma))) + & exp( log(1 - p_) + log(LogNormal(rt_n | gamma, sigma_2)))) end finir]

Dans Stan, cela se traduit par :

Dans le code précédent, nous utilisons log_sum_exp(x, y) et log1m(x) car ils sont plus stables sur le plan informatique que log(exp(x) + exp(y)) et log(1-x) respectivement. C'est-à-dire qu'ils sont moins sujets aux dépassements/sous-débits numériques.

Appelez le modèle Stan mix1.stan et ajustez-le aux données simulées :

Il y a beaucoup d'avertissements, les Rhats sont trop gros et le nombre d'échantillons efficaces est trop faible :

Un tracé montre clairement que les chaînes ne se mélangent pas.

Le problème avec ce modèle est que les composants du mélange sont sous-jacents échangeables et donc non identifiables. Chaque chaîne ne sait pas comment chaque composant a été identifié par le reste des chaînes. Un problème majeur est que même si le modèle théorique suppose que les suppositions sont plus rapides que les réponses engagées, cela n'est pas explicite dans notre modèle de calcul. C'est-à-dire que notre modèle manque de certaines des informations théoriques dont nous disposons, à savoir que la distribution des temps de supposition est plus rapide que la distribution des temps de réaction engagés. Cela peut être encodé avec un a priori fort pour (gamma) , où nous supposons que sa distribution a priori est tronquée sur une borne supérieure par la valeur de (alpha) :

[commencer gamma sim Normal (6, 1), ext gamma < alpha end]

Une autre contrainte plus douce que nous pourrions ajouter à notre implémentation est l'hypothèse que les participants essaient généralement de faire la tâche plus probablement que de simplement deviner. Le prior suivant a une masse de probabilité plus proche de 1 que de 0 :

Une fois que nous avons modifié la limite supérieure de gamma, nous devons également tronquer la distribution dans Stan en corrigeant le PDF avec son CDF (plutôt qu'avec le complément du CDF comme lorsque nous avons une troncature inférieure) voir également l'encadré 4.1.

Ajustez-le au même ensemble de données :

Maintenant, les résumés et les intrigues ont l'air bien.

20.1.1.3 Une implémentation multivariée du modèle

Un problème avec l'implémentation précédente du modèle de supposition rapide est que nous n'utilisons pas les informations de précision. Nous pouvons implémenter une version plus proche de la description verbale du modèle : en particulier, nous voulons également modéliser que dans le mode devinette la précision est au niveau du hasard et que pendant le mode de tâche engagée, la précision approche les 100%.

Cela signifie que le mélange affecte deux paires de distributions :

Une répartition du temps de réponse

[commencer rt_n sim egin LogNormal(alpha + eta cdot x_n, sigma), & ext < if >z_n =1 LogNormal(gamma, sigma_2), & ext < if >z_n=0 end ag <20.2>end]

et une distribution de précision

Nous avons un nouveau paramètre (p_) , qui représentent la probabilité de faire une réponse correcte dans le mode engagé. La description verbale dit que c'est plus proche de 100 %, et ici nous avons la liberté de choisir ce qui représente pour nous un a priori proche de 100 %. Nous interprétons cela comme suit, mais ce n'est pas une contrainte stricte, et si un participant montre systématiquement une précision inférieure (ou supérieure), (p_) changera:

Dans nos données simulées, nous supposons que la tâche de détection de mouvement globale est effectuée par un participant très précis, avec une précision de 99,9%. .

Nous traçons à nouveau nos données simulées, et cette fois nous pouvons voir l'effet de la difficulté de la tâche sur les temps de réponse simulés et la précision :

Nous devons maintenant marginaliser les paramètres discrets des deux paires de distributions.

[commencer commencer p(rt, acc | Theta) = & p_ cdot & LogNormal(rt_n | alpha + eta cdot x_n, sigma) cdot & Bernoulli(acc_n | p_) & + & (1 - p_) cdot & LogNormal(rt_n | gamma, sigma_2) cdot & Bernoulli(acc_n | .5) end finir]

[commencer commencer log(p(rt, acc | Theta)) = log(exp(& & log(p_) + &log(LogNormal(rt_n | alpha + eta * x_n, sigma)) + &log(Bernoulli(acc_n | p_))) +& exp(& & log(1 - p_) + & log(LogNormal(rt_n |gamma, sigma_2)) + & log(Bernoulli(acc_n | .5))) )& end finir]

Notre modèle se traduit par le code Stan suivant :

Enregistrez-le sous le nom blend3.stan et adaptez-le également à la précision :

Nous voyons que notre modèle peut être ajusté à la fois aux temps de réponse et à la précision maintenant, et ses estimations de paramètres ont des valeurs raisonnables (compte tenu de nos données simulées).

Avant d'étendre hiérarchiquement ce modèle, nous allons rendre compte des instructions données au participant dans la section suivante.

20.1.1.4 Une implémentation du modèle prenant en compte les instructions

L'expérience réelle de détection de mouvement global à partir de laquelle nous sommes partis a une autre manipulation qui peut nous aider à mieux évaluer le modèle de supposition rapide. Dans certains essais, les instructions mettaient l'accent sur la précision (par exemple, "Soyez aussi précis que possible.") et dans d'autres la vitesse (par exemple, "Soyez aussi rapide que possible."). Le modèle de conjecture rapide suppose également que la probabilité d'être dans l'un des deux états dépend des incitations à la vitesse données lors des instructions. Cela implique que maintenant (p_) dépend des instructions (x_2) , où l'on code une incitation à la vitesse avec (-.5) et une incitation à la précision avec (.5) . Essentiellement, nous devons ajuster la régression suivante:

Comme nous l'avons fait au 19.2.1.4, nous devons borner la régression précédente entre 0 et 1, nous y parvenons en utilisant la fonction logistique ou logit inverse :

Cela signifie que nous devons interpréter (alpha_ + x_2 cdot eta_) en log-odds borné par ((-infty, infty)) plutôt que comme probabilité voir aussi 19.2.1.4 dans le chapitre précédent.

La vraisemblance définie auparavant dans 20.1.1.3 reste la même, et le seul changement supplémentaire dans notre modèle est que plutôt qu'un a priori sur (p_) nous avons maintenant besoin de priors pour (alpha_) et (eta_) .

Pour (eta_) , nous supposons un effet qui peut être assez important et nous n'assumerons pas une direction a priori (pour l'instant) :

Cela signifie que le participant peut être affecté par les instructions de la manière attendue avec une meilleure précision dans la tâche lorsque les instructions mettent l'accent sur la précision ( (eta >0) ), ou le participant peut se comporter de manière inattendue avec une précision dégradante lorsque la précision est soulignée ( (eta <0) ) (eta <0) pourrait représenter un participant qui comprend mal les instructions. Il est certainement possible d'inclure des priors qui codent la direction attendue de l'effet à la place.

Comment pouvons-nous choisir un a priori pour (alpha_) qui encode les mêmes informations que nous avions dans le modèle précédent dans (p_) ? Une possibilité est de créer un paramètre auxiliaire (p_) , qui représente la probabilité de base d'être engagé dans la tâche, avec le même a priori que nous utilisons dans la section précédente, puis le transformons en un espace sans contrainte pour notre régression avec la fonction logit :

Pour vérifier que nos a priori ont du sens, nous traçons la différence de probabilité prédite a priori d'être engagé dans la tâche sous les deux conditions d'emphase :

Le graphique précédent montre que nous prédisons a priori que la différence de (p_) sera principalement plus petit que (.3) , ce qui semble logique.

Nous sommes prêts à générer un nouvel ensemble de données, en décidant des vraies valeurs pour (eta_) et P_) .

Nous pouvons générer un tracé maintenant si la difficulté de la tâche et les instructions sont manipulées :

Pour l'implémentation de Stan, nous avons ajouté des graphiques de quantités générés qui peuvent être utilisés pour d'autres vérifications prédictives (antérieures ou postérieures). Nous utilisons la variable muette onlyprior pour indiquer si nous utilisons les données ou si nous échantillonnons uniquement à partir des priors. On peut toujours faire les vérifications prédictives dans R, transformer le code que nous avons écrit pour la simulation en fonction et écrire les priors dans R. Cependant, il peut être plus simple de profiter du format de sortie Stan et de réécrire le code dans Stan. Un inconvénient est que l'objet stanfit qui stocke la sortie du modèle peut devenir trop volumineux pour la mémoire de l'ordinateur.

Dans le code Stan montré ci-dessus, log_inv_logit(x) applique la fonction logistique à x pour la transformer en probabilité, puis applique le logarithme log1m_inv_logit(x) applique la fonction logistique à x , puis applique le logarithme à son complément ((1 - p)) .

Nous sauvegardons le code sous le nom blend4.stan , et avant de l'adapter aux données simulées, nous effectuons des vérifications prédictives préalables.

20.1.1.4.1 Vérifications prédictives préalables du modèle d'estimation rapide

Nous générons des distributions prédictives a priori, en définissant uniquement avant 1 .

Nous traçons les distributions prédictives antérieures des temps de réponse comme suit. Nous les traçons à nouveau nos données simulées, en définissant y = rt dans ppc_dens_overlay , cette distribution peut être considérée comme une instance triée sur le volet de la distribution prédictive précédente.

Nous voyons que nous avons tendance à générer des réponses trop grandes, mais la forme générale de la distribution prédictive des temps de réponse est correcte.

Si nous voulons tracer la distribution prédite a priori des différences de temps de réponse conditionnées par la difficulté de la tâche, nous devons définir une nouvelle fonction. Ensuite, nous utilisons la fonction bayesplot ppc_stat() qui prend comme argument de stat toute fonction récapitulative.

Nous trouvons que la gamme de temps de réponse semble raisonnable. Il y a, cependant, toujours plus de vérifications qui peuvent être faites, par exemple, tracer d'autres statistiques récapitulatives, ou des prédictions conditionnées sur d'autres aspects des données.

20.1.1.4.2 Ajustement aux données simulées

Ajustez-le aux données, en définissant onlyprior = 0 :

Nous voyons que nous nous adaptons au modèle sans problèmes. Avant d'évaluer plus attentivement la récupération des paramètres, nous implémentons une version hiérarchique du modèle de suppositions rapides.

20.1.1.5 Une implémentation hiérarchique du modèle des hypothèses rapides

Jusqu'à présent, nous avons évalué le comportement d'un participant simulé. Comme nous l'avons vu au 5.1.6 dans le contexte des modèles de régression distributionnelle, chaque paramètre d'un modèle peut être hiérarchisé de manière simple. Cela ne signifie pas pour autant que nous allons pouvoir estimer ces paramètres ou que notre modèle convergera. Le meilleur conseil ici est de commencer simplement avec des données simulées. Malgré le fait que la convergence avec des données simulées ne garantit pas la convergence du même modèle avec des données réelles, l'inverse est en général vrai.

Pour notre version hiérarchique, nous supposons que les temps de réponse en général et l'effet de la difficulté de la tâche varient selon les participants, et que différents participants ont des temps de supposition différents. Cela entraîne la modification suivante de la distribution du temps de réponse :

[commencer rt_n sim egin LogNormal(alpha + u_ + x_n cdot (eta + u_), sigma), & ext < if >z_n =1 LogNormal(gamma + u_, sigma_2), & ext < if >z_n=0 end finir]

Nous supposons que les trois vecteurs de (u) (ajustement à l'interception et à la pente de la distribution des tâches engagées, et ajustement à la distribution du temps de conjecture) suivent une distribution multinormale centrée en zéro. Par souci de simplicité et par manque d'informations, nous supposons la même distribution a priori pour les trois composantes de la variance et le même a priori pour les deux corrélations entre les ajustements ( ( ho_>, ho_>, ho_>) ):

Avant d'adapter le modèle à l'ensemble de données réel, nous simulons à nouveau les données. Cette fois, nous simulons 100 essais de chacun des 20 sujets.

Nous vérifions que la distribution des temps de réponse simulés conditionnellement à la précision simulée et aux manipulations expérimentales fait sens avec le tracé suivant :

Nous implémentons le modèle dans Stan comme suit. L'extension hiérarchique utilise la factorisation de Cholesky pour les effets au niveau du groupe (comme nous l'avons fait en 11.1.3).

Enregistrez-le sous le nom blendh.stan et ajustez-le aux données simulées :

Nous voyons que nous pouvons adapter l'extension hiérarchique de notre modèle à des données simulées. Ensuite, nous évaluerons si nous pouvons récupérer les vraies valeurs des paramètres.

20.1.1.6 Récupération des paramètres

Par « récupérer » les vraies valeurs des paramètres, nous entendons que les vraies valeurs se trouvent quelque part à l'intérieur de la majeure partie de la distribution postérieure du modèle.

Nous utilisons mcmc_recover_hist pour comparer les distributions postérieures des paramètres pertinents du modèle avec leurs vraies valeurs.

Le modèle semble sous-estimer la probabilité d'être correct des participants ( p_correct ) et surestimer la probabilité d'être engagé dans la tâche ( p_btask ). Cependant, les différences numériques sont très faibles. Nous pouvons être relativement certains que le modèle n'est pas sérieusement mal spécifié, mais une approche plus fondée sur des principes utilisant un étalonnage basé sur la simulation est présentée dans Talts et al. (2018b) et Daniel J Schad, Betancourt et Vasishth (2020) .

20.1.1.6.1 Ajustement du modèle aux données réelles

Après avoir vérifié que notre modèle fonctionne comme prévu, nous sommes prêts à l'adapter à des données réelles. Nous codons les prédicteurs (x) et (x_2) comme nous l'avons fait pour les données simulées :

Le principal obstacle maintenant est que l'ajustement de l'ensemble de données complet prend environ 12 heures ! Si vous voulez avoir un avant-goût de l'ajustement du modèle, vous pouvez échantillonner 150 observations (à partir du

2800) de chaque matière comme suit :

Le modèle complet est adapté comme suit.

Que pouvons-nous dire sur l'ajustement du modèle? Notre succès à adapter le modèle de conjecture rapide aux données réelles n'implique pas que le modèle est un bon compte des données. Cela signifie simplement qu'il est suffisamment flexible. Sous l'hypothèse que ce modèle est vrai, nous pouvons regarder les paramètres et conclure ce qui suit :

  • Les participants semblaient avoir une très grande précision une fois qu'ils étaient engagés dans la tâche. ( p_correct est très élevé).
  • Les consignes semblaient avoir un effet très fort sur le mode des participants ( beta_task est très élevé).
  • Le mode devinette semblait être beaucoup plus bruyant que le mode engagé par tâche (comparez sigma avec sigma2 ).
  • La différence entre les participants (paramètres tau) semble modeste en comparaison avec l'effet de la manipulation expérimentale (beta).
  • Les participants lents semblaient montrer un effet plus fort de la manipulation expérimentale ( rho_u1[1,2] est majoritairement positif).

Si nous voulons savoir si notre modèle atteint l'adéquation descriptive, nous devons examiner les distributions prédictives postérieures du modèle. Cependant, en utilisant des contrôles prédictifs a posteriori, nous ne pourrons pas conclure que notre modèle n'est pas surajusté.

20.1.1.6.1.1 Contrôles prédictifs postérieurs

Pour les contrôles prédictifs a posteriori, nous pouvons écrire le bloc de quantités généré dans un nouveau fichier. L'avantage est que nous pouvons générer autant d'observations que nécessaire après avoir estimé les paramètres. Il n'y a pas de bloc modèle dans le programme Stan suivant.

Enregistrez le fichier sous le nom blendh_gen.stan et générez 500 jeux de données simulés comme suit :

Nous examinons d'abord la distribution générale des temps de réponse générée par le modèle prédictif a posteriori et par nos données réelles sur la figure 20.2.

FIGURE 20.2 : Distribution prédictive postérieure du modèle hiérarchique de supposition rapide en comparaison avec les temps de réponse observés.

On voit que la distribution des temps de réponse observés a des queues plus lourdes que la distribution prédictive. Cela signifie que quelque part dans notre modèle, nous ne prenons pas en compte la variabilité du temps de réponse.

Ensuite, nous examinons l'effet de la manipulation expérimentale sur la figure 20.3 : le modèle sous-estime l'effet de la manipulation expérimentale et la différence observée entre les temps de réponse est bien en dehors de la majeure partie de la distribution prédictive.

FIGURE 20.3 : Distribution prédictive postérieure de la différence de temps de réponse due à la manipulation expérimentale.

Nous examinons également certains cas de la distribution prédictive. Chiffre ?? montre les jeux de données simulés en rouge superposés aux observations réelles en noir. Comme nous l'avons remarqué à la figure 20.2, le modèle prédit moins de variabilité que ce que nous trouvons dans les données.

FIGURE 20.4 : Deux jeux de données simulés en rouge superposés aux observations en noir.

FIGURE 20.5 : Deux jeux de données simulés en rouge superposés aux observations en noir.

Les références

Britten, Kenneth H., Michael N. Shadlen, William T. Newsome et J. Anthony Movshon. 1993. « Réponses des neurones du mont Macaque aux signaux de mouvement stochastiques. » Neurosciences visuelles 10 (6). Presse universitaire de Cambridge : 1157-1169. https://doi.org/10.1017/S0952523800010269.

Brown, Scott D. et Andrew Heathcote. 2008. « Le modèle complet le plus simple du temps de réponse du choix : accumulation balistique linéaire ». Psychologie cognitive 57 (3) : 153-78. https://doi.org/10.1016/j.cogpsych.2007.12.002.

Cook, Samantha R, Andrew Gelman et Donald B Rubin. 2006. « Validation du logiciel pour les modèles bayésiens utilisant des quantiles postérieurs. » Journal des statistiques informatiques et graphiques 15 (3). Taylor & amp Francis : 675-92. https://doi.org/10.1198/106186006X136976.

Dutilh, Gilles, Jeffrey Annis, Scott D Brown, Peter Cassey, Nathan J Evans, Raoul PPP Grasman, Guy E Hawkins, et al. 2019. « La qualité de l'inférence des données sur le temps de réponse : une évaluation collaborative et en aveugle de la validité des modèles cognitifs ». Bulletin Psychonomic & Review 26 (4). Springer : 1051–69.

Dutilh, Gilles, Eric-Jan Wagenmakers, Ingmar Visser et Han L. J. van der Maas. 2011. "Un modèle de transition de phase pour le compromis vitesse-précision dans les expériences de temps de réponse." Sciences cognitives 35 (2) : 211–50. https://doi.org/10.1111/j.1551-6709.2010.01147.x.

Han, Ding, Jana Wegrzyn, Hua Bi, Ruihua Wei, Bin Zhang et Xiaorong Li. 2018. « La pratique rend plus apparente la déficience de la détection de mouvement globale chez les personnes souffrant de stress visuel lié aux modèles. » PLOS UN 13 (2). Bibliothèque publique des sciences : 1–13. https://doi.org/10.1371/journal.pone.0193215.

Ollman, Robert. 1966. "Devinettes rapides dans le temps de réaction de choix." Sciences psychonomiques 6 (4). Springer : 155–56.

Ratcliff, Roger. 1978. "Une théorie de la récupération de la mémoire." Examen psychologique 85 (2). Association américaine de psychologie : 59.

Ratcliff, Roger, Philip L. Smith, Scott D. Brown et Gail McKoon. 2016. « Modèle de décision de diffusion : problèmes actuels et historique ». Tendances en sciences cognitives 20 (4) : 260-81. https://doi.org/https://doi.org/10.1016/j.tics.2016.01.007.

Schad, Daniel J, Michael Betancourt et Shravan Vasishth. 2020. «Vers un flux de travail bayésien fondé sur des principes en sciences cognitives.» Méthodes psychologiques 26 (1). Association psychologique américaine : 103-26.

Talts, Sean, Michael Betancourt, Daniel Simpson, Aki Vehtari et Andrew Gelman. 2018b. « Validation des algorithmes d'inférence bayésienne avec un étalonnage basé sur la simulation. » arXiv Préimpression arXiv:1804.06788.

Wickelgren, Wayne A. 1977. « Compromis vitesse-précision et dynamique de traitement de l'information ». Acta Psychologica 41 (1): 67–85.