Informations

Comment les réponses aux échelles de réponse de type Likert varient-elles selon les pays et les cultures ?

Comment les réponses aux échelles de réponse de type Likert varient-elles selon les pays et les cultures ?

J'ai donné une réponse ici sur stats.stackexchange.com sur la façon d'analyser les éléments ordinaux, tels que ceux sur les échelles de réponse de type Likert (par exemple, Fortement en désaccord à Fortement d'accord). Quelqu'un a demandé s'il y avait des différences entre les pays et les cultures dans la façon dont les répondants utilisent ces échelles. Je me souviens avoir lu des recherches à ce sujet il y a de nombreuses années. Je me souviens de certains pays préférant des réponses extrêmes. De telles différences ont naturellement des implications pour les comparaisons interculturelles des niveaux de satisfaction de vie, de personnalité et vraisemblablement de toute mesure d'auto-évaluation qui utilise de telles échelles de réponse.

Des questions

  • Comment l'utilisation des échelles de réponse de type Likert varie-t-elle selon les pays et les cultures ?
  • Qu'est-ce qui explique de telles différences ?
  • Comment les différences de style de réponse sont-elles différenciées des différences de niveaux du construit sous-jacent ?

Effets de référence de culture

Heine et al (2002) discutent de la façon dont les personnes de différentes cultures répondent souvent aux questions relatives à un groupe de référence dans leur propre culture. Ainsi, par exemple, si une culture est plus collectiviste en général, les différences culturelles mesurées peuvent être moindres lorsque les personnes au sein d'une culture répondent à des éléments de test relatifs à leur propre groupe de référence culturel.

Pour citer le résumé :

La théorie de la comparaison sociale soutient que les gens pensent à eux-mêmes par rapport aux autres. Ceux d'une culture se comparent alors à d'autres et à des normes différentes de ceux d'une autre culture, ce qui peut potentiellement confondre les comparaisons interculturelles. Une étude pilote et l'étude 1 ont démontré la nature problématique de cet effet de groupe de référence : alors que les experts culturels ont convenu que les Asiatiques de l'Est sont plus collectivistes que les Nord-Américains, les comparaisons interculturelles des mesures de traits et d'attitudes n'ont pas réussi à révéler un tel modèle. L'étude 2 a révélé que la manipulation des groupes de référence améliorait les différences culturelles attendues, et l'étude 3 a révélé que les personnes d'origines culturelles différentes au sein d'un même pays présentaient des différences plus importantes que les personnes de différents pays. Les comparaisons interculturelles utilisant des échelles de Likert subjectives sont compromises en raison des différents groupes de référence. Des solutions possibles sont discutées.

Différences culturelles dans les tendances de réponse

Lee et al (2002) ont résumé une partie de la littérature empirique sur les différences interculturelles dans l'utilisation des échelles de réponse :

Seuls quelques chercheurs ont abordé la question des différences culturelles dans les échelles d'évaluation de manière empirique. Wong, Tam, Fung et Wan (1993) n'ont trouvé aucune différence dans la façon dont les participants chinois à Hong Kong ont répondu à un nombre impair par rapport à un nombre pair de choix de réponse. Johnson (1981) n'a trouvé aucune différence dans la façon dont les lecteurs d'Horizons USA qui résidaient en Grande-Bretagne, en Italie, aux Philippines et au Venezuela réagissaient aux échelles bipolaires. Stening et Everett (1984) ont constaté que les managers japonais répondant en japonais étaient plus susceptibles de choisir le point médian que les managers américains ou britanniques répondant en anglais. Chen, Lee et Stevenson (1995) ont trouvé le même effet pour les Japonais et dans une moindre mesure pour les Taïwanais dans un échantillon comparant des élèves de 11e année au Japon, à Taïwan, au Canada et, aux États-Unis, à Minneapolis. Iwata, Saito et Roberts (1994) et Iwata, Roberts et Kawakami (1995) ont rapporté que les élèves du premier cycle du secondaire au Japon et aux États-Unis ont répondu de la même manière sur les éléments négatifs, mais que les Japonais étaient moins susceptibles d'approuver les éléments positifs.

Lors de l'examen de la littérature sur les différences interculturelles dans le style de réponse, Hamamura et al (2008) ont déclaré que :

Par rapport aux Nord-Américains d'héritage européen, des niveaux plus élevés de réponse extrême ont été observés chez les Afro-Américains (Bachman & O'Malley, 1984) et les Latino-Américains (Hui & Triandis, 1989). En revanche, les Asiatiques de l'Est semblent faire preuve de plus de modération que les échantillons de patrimoine européen (Chen, Lee et Stevenson, 1995)

Les références

  • Bachman, J.G. et O'Malley, P.M. (1984). Dire oui, dire non et aller aux extrêmes : différences entre les Noirs et les Blancs dans les styles de réponse. Public Opinion Quarterly, 48, 491-509.
  • Chen, C., Lee, S. Y. et Stevenson, H. W. (1995). Style de réponse et comparaisons interculturelles des échelles d'évaluation chez les étudiants d'Asie de l'Est et d'Amérique du Nord. Sciences psychologiques, 6, 170-175.
  • Hamamura, T., Heine, S.J. & Paulhus, D.L. (2008). Différences culturelles dans les styles de réponse : le rôle de la pensée dialectique. Personnalité et différences individuelles, 44, 932-942.
  • Heine, S.J. et Lehman, D.R. et Peng, K. et Greenholtz, J. (2002). Quel est le problème avec les comparaisons interculturelles d'échelles de Likert subjectives ? : L'effet de groupe de référence. Journal de personnalité et de psychologie sociale, 82, 903, PDF
  • Hui, C.H., & Triandis, H.C. (1989). Effets de la culture et du format de réponse sur le style de réponse extrême. Journal of CrossCultural Psychology, 20, 296-309.
  • Iwata, N., Roberts, C.R. et Kawakami, N. (1995). Comparaison Japon-États-Unis des réponses aux items de l'échelle de dépression chez les travailleurs adultes. Recherche en psychiatrie, 58, 237-245.
  • Iwata, N., Saito, K., & Roberts, R.E. (1994). Réponses à une échelle de dépression auto-administrée chez de jeunes adolescents au Japon. Recherche en psychiatrie, 53, 275-287.
  • Johnson, J.D. (1981). Effets de l'ordre de présentation des dimensions évaluatives des échelles bipolaires dans quatre sociétés. Journal de psychologie sociale, 113, 21-27.
  • Lee, J.W. et Jones, P.S. et Mineyama, Y. et Zhang, X.E. (2002). Différences culturelles dans les réponses à une échelle de Likert. Recherche en soins infirmiers et santé, 25, 295-306.
  • Stening, B.W., & Everett, J.E. (1984). Styles de réponse dans une étude managériale interculturelle. Journal de psychologie sociale, 122, 151-156.
  • Wong, C.S., Tam, K.C., Fung, M.Y. et Wan, K. (1993). Différences entre les nombres pairs et impairs de l'échelle de réponse : quelques preuves empiriques. Journal chinois de psychologie, 35, 75-86.

Phase 3 : évaluation à l'échelle

Étape 7 : tests de dimensionnalité

Le test de dimensionnalité est un test dans lequel les facteurs hypothétiques ou la structure factorielle extraits d'un modèle précédent sont testés à un moment différent dans une étude longitudinale ou, idéalement, sur un nouvel échantillon (91). Les tests de dimensionnalité déterminent si la mesure des éléments, leurs facteurs et leur fonction sont les mêmes sur deux échantillons indépendants ou au sein du même échantillon à différents moments. De tels tests peuvent être effectués à l'aide d'un modèle de cluster indépendant (ICM) - analyse factorielle confirmatoire, modélisation bifactorielle ou invariance de mesure.

Analyse factorielle confirmatoire

L'analyse factorielle confirmatoire est une forme d'évaluation psychométrique qui permet la comparaison systématique d'une alternative a priori structure factorielle basée sur des procédures d'évaluation systématique de l'ajustement et estime la relation entre les construits latents, qui ont été corrigés des erreurs de mesure (92). Morin et al. (92) notent qu'il repose sur un MIC très restrictif, dans lequel les chargements croisés entre les éléments et les facteurs non cibles sont supposés être exactement nuls. Les procédures d'évaluation systématique de l'ajustement sont déterminées par des seuils satisfaisants significatifs. Le tableau ​ Le tableau2 2 contient les techniques les plus courantes pour tester la dimensionnalité. Ces techniques incluent le test du chi carré d'ajustement exact, l'erreur quadratique moyenne d'approximation (RMSEA ≤ 0,06), l'indice de Tucker Lewis (TLI ≥ 0,95), l'indice d'ajustement comparatif (CFI ≥ 0,95), la racine standardisée Résidu quadratique moyen (SRMR ≤ 0,08) et résiduel quadratique moyen pondéré (WRMR ≤ 1,0) (90, 92�).

Tableau 2

Description des indices d'ajustement du modèle et des seuils pour l'évaluation des échelles développées pour la recherche sur la santé, la société et le comportement.

Indices d'ajustement du modèleLa descriptionSeuil recommandé à utiliserLes références
Test du chi carréLa valeur du chi carré est une statistique de test de la qualité de l'ajustement d'un modèle à facteurs. Il compare la matrice de covariance observée avec une matrice de covariance théoriquement proposéeLe test du chi carré d'ajustement du modèle a été jugé trop sensible à la taille de l'échantillon et variable lorsqu'il s'agit de variables non normales. Par conséquent, l'utilisation de données non normales, une petite taille d'échantillon (m = 180�), et les éléments fortement corrélés rendent l'approximation du chi carré inexacte. Une alternative à cela consiste à utiliser la statistique du chi carré de différence Satorra-Bentler (ajustée à la moyenne). Le DIFFTEST a été recommandé pour les modèles avec des variables binaires et ordinales(2, 93)
Erreur quadratique moyenne d'approximation (RMSEA)Le RMSEA est une mesure de l'écart estimé entre la population et les matrices de covariance de population implicites du modèle par degré de liberté (139).Browne et Cudeck recommandent RMSEA ≤ 0,05 comme indicatif d'un ajustement serré, 0,05 ≤ RMSEA ≤ 0,08 comme indicatif d'ajustement juste, et les valeurs Ϡ.10 comme indicatif d'un mauvais ajustement entre le modèle hypothétique et les données observées . Cependant, Hu et Bentler ont suggéré que RMSEA ≤ 0,06 peut indiquer un bon ajustement(26, 96�)
Indice Tucker Lewis (TLI)Le TLI est basé sur l'idée de comparer le modèle factoriel proposé à un modèle dans lequel aucune interrelation n'est supposée entre les élémentsBentler et Bonnett suggèrent que les modèles avec des indices d'ajustement globaux de < 0,90 sont généralement inadéquats et peuvent être considérablement améliorés. Hu et Bentler recommandent TLI ≥ 0,95(95�)
Indice d'ajustement comparatif (CFI)Le CFI est un indice d'ajustement relatif incrémentiel qui mesure l'amélioration relative de l'ajustement du modèle d'un chercheur par rapport à celui d'un modèle de référence.CFI ≥ 0,95 est souvent considéré comme un ajustement acceptable(95�)
Résidu quadratique moyen standardisé (SRMR)Le SRMR est une mesure du résidu de corrélation absolu moyen, la différence globale entre les corrélations observées et préditesLe seuil d'ajustement acceptable du modèle est SRMR ≤ 0,08(95�)
Résidu quadratique moyen pondéré (WRMR)WRMR utilise une approche pondérée par la variance “ particulièrement adaptée aux modèles dont les variables sont mesurées à différentes échelles ou ont des variances largement inégales” (139), il a été évalué comme étant la plus appropriée pour évaluer les modèles ajustés aux données binaires et ordinalesYu recommande un seuil de WRMR < 1.0 pour évaluer l'ajustement du modèle. Cet indice est utilisé pour l'analyse factorielle confirmatoire et les modèles d'équations structurelles avec des variables binaires et ordinales(101)
Norme de fiabilité pour les balancesUne fiabilité de 0,90 est le seuil minimum recommandé qui devrait être toléré tandis qu'une fiabilité de 0,95 devrait être la norme souhaitable. Alors que l'idéal a rarement été atteint par la plupart des chercheurs, un coefficient de fiabilité de 0,70 a souvent été accepté comme satisfaisant pour la plupart des échellesNunnally recommande un seuil de 𢙐.90 pour évaluer la cohérence interne des échelles(117, 123)

Modélisation bifactorielle

La modélisation bifactorielle, également appelée modélisation factorielle imbriquée, est une forme de théorie de la réponse aux items utilisée pour tester la dimensionnalité d'une échelle (102, 103). Cette méthode peut être utilisée lorsque la structure factorielle hypothétique du modèle précédent produit des dimensions qui se chevauchent partiellement de sorte que la plupart des éléments peuvent se charger sur un facteur et quelques éléments se charger sur un deuxième et/ou un troisième facteur. Le modèle bifactoriel permet aux chercheurs d'estimer un construit unidimensionnel tout en reconnaissant la multidimensionnalité du construit (104, 105). Le modèle bifactoriel suppose que chaque élément se charge sur deux dimensions, c'est-à-dire que les éléments formant le construit peuvent être associés à plus d'une source de vraie variance de score (92). Le premier est un facteur latent général qui sous-tend tous les items de l'échelle et le second, un facteur de groupe (sous-échelle). Un modèle 𠇋ifactor est basé sur l'hypothèse qu'un F-facteur solution existe pour un ensemble de m éléments avec un facteur [général]/global (G) et F – 1 Facteurs spécifiques (S) également appelés facteurs de groupe” (92). Cette approche permet aux chercheurs d'examiner toute distorsion pouvant survenir lorsque les modèles IRT unidimensionnels sont adaptés à des données multidimensionnelles (104, 105). Pour déterminer s'il faut conserver un construit comme unidimensionnel ou multidimensionnel, les pondérations factorielles du facteur général sont ensuite comparées à celles des facteurs de groupe (103, 106). Lorsque les saturations factorielles du facteur général sont significativement plus importantes que les facteurs de groupe, une échelle unidimensionnelle est implicite (103, 104). Cette méthode est évaluée sur la base de seuils satisfaisants significatifs. Alternativement, on peut tester la coexistence d'un facteur général qui sous-tend le construit et de plusieurs facteurs de groupe qui expliquent la variance restante non expliquée par le facteur général (92). Chacune de ces méthodes peut être effectuée à l'aide de logiciels statistiques tels que Mplus, R, SAS, SPSS ou Stata.

Invariance de mesure

Une autre méthode pour tester la dimensionnalité est l'invariance de mesure, également appelée invariance factorielle ou équivalence de mesure (107). L'invariance de mesure concerne la mesure dans laquelle les propriétés psychométriques des indicateurs observés sont transportables (généralisables) à travers les groupes ou dans le temps (108). Ces propriétés incluent la structure factorielle hypothétique, les pentes de régression, l'interception et les variances résiduelles. L'invariance de mesure est testée séquentiellement à cinq niveaux : configuration, métrique, scalaire, stricte (résiduelle) et structurelle (107, 109). L'invariance configurale est d'une importance clé pour le test de dimensionnalité, qui consiste à déterminer si la structure factorielle hypothétique est la même d'un groupe à l'autre. Cette hypothèse doit être satisfaite pour que les tests ultérieurs soient significatifs (107, 109). Par exemple, une structure unidimensionnelle hypothétique, lorsqu'elle est testée dans plusieurs pays, devrait être la même. Cela peut être testé en CTT, en utilisant une analyse factorielle confirmatoire multigroupe (110�).

Une approche alternative à la mesure de l'invariance dans le test de l'unidimensionnalité sous la théorie de la réponse aux items est le modèle de mesure de Rasch pour les items binaires et les modèles IRT polytomiques pour les items catégoriques. Ici, l'accent est mis sur le test du fonctionnement différentiel des items (DIF)—un indicateur permettant de savoir si 𠇊 un groupe de répondants obtient de meilleurs résultats qu'un autre groupe de répondants sur un item ou un test après ajustement pour les scores globaux de capacité des répondants&# x0201d (108, 113). Ceci est analogue aux conditions qui sous-tendent l'invariance de mesure dans un CFA multi-groupe (108, 113).

Que la structure hypothétique soit bidimensionnelle ou multidimensionnelle, chaque dimension de la structure doit être testée à nouveau pour confirmer son unidimensionnalité. Cela peut également être fait en utilisant une analyse factorielle confirmatoire. Des indices d'ajustement de modèle appropriés et la force des saturations factorielles (cf. Tableau ​ Tableau2) 2 ) sont la base sur laquelle la structure latente des items peut être jugée.

Un écueil fréquemment rencontré est le manque d'ajustement global satisfaisant du modèle dans l'analyse factorielle confirmatoire menée sur un nouvel échantillon à la suite d'une analyse factorielle initiale satisfaisante réalisée sur un échantillon précédent. Le manque d'ajustement satisfaisant offre la possibilité d'identifier d'autres éléments sous-performants à retirer. Les articles avec des chargements très faibles (𢙀.3) peuvent être considérés pour le retrait. Aussi, les indices de modification, produits par Mplus et d'autres programmes de modélisation d'équations structurelles (SEM), peuvent aider à identifier les éléments qui doivent être modifiés. Parfois, une structure factorielle d'ordre supérieur, où les corrélations entre les facteurs d'origine peuvent être expliquées par un ou plusieurs facteurs d'ordre supérieur, est nécessaire. Cela peut également être évalué à l'aide de logiciels statistiques tels que Mplus, R, SAS, SPSS ou Stata.

Un bon exemple de bonne pratique est vu dans les travaux de Pushpanathan et al. sur la pertinence d'utiliser une analyse factorielle confirmatoire traditionnelle ou un modèle bifactoriel (114) pour évaluer si l'échelle de sommeil de la maladie de Parkinson révisée était mieux utilisée comme échelle unidimensionnelle, échelle tridimensionnelle ou échelle ayant un facteur général sous-jacent et trois facteurs de groupe (sous-échelles). Ils ont testé cela à l'aide de trois modèles différents - un modèle unidimensionnel (1 facteur CFA) un modèle à 3 facteurs (3 facteurs CFA) composé de sous-échelles mesurant l'insomnie, les symptômes moteurs et l'apnée obstructive du sommeil, et le trouble du comportement en sommeil paradoxal et un test de confirmation. modèle bifactoriel ayant un facteur général et les trois mêmes sous-échelles combinées. Les résultats de cette étude suggèrent que seul le modèle bifactoriel avec un facteur général et les trois sous-échelles combinées ont atteint une adéquation satisfaisante du modèle. Sur la base de ces résultats, les auteurs ont mis en garde contre l'utilisation d'une échelle de scores totaux unidimensionnels comme indicateur cardinal du sommeil dans la maladie de Parkinson, mais ont encouragé l'examen de ses sous-échelles multidimensionnelles (114).

Éléments de l'échelle de notation

Les éléments finalisés des tests de dimensionnalité peuvent être utilisés pour créer des scores d'échelle pour une analyse de fond, y compris des tests de fiabilité et de validité. Les scores de l'échelle peuvent être calculés en utilisant des procédures non pondérées ou pondérées. L'approche non pondérée consiste à additionner les scores d'items standardisés ou les scores d'items bruts, ou à calculer la moyenne des scores d'items bruts (115). L'approche pondérée dans le calcul des scores d'échelle peut être produite via des logiciels statistiques tels que Mplus, R, SAS, SPSS ou Stata. Par exemple, en utilisant une analyse factorielle confirmatoire, des modèles d'équation structurelle ou une analyse factorielle exploratoire, chaque facteur produit révèle une source de variation statistiquement indépendante parmi un ensemble d'éléments (115). La contribution de chaque élément individuel à ce facteur est considérée comme un poids, la valeur de chargement du facteur représentant le poids. Les scores associés à chaque facteur dans un modèle représentent ensuite un score d'échelle composite basé sur une somme pondérée des éléments individuels à l'aide de saturations factorielles (115). En général, cela ne fait pas beaucoup de différence dans la performance de l'échelle si les échelles sont calculées en tant qu'éléments non pondérés (par exemple, les scores moyens ou de somme) ou les éléments pondérés (par exemple, les scores factoriels).

Étape 8 : tests de fiabilité

La fiabilité est le degré de cohérence présenté lorsqu'une mesure est répétée dans des conditions identiques (116). Un certain nombre de statistiques standard ont été développées pour évaluer la fiabilité d'une échelle, y compris l'alpha de Cronbach (117), l'alpha ordinal (118, 119) spécifique aux éléments d'échelle binaire et ordinale, test–retest la fiabilité (coefficient de stabilité) (1, 2 ), McDonald's Omega (120), le rho de Raykov (2) ou le bêta de Revelle (121, 122), les estimations fractionnées, la formule de Spearman-Brown, la méthode des formes alternatives (coefficient d'équivalence) et la fiabilité inter-observateur (1, 2 ). Parmi ces statistiques, l'alpha de Cronbach et la fiabilité test–retest sont principalement utilisées pour évaluer la fiabilité des échelles (2, 117).

Alpha de Cronbach

L'alpha de Cronbach évalue la cohérence interne des éléments de l'échelle, c'est-à-dire le degré auquel l'ensemble d'éléments de l'échelle co-varie, par rapport à leur score total (1, 2, 117). Un coefficient alpha de 0,70 a souvent été considéré comme un seuil de fiabilité acceptable, cependant, 0,80 et 0,95 sont préférés pour la qualité psychométrique des échelles (60, 117, 123). L'alpha de Cronbach a été le plus courant et semble avoir reçu l'approbation générale, cependant, les statistiques de fiabilité telles que le rho de Raykov, l'alpha ordinal et le bêta de Revelle, qui sont débattues pour avoir des améliorations par rapport à l'alpha de Cronbach, commencent à être acceptées.

Tester la fiabilité du test

Une approche supplémentaire pour tester la fiabilité est la fiabilité test–retest. La fiabilité du test–retest, également connue sous le nom de coefficient de stabilité, est utilisée pour évaluer le degré de répétabilité des performances des participants, c'est-à-dire la cohérence de leurs scores cumulés dans le temps (2). Les chercheurs varient dans la façon dont ils évaluent la fiabilité du test et du retest. Alors que certains préfèrent utiliser le coefficient de corrélation intra-classe (124), d'autres utilisent la corrélation produit-moment de Pearson (125). Dans les deux cas, plus la corrélation est élevée, plus la fiabilité du test–retest est élevée, avec des valeurs proches de zéro indiquant une faible fiabilité. De plus, les conditions de l'étude pourraient changer les valeurs du construit mesuré au fil du temps (comme dans une étude d'intervention, par exemple), ce qui pourrait réduire la fiabilité test-retest.

Les travaux de Johnson et al. (16) sur la validation de l'échelle d'auto-efficacité d'adhésion au traitement contre le VIH (ASES) est un bon exemple de test de fiabilité. Dans le cadre des tests de fiabilité, les auteurs ont testé les valeurs de fiabilité de cohérence interne pour l'ASES et ses sous-échelles à l'aide du rho de Raykov (produit un coefficient similaire à alpha mais avec moins d'hypothèses et avec des intervalles de confiance), puis ils ont testé la cohérence temporelle de la Structure factorielle de l'ASES. Cela a ensuite été suivi d'une évaluation de la fiabilité du test et du retest parmi les facteurs latents. Les différentes approches ont conforté la fiabilité de l'échelle ASES.

D'autres approches se sont avérées utiles et soutiennent la fiabilité de l'échelle, notamment les estimations de moitié, la formule de Spearman-Brown, la méthode de forme alternative (coefficient d'équivalence) et la fiabilité inter-observateur (1, 2).

Étape 9 : tests de validité

La validité de l'échelle est la mesure dans laquelle l'instrument ȁ peut effectivement mesurer la dimension ou la construction latente qu'il a été développé pour évaluer” (2). Bien qu'elle soit longuement discutée ici à l'étape 9, la validation est un processus continu qui commence par l'identification et la définition du domaine d'étude (étape 1) et continue jusqu'à sa généralisation avec d'autres constructions (étape 9) (36). La validité d'un instrument peut être examinée de nombreuses manières. Les tests de validité les plus courants sont la validité du contenu (décrit à l'étape 2), qui peut être effectué avant que l'instrument ne soit administré à la population cible, et les critères (prédictifs et simultanés) et validité de construit (convergente, discriminante, différenciation par groupes connus, corrélations), qui se produit après l'administration de l'enquête.

La validité des critères

La validité du critère est le degré auquel il existe une relation entre un résultat de test donné et la performance sur une autre mesure d'une pertinence particulière, généralement appelée critère” (1, 2). Il existe deux formes de validité de critère : la validité prédictive (critère) et la validité concurrente (critère). La validité prédictive est la mesure dans laquelle une mesure prédit les réponses à une autre question ou un résultat auquel elle devrait être liée à” (31). Ainsi, l'échelle devrait être capable de prédire un comportement dans le futur. Un exemple est la capacité d'une échelle de soutien social à l'allaitement exclusif à prédire l'allaitement exclusif (10). Ici, la volonté de la mère d'allaiter exclusivement se produit après que le soutien social a été donné, c'est-à-dire qu'elle devrait prédire le comportement. La validité prédictive peut être estimée en examinant l'association entre les scores de l'échelle et le critère en question.

La validité des critères simultanés est la mesure dans laquelle les scores des tests ont une relation plus forte avec la mesure des critères (norme d'or) effectuée au moment de l'administration du test ou peu de temps après (2). Cela peut être estimé en utilisant la corrélation produit-moment de Pearson ou la modélisation des variables latentes. Les travaux de Greca et Stone sur l'évaluation psychométrique de la version révisée d'une échelle d'anxiété sociale pour enfants (SASC-R) fournissent un bon exemple pour l'évaluation de la validité concurrente (140). Dans cette étude, les auteurs ont collecté des données sur une version validée antérieure de l'échelle SASC composée de 10 éléments, ainsi que sur la version révisée, SASC-R, qui comportait 16 éléments supplémentaires faisant une échelle de 26 éléments. Le SASC se composait de deux sous-échelles [peur de l'évaluation négative (FNE), évitement social et détresse (SAD)] et le SASC-R a produit trois nouvelles sous-échelles (FNE, SAD-New et SAD-General). À l'aide d'une corrélation produit-moment de Pearson, les auteurs ont examiné les inter-corrélations entre les sous-échelles communes pour FNE et entre SAD et SAD-New. Avec un coefficient de validité de 0,94 et 0,88, respectivement, les auteurs ont trouvé des preuves de validité concurrente.

Une limitation de la validité concurrente est que cette stratégie de validité ne fonctionne pas avec de petites tailles d'échantillon en raison de leurs grandes erreurs d'échantillonnage. Deuxièmement, les variables de critère appropriées ou les “gold standards” peuvent ne pas être disponibles (2). Cette raison peut expliquer son omission dans la plupart des études de validation.

La validité de construction

La validité de construit est la mesure dans laquelle un instrument évalue un construit préoccupant et est associée à des preuves qui mesurent d'autres construits dans ce domaine et mesurent des critères spécifiques du monde réel (2). Quatre indicateurs de validité de construit sont pertinents pour le développement de l'échelle : la validité convergente, la validité discriminante, la différenciation par groupes connus et l'analyse de corrélation.

La validité convergente est la mesure dans laquelle un construit mesuré de différentes manières produit des résultats similaires. Plus précisément, il s'agit du degré auquel les scores d'un instrument étudié sont liés aux mesures d'autres construits dont on peut s'attendre, pour des raisons théoriques, à être proches de celui utilisé par cet instrument (2, 37, 126). Ceci est mieux estimé par la matrice multi-traits multi-méthodes (2), bien que dans certains cas, les chercheurs aient utilisé soit une modélisation à variables latentes, soit une corrélation produit-moment de Pearson basée sur la transformation Z de Fisher. La preuve de la validité convergente d'un construit peut être fournie par la mesure dans laquelle l'échelle nouvellement développée est fortement corrélée avec d'autres variables conçues pour mesurer le même construit (2, 126). Il peut être invalidé par des corrélations trop faibles ou faibles avec d'autres tests destinés à mesurer le même construit.

La validité discriminante est la mesure dans laquelle une mesure est nouvelle et non simplement le reflet d'un autre construit (126). Plus précisément, c'est le degré auquel les scores d'un instrument étudié sont différenciés des manifestations comportementales d'autres construits, qui, pour des raisons théoriques, peuvent ne pas être liés au construit sous-jacent à l'instrument à l'étude (2). Ceci est mieux estimé à travers la matrice multi-traits et multi-méthodes (2). La validité discriminante est indiquée par des corrélations prévisibles faibles ou faibles entre la mesure d'intérêt et d'autres mesures qui ne mesurent pas censément la même variable ou le même concept (126). La construction nouvellement développée peut être invalidée par des corrélations trop élevées avec d'autres tests qui sont censés différer dans leurs mesures (37). Cette approche est essentielle pour différencier le concept nouvellement développé des autres alternatives rivales (36).

La différenciation ou la comparaison entre des groupes connus examine la distribution d'un score d'échelle nouvellement développé sur des éléments binaires connus (126). Ceci est fondé sur des connaissances théoriques et empiriques préalables de la performance des groupes binaires. Un exemple de bonne pratique est vu dans les travaux de Boateng et al. sur la validation d'une échelle d'insécurité de l'eau des ménages au Kenya. Dans cette étude, nous avons comparé les scores moyens d'insécurité de l'eau des ménages sur les ménages avec ou sans E. coli présents dans leur eau de boisson. Conformément à ce que nous savions de la littérature existante, nous avons trouvé des ménages avec E. coli présents dans leur eau potable avaient des scores moyens d'insécurité de l'eau plus élevés que les ménages qui n'avaient pas E. coli dans l'eau potable. Cela suggère que notre échelle pourrait faire la distinction entre des groupes connus particuliers.

Bien que l'analyse corrélationnelle soit fréquemment utilisée par plusieurs chercheurs, l'analyse de régression bivariée est préférée à l'analyse corrélationnelle pour quantifier la validité (127, 128). L'analyse de régression entre les scores de l'échelle et un indicateur du domaine examiné présente un certain nombre d'avantages importants par rapport à l'analyse corrélationnelle. Premièrement, l'analyse de régression quantifie l'association en unités significatives, facilitant le jugement de validité. Deuxièmement, l'analyse de régression évite de confondre la validité avec la variation sous-jacente dans l'échantillon et, par conséquent, les résultats d'un échantillon sont plus applicables à d'autres échantillons dans lesquels la variation sous-jacente peut différer. Troisièmement, l'analyse de régression est préférée parce que le modèle de régression peut être utilisé pour examiner la validité discriminante en ajoutant des mesures alternatives potentielles. En plus de l'analyse de régression, des techniques alternatives telles que l'analyse des écarts types des différences entre les scores et l'examen des coefficients de corrélation intraclasse (ICC) ont été recommandées comme options viables (128).

Ensemble, ces méthodes permettent d'évaluer la validité d'une échelle adaptée ou nouvellement développée. En plus de la validité prédictive, des études existantes dans des domaines tels que les sciences de la santé, sociales et comportementales ont montré que la validité d'échelle est soutenue si au moins deux des différentes formes de validité de construit discutées dans cette section ont été examinées. De plus amples informations sur l'établissement de la validité et la construction d'indicateurs à partir d'échelles peuvent être trouvées dans Frongillo et al. (141).


Andersen S.M., Reznik I., Chen S. (1997) Le soi par rapport aux autres : fondements cognitifs et motivationnels. Dans : Snodgrass J.G., Thompson R.L. (eds). Le soi à travers la psychologie. Académie des sciences, New York, p. 233-275

Anderson N.H. (1981) Fondements de la théorie de l'intégration de l'information. Presse académique, New York

Arce-Ferrer A.J. (2006) Une enquête sur les facteurs influençant le style de réponse extrême. Mesure éducative et psychologique 66(3) : 374-392

Arnold H.J., Feldman D.C. (1981) Biais de réponse de désirabilité sociale dans les situations de choix d'auto-évaluation. Academy of Management Journal 24(2) : 377-385

Bachman J.G., O'Malley P.M. (1984a) Différences entre les Noirs et les Blancs dans l'estime de soi : sont-elles affectées par les styles de réponse ?. Journal américain de sociologie 90 : 624-639

Bachman J.G., O'Malley P.M. (1984b) Dire oui, dire non et aller aux extrêmes : différences entre les Noirs et les Blancs dans les styles de réponse. Public Opinion Quarterly 48(2) : 491-509

Barnette J. (2000) Effets des inversions des options de réponse radicale et de Likert sur la cohérence interne de l'enquête : Si vous en ressentez le besoin, il existe une meilleure alternative à l'utilisation de ces radicaux formulés négativement. Mesure éducative et psychologique 60(3) : 361-370

Beatty P., Herrmann D. (2002) Répondre ou ne pas répondre : Processus de décision lié à la non-réponse aux items de l'enquête. Dans : Groves R.N., Dillman D.A., Eltinge J.L., Little R.J. (éds). Non-réponse au sondage. John Wiley & Sons, New York, p. 71-85

Bellah R., Madsen R., Sullivan W., Swidler A., ​​Tipton S. (1985). Habitudes du cœur : Individualisme et engagement dans la vie américaine. Presse de l'Université de Californie, Berkeley

Billiet J.B., McClendon M.J. (2000) Modélisation de l'acquiescement dans les modèles de mesure pour deux ensembles équilibrés d'items. Modélisation par équation structurelle 7(4) : 608-628

Bishop G.F., Smith A. (2001) Response order effects and the early galop split ballots. Opinion publique trimestrielle 65 : 479–505

Bishop G.F., Tuchfarber A.J., Oldendick R.W. (1986) Opinion fictitious issues: The pressure to answer survey questions. Public Opinion Quarterly 50: 240–250

Bless H., Igou E.R., Schwartz N., Waenke M. (2000) Reducing context effects by adding context information: The direction and size of context effects in political judgment. Personality and Social Psychology Bulletin 26(9): 1036–1045

Bradburn N.M., Sudman S., Blair E., Stocking C. (1978) Question threat and response bias. Public Opinion Quarterly 42(2): 221–234

Brew F.P., Hesketh B., Taylor A. (2001) Individualist-collectivist differences in adolescent decision making and decision styles with Chinese and Anglos. International Journal of Intercultural Relations 25(1): 1–19

Buchanan T., Ali T., Heffernan T.M., Ling J., Parrott A.C., Rodgers J. et al. (2005) Nonequivalence of on-line and paper-and-pencil psychological tests: The case of the prospective memory questionnaire. Behavior Research Methods 37(1): 148–154

Cantril H. (1946) The intensity of an attitude. Journal of Abnormal and Social Psychology 41: 129–135

Chen C., Lee S.-Y., Stevenson H.W. (1995) Response style and cross-cultural comparisons of rating scales among East Asian and North American students. Psychological Science 6(3): 170–175

Chiou J.-S. (2001) Horizontal and vertical individualism and collectivism among college students in the United States, Taiwan, and Argentina. Journal of Social Psychology 141(5): 667–678

Clarke I., III (2000) Extreme response style in cross-cultural research: An empirical investigation. Journal of Social Behavior and Personality 15(1): 137–152

Couch A., Keniston K. (1960) Yeasayers and naysayers: Agreeing response set as a personality variable. Journal of Abnormal and Social Psychology 60: 151–174

Crandall J.E. (1965) Some relationships among sex, anxiety, and conservatism of judgment. Journal of Personality 33(1):99–107

Cronbach L.J. (1946) Response sets and test validity. Educational and Psychological Measurement 6: 475–494

Crowne D.P., Marlowe D. (1960) A new scale of social desirability independent of psychopathology. Journal of Consulting Psychology 24: 349–354

Edwards A.L. (1957) The social desirability in personality assessment and research. Holt, Rinehart & Winstone, New York

Edwards A.L. (1963) A factor analysis of experimental social desirability and response set scales. Journal of Applied Psychology 47(5): 308–316

Edwards A.L. (1966) Relationship between probability of endorsement and social desirability scale value for a set of 2,824 personality statements. Journal of Applied Psychology 50(3): 238–239

Edwards A.L., Diers C. (1963) Neutral items as a measure of acquiescence. Educational and Psychological Measurement 23(4): 687–698

Edwards A.L., Walker J.N. (1961) Social desirability and agreement response set. Journal of Abnormal and Social Psychology 62: 180–183

Fishbein M., Ajzen I. (1981) On construct validity: A critique of Miniard and Cohen’s paper. Journal of Experimental Social Psychology 17(3): 340–350

Fiske A.P. (1992) The four elementary forms of sociality: Framework for a unified theory of social relations. Psychological Review 99(4): 689–723

Gilljam M., Granberg D. (1993) Should we take don’t know for an answer?. Public Opinion Quarterly 57(3): 348–357

Greenleaf E.A. (1992a) Improving rating scale measures by detecting and correcting bias components in some response styles. Journal of Marketing Research 29(2): 176–188

Greenleaf E.A. (1992b) Measuring extreme response style. Public Opinion Quarterly 56(3): 328–351

Grimm S.D., Church A. (1999) A cross-cultural study of response biases in personality measures. Journal of Research in Personality 33(4): 415–441

Groves R.M. (1989) Survey errors and survey costs. John Wiley & Sons, New York

Gudykunst W.B. (1997) Cultural variability in communication: An introduction. Communication Research 24(4): 327–348

Gudykunst W.B., Matsumoto Y. (1996) Cross-cultural variability of communication in personal relationships. In: Gudykunst W.B., Ting-Toomey S., Nishida T. (eds). Communication in personal relationships across cultures. Sage, Thousand Oaks

Gudykunst W.B., Matsumoto Y., Ting-Toomey S., Nishida T. (1996) The influence of cultural individualism-collectivism, self construals, and individual values on communication styles across cultures. Human Communication Research 22(4): 510–543

Haberstroh S., Oyserman D., Schwarz N., Kuehnen U., Ji L.-J. (2002) Is the interdependent self more sensitive to question context than the independent self? Self-construal and the observation of conversational norms. Journal of Experimental Social Psychology 38(3): 323–329

Harzing A.-W. (2006) Response Styles in Cross-national Survey Research: A 26-country Study. International Journal of Cross Cultural Management 6(2): 243–266

Heine S.J., Lehman D.R. (1995) Social desirability among Canadian and Japanese students. Journal of Social Psychology 135(6): 777–779

Heine S.J., Lehman D.R. (1997) The cultural construction of self-enhancement: An examination of group-serving biases. Journal of Personality and Social Psychology 72(6): 1268–1283

Heine S.J., Lehman D.R., Peng K., Greenholtz J. (2002) What’s wrong with cross-cultural comparisons of subjective Likert scales?: The reference-group effect. Journal of Personality andSocial Psychology 82(6): 903–918

Hofstede G. (1980) Culture’s consequences: International differences in work-related values. Sage, Beverly Hills

Hofstede G. (1991) Cultures and organizations: Software of the mind. McGraw-Hill, London

Holtgraves T. (1997) Styles of language use: Individual and cultural variability in conversational indirectness. Journal of Personality and Social Psychology 73(3): 624–637

Holtgraves T. (2004) Social desirability and self-reports: Testing models of socially desirable responding. Personality & Social Psychology Bulletin 30(2): 161–172

Hsu F.L. (1983) Rugged individualism reconsidered. University of Tennessee Press, Knoxville

Hui C. (1988) Measurement of individualism-collectivism. Journal of Research in Personality 22(1): 17–36

Hui C., Triandis H. (1989) Effects of culture and response format on extreme response style. Journal of Cross-Cultural Psychology 20(3): 296–309

Javeline D. (1999) Response effects in polite cultures: A test of acquiescence in Kazakhstan. Public Opinion Quarterly 63(1): 1–28

Johnson J. (1981) Effects of the order of presentation of evaluative dimensions for bipolar scales in four societies. Journal of Social Psychology 113(1): 21–27

Johnson T., Kulesa P., Cho Y.I., Shavitt S. (2005) The relation between culture and response styles: Evidence from 19 Countries. Journal of Cross-Cultural Psychology 36(2): 264–277

Johnson T.P., O’Rourke D., Chavez N., Sudman S., Warnecke R.B., Lacey L. et al. (1997) Social cognition and responses to survey questions among culturally diverse populations. In: Lyberg L., Biemer P., Collin M., de Leeuw E., Dippo C., Schwarz N., Trewin D. (eds). Survey measurement and process quality. Wiley-Interscience, New York

Kagitcibasi, C. (1994). A critical appraisal of individualism and collectivism: Toward a new formulation. In U. Kim, H. C. Triandis, C. Kagitcibasi, S.-C. Choi, & G. Yoon (Eds.), Individualism and collectivism: Theory, method, and applications (Vol. 18, pp. 52–65). Newbury Park: Sage.

Kim U., Triandis H., Kagitcibasi C., Choi S.-C., Yoon G., eds. (1994) Individualism and collectivism: Theory, method, and applications. Sage, Thousand Oaks, CA

Knowles E.S., Condon C.A. (1999) Why people say “yes”: A dual-process theory of acquiescence. Journal of Personality and Social Psychology 77(2): 379–386

Knowles E.S., Nathan K.T. (1997) Acquiescent responding in self-reports: Cognitive style or social concern?. Journal of Research in Personality 31(2): 293–301

Krosnick J.A. (1991) Response strategies for coping with the cognitive demands of attitude measures in surveys. Applied Cognitive Psychology 5: 213–236

Krosnick J.A. (2002) The cause of no-opinion response to attitude measures in surveys: They are rarely what they appear to be. In: Groves R.N., Dillman D.A., Eltinge J.L., Little R.J. (éds). Survey nonresponse. John Wiley & Sons, New York

Krosnick J.A., Holbrook A.L., Berent M.K., Carson R.T., Hanemann W., Kopp R.J., et al. (2002) The impact of “no opinion” response options on data quality: Non-attitude reduction or an invitation to satisfice?. Public Opinion Quarterly 66(3): 371–403

Krosnick J.A., Schuman H. (1988) Attitude intensity, importance, and certainty and susceptibility to response effects. Journal of Personality and Social Psychology 54(6): 940–952

Kuehnen U., Oyserman D. (2002) Thinking about the self influences thinking in general: Cognitive consequences of salient self-concept. Journal of Experimental Social Psychology 38(5): 492–499

Lee C., Green R.T. (1991) Cross cultural examination of Fishbein behavioral intentions model. Journal of International Business Studies 22: 289–305

Lehnert W. (1977) Human and computational question answering. Cognitive Science 1(1): 47–73

Marin G., Gamba R.J., Marin B.V. (1992) Extreme response style and acquiescence among Hispanics: The role of acculturation and education. Journal of Cross-Cultural Psychology 23(4): 498–509

Markus H.R., Kitayama S. (1991) Culture and the self: Implications for cognition, emotion, and motivation. Psychological Review 98(2): 224–253

Mathiowetz N.A., Duncan G.J. (1988) Out of work, out of mind: Response errors in retrospective reports of unemployment. Journal of Business and Economic Statistics 6: 221–229

Matsuda Y., Harsel S., Furusawa S., Kim H.-S., Quarles J. (2001) Democratic values and mutual perceptions of human rights in four Pacific Rim nations. International Journal of Intercultural Relations 25(4): 405–421

McClendon M.J. (1991) Acquiescence and recency response-order effects in interview surveys. Sociological Methods and Research 20: 60–103

Middleton K.L., Jones J.L. (2000) Socially desirable response sets: The impact of country culture. Psychology and Marketing 17(2): 149–163

Mondak J.J., Davis M.B. (2001) Asked and Answered: Knowledge Levels When We Will Not Take Don’t Know for an Answer. Political Behavior 23(3): 199–224

Moore D.W. (2002) Measuring new types of question-order effects: Additive and subtractive. Public Opinion Quarterly 66(1): 80–91

Moorman R.H., Podsakoff P.M. (1992) A meta-analytic review and empirical test of the potential confounding effects of social desirability response sets in organizational behaviour research. Journal of Occupational and Organizational Psychology 65(2): 131–149

Morling B., Fiske S.T. (1999) Defining and measuring harmony control. Journal of Research in Personality 33(4): 379–414

Norenzayan A., Schwarz N. (1999) Telling what they want to know: Participants tailor causal attributions to researchers’ interests. European Journal of Social Psychology 29(8): 1011–1020

Ohbuchi K.-I., Fukushima O., Tedeschi J.T. (1999) Cultural values in conflict management: Goal orientation, goal attainment, and tactical decision. Journal of Cross-Cultural Psychology 30(1): 51–71

Oppenheim A.N. (1966) Questionnaire design and attitude measurement. Heinemann, London

Oyserman D. (1993) The lens of personhood: Viewing the self and others in a multicultural society. Journal of Personality and Social Psychology 65(5): 993–1009

Oyserman D., Coon H.M., Kemmelmeier M. (2002) Rethinking individualism and collectivism: Evaluation of theoretical assumptions and meta-analyses. Psychological Bulletin 128(1): 3–72

Oyserman, D., & Markus, H. R. (1993). The sociocultural self. In J. M. Suls (Ed.), The self in social perspective (Vol. 4, pp. 187–220). Hillsdale, NJ: Lawrence Erlbaum Associates.

Paulhus, D. L. (1991). Measurement and control of response bias. In J. P. Robinson, P. R. Shaver, L. S. Wrightsman, & F. M. Andrews (Eds.), Measures of personality and social psychological attitudes (Vol. 1, pp. 17–59). San Diego : Presse académique.

Paulhus D.L. (2002) Socially desirable responding: The evolution of a construct. In: Braun H.I., Jackson D.N., Wiley D.E., Messick S. (eds). The role of constructs in psychological and educational measurement. Lawrence Erlbaum Associates, Mahwah, NJ, pp. 49–69

Paulhus D.L., Harms P.D., Bruce M.N., Lysy D.C. (2003) The over-claiming technique: Measuring self-enhancement independent of ability. Journal of Personality and Social Psychology 84(4): 890–904

Paulhus D.L., John O.P. (1998) Egoistic and moralistic biases in self-perception: The interplay of self-deceptive styles with basic traits and motives. Journal of Personality 66(6): 1025–1060

Paulhus D.L., Reid D.B. (1991) Enhancement and denial in socially desirable responding. Journal of Personality and Social Psychology 60(2): 307–317

Peterson J.B., DeYoung C.G., Driver-Linn E., Seguin J.R., Higgins D.M., Arseneault L., et al. (2003) Self-deception and failure to modulate responses despite accruing evidence of error. Journal of Research in Personality 37(3): 205–223

Ray J. (1983) Reviving the problem of acquiescent response bias. Journal of Social Psychology 121(1): 81–96

Reykowski J. (1994) Collectivism and individualism as dimensions of social change. In: Kim U., Triandis H.C., Kagitcibasi C., Choi C., Yoon G. (eds). Individualism and collectivism: Theory, method, and applications. Thousand Oaks, California

Richman W.L., Kiesler S., Weisband S., Drasgow F. (1999) A meta-analytic study of social desirability distortion in computer-administered questionnaires, traditional questionnaires, and interviews. Journal of Applied Psychology 84(5): 754–775

Sampson E.E. (1977) Psychology and the American ideal. Journal of Personality and Social Psychology 35(11): 767–782

Schuman H., Presser S. (1981) Questions and answers in attitude surveys: Experiments on question form, wording, and context. Academic Press, New York

Schwartz S.H. (1990) Individualism-collectivism: Critique and proposed refinements. Journal of Cross-Cultural Psychology 21(2): 139–157

Schwarz N. (1999) Self-reports: How the questions shape the answers. American Psychologist 54(2): 93–105

Schwarz N. (2003) Self-reports in consumer research: The challenge of comparing cohorts and cultures. Journal of Consumer Research 29(4): 588–594

Schwarz N., Hippler H.-J. (1995) Subsequent questions may influence answers to preceding questions in mail surveys. Public Opinion Quarterly 59(1): 93–97

Schwarz N., Hippler H.-J., Deutsch B., Strack F. (1985) Response scales: Effects of category range on reported behavior and comparative judgments. Public Opinion Quarterly 49(3): 388–395

Schwarz N., Hippler H.J., Noelle-Neumann E. (1991) Cognitive model of response-order effects. In: Schwarz N., Sudman S. (eds). Context effects in social and psychological research. Springer Verlag, New York

Schwarz N., Oyserman D. (2001) Asking questions about behavior: Cognition, communication, and questionnaire construction. American Journal of Evaluation 22(2): 127–160

Sekaran U. (1984) Methodological and theoretical issues and advancements in cross-cultural research. Journal of International Business Studies 14(2): 61–73

Shulruf, B., Hattie, J., & Dixon, R. (2006). The influence of individualist and collectivist attributes on responses to Likert-type scales. Paper presented at the 26th International Association of Applied Psychology, 17–21 July, Athens.

Shulruf, B., Hattie, J., & Dixon, R. (2007). Development of a New Measurement Tool for Individualism and Collectivism. Journal of Psychoeducational Assessment (dans la presse).

Shulruf, B., Watkins, D., Hattie, J., Faria, L., Pepi, A., Alesi, M., et al. (in progress). Measuring Collectivism and Individualism in the Third Millennium.

Singelis T.M., Triandis H., Bhawuk D., Gelfand M.J. (1995) Horizontal and vertical dimensions of individualism and collectivism: A theoretical and measurement refinement. Cross-Cultural Research: The Journal of Comparative Social Science 29(3): 240–275

Smith P.B. (2004) Acquiescent Response Bias as an Aspect of Cultural Communication Style. Journal of Cross-Cultural Psychology 35(1): 50–61

Stening B., Everett J. (1984) Response styles in a cross-cultural managerial study. Journal of Social Psychology 122(2): 151–156

Strack F. (1992) Order effects in survey research: Activation and information functions of preceding questions. In: Schwarz N., Sudman S. (eds). Context effects in social and psychological research. Springer-Verlag, New York, pp. 23–34

Sudman S., Bradburn N.M. (1974) Response effects in surveys. Aldine Publishing Company, Chicago

Sudman S., Bradburn N.M., Schwarz N. (1996) Thinking about answers: The application of cognitive processes to survey methodology. Jossey-Bass, San Francisco

Swearingen, D. L. (1998). Response sets, item format, and thinking style: Implications for questionnaire design. U Denver, US, 1.

Tourangeau R. (1991) Context effects on responses to attitude questions: Attitudes as memory structure. In: Schwarz N., Sudman S. (eds). Context effects in social and psychological research. Springer-Verlag, New York, pp. 35–47

Tourangeau R. (2003) Cognitive aspects of survey measurement and mismeasurement. International Journal of Public Opinion Research 15(1): 3–7

Tourangeau R., Rasinski K.A. (1988) Cognitive processes underlying context effects in attitude measurement. Psychological Bulletin 103(3): 299–314

Tourangeau R., Smith T.W. (1996) Asking sensitive questions: The impact of data collection mode, question format, and question context. Public Opinion Quarterly 60(2): 275–304

Triandis H. (1989) The self and social behavior in differing cultural contexts. Psychological Review 96(3): 506–520

Triandis H. (1995) Individualism and collectivism. Westview Press, Boulder

Triandis H. (1996) The psychological measurement of cultural syndromes. American Psychologist 51(4): 407–415

Triandis H., Bontempo R., Villareal M.J., Asai M., Lucca N. (1988) Individualism and collectivism: Cross-cultural perspectives on self in group relationships. Journal of Personality and Social Psychology 54(2): 323–338

Triandis H., Gelfand M. (1998) Converging measurement of horizontal and vertical individualism and collectivism. Journal of Personality and Social Psychology 74(1): 118–128

Triandis H., McCusker C., Hui C. (1990) Multimethod probes of individualism and collectivism. Journal of Personality and Social Psychology 59(5): 1006–1020

Triandis H., Suh E.M. (2002) Cultural influences on personality. Annual Review of Psychology 53(1): 133–160

Uskul A.K., Oyserman D. (2005) Question Comprehension and Response: Implications of Individualism and Collectivism. In: Mannix B., Neale M., Chen Y. (eds). Research on managing groups and teams: National culture & groups. Elsevier Science, Oxford

van Herk H., Poortinga Y.H., Verhallen T.M. (2004) Response styles in rating scales: Evidence of method bias in data from six EU countries. Journal of Cross-Cultural Psychology 35(3): 346–360

Walsh W.A., Banaji M.R., eds. (1997) The collective self (Vol. 818). Annals of the New York Academy of Sciences, New York

Warnecke R.B., Johnson T.P., Chavez N., Sudman S., O’Rourke D., Lacey L., et al. (1997) Improving question wording in survey of culturally diverse population. Annual Epidemiology 7: 334–342

Waterman A.S. (1984) The psychology of individualism. Praeger, New York

Watson D. (1992) Correcting for acquiescent response bias in the absence of a balanced scale: An application to class consciousness. Sociological Methods and Research 21(1): 52–88

Welkenhuysen-Gybels J., Billiet J., Cambre B. (2003) Adjustment for acquiescence in the assessment of the construct equivalence of Likert-type score items. Journal of Cross-Cultural Psychology 34(6): 702–722

Weng L.-J., Cheng C.-P. (2000) Effects of response order on Likert-type scales. Educational and Psychological Measurement 60(6): 908–924

Wilson T.D., LaFleur S.J., Anderson D. (1996) The validity and consequences of verbal reports about attitudes. In: Schwarz N., Sudman S. (eds). Answering questions: Methodology for determining cognitive and communicative processes in survey research. Jossey-Bass, San Francisco, pp. 91–114

Wong N., Rindfleisch A., Burroughs J. (2003) Do Reverse-Worded Items Confound Measures in Cross-Cultural Consumer Research? The Case of the Material Values Scale. Journal of Consumer Research 30: 72–91


Directionality of Likert scales

A feature of Likert scales is their directionality: the categories of response may be increasingly positive or increasingly negative. While interpretation of a category may vary among respondents (e.g., one person’s “agree” is another’s “strongly agree”), all respondents should nevertheless understand that “strongly agree” is a more positive opinion than “agree.” One important consideration in the design of questionnaires is the use of reverse scoring on some items. Imagine a questionnaire with positive statements about the benefits of public health education programs (e.g., “TV campaigns are a good way to persuade people to stop smoking in the presence of children”). A subject who strongly agreed with all such statements would be presumed to have a very positive view about the benefits of this method of health education. However, perhaps the subject was not participating wholeheartedly and simply checked the same response category for each item. To ensure that respondents are reading and evaluating statements carefully, a few negative statements may be included (e.g., “Money spent on public health education programs would be better spent on research into new therapies”). If a respondent answers positively to positive statements and negatively to negative statements, the researcher may have increased confidence in the data.


Self-Reported Metrics

6.2.2 Semantic Differential Scales

The semantic differential technique involves presenting pairs of bipolar, or opposite, adjectives at either end of a series of scales, such as the following:

Like the Likert scale , a five- or seven-point scale is commonly used. The difficult part about the semantic differential technique is coming up with words that are truly opposites. Sometimes a thesaurus can be helpful since it includes antonyms. But you need to be aware of the connotations of different pairings of words. For example, a pairing of “Friendly/Unfriendly” may have a somewhat different connotation and yield different results from “Friendly/Not Friendly” or “Friendly/Hostile.”

Osgood’s Semantic Differential

The semantic differential technique was developed by Charles E. Osgood (Osgood et al., 1957), who designed it to measure the connotations of words or concepts. Using factor analysis of large sets of semantic differential data, he found three recurring attitudes that people used in assessing words and phrases: evaluation (such as “good/bad”), potency (such as “strong/weak”), and activity (such as “passive/active”).


PROBLEM DEFINITION

Two relevant methodological issues at this stage are the selection of the unit of analysis and the relevance of the research topic. Most research on international markets involves comparisons. Therefore, defining the unit of analysis, that is, selecting the relevant contexts to be compared is a priority in cross-cultural research. 1 Craig and Douglas 19 propose three aspects that need to be considered in defining the unit: the geographic scope of the unit (for example, country, region, and so on) the criteria for membership in the unit (for example, demographic or socio-economic characteristics, and so on) and the situational context (for example, specific socio-cultural settings, climate context, and so on). This section will focus on geographic scope, which needs to be chosen based on the purpose of the research.

Within the different geographical levels, the country level provides a practical and convenient unit for data collection. Thus, researchers mostly use this unit of analysis in their studies. However, the use of countries is criticized for several reasons. 1 First, countries are not always that relevant. Cities, regions or even the world may be more appropriate. Second, countries are not isolated or independent units. They develop and adopt similar practices and behaviors through numerous ways. Finally, the differences between countries in terms of economic, social or cultural factors, and the heterogeneity within countries can have unintended consequences.

The relevance of the topic in the selected units of analysis is more difficult and important than in domestic research, due to the unfamiliarity with the countries/cultures where the research is being conducted. The research topic should be equally important and appropriate in each context, and conceptually equivalent, an issue that will be addressed in the next section. 17, 20 Similarly, the relevance of constructs should be carefully evaluated. 1 This issue will help to avoid pseudoetic bias (that is, to assume that a measure developed in a context is appropriate in all the contexts).

Suggestions and recommendations

Given the limitations of the use of the country, the consideration of different geographical units is suggested in the literature. As a result of advances in information and communication technology, improvements in physical communication and transportation, and the convergence of consumer needs, ‘national culture’ is less meaningful. 21, 22 Therefore, several authors call for the study of units of analysis, such as regions, communities or specific population segments (for example, teenagers), as well as the combination of multiple levels of units. 1, 23 However, these alternative units of analysis should not totally replace the use of national borders. Engelen and Brettel 24 justify their use based on existing theoretical and empirical evidence plus their managerial relevance, since organizations typically carry out their international activities along national borders.

If countries are used as unit of analysis, they should be ‘purposively selected to be comparable’, 1 taking into account those factors that may be relevant or affect the phenomenon being studied. Furthermore, researchers should beware of the degree of cultural interpenetration, that is, the extent to which the members of one country are exposed to another through different channels, such as the direct experience, the media or the experiences of others. It is also important to take into account the intra-national diversity to truly understand the phenomenon under investigation. Finally, the selection of the unit should be based on the objectives of the study rather than on convenience. 17, 25

Regarding the topic being investigated, Douglas and Craig 1 suggest removing the influence of the dominant culture. Researchers should isolate the tendency to allow their own beliefs and values to influence the question analyzed. It would help them to distinguish the relevant topics, constructs or relationships to be studied in each context. It is also important to identify the role of mediating and moderator factors embedded in each socio-cultural context and assess how this can be related to the focal topic. For instance, a study exploring the purchase intention of foreign products should consider to what extent the image of the country of origin affects this intention.


The Effect of Rating Scale on Response Style: Experimental Evidence for Job Satisfaction

This paper explores the relationship between rating scales and response style using experimental data from a sample of 1500 households of the Innovation Panel (2008) which is part of the Understanding Society database. Two random groups of individuals are being asked about their level of job satisfaction using a self-assessment questionnaire through two (7 and 11 points) rating options. By comparing the two groups, we explore the effects of the different rating scales on Extreme Response Style (ERS). The experimental design of the data enables us to show that both high and low Extreme Response Style (ERS) are correlated with personal and demographic characteristics. In addition, when comparing the shorter to a longer scale, we show that the survey design may generates tendency to choose responses at the extreme values of the distribution.

Ceci est un aperçu du contenu de l'abonnement, accessible via votre institution.


2 METHOD

2.1 Participants and recruitment procedure

The present study included the datasets from ten countries that have validated the FCV-19S in their respective countries. A short sampling description is given herewith, details can be found in the original papers (Abad et al., 2020 Broche-Pérez et al., 2020 Chang, Hou, et al., 2020 Harper et al., 2020 Mailliez et al., 2021 Masuyama et al., 2020 Pakpour, Griffiths, Chang, et al., 2020 Sakib et al., 2020 Soraci et al., 2020 Winter et al., 2020 ). More specifically, all the participants used in the present study were recruited through convenience sampling. Some were recruited using online surveys and some were recruited using paper-based (offline) surveys because most of the validations were carried out independently by different research teams and the respective teams had different resources in the different countries. However, there was no serious bias in using the two types of survey data collection and there is prior evidence showing that online and offline surveys are measurement invariant (Martins, 2010 ). All the study designs were cross-sectional. Moreover, general populations were the target sample in most of the countries (Table 1). Table 1 also reports the data collection period for each country and a related figure concerning COVID-19 infection at the time of the study.

Online convenience sampling

In March—education facilities closed, border screening, social distancing

In April—Office holiday, suspicion of public transport, public gathering restrictions

Online convenience sampling

Online convenience sampling

avril 2020 Social isolation and distancing hygiene practices school closures, strict regulations for events and public places quarantine of infected peoples closing non-essential businesses

April 30th 6,006 deaths due to COVID-19

87,187 people diagnosed with the disease.

August 18th 1,352 deaths in the last 24 hr

47,784 confirmed cases in the last 24 hr

Infection control policies implemented in late January, 2020

Strict regulations for events and public places

Blocked Chinese passengers on 30 January 2020

State of Emergency declared on 31 January 2020

Prohibition of access and removal in the municipalities with COVID-19 outbreak implemented on 23 February 2020

The Cuban government presents the action plan against COVID-19 (January 2020)

Mandatory use of facial mask (March 2020)

Strict lockdown in areas with more than 10 confirmed cases (March 2020)

Isolation of all suspected cases in specialized centres (March 2020)

Closure of international borders (March 2020)

Strict regulations for events and public places (March 2020)

Strict lockdown implemented on 22 March 2020

Smart lockdown implemented on 13 June 2020

Online convenience sampling

Partial lockdown for sick people on 23 February 2020

Demonstration over 5,000 people is banned on 29 February 2020

Lockdown for general population between March 17 and May 11

2.2 Measures

2.2.1 Fear of COVID-19 Scale (FCV-19S)

The seven-item FCV-19S was developed to quickly assess individuals' fear towards COVID-19 (Ahorsu, Lin, Imani, et al., 2020 Ahorsu, Lin, & Pakpour, 2020 ). Responding to items on a five-point Likert scale (1 = strongly disagree 5 = strongly agree), the FCV-19S has been found to be psychometrically sound in assessing fear of COVID-19 in different populations, including different ethnic groups (Alyami et al., 2020 Pakpour, Griffiths, Chang, et al., 2020 Pang et al., 2020 Sakib et al., 2020 Satici et al., 2020 Soraci et al., 2020 Tsipropoulou et al., 2020 ) and various vulnerable groups (Pakpour, Griffiths, Chang, et al., 2020 ). An example item in the FCV-19S is “I cannot sleep because I'm worrying about getting coronavirus-19”. A higher level of fear toward COVID-19 is indicated by the higher FCV-19S score. Moreover, different language versions of the FCV-19S used in the present study have been validated (Alyami et al., 2020 Chang, Hou, et al., 2020 Pakpour, Griffiths, Chang, et al., 2020 Sakib et al., 2020 Satici et al., 2020 Soraci et al., 2020 Tsipropoulou et al., 2020 ).

2.3 Data analysis

The participants' age, gender distribution (male, female, and other), and FCV-19S scores were first analysed using descriptive statistics for each country. Item properties of the seven FCV-19S items were then examined using skewness, kurtosis (to check normal distribution of responses for each item), item difficulty (with the use of Rasch analysis), item fit (including information-weighted fit mean square [MnSq] and outlier-sensitive fit MnSq where value between 0.5 and 1.5 indicates good fit) (Lin et al., 2019 ) factor loadings (derived from confirmatory factor analysis [CFA]) and item-total correlations. The entire FCV-19S scale properties were assessed using internal consistency, CFA and Rasch analysis. For internal consistency, Cronbach's ?? with a value >0.7 indicates satisfactory (Lee et al., 2016 ) for CFA, fit indices of comparative fit index (CFI) and Tucker-Lewis index (TLI) > 0.9 with root mean square error of approximation (RMSEA) and standardized root mean square residual (SRMR) <0.08 indicate satisfactory (Lin et al., 2017 ) for Rasch analysis, item and person separation reliability >0.7 with item and person separation index >2 indicate satisfactory (Lin et al., 2019 ).

Differential item functioning (DIF) based on Rasch analysis was conducted to examine whether different interpretations of the FCV-19S item content occurred across countries, gender (male and female) or age groups (children aged below 18 years, young to middle-aged adults aged between 18 and 60 years and older people aged above 60 years). A substantial DIF is defined as a DIF contrast >0.5 (Lin et al., 2019 ). Measurement invariance was further tested using multigroup CFA to examine whether participants from different countries, different gender participants (male and female), and participants with different ages (children aged below 18 years, young to middle-aged adults aged between 18 and 60 years, and older people aged above 60 years) interpret the entire FCV-19S similarly. In the multigroup CFA, several nested models were compared. More specifically, configural models across countries, gender and age groups were first carried out to examine whether different aggregated subgroups of participants confirm the single-factor structure of the FCV-19S. Then, CFA models with factor loadings constrained equally across subgroups were constructed and compared with the configural models to examine whether different subgroups shared the same factor loadings. Finally, CFA models with factor loadings and item intercepts constrained equally across subgroups were constructed and compared with the models with factor loadings constrained equally to examine whether different subgroups shared the same item intercepts. ΔCFI > −0.01, ΔRMSEA < 0.01 and ΔSRMR < 0.01 support the full measurement invariance in every two nested models' comparisons (Lin et al., 2019 ). However, if the full measurement invariance was not achieved, partial invariance was tested using the process of relaxing factor loadings or item intercepts in the constrained models. Moreover, the data relating to “other” gender was not used for DIF or multigroup CFA because there were only 27 participants reporting their gender as other. Given the huge difference in sample sizes (27 “other” gender, 7,723 male gender, and 8,363 female gender), carrying out invariance testing on such a small sample size would be problematic.

A model with structural equation modelling (SEM) was then constructed to examine the associations between age, gender, and fear of COVID-19. In the SEM model, young to middle-aged adults aged between 18 and 60 years and being male were reference groups. All the statistical analyses were performed using SPSS 24.0 (IBM corp.), WINSTEPS 4.1.0 (winsteps.com), and lavaan package (https://lavaan.ugent.be/tutorial/index.html) in the R software.


Méthode

Searches were conducted using Nursing & Allied Health Database and Science direct databases.

Within the Nursing & Allied Health Database the words ‘spirituality’ and ‘tools or measures or assessment or instruments or scales’ and ‘nursing’ were used as keywords searched within the abstract of articles. Limiters were placed by age such that only results involving adults were returned. It was specified that scholarly journal articles should be returned, written in English. This resulted in 15 hits.

Within the Science Direct search the same words as above were used for search within the abstract of articles, topic requests were highlighted such that results only returned those concerning ’patients’ or ‘nurse’. Content was again limited to academic journals. This resulted in 362 results

Duplicates were removed and then titles and abstracts of articles were viewed and inappropriate articles discarded. Articles were discarded at this stage if they included assessment of spirituality in child patients, if they did not consider the role of nurses or student nurses in a patient’s spirituality. The remaining articles were then viewed in full. Articles met the inclusion criteria if they included within their methodology measures which related to nursing professionals’ spiritual care and assessment of patients.


The research in Tanzania reported in this paper was funded by the European Union: Funded under: FP7-HEALTH: Project reference: 261349, as was the time of J.B., A.K., J.G., F.M., K.O. Examples from Burkina Faso reported in the paper were drawn from the impact evaluation of the Health Sector Results-Based Financing Program, funded by the World Bank through the Health Results Innovation Trust Fund. Contributions made by E.D. are based on her PhD dissertation submitted to Johns Hopkins University under the supervision of David H. Peters and with inputs and guidance from Qian-Li Xue, Sara Bennett, Kitty Chan, and Saifuddin Ahmed. The UK Department for International Development (DFID) as part of the Consortium for Research on Resilient and Responsive Health Systems (RESYST) supported the time of J.L., E.D. and JB writing the paper. J.B.’s time was also supported by the Research Council of Norway. The views expressed and information contained in it are not necessarily those of or endorsed by the funders, which can accept no responsibility for such views or information or for any reliance placed on them.

Déclaration de conflit d'intérêts. None declared.

Notes de bas de page

For instance, for principal axis factor, it’s all factors with eigenvalues greater zero. For PCA, it’s all factors with eigenvalues greater than 1 (the Kaiser criterion).


Comparing Error Rates and Power When Analyzing Likert Scale Data

After analyzing all pairs of distributions, the results indicate that both types of analyses produce type I error rates that are nearly equal to the target value. A type I error rate is essentially a false positive. The test results are statistically significant but, unbeknownst to the investigator, the null hypothesis is actually true. This error rate should equal the significance level.

The 2-sample t-test and Mann-Whitney test produce nearly equal false positive rates for Likert scale data. Further, the error rates for both analyses are close to the significance level target. Excessive false positives are not a concern for either hypothesis test.

Regarding statistical power, the simulation study shows that there is a minute difference between these two tests. Apprehensions about the Mann-Whitney test being underpowered were unsubstantiated. In most cases, if there is an actual difference between populations, the two tests have an equal probability of detecting it.

There is one qualification. A power difference between the two tests exists for several specific combinations of distribution pairs. The difference in power affects only a small portion of the possible combinations of distributions. My suggestion is to perform both tests on your Likert data. If the test results disagree, look at the article to determine whether a difference in power might be the cause.

In most cases, it doesn&rsquot matter which of the two statistical analyses you use to analyze your Likert data. If you have two groups and you&rsquore analyzing five-point Likert data, both the 2-sample t-test and Mann-Whitney test have nearly equivalent type I error rates and power. These results are consistent across group sizes of 10, 30, and 200.

Sometimes it&rsquos just nice to know when you don&rsquot have to stress over something!


Voir la vidéo: How to enter Likert Scale data in SPSS (Décembre 2021).