Informations

Comment exécuter une régression hiérarchique multiple avec des prédicteurs catégoriques et d'échelle dans SPSS ?

Comment exécuter une régression hiérarchique multiple avec des prédicteurs catégoriques et d'échelle dans SPSS ?

Je mène actuellement des recherches pour mon mémoire de maîtrise et j'ai rencontré un problème critique en essayant d'analyser mes données. Je suis un étudiant en psychologie qui étudie les prédicteurs de l'acceptation du mythe du viol masculin. Mes prédicteurs sont le sexe, l'âge, l'origine ethnique, le revenu mensuel estimé et l'homophobie. Ma variable de critère et le prédicteur d'homophobie sont tous deux des données d'échelle, tandis que le sexe, l'âge, l'origine ethnique et le revenu mensuel de l'estimateur sont tous des données catégorielles.

J'ai recodé avec succès le sexe en une variable binaire 0 = femme et 1 = homme et j'ai également codé toutes mes autres variables catégorielles. Je suis maintenant venu faire l'analyse et je ne sais absolument pas comment saisir les variables dans le modèle hiérarchique, puis comment interpréter les résultats par la suite. Je n'ai déjà effectué qu'une régression multiple à l'aide de prédicteurs d'échelle auparavant. Je ne connais également les variables fictives que lorsqu'elles sont entrées dans un modèle seul sans aucune autre variable, car c'est aussi loin que notre enseignement est allé les concernant. Si quelqu'un peut m'apporter de l'aide, je l'apprécierais !


Fondamentalement, vous avez trois types de prédicteurs :

  • Binaire (par exemple, sexe codé féminin = 0, masculin = 1) : le coefficient est le degré auquel les hommes sont plus élevés que les femmes sur la variable de résultat, en maintenant toutes les autres variables constantes.
  • Numérique (par exemple, l'âge en années) : le coefficient est l'effet du fait d'avoir un an de plus sur la variable de résultat en maintenant toutes les autres variables égales
  • Nominal (3 catégories ou plus ; par exemple, l'origine ethnique). Ici, vous créez k - 1 variables fictives (où k est le nombre de catégories). Chaque catégorie fictive est l'effet d'être dans cette catégorie par rapport à la catégorie de référence maintenant toutes les autres variables constantes.

Une fois que vous avez compris comment interpréter les coefficients, la régression hiérarchique ne change vraiment rien. La régression hiérarchique est vraiment la même chose que l'exécution d'un ensemble de modèles de régression avec différents prédicteurs (il se trouve qu'ils impliquent simplement l'ajout incrémentiel de prédicteurs).


Comment exécuter une régression hiérarchique multiple avec des prédicteurs catégoriques et d'échelle dans SPSS ? - Psychologie

Dans ce guide, vous apprendrez à estimer un modèle de régression multiple avec interactions dans SPSS à l'aide d'un exemple pratique pour illustrer le processus. Les lecteurs reçoivent des liens vers l'exemple de jeu de données et sont encouragés à reproduire cet exemple. Un exemple pratique supplémentaire est suggéré à la fin de ce guide. L'exemple suppose que vous avez déjà ouvert le fichier de données dans SPSS.

L'interaction décrit un type particulier de relation non linéaire, où l'"effet" d'une variable indépendante sur la variable dépendante diffère selon les différentes valeurs d'une autre variable indépendante dans le modèle. Dans un modèle de régression multiple à « effets principaux », une variable dépendante (ou réponse) est exprimée sous la forme d'une fonction linéaire de deux ou plusieurs variables indépendantes (ou explicatives). Cela nécessite l'estimation d'une interception (souvent appelée constante) et d'une pente pour chaque variable indépendante qui décrit le changement de la variable dépendante pour une augmentation d'une unité de la variable indépendante. La plupart de l'attention se concentre sur les estimations de la pente car elles capturent la relation entre les variables dépendantes et indépendantes. Dans un modèle incluant un terme d'interaction, les estimations de pente ne peuvent pas être interprétées de la même manière, car elles sont désormais conditionnelles à d'autres valeurs. L'accent est plutôt mis sur la différence de pentes qui est décrite par le coefficient d'interaction. Dans un modèle de régression linéaire, les variables dépendantes doivent être continues. Une interaction peut se produire entre des variables indépendantes catégoriques ou continues et entre plusieurs variables indépendantes. Cet exemple se concentrera sur les interactions entre une paire de variables qui sont de nature catégorique et continue. C'est ce qu'on appelle une interaction bidirectionnelle. Il est possible d'avoir des interactions à trois voies ou plus, mais nous nous concentrons sur le cas à deux voies pour faciliter l'explication.

Cet exemple utilise trois variables d'un sous-ensemble de l'Enquête sociale européenne (2016) :

  • Score sur une échelle mesurant à quel point les répondants britanniques pensent que l'immigration est bénéfique pour la Grande-Bretagne (immigration)
  • Score sur une échelle mesurant la force d'importance que le répondant a attribuée aux valeurs de conformité par rapport à neuf autres valeurs humaines de base (conformité)
  • Si le répondant a voté lors de la dernière élection nationale ou non (électeur)

La variable de score pour l'immigration a été construite à l'aide d'une échelle sommative d'éléments d'enquête sélectionnés, testée pour la cohérence interne. La conformité de la variable a été compilée à l'aide d'items identifiés par l'Enquête sociale européenne comme se rapportant à cette valeur. Le score moyen d'un individu sur tous les éléments de valeurs humaines a été soustrait de son score moyen sur les éléments relatifs au concept en question, identifiant ainsi la priorité accordée à cette valeur particulière par rapport aux autres. Les deux variables sont centrées sur la moyenne. Ils peuvent tous être considérés comme continus, avec des moyennes d'environ zéro et une plage approximative d'environ 𕒶.0 à +2,0 pour l'immigration et 𕒷 à + 3 pour la conformité. Un score élevé signifie des sentiments positifs envers l'immigration et une importance relative élevée accordée aux valeurs de conformité. électeur est une variable catégorielle binaire codée 1 si le répondant a voté lors de la dernière élection et codé 0 s'il ne l'a pas fait.

Lorsqu'on effectue une régression multiple avec interactions, il est souvent sage d'examiner d'abord chaque variable isolément. Cela peut être fait dans SPSS en sélectionnant dans le menu :

Analyser → Statistiques descriptives → Explorer

Dans la boîte de dialogue “Explore” qui s'ouvre, déplacez les variables d'immigration et de conformité dans la zone “Dependent List :”. Sur la droite, cliquez sur le bouton “Plots”. Cela ouvre une autre boîte de dialogue dans laquelle vous pouvez sélectionner les tracés que vous souhaitez produire. Pour cet exemple, cochez simplement “Histogram” sous le titre Descriptif. Cliquez sur Continuer pour revenir à la boîte de dialogue précédente, puis cliquez sur OK pour effectuer l'analyse.

Nous devrions également produire une distribution de fréquence de la variable votant. Cela se fait dans SPSS en sélectionnant les options de menu suivantes :

Analyser les → Statistiques Descriptives → Fréquences

Dans la boîte de dialogue qui s'ouvre, déplacez la variable de vote dans la zone “Variable(s)” et cliquez sur OK .

Des captures d'écran de la procédure de production d'histogrammes dans SPSS sont disponibles dans la rubrique « How to Guides for the Dispersion of a Continuous Variables » qui fait partie des ensembles de données SAGE Research Methods. Lors de l'estimation d'un modèle de régression incluant les interactions, nous estimons d'abord un modèle de régression multiple à effets principaux. Pour nous assurer que nous pouvons comparer les deux modèles, nous répertorions les variables indépendantes des deux modèles dans deux blocs distincts avant d'exécuter l'analyse. Cela fournit des estimations pour les deux modèles et un test de signification de la différence entre les valeurs R au carré.

Vous estimez un modèle de régression multiple dans SPSS en sélectionnant dans le menu :

Analyser → Régression → Linéaire

Dans la boîte de dialogue “Linear Regression” qui s'ouvre, déplacez la variable dépendante immigration dans la fenêtre “Dependent :” et déplacez les deux variables indépendantes, compliance et voter dans la “Independent(s) :” la fenêtre. La figure 1 montre à quoi cela ressemble dans SPSS.

Pour estimer un modèle de régression avec interactions, nous devons créer une nouvelle variable qui est le produit des deux variables indépendantes. Pour ce faire, sélectionnez les options de menu suivantes :

Transformer → Calculer la variable

Dans la boîte de dialogue “Calculer la variable” qui s'ouvre, sélectionnez un nom pour la nouvelle variable. Dans ce cas, nous appelons la variable confvote . Dans la case « Expression numérique » 8221, sélectionnez la conformité et multipliez-la par l'électeur, comme le montre la figure 2.

De retour à la boîte de dialogue Régression linéaire, sélectionnez “Suivant” au-dessus de la zone de variable “Indépendant(s)”. La variable dépendante immigration apparaîtra toujours dans la case de la variable dépendante. Pour le modèle incluant un terme d'interaction, ajoutez la nouvelle variable confvote comme illustré à la figure 3.

Sélectionnez “Statistiques” dans les options à droite de la zone de texte. Cela ouvre la case « Régression linéaire : Statistiques » comme illustré à la figure 4. Cochez la case à côté de « Modification au carré R » et appuyez sur Continuer pour revenir à la boîte de dialogue précédente.

Ensuite, sélectionnez “Enregistrer” dans les options sur le côté droit. Dans la boîte de dialogue “Linear Regression:Save” qui s'ouvre, cochez “Unstandardized” dans la section “Predicted Values” comme illustré à la Figure 5. (Notez que si vous souhaitez calculer les valeurs prédites à partir du modèle des effets principaux ainsi que le modèle d'interaction, vous devez sélectionner cette option et exécuter l'analyse pour le premier modèle avant de sélectionner les variables pour le deuxième modèle. Sinon, SPSS ne produira que des valeurs prédites pour le modèle, y compris un terme d'interaction.)

Appuyez sur OK pour lancer l'analyse.

Les figures 6 et 7 présentent des histogrammes pour les deux variables continues.

La figure 6 montre une distribution à peu près normale, avec un pic aux valeurs les plus basses. Dans l'ensemble, il y a peu de raisons de s'inquiéter quant à la pertinence de la variable à inclure.

La figure 7 montre une distribution très légèrement biaisée négativement, avec un pic de valeurs juste au-dessus de la moyenne, mais suffisamment proche de la normale pour ne pas susciter de préoccupation.

La distribution de fréquence de la variable votant à la figure 8 montre que 71,5 % des répondants ont voté lors de la dernière élection comparativement à 28,5 % des répondants qui ne l'ont pas fait.

Il est également utile d'explorer la corrélation possible entre vos variables indépendantes. Dans ce cas, le coefficient de corrélation de Pearson entre l'électeur et la conformité est de 0,07, ce qui est faible. Nous sommes donc peu préoccupés par la multicolinéarité influençant cette analyse de régression.

Les figures 9 et 10 présentent un certain nombre de tableaux de résultats pour les deux modèles qui sont produits par la procédure de régression multiple dans SPSS.

Les trois premiers tableaux de la figure 9 présentent les variables indépendantes saisies dans le modèle 1 (le modèle des effets principaux) et le modèle 2 (le modèle incluant un terme d'interaction), quelques statistiques d'ajustement sommaires pour les modèles de régression et une analyse de la variance pour les deux modèles. dans son ensemble. Bien que l'examen détaillé de ces tableaux dépasse le cadre de cet exemple, nous notons que la valeur R au carré dans le deuxième tableau mesure la proportion de la variance dans la variable dépendante qui est expliquée par le modèle. Un de 0,037 pour le modèle des effets principaux signifie que seulement 3,7 % environ de la variance des attitudes à l'égard de l'immigration est expliquée par les deux variables indépendantes. Un chercheur appliqué pourrait vouloir développer un modèle avec plus de variables explicatives pour mieux comprendre les bases des attitudes envers les avantages de l'immigration dans le pays. Notons que pour le deuxième modèle, qui inclut un terme d'interaction, le est de 0,04, seulement très légèrement supérieur au premier modèle. Les statistiques de changement dans les tableaux récapitulatifs des modèles rapportent les résultats d'un test F qui teste si la différence entre le du modèle à effets principaux et le du modèle d'interaction est égale à zéro. Les résultats montrent une valeur de 5,824 et une valeur p associée de 0,016. On peut donc rejeter l'hypothèse nulle et conclure à l'existence d'un effet d'interaction entre les valeurs de conformité et de vote. Cependant, dans ce cas, l'interaction n'explique pas beaucoup plus la variance et un chercheur pourrait décider de l'exclure par souci de parcimonie.

Le tableau du haut de la figure 10 présente les estimations de l'interception, ou constante ( _cons ), et les coefficients de pente pour les deux modèles. En examinant tout d'abord le modèle 1, les résultats indiquent une estimation de l'interception, ou constante, égale à environ −.19. La constante d'un modèle de régression multiple peut être interprétée comme la valeur moyenne attendue de la variable dépendante lorsque toutes les variables indépendantes sont égales à zéro. Dans ce cas, comme la variable indépendante continue a une moyenne d'environ zéro et la variable binaire a une valeur de zéro, la constante nous donne le score d'immigration attendu pour les répondants qui donnent des niveaux moyens de priorité aux valeurs de conformité et qui n'ont pas voté. Les chercheurs n'ont pas souvent de prédictions basées sur l'interception, il reçoit donc souvent peu d'attention, bien que là où zéro est une valeur significative "dans l'échantillon" alors cela peut être utile.

La valeur estimée du coefficient de pente partielle reliant les attitudes envers l'immigration aux valeurs de conformité est d'environ −.15. Cela représente l'effet marginal moyen des valeurs de conformité sur les attitudes d'immigration et peut être interprété comme le changement attendu de la variable dépendante en moyenne pour une augmentation d'une unité de la variable indépendante, en contrôlant si quelqu'un a voté ou non. Dans ce modèle, le coefficient exprime l'association unique de cette variable sur la variable dépendante de sorte que chaque augmentation du score de conformité d'un point est associée à une augmentation du score d'attitude envers l'immigration d'environ −.15, en contrôlant si quelqu'un voté. Le coefficient est statistiquement significatif, basé sur une valeur p inférieure à 0,001.

Ce tableau indique également que le coefficient de pente partielle liant le comportement électoral à la positivité envers l'immigration est estimé à environ 0,24. Cela représente l'effet marginal moyen du vote sur l'attitude à l'égard de l'immigration, en contrôlant les valeurs de conformité. Comme la variable de vote a des valeurs de 0 et 1, nous pouvons voir que pour tous les niveaux d'importance accordés aux valeurs de conformité, ceux qui ont voté lors des dernières élections nationales avaient en moyenne un niveau de positivité envers l'immigration supérieur de 0,24 point à ceux qui n'a pas voté. Le coefficient est statistiquement significatif, basé sur une valeur p inférieure à 0,001.

L'interprétation des résultats pour le deuxième modèle incluant un terme d'interaction n'est pas aussi simple qu'avec le premier modèle.

Comme précédemment, l'interception (−.19) peut être interprétée comme le niveau moyen de la variable dépendante lorsque les valeurs des variables indépendantes sont à zéro.

Une plus grande attention doit être portée lors de l'interprétation des coefficients (ou estimations de pente) pour les variables indépendantes de notre modèle. La figure 10 rapporte un coefficient de −.069 pour la variable conformité et de .236 pour l'électeur . Ces valeurs ne peuvent plus être interprétées comme la relation entre chaque variable indépendante et la variable dépendante mais sont désormais conditionnelles aux valeurs du terme d'interaction. Par conséquent, ils ne montrent l'effet unique d'une variable en interaction que lorsque la valeur de l'autre est à zéro. La valeur pour l'électeur est statistiquement significative au niveau 0,001, cependant, la valeur pour la conformité n'est plus statistiquement significative avec une valeur p de 0,065. Il est important de noter que les valeurs de p pour les effets principaux ne sont pertinentes que lorsque la valeur de l'autre variable est à zéro. Comme les erreurs types peuvent varier selon les valeurs de l'autre variable, les informations sur la valeur p de ces coefficients sont limitées. C'est la signification du coefficient d'interaction, et non des variables constitutives, qui est ici la plus pertinente. Nous nous intéressons principalement au coefficient du terme de produit qui est estimé à environ −.11 et est statistiquement significatif sur la base d'une valeur p inférieure à 0,05. Cette valeur décrit le changement des pentes de telle sorte que la pente d'une variable indépendante sur la variable dépendante change de −.11 pour chaque changement d'unité sur l'autre variable indépendante.

La façon la plus claire d'interpréter les résultats est de les tracer sur un graphique. Pour ce faire, sélectionnez les options de menu suivantes :

Graphiques → Boîtes de dialogue héritées → Nuage/Point

Mettez en surbrillance l'icône “Simple scatter” illustrée à la Figure 11 et cliquez sur Définir . Dans la boîte de dialogue “Simple Scatterplot” qui s'ouvre, illustrée à la Figure 12, mettez en surbrillance la nouvelle variable, Valeurs prédites non standardisées [PRE_1] et cliquez sur la flèche pour la déplacer vers la zone de texte Axe Y. Pour l'axe X, choisissez conformité . Dans la zone “Set Markers by :”, choisissez voter .

(A des fins de comparaison, nous avons enregistré les valeurs prédites pour les deux modèles. Si vous faites de même, le premier ensemble de valeurs prédites sera lié au modèle des effets principaux. Répétez le même processus pour produire un deuxième graphique du modèle d'interaction, cette fois en utilisant les valeurs prédites non standardisées [PRE_2] sur l'axe Y.) Appuyez sur OK pour produire le graphique que vous avez sélectionné.

La figure 13 montre le graphique des résultats de notre modèle de régression des effets principaux. On voit que l'interception pour ceux qui ont voté est plus élevée que pour ceux qui n'ont pas voté et donc que ceux qui ont voté aux dernières élections nationales sont en moyenne plus positifs sur les bénéfices de l'immigration que ceux qui n'ont pas voté. Les scores sur l'échelle d'attitude envers l'immigration diminuent à mesure que les scores pour la priorité des valeurs de conformité augmentent. Les pentes sont parallèles, ce qui montre que la tendance à être positif sur les avantages de l'immigration à travers les niveaux de préférence pour les valeurs de conformité est la même pour ceux qui ont voté et ceux qui ne l'ont pas fait.

La figure 14 montre une différence entre les deux pentes pour ceux qui ont voté et ceux qui ne l'ont pas fait, contrairement aux pentes parallèles observées pour les deux groupes dans la figure 13. Comme précédemment, nous voyons que ceux qui accordent moins d'importance aux valeurs de conformité sont plus positifs sur les avantages de l'immigration dans le pays. Cependant, on observe maintenant une différence de pente pour ceux qui ont voté et ceux qui n'ont pas voté, avec une pente qui diminue plus fortement pour les votants (votant=1) que pour les non-votants (voter=0). L'effet négatif des valeurs de conformité sur les attitudes envers l'immigration est plus fort pour ceux qui ont voté que pour ceux qui ne l'ont pas fait.

Il existe plusieurs tests de diagnostic que les chercheurs peuvent effectuer après l'estimation d'un modèle de régression pour évaluer si le modèle semble enfreindre l'une des hypothèses OLS ou s'il existe d'autres types de problèmes tels que des cas particulièrement influents. La description de tous ces tests de diagnostic dépasse le cadre de cet exemple.

Vous pouvez télécharger cet exemple de jeu de données ainsi qu'un guide montrant comment estimer un modèle de régression multiple avec des interactions à l'aide d'un logiciel statistique.L'échantillon de données comprend également une autre variable, la bienveillance , qui saisit dans quelle mesure les répondants donnent la priorité aux valeurs bienveillantes sur l'échelle des valeurs humaines. Cette fois, nous voulons voir si les niveaux de positivité envers les avantages de l'immigration sont associés aux niveaux de bienveillance et de vote lors de l'élection nationale et s'ils interagissent de telle sorte que la relation entre la bienveillance et les attitudes envers l'immigration diffère selon que vous votez ou non. . Voyez si vous pouvez reproduire les résultats présentés ici et essayez de produire votre propre régression multiple avec des interactions en remplaçant la conformité par la bienveillance comme variable indépendante continue.


Régression linéaire multiple avec prédicteurs catégoriels

Auparavant, nous avons adapté un modèle pour Impureté avec Temp, Catalyseur Conc, et Temps de réaction comme prédicteurs. Mais il y a deux autres prédicteurs que nous pourrions considérer : Réacteur et Décalage. Réacteur est une variable catégorielle à trois niveaux, et Décalage est une variable catégorielle à deux niveaux. Comment pouvons-nous étendre notre modèle pour étudier les différences de Impureté entre les deux équipes, ou entre les trois réacteurs ? Pour intégrer une variable catégorielle à deux niveaux dans un modèle de régression, nous créons un indicateur ou une variable muette avec deux valeurs : attribuer un 1 pour le premier quart de travail et -1 pour le deuxième quart de travail.

Considérez les données des 10 premières observations. Dans les coulisses, lorsque nous adaptons un modèle avec Décalage, le logiciel substitue un 1 pour la première équipe et un -1 pour la deuxième équipe.

Pour un modèle avec Décalage comme seul prédicteur, l'interception est la moyenne globale Impureté. Le coefficient de Décalage, écrit Maj[1], est de -0,012. C'est le montant que le premier quart de travail est en dessous de la moyenne Impureté.

La moyenne Impureté pour le premier quart, alors, est l'interception moins 0,012, ou 6,111. La moyenne Impureté pour le deuxième décalage est l'interception plus 0,012, ou 6,135.

Cependant, le p-valeur est très grande. Cette différence n'est donc pas significative.

Notez qu'au lieu d'utiliser le codage à effet -1/1, de nombreux logiciels appliquent un codage fictif 0/1 : en attribuant un 0 pour le premier quart et un 1 pour le deuxième quart.

Le coefficient résultant pour Maj[1] est la différence dans la moyenne de Impureté entre le premier et le deuxième quart de travail. Ainsi, la moyenne Impureté pour le premier quart est de 0,024 inférieur à la moyenne Impureté pour le deuxième quart de travail.

Il est important de noter que ces deux schémas de codage aboutissent aux mêmes prédictions de modèle. Mais, d'un point de vue explicatif, l'interprétation des coefficients est différente. Tournons notre attention vers la variable Réacteur, qui comporte trois niveaux. Dans ce cas, le modèle de régression comprend deux variables indicatrices, avec des coefficients pour le réacteur 1 et le réacteur 2. Encore une fois, nous pouvons appliquer soit un codage d'effet, soit un codage fictif.

Ici, le codage d'effet est appliqué :

  • Le réacteur numéro 1 est codé comme 1 pour Réacteur[1] et 0 pour Réacteur [2].
  • Le réacteur numéro 2 est codé 0 pour Réacteur[1] et 1 pour Réacteur [2].
  • Le réacteur numéro 3 est codé -1 pour Réacteur[1] et -1 pour Réacteur [2].

La moyenne de Impureté pour le réacteur 1 est de 0,82 en dessous de la moyenne, et la moyenne de Impureté pour le réacteur 2 est de 0,42 en dessous de la moyenne.

Pourquoi ne rapportons-nous pas de coefficient pour le réacteur 3 ? Il s'avère que, pour les prédicteurs catégoriels à trois niveaux, le dernier niveau est redondant par rapport aux deux premiers niveaux.

L'interprétation des estimations à effet codé est que chaque coefficient est la différence par rapport à la moyenne. Étant donné que la somme de ces coefficients doit être égale à zéro, la moyenne de Impureté pour le réacteur 3 peut être facilement calculé à partir des deux premiers : la moyenne de Impureté pour le réacteur 3 est de 1,24 au-dessus de la moyenne.

En général, pour un prédicteur catégoriel de niveau k, le logiciel calcule les coefficients k-1.

Revenons aux résultats de notre modèle. Les p-les valeurs pour l'ensemble du modèle et les estimations des paramètres sont très faibles, indiquant qu'il existe des différences significatives dans la moyenne Impureté pour les différents réacteurs.

Maintenant, nous allons tout mettre ensemble. Nous adaptons un modèle pour Impureté avec les cinq prédicteurs. Encore une fois, le p-valeur dans le tableau ANOVA indique que l'ensemble du modèle est significatif.

Le tableau Résumé des effets fournit des tests pour l'ensemble des effets. On voit ça Temp, Catalyseur Conc, et Réacteur sont tous significatifs, après ajustement pour les autres termes du modèle.

Pour rappel, voici les résultats de notre modèle avec seulement les trois prédicteurs continus.

L'erreur quadratique moyenne de notre nouveau modèle est plus faible. Et RSquare pour notre nouveau modèle est plus élevé. Ainsi, plus de variation dans Impureté est expliqué par notre modèle.

Cependant, RSquare peut être gonflé en ajoutant plus de termes au modèle, même si ces nouveaux termes ne sont pas significatifs. Ainsi, dans des situations de régression linéaire multiple, nous utilisons RScarré ajusté lors de la comparaison de différents modèles avec les mêmes données au lieu d'utiliser RSquare. RSquare Adjusted applique une pénalité pour chaque terme supplémentaire, p, qui est ajouté au modèle. Si un terme est ajouté au modèle qui n'explique pas la variation de la réponse, RSquare Adjusted diminue.

RSquare Adjusted pour notre nouveau modèle est supérieur à RSquare Adjusted pour notre modèle d'origine. Cela confirme que le nouveau modèle s'adapte mieux que le modèle d'origine.

Mais peut-on faire mieux ? Y a-t-il d'autres termes que nous pouvons ajouter au modèle ? Nous explorons cela dans une prochaine section.


Variables catégorielles à plus de deux niveaux

Généralement, une variable catégorielle à n niveaux sera transformée en n-1 variables à deux niveaux chacune. Ces n-1 nouvelles variables contiennent les mêmes informations que la variable unique. Ce recodage crée une table appelée matrice de contraste.

Par exemple, le classement dans les données sur les salaires a trois niveaux : « AsstProf », « AssocProf » et « Prof ». Cette variable pourrait être codée fictivement en deux variables, l'une appelée AssocProf et l'autre Prof :

  • Si rang = AssocProf, alors la colonne AssocProf serait codée avec un 1 et Prof avec un 0.
  • Si rang = Prof, alors la colonne AssocProf serait codée avec un 0 et Prof serait codée avec un 1.
  • Si rang = AsstProf, alors les deux colonnes "AssocProf" et "Prof" seraient codées avec un 0.

Ce codage factice est automatiquement effectué par R. À des fins de démonstration, vous pouvez utiliser la fonction model.matrix() pour créer une matrice de contraste pour une variable de facteur :

Lors de la construction d'un modèle linéaire, il existe différentes manières d'encoder des variables catégorielles, appelées systèmes de codage de contraste. L'option par défaut dans R est d'utiliser le premier niveau du facteur comme référence et d'interpréter les niveaux restants par rapport à ce niveau.

Notez que l'ANOVA (analyse de la variance) n'est qu'un cas particulier de modèle linéaire où les prédicteurs sont des variables catégorielles. Et, parce que R comprend le fait que l'ANOVA et la régression sont deux exemples de modèles linéaires, il vous permet d'extraire la table ANOVA classique de votre modèle de régression à l'aide de la fonction R base anova() ou de la fonction Anova() [dans le package de voiture]. Nous recommandons généralement la fonction Anova() car elle prend automatiquement en charge les conceptions déséquilibrées.

Les résultats de la prévision du salaire à l'aide d'une procédure de régression multiple sont présentés ci-dessous.

En prenant en compte d'autres variables (années de service, grade et discipline), on constate que la variable catégorielle sexe n'est plus significativement associée à la variation de salaire entre individus. Les variables importantes sont le rang et la discipline.

Si vous souhaitez interpréter les contrastes de la variable catégorielle, tapez ceci :

Par exemple, on constate que le fait d'être issu de la discipline B (départements appliqués) est significativement associé à une augmentation moyenne de 13473,38 du salaire par rapport à la discipline A (départements théoriques).


  1. S'il s'agit d'une question de syntaxe SPSS, la réponse consiste simplement à mettre la variable catégorielle, codée de manière appropriée, dans la liste des variables pour les "variables indépendantes" avec la variable continue.
  2. Sur les statistiques : votre variable catégorielle est-elle binaire ? Si c'est le cas, vous devez utiliser un mannequin ou un autre code de contraste valide. Si ce n'est pas binaire, votre variable catégorique est-elle ordinale ou nominale ? S'il est nominal, encore une fois, vous devez utiliser une stratégie de code contrastée - en effet, modélisant l'impact de chaque niveau de la variable sur le résultat ou la variable « dépendante ». Si la variable catégorielle est ordinale, alors probablement la chose sensée à faire est de l'entrer tel quel dans le modèle, comme vous le feriez avec une variable prédictive continue (c'est-à-dire "indépendante"). Vous supposeriez, dans ce cas, que les incréments entre les niveaux de la variable prédictive catégorielle ("indépendant") ne seront que rarement une erreur, mais quand c'est le cas, vous devez à nouveau utiliser un code de contraste et modéliser l'impact de chaque niveau. Cette question revient assez souvent sur ce forum -- voici une bonne analyse
  3. Comment gérer les données manquantes est, à mon avis, une question complètement distincte. Je crois comprendre que la suppression par paires n'est pas considérée comme une approche valide pour la régression multivariée. Listwise est assez courant, mais peut également biaiser les résultats et c'est certainement dommage. L'imputation multiple est une chose de beauté.

Vous pouvez certainement, en suivant la même méthode que vous utiliseriez pour le premier prédicteur catégoriel. Créez des variables fictives comme vous le feriez pour la première de ces variables. Mais il est souvent plus facile d'utiliser la commande Unianova de SPSS. Vous pouvez rechercher cela dans n'importe quel guide de syntaxe imprimé ou pdf, ou vous pouvez y accéder via Analyze. Modèle linéaire général. Univarié.

Bien qu'elle soit un peu plus compliquée, la commande Régression présente cependant un certain nombre d'avantages par rapport à Unianova. La principale est que vous pouvez choisir "manquant par paire" (vous n'avez pas à perdre un cas simplement parce qu'il manque une valeur pour un ou deux prédicteurs). Vous pouvez également obtenir de nombreux diagnostics précieux tels que des tracés partiels et des statistiques d'influence.

Un moyen simple de transformer des variables catégorielles en un ensemble de variables fictives à utiliser dans des modèles dans SPSS consiste à utiliser la syntaxe do repeat. C'est le plus simple à utiliser si vos variables catégorielles sont dans l'ordre numérique.

Sinon, vous pouvez simplement exécuter un ensemble d'instructions if pour créer vos variables factices. Ma version actuelle (16) n'a pas la capacité native de spécifier automatiquement un ensemble de variables factices dans la commande de régression (comme vous pouvez le faire dans Stata à l'aide de la commande xi) mais je ne serais pas surpris que cela soit disponible dans une version plus récente. Notez également le point 2 de dmk38, ce schéma de codage suppose des catégories nominales. Si votre variable est ordinale, vous pouvez utiliser plus de discrétion.

Je suis également d'accord avec dmk38 et le fait que la régression soit meilleure en raison de sa capacité à spécifier les données manquantes d'une manière particulière est un problème complètement distinct.


3 réponses 3

Peut tu? Sûr. Mais ce sera sans doute moins de travail pour utiliser ANOVA. Mathématiquement, l'ANOVA équivaut à la régression, ce sont des versions du même modèle linéaire général. Les mécanismes varient en fonction du logiciel que vous utilisez, mais la commande d'une interaction (pour montrer les effets associés aux combinaisons de prédicteurs) est plus simple si vous utilisez, par exemple, Age*Academic Discipline dans ANOVA que si vous devez tenir compte des nombreux variables fictives que vous avez créées pour la régression.

Je ne suis pas sûr qu'un simple modèle linéaire gaussien soit pertinent en raison de la nature de la variable dépendante. Il me semble qu'un score de test est une variable "ordinale" (c'est-à-dire une variable discrète avec des catégories ordonnées). Je me pencherais donc sur des méthodes de régression ordinale au lieu d'une simple régression linéaire comme anova. De telles méthodes existent dans tous les logiciels standards.

La réponse à votre question est OUI, vous pouvez appliquer une régression logistique ordinale pour prédire les VD à l'aide des IV catégoriques. Je fais une GRANDE HYPOTHÈSE ici votre DV a 2 intervalles quelque chose comme LOW et HIGH.

Je l'ai utilisé une fois pour prédire les méthodes utilisées pour les méthodes de contraception. J'ai supposé une hypothèse de cotes proportionnelles dans notre modèle. L'astuce n'est pas seulement d'adapter tous les IV dans votre modèle, mais d'identifier les IV qui influencent les DV.

Si vous utilisez le langage R, alors polr peut vous aider. Mais afin d'identifier les IV pertinentes, j'ai utilisé la régression linéaire pour trouver la valeur p pour chaque IV et supprimer les IV qui avaient une valeur p supérieure. Idéalement, la règle que j'ai appliquée était d'éliminer IV un à la fois avec une valeur p élevée, puis d'exécuter à nouveau la régression linéaire jusqu'à ce que vous trouviez tous les IV inférieurs à p < 0,1.

Une fois que j'ai identifié les IV, j'utilise polr

Supposons que vous ayez identifié les IV : IV1 et IV2 et que votre variable de réponse soit DV alors

summary(o_reg) vous donnerait la sortie en unités de logits ordonnés ou en cotes de log ordonnées. Il est légèrement difficile d'interpréter la sortie polr car elle fait une hypothèse sur la relation entre chaque paire de groupes de résultats. Il faut lire la littérature pour le savoir.

Vient ensuite la partie prédiction. Supposons que vous ayez également des données de test (nous avions des données de test), nous avons utilisé la fonction de prédiction dans R pour prédire la probabilité de chaque valeur DV dans votre cas, cela pourrait être P(LOW) et P(HIGH).


Vérification des hypothèses

Il y a quelques hypothèses que les données doivent suivre avant que l'analyse de modération ne soit effectuée :

  • La variable dépendante (Y) doit être mesurée sur une échelle continue (c'est-à-dire qu'il doit s'agir d'une variable d'intervalle ou de rapport).
  • Les données doivent avoir une variable indépendante (X), qui est soit continue (c.-à-d. une variable d'intervalle ou de rapport) ou catégorielle (c.
  • Les résidus ne doivent pas être autocorrélés. Cela peut être vérifié en utilisant le test de Durbin-Watson dans R.
  • Cela va sans dire, il doit y avoir une relation linéaire entre la variable dépendante (Y) et la variable indépendante (X). Il existe plusieurs façons de vérifier les relations linéaires, comme la création d'un nuage de points.
  • Les données doivent montrer l'homoscédasticité. Cette hypothèse signifie que la variance autour de la droite de régression est à peu près la même pour toutes les combinaisons de variables indépendantes (X) et modératrices (M).
  • Les données ne doivent pas présenter de multicolinéarité au sein des variables indépendantes (X). Cela se produit généralement lorsque deux variables indépendantes ou plus sont fortement corrélées les unes aux autres. Cela peut être interprété visuellement en traçant une carte thermique.
  • Idéalement, les données ne devraient pas avoir de valeurs aberrantes significatives, de points très influents ou de nombreuses valeurs NULL. Les points très influents peuvent être détectés en utilisant les résidus studentisés.
  • La dernière hypothèse est de vérifier si les erreurs résiduelles sont approximativement normalement distribuées.

3.2 Exécutez vos modèles de régression

Utilisation fonction lm() pour exécuter le modèle avec et sans interaction

Utilisez stargazer() pour visualiser vos résultats

Variable dépendante:
GPA
Effets principaux Interaction
(1) (2)
Constant 1.540 *** 1.539 ***
(0.063) (0.063)
Ethique.du.travail.C 0.136 ** 0.175 **
(0.060) (0.081)
Sexe.FFemelle 0.570 *** 0.570 ***
(0.087) (0.087)
Éthique.du.travail.C:Genre.Femelle -0.087
(0.122)
Observations 250 250
R2 0.161 0.163
R2 ajusté 0.154 0.153
Résiduel Std. Erreur 0,685 (df = 247) 0,686 (df = 246)
F Statistique 23,740 *** (df = 2 247) 15,965 *** (df = 3 246)
Noter: p<0.1 p<0.05 p<0.01

Passons directement à la création de notre interaction !

Gardez à l'esprit que nous avons déjà transformé le genre en facteur avec des niveaux étiquetés, nous pouvons donc nous référer aux noms réels des niveaux (au lieu de nombres)

#### Interprétation du graphique d'interaction continue x catégorielle Comme vous pouvez le voir, il n'y a pas beaucoup d'interaction, ce à quoi nous nous attendrions après avoir vu que notre effet d'interaction était insignifiant.


Procédures SPSS pour la régression logistique

SPSS dispose d'un certain nombre de procédures pour exécuter la régression logistique.

Certains types de régression logistique peuvent être exécutés dans plusieurs procédures. Pour une raison inconnue, certaines procédures produisent une sortie, d'autres n'en produisent pas. Il est donc utile de pouvoir en utiliser plusieurs.

Régression logistique

Régression logistique ne peut être utilisé que pour les variables dépendantes binaires. Il peut être invoqué en utilisant les choix de menu à droite ou via la commande de syntaxe REGRESSION LOGISTIQUE.

La variable dépendante doit n'ont que deux valeurs. Si vous spécifiez une variable avec plus de deux, vous obtiendrez une erreur.

Un gros avantage de cette procédure est qu'elle vous permet de construire des modèles successifs en entrant un groupe de prédicteurs à la fois.

VARIABLES DE REGRESSION LOGISTIQUE BinaryDV
/METHOD=ENTER Covariable de facteur1
/METHODE=ENTRER Covariable2 Covariable3
/CONTRASTE (Facteur)=Indicateur.

Ainsi, par exemple, en utilisant cette syntaxe, j'exécute en fait simultanément deux modèles, l'un avec seulement deux variables indépendantes, (intelligemment) nommé Facteur et Covariable1.

Le deuxième modèle a quatre variables indépendantes : Facteur, Covariable1, Covariable2, et Covariable3.

C'est ce qu'on appelle la « régression hiérarchique » (à ne pas confondre avec les modèles linéaires hiérarchiques ou HLM), et permet une comparaison facile de la façon dont l'ajustement du modèle et les coefficients changent à mesure que les prédicteurs sont ajoutés.

Les Régression logistique La commande est invoquée via les menus sous Régression–>Binary Logistic, comme indiqué ci-dessus. (Mais n'oubliez pas de Pâte votre syntaxe, vous avez donc une trace de ce que vous avez fait) !

PRUNE signifie modèle universel polytomisé. C'est une bouchée, mais cela se résume en réalité à des modèles de résultats catégoriels avec plus de deux catégories ordonnées.

Si vos catégories de résultats ne sont pas classées, n'utilisez pas PRUNE. Il n'y a aucun moyen de lui dire que les catégories ne sont pas ordonnées, et il les mettra dans un ordre logique.

PLUM OrdinalDV PAR Facteur AVEC Covariable
/LINK=LOGIT
/PRINT=RÉSUMÉ DES PARAMÈTRES D'AJUSTEMENT.

Les modèles de régression logistique sont un type de modèle linéaire généralisé. PRUNE peut en fait s'adapter à 5 types de modèles linéaires généralisés pour les résultats ordinaux, y compris les modèles probit et log-log complémentaires.

La commande LINK=logit spécifie le modèle logistique.

Les modèles de régression logistique dans PLUM sont des modèles à cotes proportionnelles. Cela signifie que les probabilités qu'il modélise sont pour chaque catégorie ordonnée par rapport à toutes les catégories inférieures, et que le rapport de cotes est le même, que vous compariez la catégorie 4 à 3 et moins ou la catégorie 3 à 2 et moins.

PRUNE a une bonne option pour vérifier si cette hypothèse est raisonnable. Dans de nombreux ensembles de données, ce n'est pas le cas, alors vérifiez-le toujours.

PRUNE est invoqué via les menus sous Régression–>Ordinal, comme vu ci-dessus.

NomReg

NomReg correspond aux modèles de régression logistique multinomiale pour les résultats nominaux. Cela signifie des résultats avec plus de deux catégories non ordonnées.

Contrairement aux modèles binaires et ordonnés, les modèles multinomiaux ne peuvent pas non plus être exécutés dans GenLin (voir ci-dessous).

NOMREG MultinomialDV (BASE=DERNIER ORDRE=ASCENDANT) PAR Facteur AVEC Covariable
/MODÈLE=Covariable de facteur
/INTERCEPTER=INCLURE
/PRINT=RÉSUMÉ DES PARAMÈTRES LRT CPS STEP MFI.

Les modèles de régression logistique multinomiale exécutent simultanément une série de modèles binaires, dont chacun compare les chances d'une catégorie de résultats à une catégorie de référence.

Une fonctionnalité intéressante dans NomReg est que vous pouvez spécifier l'une des catégories de résultats comme référence en utilisant l'option BASE= (ou en cliquant sur le bouton “Reference Category” dans les menus).

Comme dans PLUM et de nombreuses autres procédures SPSS (comme GLM et Mixed), dans NomReg, vous pouvez spécifier des prédicteurs comme catégoriels en les plaçant après l'option BY (ou dans la zone Facteur dans la boîte de dialogue du menu) ou comme continus en les plaçant après le AVEC l'option (ou dans la case Covariables de la boîte de dialogue de menu).

Cela peut vous faire gagner beaucoup de temps en créant des variables fictives pour les prédicteurs catégoriels.

GenLin

Comme mentionné ci-dessus, les modèles de régression logistique sont un type de modèle linéaire généralisé.

Cela signifie que vous pouvez utiliser le GenLin procédure pour exécuter des modèles de régression logistique binaire et ordinal. Cependant, il n'exécute pas de modèles multinomiaux non ordonnés.

GenLin peut exécuter beaucoup plus de modèles que simplement logistique. Cela nécessite donc que vous spécifiiez la distribution des résultats comme binomiale ou multinomiale (pour laquelle il exécutera un modèle ordinal) et une fonction de lien logit.

GENLIN BinaryDV (REFERENCE=LAST) BY Factor (ORDER=ASCENDING) AVEC Covariable
/MODÈLE Facteur Covariable Facteur*Covariable INTERCEPT=OUI
DISTRIBUTION=LIEN BINOMIAL=LOGIT
/IMPRIMER CPS DESCRIPTIFS INFO MODÈLE FIT RÉSUMÉ SOLUTION.

Si vous pouviez utiliser Logistic ou PLUM, pourquoi utiliseriez-vous GenLin ?

GenLin a quelques avantages dans certaines situations. En voici trois que j'utilise couramment.

1. GenLin peut exécuter des modèles binaires au format Events/Trials. La logistique ne peut pas.

2. GenLin imprime les EMMeans à la fois dans l'échelle d'origine (c'est-à-dire les probabilités) et dans l'échelle transformée (log-odds).

C'est un énorme avantage si vous avez des prédicteurs catégoriques. Un ou deux prédicteurs catégoriels ne sont pas difficiles à interpréter à l'aide des coefficients de régression, mais si vous en avez plusieurs, s'ils ont plusieurs catégories par prédicteur, ou si vous avez des interactions entre eux, les moyennes sont beaucoup plus faciles à interpréter.

3. GenLin peut exécuter des modèles de mesures répétées à l'aide d'équations d'estimation généralisées. Encore une fois, ce n'est pas seulement un avantage, mais une nécessité, si vous avez une conception à mesures répétées.


Régression logistique multinomiale à l'aide de SPSS Statistics

La régression logistique multinomiale (souvent simplement appelée « régression multinomiale ») est utilisée pour prédire une variable dépendante nominale étant donné une ou plusieurs variables indépendantes. Il est parfois considéré comme une extension de la régression logistique binomiale pour permettre une variable dépendante avec plus de deux catégories. Comme avec d'autres types de régression, la régression logistique multinomiale peut avoir des variables indépendantes nominales et/ou continues et peut avoir des interactions entre les variables indépendantes pour prédire la variable dépendante.

Par exemple, vous pouvez utiliser une régression logistique multinomiale pour comprendre quel type de boisson les consommateurs préfèrent en fonction de l'emplacement au Royaume-Uni et de l'âge (c'est-à-dire que la variable dépendante serait « type de boisson », avec quatre catégories : café, boisson non alcoolisée, thé et L'eau &ndash et vos variables indépendantes seraient la variable nominale, "emplacement au Royaume-Uni", évaluée à l'aide de trois catégories &ndash Londres, sud du Royaume-Uni et nord du Royaume-Uni &ndash et la variable continue, "âge", mesurée en années). Alternativement, vous pouvez utiliser la régression logistique multinomiale pour comprendre si des facteurs tels que la durée de l'emploi au sein de l'entreprise, la durée totale de l'emploi, les qualifications et le sexe affectent le poste d'une personne (c'est-à-dire que la variable dépendante serait « poste d'emploi », avec trois catégories &ndash junior management, middle management et senior management &ndash et les variables indépendantes seraient les variables continues, "durée d'emploi au sein de l'entreprise" et "durée totale d'emploi", toutes deux mesurées en années, les variables nominales, "qualifications", avec quatre catégories &ndash non diplôme, diplôme de premier cycle, maîtrise et doctorat &ndash « genre », qui comporte deux catégories : « hommes » et « femmes »).

Ce guide de "démarrage rapide" vous montre comment effectuer une régression logistique multinomiale à l'aide de SPSS Statistics et explique certains des tableaux générés par SPSS Statistics. Cependant, avant de vous présenter cette procédure, vous devez comprendre les différentes hypothèses auxquelles vos données doivent répondre pour qu'une régression logistique multinomiale vous donne un résultat valide. Nous discutons ensuite de ces hypothèses.

Remarque : Nous n'avons actuellement pas de version premium de ce guide dans la partie abonnement de notre site Web. Si vous souhaitez que nous ajoutions une version premium de ce guide, veuillez nous contacter.

Statistiques SPSS

Régression linéaire multiple avec prédicteurs catégoriels

Auparavant, nous avons adapté un modèle pour Impureté avec Temp, Catalyseur Conc, et Temps de réaction comme prédicteurs. Mais il y a deux autres prédicteurs que nous pourrions considérer : Réacteur et Décalage. Réacteur est une variable catégorielle à trois niveaux, et Décalage est une variable catégorielle à deux niveaux. Comment pouvons-nous étendre notre modèle pour étudier les différences de Impureté entre les deux équipes, ou entre les trois réacteurs ? Pour intégrer une variable catégorielle à deux niveaux dans un modèle de régression, nous créons un indicateur ou une variable muette avec deux valeurs : attribuer un 1 pour le premier quart de travail et -1 pour le deuxième quart de travail.

Considérez les données des 10 premières observations. Dans les coulisses, lorsque nous adaptons un modèle avec Décalage, le logiciel substitue un 1 pour la première équipe et un -1 pour la deuxième équipe.

Pour un modèle avec Décalage comme seul prédicteur, l'interception est la moyenne globale Impureté. Le coefficient de Décalage, écrit Maj[1], est de -0,012. C'est le montant que le premier quart de travail est en dessous de la moyenne Impureté.

La moyenne Impureté pour le premier quart, alors, est l'interception moins 0,012, ou 6,111. La moyenne Impureté pour le deuxième décalage est l'interception plus 0,012, ou 6,135.

Cependant, le p-valeur est très grande. Cette différence n'est donc pas significative.

Notez qu'au lieu d'utiliser le codage à effet -1/1, de nombreux logiciels appliquent un codage fictif 0/1 : en attribuant un 0 pour le premier quart et un 1 pour le deuxième quart.

Le coefficient résultant pour Maj[1] est la différence dans la moyenne de Impureté entre le premier et le deuxième quart de travail. Ainsi, la moyenne Impureté pour le premier quart est de 0,024 inférieur à la moyenne Impureté pour le deuxième quart de travail.

Il est important de noter que ces deux schémas de codage aboutissent aux mêmes prédictions de modèle. Mais, d'un point de vue explicatif, l'interprétation des coefficients est différente. Tournons notre attention vers la variable Réacteur, qui comporte trois niveaux. Dans ce cas, le modèle de régression comprend deux variables indicatrices, avec des coefficients pour le réacteur 1 et le réacteur 2. Encore une fois, nous pouvons appliquer soit un codage d'effet, soit un codage fictif.

Ici, le codage d'effet est appliqué :

  • Le réacteur numéro 1 est codé comme 1 pour Réacteur[1] et 0 pour Réacteur [2].
  • Le réacteur numéro 2 est codé 0 pour Réacteur[1] et 1 pour Réacteur [2].
  • Le réacteur numéro 3 est codé -1 pour Réacteur[1] et -1 pour Réacteur [2].

La moyenne de Impureté pour le réacteur 1 est de 0,82 en dessous de la moyenne, et la moyenne de Impureté pour le réacteur 2 est de 0,42 en dessous de la moyenne.

Pourquoi ne rapportons-nous pas de coefficient pour le réacteur 3 ? Il s'avère que, pour les prédicteurs catégoriels à trois niveaux, le dernier niveau est redondant par rapport aux deux premiers niveaux.

L'interprétation des estimations à effet codé est que chaque coefficient est la différence par rapport à la moyenne. Étant donné que la somme de ces coefficients doit être égale à zéro, la moyenne de Impureté pour le réacteur 3 peut être facilement calculé à partir des deux premiers : la moyenne de Impureté pour le réacteur 3 est de 1,24 au-dessus de la moyenne.

En général, pour un prédicteur catégoriel de niveau k, le logiciel calcule les coefficients k-1.

Revenons aux résultats de notre modèle. Les p-les valeurs pour l'ensemble du modèle et les estimations des paramètres sont très faibles, indiquant qu'il existe des différences significatives dans la moyenne Impureté pour les différents réacteurs.

Maintenant, nous allons tout mettre ensemble. Nous adaptons un modèle pour Impureté avec les cinq prédicteurs. Encore une fois, le p-valeur dans le tableau ANOVA indique que l'ensemble du modèle est significatif.

Le tableau Résumé des effets fournit des tests pour l'ensemble des effets. On voit ça Temp, Catalyseur Conc, et Réacteur sont tous significatifs, après ajustement pour les autres termes du modèle.

Pour rappel, voici les résultats de notre modèle avec seulement les trois prédicteurs continus.

L'erreur quadratique moyenne de notre nouveau modèle est plus faible. Et RSquare pour notre nouveau modèle est plus élevé. Ainsi, plus de variation dans Impureté est expliqué par notre modèle.

Cependant, RSquare peut être gonflé en ajoutant plus de termes au modèle, même si ces nouveaux termes ne sont pas significatifs. Ainsi, dans des situations de régression linéaire multiple, nous utilisons RScarré ajusté lors de la comparaison de différents modèles avec les mêmes données au lieu d'utiliser RSquare. RSquare Adjusted applique une pénalité pour chaque terme supplémentaire, p, qui est ajouté au modèle. Si un terme est ajouté au modèle qui n'explique pas la variation de la réponse, RSquare Adjusted diminue.

RSquare Adjusted pour notre nouveau modèle est supérieur à RSquare Adjusted pour notre modèle d'origine. Cela confirme que le nouveau modèle s'adapte mieux que le modèle d'origine.

Mais peut-on faire mieux ? Y a-t-il d'autres termes que nous pouvons ajouter au modèle ? Nous explorons cela dans une prochaine section.


Variables catégorielles à plus de deux niveaux

Généralement, une variable catégorielle à n niveaux sera transformée en n-1 variables à deux niveaux chacune. Ces n-1 nouvelles variables contiennent les mêmes informations que la variable unique. Ce recodage crée une table appelée matrice de contraste.

Par exemple, le classement dans les données sur les salaires a trois niveaux : « AsstProf », « AssocProf » et « Prof ». Cette variable pourrait être codée fictivement en deux variables, l'une appelée AssocProf et l'autre Prof :

  • Si rang = AssocProf, alors la colonne AssocProf serait codée avec un 1 et Prof avec un 0.
  • Si rang = Prof, alors la colonne AssocProf serait codée avec un 0 et Prof serait codée avec un 1.
  • Si rang = AsstProf, alors les deux colonnes "AssocProf" et "Prof" seraient codées avec un 0.

Ce codage factice est automatiquement effectué par R. À des fins de démonstration, vous pouvez utiliser la fonction model.matrix() pour créer une matrice de contraste pour une variable de facteur :

Lors de la construction d'un modèle linéaire, il existe différentes manières d'encoder des variables catégorielles, appelées systèmes de codage de contraste. L'option par défaut dans R est d'utiliser le premier niveau du facteur comme référence et d'interpréter les niveaux restants par rapport à ce niveau.

Notez que l'ANOVA (analyse de la variance) n'est qu'un cas particulier de modèle linéaire où les prédicteurs sont des variables catégorielles. Et, parce que R comprend le fait que l'ANOVA et la régression sont deux exemples de modèles linéaires, il vous permet d'extraire la table ANOVA classique de votre modèle de régression à l'aide de la fonction R base anova() ou de la fonction Anova() [dans le package de voiture]. Nous recommandons généralement la fonction Anova() car elle prend automatiquement en charge les conceptions déséquilibrées.

Les résultats de la prévision du salaire à l'aide d'une procédure de régression multiple sont présentés ci-dessous.

En prenant en compte d'autres variables (années de service, grade et discipline), on constate que la variable catégorielle sexe n'est plus significativement associée à la variation de salaire entre individus. Les variables importantes sont le rang et la discipline.

Si vous souhaitez interpréter les contrastes de la variable catégorielle, tapez ceci :

Par exemple, on constate que le fait d'être issu de la discipline B (départements appliqués) est significativement associé à une augmentation moyenne de 13473,38 du salaire par rapport à la discipline A (départements théoriques).


Procédures SPSS pour la régression logistique

SPSS dispose d'un certain nombre de procédures pour exécuter la régression logistique.

Certains types de régression logistique peuvent être exécutés dans plusieurs procédures. Pour une raison inconnue, certaines procédures produisent une sortie, d'autres n'en produisent pas. Il est donc utile de pouvoir en utiliser plusieurs.

Régression logistique

Régression logistique ne peut être utilisé que pour les variables dépendantes binaires. Il peut être invoqué en utilisant les choix de menu à droite ou via la commande de syntaxe REGRESSION LOGISTIQUE.

La variable dépendante doit n'ont que deux valeurs. Si vous spécifiez une variable avec plus de deux, vous obtiendrez une erreur.

Un gros avantage de cette procédure est qu'elle vous permet de construire des modèles successifs en entrant un groupe de prédicteurs à la fois.

VARIABLES DE REGRESSION LOGISTIQUE BinaryDV
/METHOD=ENTER Covariable de facteur1
/METHODE=ENTRER Covariable2 Covariable3
/CONTRASTE (Facteur)=Indicateur.

Ainsi, par exemple, en utilisant cette syntaxe, j'exécute en fait simultanément deux modèles, l'un avec seulement deux variables indépendantes, (intelligemment) nommé Facteur et Covariable1.

Le deuxième modèle a quatre variables indépendantes : Facteur, Covariable1, Covariable2, et Covariable3.

C'est ce qu'on appelle la « régression hiérarchique » (à ne pas confondre avec les modèles linéaires hiérarchiques ou HLM), et permet une comparaison facile de la façon dont l'ajustement du modèle et les coefficients changent à mesure que les prédicteurs sont ajoutés.

Les Régression logistique La commande est invoquée via les menus sous Régression–>Binary Logistic, comme indiqué ci-dessus. (Mais n'oubliez pas de Pâte votre syntaxe, vous avez donc une trace de ce que vous avez fait) !

PRUNE signifie modèle universel polytomisé. C'est une bouchée, mais cela se résume en réalité à des modèles de résultats catégoriels avec plus de deux catégories ordonnées.

Si vos catégories de résultats ne sont pas classées, n'utilisez pas PRUNE. Il n'y a aucun moyen de lui dire que les catégories ne sont pas ordonnées, et il les mettra dans un ordre logique.

PLUM OrdinalDV PAR Facteur AVEC Covariable
/LINK=LOGIT
/PRINT=RÉSUMÉ DES PARAMÈTRES D'AJUSTEMENT.

Les modèles de régression logistique sont un type de modèle linéaire généralisé. PRUNE peut en fait s'adapter à 5 types de modèles linéaires généralisés pour les résultats ordinaux, y compris les modèles probit et log-log complémentaires.

La commande LINK=logit spécifie le modèle logistique.

Les modèles de régression logistique dans PLUM sont des modèles à cotes proportionnelles. Cela signifie que les probabilités qu'il modélise sont pour chaque catégorie ordonnée par rapport à toutes les catégories inférieures, et que le rapport de cotes est le même, que vous compariez la catégorie 4 à 3 et moins ou la catégorie 3 à 2 et moins.

PRUNE a une bonne option pour vérifier si cette hypothèse est raisonnable. Dans de nombreux ensembles de données, ce n'est pas le cas, alors vérifiez-le toujours.

PRUNE est invoqué via les menus sous Régression–>Ordinal, comme vu ci-dessus.

NomReg

NomReg correspond aux modèles de régression logistique multinomiale pour les résultats nominaux. Cela signifie des résultats avec plus de deux catégories non ordonnées.

Contrairement aux modèles binaires et ordonnés, les modèles multinomiaux ne peuvent pas non plus être exécutés dans GenLin (voir ci-dessous).

NOMREG MultinomialDV (BASE=DERNIER ORDRE=ASCENDANT) PAR Facteur AVEC Covariable
/MODÈLE=Covariable de facteur
/INTERCEPTER=INCLURE
/PRINT=RÉSUMÉ DES PARAMÈTRES LRT CPS STEP MFI.

Les modèles de régression logistique multinomiale exécutent simultanément une série de modèles binaires, dont chacun compare les chances d'une catégorie de résultats à une catégorie de référence.

Une fonctionnalité intéressante dans NomReg est que vous pouvez spécifier l'une des catégories de résultats comme référence en utilisant l'option BASE= (ou en cliquant sur le bouton “Reference Category” dans les menus).

Comme dans PLUM et de nombreuses autres procédures SPSS (comme GLM et Mixed), dans NomReg, vous pouvez spécifier des prédicteurs comme catégoriels en les plaçant après l'option BY (ou dans la zone Facteur dans la boîte de dialogue du menu) ou comme continus en les plaçant après le AVEC l'option (ou dans la case Covariables de la boîte de dialogue de menu).

Cela peut vous faire gagner beaucoup de temps en créant des variables fictives pour les prédicteurs catégoriels.

GenLin

Comme mentionné ci-dessus, les modèles de régression logistique sont un type de modèle linéaire généralisé.

Cela signifie que vous pouvez utiliser le GenLin procédure pour exécuter des modèles de régression logistique binaire et ordinale. Cependant, il n'exécute pas de modèles multinomiaux non ordonnés.

GenLin peut exécuter beaucoup plus de modèles que simplement logistique. Cela nécessite donc que vous spécifiiez la distribution des résultats comme binomiale ou multinomiale (pour laquelle il exécutera un modèle ordinal) et une fonction de lien logit.

GENLIN BinaryDV (REFERENCE=LAST) BY Factor (ORDER=ASCENDING) AVEC Covariable
/MODÈLE Facteur Covariable Facteur*Covariable INTERCEPT=OUI
DISTRIBUTION=LIEN BINOMIAL=LOGIT
/IMPRIMER CPS DESCRIPTIFS INFO MODÈLE FIT RÉSUMÉ SOLUTION.

Si vous pouviez utiliser Logistic ou PLUM, pourquoi utiliseriez-vous GenLin ?

GenLin présente quelques avantages dans certaines situations. En voici trois que j'utilise couramment.

1. GenLin peut exécuter des modèles binaires au format Events/Trials. La logistique ne peut pas.

2. GenLin imprime les EMMeans à la fois dans l'échelle d'origine (c'est-à-dire les probabilités) et dans l'échelle transformée (log-odds).

C'est un énorme avantage si vous avez des prédicteurs catégoriques. Un ou deux prédicteurs catégoriels ne sont pas difficiles à interpréter à l'aide des coefficients de régression, mais si vous en avez plusieurs, s'ils ont plusieurs catégories par prédicteur, ou si vous avez des interactions entre eux, les moyennes sont beaucoup plus faciles à interpréter.

3. GenLin peut exécuter des modèles de mesures répétées à l'aide d'équations d'estimation généralisées. Encore une fois, ce n'est pas seulement un avantage, mais une nécessité, si vous avez une conception à mesures répétées.


Comment exécuter une régression hiérarchique multiple avec des prédicteurs catégoriques et d'échelle dans SPSS ? - Psychologie

Dans ce guide, vous apprendrez à estimer un modèle de régression multiple avec interactions dans SPSS à l'aide d'un exemple pratique pour illustrer le processus. Les lecteurs reçoivent des liens vers l'exemple de jeu de données et sont encouragés à reproduire cet exemple. Un exemple pratique supplémentaire est suggéré à la fin de ce guide. L'exemple suppose que vous avez déjà ouvert le fichier de données dans SPSS.

L'interaction décrit un type particulier de relation non linéaire, où l'"effet" d'une variable indépendante sur la variable dépendante diffère selon les différentes valeurs d'une autre variable indépendante dans le modèle. Dans un modèle de régression multiple à « effets principaux », une variable dépendante (ou réponse) est exprimée sous la forme d'une fonction linéaire de deux ou plusieurs variables indépendantes (ou explicatives). Cela nécessite l'estimation d'une interception (souvent appelée constante) et d'une pente pour chaque variable indépendante qui décrit le changement de la variable dépendante pour une augmentation d'une unité de la variable indépendante. La plupart de l'attention se concentre sur les estimations de la pente car elles capturent la relation entre les variables dépendantes et indépendantes. Dans un modèle incluant un terme d'interaction, les estimations de pente ne peuvent pas être interprétées de la même manière, car elles sont désormais conditionnelles à d'autres valeurs. L'accent est plutôt mis sur la différence de pentes qui est décrite par le coefficient d'interaction. Dans un modèle de régression linéaire, les variables dépendantes doivent être continues. Une interaction peut se produire entre des variables indépendantes catégoriques ou continues et entre plusieurs variables indépendantes.Cet exemple se concentrera sur les interactions entre une paire de variables qui sont de nature catégorique et continue. C'est ce qu'on appelle une interaction bidirectionnelle. Il est possible d'avoir des interactions à trois voies ou plus, mais nous nous concentrons sur le cas à deux voies pour faciliter l'explication.

Cet exemple utilise trois variables d'un sous-ensemble de l'Enquête sociale européenne (2016) :

  • Score sur une échelle mesurant à quel point les répondants britanniques pensent que l'immigration est bénéfique pour la Grande-Bretagne (immigration)
  • Score sur une échelle mesurant la force d'importance que le répondant a attribuée aux valeurs de conformité par rapport à neuf autres valeurs humaines de base (conformité)
  • Si le répondant a voté lors de la dernière élection nationale ou non (électeur)

La variable de score pour l'immigration a été construite à l'aide d'une échelle sommative d'éléments d'enquête sélectionnés, testée pour la cohérence interne. La conformité de la variable a été compilée à l'aide d'items identifiés par l'Enquête sociale européenne comme se rapportant à cette valeur. Le score moyen d'un individu sur tous les éléments de valeurs humaines a été soustrait de son score moyen sur les éléments relatifs au concept en question, identifiant ainsi la priorité accordée à cette valeur particulière par rapport aux autres. Les deux variables sont centrées sur la moyenne. Ils peuvent tous être considérés comme continus, avec des moyennes d'environ zéro et une plage approximative d'environ 𕒶.0 à +2,0 pour l'immigration et 𕒷 à + 3 pour la conformité. Un score élevé signifie des sentiments positifs envers l'immigration et une importance relative élevée accordée aux valeurs de conformité. électeur est une variable catégorielle binaire codée 1 si le répondant a voté lors de la dernière élection et codé 0 s'il ne l'a pas fait.

Lorsqu'on effectue une régression multiple avec interactions, il est souvent sage d'examiner d'abord chaque variable isolément. Cela peut être fait dans SPSS en sélectionnant dans le menu :

Analyser → Statistiques descriptives → Explorer

Dans la boîte de dialogue “Explore” qui s'ouvre, déplacez les variables d'immigration et de conformité dans la zone “Dependent List :”. Sur la droite, cliquez sur le bouton “Plots”. Cela ouvre une autre boîte de dialogue dans laquelle vous pouvez sélectionner les tracés que vous souhaitez produire. Pour cet exemple, cochez simplement “Histogram” sous le titre Descriptif. Cliquez sur Continuer pour revenir à la boîte de dialogue précédente, puis cliquez sur OK pour effectuer l'analyse.

Nous devrions également produire une distribution de fréquence de la variable votant. Cela se fait dans SPSS en sélectionnant les options de menu suivantes :

Analyser les → Statistiques Descriptives → Fréquences

Dans la boîte de dialogue qui s'ouvre, déplacez la variable de vote dans la zone “Variable(s)” et cliquez sur OK .

Des captures d'écran de la procédure de production d'histogrammes dans SPSS sont disponibles dans la rubrique « How to Guides for the Dispersion of a Continuous Variables » qui fait partie des ensembles de données SAGE Research Methods. Lors de l'estimation d'un modèle de régression incluant les interactions, nous estimons d'abord un modèle de régression multiple à effets principaux. Pour nous assurer que nous pouvons comparer les deux modèles, nous répertorions les variables indépendantes des deux modèles dans deux blocs distincts avant d'exécuter l'analyse. Cela fournit des estimations pour les deux modèles et un test de signification de la différence entre les valeurs R au carré.

Vous estimez un modèle de régression multiple dans SPSS en sélectionnant dans le menu :

Analyser → Régression → Linéaire

Dans la boîte de dialogue “Linear Regression” qui s'ouvre, déplacez la variable dépendante immigration dans la fenêtre “Dependent :” et déplacez les deux variables indépendantes, compliance et voter dans la “Independent(s) :” la fenêtre. La figure 1 montre à quoi cela ressemble dans SPSS.

Pour estimer un modèle de régression avec interactions, nous devons créer une nouvelle variable qui est le produit des deux variables indépendantes. Pour ce faire, sélectionnez les options de menu suivantes :

Transformer → Calculer la variable

Dans la boîte de dialogue “Calculer la variable” qui s'ouvre, sélectionnez un nom pour la nouvelle variable. Dans ce cas, nous appelons la variable confvote . Dans la case « Expression numérique » 8221, sélectionnez la conformité et multipliez-la par l'électeur, comme le montre la figure 2.

De retour à la boîte de dialogue Régression linéaire, sélectionnez “Suivant” au-dessus de la zone de variable “Indépendant(s)”. La variable dépendante immigration apparaîtra toujours dans la case de la variable dépendante. Pour le modèle incluant un terme d'interaction, ajoutez la nouvelle variable confvote comme illustré à la figure 3.

Sélectionnez “Statistiques” dans les options à droite de la zone de texte. Cela ouvre la case « Régression linéaire : Statistiques » comme illustré à la figure 4. Cochez la case à côté de « Modification au carré R » et appuyez sur Continuer pour revenir à la boîte de dialogue précédente.

Ensuite, sélectionnez “Enregistrer” dans les options sur le côté droit. Dans la boîte de dialogue “Linear Regression:Save” qui s'ouvre, cochez “Unstandardized” dans la section “Predicted Values” comme illustré à la Figure 5. (Notez que si vous souhaitez calculer les valeurs prédites à partir du modèle des effets principaux ainsi que le modèle d'interaction, vous devez sélectionner cette option et exécuter l'analyse pour le premier modèle avant de sélectionner les variables pour le deuxième modèle. Sinon, SPSS ne produira que des valeurs prédites pour le modèle, y compris un terme d'interaction.)

Appuyez sur OK pour lancer l'analyse.

Les figures 6 et 7 présentent des histogrammes pour les deux variables continues.

La figure 6 montre une distribution à peu près normale, avec un pic aux valeurs les plus basses. Dans l'ensemble, il y a peu de raisons de s'inquiéter quant à la pertinence de la variable à inclure.

La figure 7 montre une distribution très légèrement biaisée négativement, avec un pic de valeurs juste au-dessus de la moyenne, mais suffisamment proche de la normale pour ne pas susciter de préoccupation.

La distribution de fréquence de la variable votant à la figure 8 montre que 71,5 % des répondants ont voté lors de la dernière élection comparativement à 28,5 % des répondants qui ne l'ont pas fait.

Il est également utile d'explorer la corrélation possible entre vos variables indépendantes. Dans ce cas, le coefficient de corrélation de Pearson entre l'électeur et la conformité est de 0,07, ce qui est faible. Nous sommes donc peu préoccupés par la multicolinéarité influençant cette analyse de régression.

Les figures 9 et 10 présentent un certain nombre de tableaux de résultats pour les deux modèles qui sont produits par la procédure de régression multiple dans SPSS.

Les trois premiers tableaux de la figure 9 présentent les variables indépendantes saisies dans le modèle 1 (le modèle des effets principaux) et le modèle 2 (le modèle incluant un terme d'interaction), quelques statistiques d'ajustement sommaires pour les modèles de régression et une analyse de la variance pour les deux modèles. dans son ensemble. Bien que l'examen détaillé de ces tableaux dépasse le cadre de cet exemple, nous notons que la valeur R au carré dans le deuxième tableau mesure la proportion de la variance dans la variable dépendante qui est expliquée par le modèle. Un de 0,037 pour le modèle des effets principaux signifie que seulement 3,7 % environ de la variance des attitudes à l'égard de l'immigration est expliquée par les deux variables indépendantes. Un chercheur appliqué pourrait vouloir développer un modèle avec plus de variables explicatives pour mieux comprendre les bases des attitudes envers les avantages de l'immigration dans le pays. Notons que pour le deuxième modèle, qui inclut un terme d'interaction, le est de 0,04, seulement très légèrement supérieur au premier modèle. Les statistiques de changement dans les tableaux récapitulatifs des modèles rapportent les résultats d'un test F qui teste si la différence entre le du modèle à effets principaux et le du modèle d'interaction est égale à zéro. Les résultats montrent une valeur de 5,824 et une valeur p associée de 0,016. On peut donc rejeter l'hypothèse nulle et conclure à l'existence d'un effet d'interaction entre les valeurs de conformité et de vote. Cependant, dans ce cas, l'interaction n'explique pas beaucoup plus la variance et un chercheur pourrait décider de l'exclure par souci de parcimonie.

Le tableau du haut de la figure 10 présente les estimations de l'interception, ou constante ( _cons ), et les coefficients de pente pour les deux modèles. En examinant tout d'abord le modèle 1, les résultats indiquent une estimation de l'interception, ou constante, égale à environ −.19. La constante d'un modèle de régression multiple peut être interprétée comme la valeur moyenne attendue de la variable dépendante lorsque toutes les variables indépendantes sont égales à zéro. Dans ce cas, comme la variable indépendante continue a une moyenne d'environ zéro et la variable binaire a une valeur de zéro, la constante nous donne le score d'immigration attendu pour les répondants qui donnent des niveaux moyens de priorité aux valeurs de conformité et qui n'ont pas voté. Les chercheurs n'ont pas souvent de prédictions basées sur l'interception, il reçoit donc souvent peu d'attention, bien que là où zéro est une valeur significative "dans l'échantillon" alors cela peut être utile.

La valeur estimée du coefficient de pente partielle reliant les attitudes envers l'immigration aux valeurs de conformité est d'environ −.15. Cela représente l'effet marginal moyen des valeurs de conformité sur les attitudes d'immigration et peut être interprété comme le changement attendu de la variable dépendante en moyenne pour une augmentation d'une unité de la variable indépendante, en contrôlant si quelqu'un a voté ou non. Dans ce modèle, le coefficient exprime l'association unique de cette variable sur la variable dépendante de sorte que chaque augmentation du score de conformité d'un point est associée à une augmentation du score d'attitude envers l'immigration d'environ −.15, en contrôlant si quelqu'un voté. Le coefficient est statistiquement significatif, basé sur une valeur p inférieure à 0,001.

Ce tableau indique également que le coefficient de pente partielle liant le comportement électoral à la positivité envers l'immigration est estimé à environ 0,24. Cela représente l'effet marginal moyen du vote sur l'attitude à l'égard de l'immigration, en contrôlant les valeurs de conformité. Comme la variable de vote a des valeurs de 0 et 1, nous pouvons voir que pour tous les niveaux d'importance accordés aux valeurs de conformité, ceux qui ont voté lors des dernières élections nationales avaient en moyenne un niveau de positivité envers l'immigration supérieur de 0,24 point à ceux qui n'a pas voté. Le coefficient est statistiquement significatif, basé sur une valeur p inférieure à 0,001.

L'interprétation des résultats pour le deuxième modèle incluant un terme d'interaction n'est pas aussi simple qu'avec le premier modèle.

Comme précédemment, l'interception (−.19) peut être interprétée comme le niveau moyen de la variable dépendante lorsque les valeurs des variables indépendantes sont à zéro.

Une plus grande attention doit être portée lors de l'interprétation des coefficients (ou estimations de pente) pour les variables indépendantes de notre modèle. La figure 10 rapporte un coefficient de −.069 pour la variable conformité et de .236 pour l'électeur . Ces valeurs ne peuvent plus être interprétées comme la relation entre chaque variable indépendante et la variable dépendante mais sont désormais conditionnelles aux valeurs du terme d'interaction. Par conséquent, ils ne montrent l'effet unique d'une variable en interaction que lorsque la valeur de l'autre est à zéro. La valeur pour l'électeur est statistiquement significative au niveau 0,001, cependant, la valeur pour la conformité n'est plus statistiquement significative avec une valeur p de 0,065. Il est important de noter que les valeurs de p pour les effets principaux ne sont pertinentes que lorsque la valeur de l'autre variable est à zéro. Comme les erreurs types peuvent varier selon les valeurs de l'autre variable, les informations sur la valeur p de ces coefficients sont limitées. C'est la signification du coefficient d'interaction, et non des variables constitutives, qui est ici la plus pertinente. Nous nous intéressons principalement au coefficient du terme de produit qui est estimé à environ −.11 et est statistiquement significatif sur la base d'une valeur p inférieure à 0,05. Cette valeur décrit le changement des pentes de telle sorte que la pente d'une variable indépendante sur la variable dépendante change de −.11 pour chaque changement d'unité sur l'autre variable indépendante.

La façon la plus claire d'interpréter les résultats est de les tracer sur un graphique. Pour ce faire, sélectionnez les options de menu suivantes :

Graphiques → Boîtes de dialogue héritées → Nuage/Point

Mettez en surbrillance l'icône “Simple scatter” illustrée à la Figure 11 et cliquez sur Définir . Dans la boîte de dialogue “Simple Scatterplot” qui s'ouvre, illustrée à la Figure 12, mettez en surbrillance la nouvelle variable, Valeurs prédites non standardisées [PRE_1] et cliquez sur la flèche pour la déplacer vers la zone de texte Axe Y. Pour l'axe X, choisissez conformité . Dans la zone “Set Markers by :”, choisissez voter .

(A des fins de comparaison, nous avons enregistré les valeurs prédites pour les deux modèles. Si vous faites de même, le premier ensemble de valeurs prédites sera lié au modèle des effets principaux. Répétez le même processus pour produire un deuxième graphique du modèle d'interaction, cette fois en utilisant les valeurs prédites non standardisées [PRE_2] sur l'axe Y.) Appuyez sur OK pour produire le graphique que vous avez sélectionné.

La figure 13 montre le graphique des résultats de notre modèle de régression des effets principaux. On voit que l'interception pour ceux qui ont voté est plus élevée que pour ceux qui n'ont pas voté et donc que ceux qui ont voté aux dernières élections nationales sont en moyenne plus positifs sur les bénéfices de l'immigration que ceux qui n'ont pas voté. Les scores sur l'échelle d'attitude envers l'immigration diminuent à mesure que les scores pour la priorité des valeurs de conformité augmentent. Les pentes sont parallèles, ce qui montre que la tendance à être positif sur les avantages de l'immigration à travers les niveaux de préférence pour les valeurs de conformité est la même pour ceux qui ont voté et ceux qui ne l'ont pas fait.

La figure 14 montre une différence entre les deux pentes pour ceux qui ont voté et ceux qui ne l'ont pas fait, contrairement aux pentes parallèles observées pour les deux groupes dans la figure 13. Comme précédemment, nous voyons que ceux qui accordent moins d'importance aux valeurs de conformité sont plus positifs sur les avantages de l'immigration dans le pays. Cependant, on observe maintenant une différence de pente pour ceux qui ont voté et ceux qui n'ont pas voté, avec une pente qui diminue plus fortement pour les votants (votant=1) que pour les non-votants (voter=0). L'effet négatif des valeurs de conformité sur les attitudes envers l'immigration est plus fort pour ceux qui ont voté que pour ceux qui ne l'ont pas fait.

Il existe plusieurs tests de diagnostic que les chercheurs peuvent effectuer après l'estimation d'un modèle de régression pour évaluer si le modèle semble enfreindre l'une des hypothèses OLS ou s'il existe d'autres types de problèmes tels que des cas particulièrement influents. La description de tous ces tests de diagnostic dépasse le cadre de cet exemple.

Vous pouvez télécharger cet exemple de jeu de données ainsi qu'un guide montrant comment estimer un modèle de régression multiple avec des interactions à l'aide d'un logiciel statistique. L'échantillon de données comprend également une autre variable, la bienveillance , qui saisit dans quelle mesure les répondants donnent la priorité aux valeurs bienveillantes sur l'échelle des valeurs humaines. Cette fois, nous voulons voir si les niveaux de positivité envers les avantages de l'immigration sont associés aux niveaux de bienveillance et de vote lors de l'élection nationale et s'ils interagissent de telle sorte que la relation entre la bienveillance et les attitudes envers l'immigration diffère selon que vous votez ou non. . Voyez si vous pouvez reproduire les résultats présentés ici et essayez de produire votre propre régression multiple avec des interactions en remplaçant la conformité par la bienveillance comme variable indépendante continue.


  1. S'il s'agit d'une question de syntaxe SPSS, la réponse consiste simplement à mettre la variable catégorielle, codée de manière appropriée, dans la liste des variables pour les "variables indépendantes" avec la variable continue.
  2. Sur les statistiques : votre variable catégorielle est-elle binaire ? Si c'est le cas, vous devez utiliser un mannequin ou un autre code de contraste valide. Si ce n'est pas binaire, votre variable catégorique est-elle ordinale ou nominale ? S'il est nominal, encore une fois, vous devez utiliser une stratégie de code contrastée - en effet, modélisant l'impact de chaque niveau de la variable sur le résultat ou la variable « dépendante ». Si la variable catégorielle est ordinale, alors probablement la chose sensée à faire est de l'entrer tel quel dans le modèle, comme vous le feriez avec une variable prédictive continue (c'est-à-dire "indépendante"). Vous supposeriez, dans ce cas, que les incréments entre les niveaux de la variable prédictive catégorielle ("indépendant") ne seront que rarement une erreur, mais quand c'est le cas, vous devez à nouveau utiliser un code de contraste et modéliser l'impact de chaque niveau. Cette question revient assez souvent sur ce forum -- voici une bonne analyse
  3. Comment gérer les données manquantes est, à mon avis, une question complètement distincte. Je crois comprendre que la suppression par paires n'est pas considérée comme une approche valide pour la régression multivariée. Listwise est assez courant, mais peut également biaiser les résultats et c'est certainement dommage. L'imputation multiple est une chose de beauté.

Vous pouvez certainement, en suivant la même méthode que vous utiliseriez pour le premier prédicteur catégoriel. Créez des variables fictives comme vous le feriez pour la première de ces variables. Mais il est souvent plus facile d'utiliser la commande Unianova de SPSS. Vous pouvez rechercher cela dans n'importe quel guide de syntaxe imprimé ou pdf, ou vous pouvez y accéder via Analyze. Modèle linéaire général. Univarié.

Bien qu'elle soit un peu plus compliquée, la commande Régression présente cependant un certain nombre d'avantages par rapport à Unianova. La principale est que vous pouvez choisir "manquant par paire" (vous n'avez pas à perdre un cas simplement parce qu'il manque une valeur pour un ou deux prédicteurs). Vous pouvez également obtenir de nombreux diagnostics précieux tels que des tracés partiels et des statistiques d'influence.

Un moyen simple de transformer des variables catégorielles en un ensemble de variables fictives à utiliser dans des modèles dans SPSS consiste à utiliser la syntaxe do repeat. C'est le plus simple à utiliser si vos variables catégorielles sont dans l'ordre numérique.

Sinon, vous pouvez simplement exécuter un ensemble d'instructions if pour créer vos variables factices. Ma version actuelle (16) n'a pas la capacité native de spécifier automatiquement un ensemble de variables factices dans la commande de régression (comme vous pouvez le faire dans Stata à l'aide de la commande xi) mais je ne serais pas surpris que cela soit disponible dans une version plus récente. Notez également le point 2 de dmk38, ce schéma de codage suppose des catégories nominales. Si votre variable est ordinale, vous pouvez utiliser plus de discrétion.

Je suis également d'accord avec dmk38 et le fait que la régression soit meilleure en raison de sa capacité à spécifier les données manquantes d'une manière particulière est un problème complètement distinct.


3 réponses 3

Peut tu? Sûr. Mais ce sera sans doute moins de travail pour utiliser ANOVA. Mathématiquement, l'ANOVA équivaut à la régression, ce sont des versions du même modèle linéaire général. Les mécanismes varient en fonction du logiciel que vous utilisez, mais la commande d'une interaction (pour montrer les effets associés aux combinaisons de prédicteurs) est plus simple si vous utilisez, par exemple, Age*Academic Discipline dans ANOVA que si vous devez tenir compte des nombreux variables fictives que vous avez créées pour la régression.

Je ne suis pas sûr qu'un simple modèle linéaire gaussien soit pertinent en raison de la nature de la variable dépendante. Il me semble qu'un score de test est une variable "ordinale" (c'est-à-dire une variable discrète avec des catégories ordonnées). Je me pencherais donc sur des méthodes de régression ordinale au lieu d'une simple régression linéaire comme anova. De telles méthodes existent dans tous les logiciels standards.

La réponse à votre question est OUI, vous pouvez appliquer une régression logistique ordinale pour prédire les VD à l'aide des IV catégoriques. Je fais une GRANDE HYPOTHÈSE ici votre DV a 2 intervalles quelque chose comme LOW et HIGH.

Je l'ai utilisé une fois pour prédire les méthodes utilisées pour les méthodes de contraception. J'ai supposé une hypothèse de cotes proportionnelles dans notre modèle. L'astuce n'est pas seulement d'adapter tous les IV dans votre modèle, mais d'identifier les IV qui influencent les DV.

Si vous utilisez le langage R, alors polr peut vous aider. Mais afin d'identifier les IV pertinentes, j'ai utilisé la régression linéaire pour trouver la valeur p pour chaque IV et supprimer les IV qui avaient une valeur p supérieure. Idéalement, la règle que j'ai appliquée était d'éliminer IV un à la fois avec une valeur p élevée, puis d'exécuter à nouveau la régression linéaire jusqu'à ce que vous trouviez tous les IV inférieurs à p < 0,1.

Une fois que j'ai identifié les IV, j'utilise polr

Supposons que vous ayez identifié les IV : IV1 et IV2 et que votre variable de réponse soit DV alors

summary(o_reg) vous donnerait la sortie en unités de logits ordonnés ou en cotes de log ordonnées. Il est légèrement difficile d'interpréter la sortie polr car elle fait une hypothèse sur la relation entre chaque paire de groupes de résultats. Il faut lire la littérature pour le savoir.

Vient ensuite la partie prédiction. Supposons que vous ayez également des données de test (nous avions des données de test), nous avons utilisé la fonction de prédiction dans R pour prédire la probabilité de chaque valeur DV dans votre cas, cela pourrait être P(LOW) et P(HIGH).


Vérification des hypothèses

Il y a quelques hypothèses que les données doivent suivre avant que l'analyse de modération ne soit effectuée :

  • La variable dépendante (Y) doit être mesurée sur une échelle continue (c'est-à-dire qu'il doit s'agir d'une variable d'intervalle ou de rapport).
  • Les données doivent avoir une variable indépendante (X), qui est soit continue (c.-à-d. une variable d'intervalle ou de rapport) ou catégorielle (c.
  • Les résidus ne doivent pas être autocorrélés. Cela peut être vérifié en utilisant le test de Durbin-Watson dans R.
  • Cela va sans dire, il doit y avoir une relation linéaire entre la variable dépendante (Y) et la variable indépendante (X). Il existe plusieurs façons de vérifier les relations linéaires, comme la création d'un nuage de points.
  • Les données doivent montrer l'homoscédasticité. Cette hypothèse signifie que la variance autour de la droite de régression est à peu près la même pour toutes les combinaisons de variables indépendantes (X) et modératrices (M).
  • Les données ne doivent pas présenter de multicolinéarité au sein des variables indépendantes (X). Cela se produit généralement lorsque deux variables indépendantes ou plus sont fortement corrélées les unes aux autres. Cela peut être interprété visuellement en traçant une carte thermique.
  • Idéalement, les données ne devraient pas avoir de valeurs aberrantes significatives, de points très influents ou de nombreuses valeurs NULL. Les points très influents peuvent être détectés en utilisant les résidus studentisés.
  • La dernière hypothèse est de vérifier si les erreurs résiduelles sont approximativement normalement distribuées.

3.2 Exécutez vos modèles de régression

Utilisation fonction lm() pour exécuter le modèle avec et sans interaction

Utilisez stargazer() pour visualiser vos résultats

Variable dépendante:
GPA
Effets principaux Interaction
(1) (2)
Constant 1.540 *** 1.539 ***
(0.063) (0.063)
Ethique.du.travail.C 0.136 ** 0.175 **
(0.060) (0.081)
Sexe.FFemelle 0.570 *** 0.570 ***
(0.087) (0.087)
Éthique.du.travail.C:Genre.Femelle -0.087
(0.122)
Observations 250 250
R2 0.161 0.163
R2 ajusté 0.154 0.153
Résiduel Std. Erreur 0,685 (df = 247) 0,686 (df = 246)
F Statistique 23,740 *** (df = 2 247) 15,965 *** (df = 3 246)
Noter: p<0.1 p<0.05 p<0.01

Passons directement à la création de notre interaction !

Gardez à l'esprit que nous avons déjà transformé le genre en facteur avec des niveaux étiquetés, nous pouvons donc nous référer aux noms réels des niveaux (au lieu de nombres)

#### Interprétation du graphique d'interaction continue x catégorielle Comme vous pouvez le voir, il n'y a pas beaucoup d'interaction, ce à quoi nous nous attendrions après avoir vu que notre effet d'interaction était insignifiant.