Im essayant d'exécuter une régression de panneau avec plus de 11.000 termes factices d'interaction. Ma régression ressemble à ceci: où i. countyi. year représente l'interaction des variables fictives. Ni Stata, ni Matlab, ni R ne tiendront ces nombreuses variables. Je ne sais pas si theres une commande pour augmenter le nombre de variables stockées (par exemple, un - set matsize-commande en stata) que je suis absent. Je sais que la capacité maximale pour les matrices Stata est de 11 000 variables. Comment puis-je exécuter cette régression des effets fixes dans Stata Is Mata une option ici demandé 11 mai à 18: 11Linear analyse de régression à l'aide Stata Introduction Régression linéaire, également connu sous le nom de régression linéaire simple ou bivariée linéaire régression, est utilisé quand nous voulons prédire La valeur d'une variable dépendante basée sur la valeur d'une variable indépendante. Par exemple, vous pouvez utiliser la régression linéaire pour comprendre si la performance de l'examen peut être prédite en fonction du temps de révision (c.-à-d. Votre variable dépendante sera la performance de l'examen, mesurée de 0 à 100 points et votre variable indépendante sera le temps de révision, . Vous pouvez également utiliser la régression linéaire pour comprendre si la consommation de cigarettes peut être prédite en fonction de la durée du tabagisme (c.-à-d. Votre variable dépendante serait la consommation de cigarettes mesurée en termes de nombre de cigarettes consommées quotidiennement et votre variable indépendante serait la durée du tabagisme mesurée En jours). Si vous avez deux variables indépendantes ou plus, plutôt qu'une seule, vous devez utiliser une régression multiple. Alternativement, si vous souhaitez juste établir si une relation linéaire existe, vous pouvez utiliser la corrélation Pearsons. Note: La variable dépendante est également appelée variable de résultat, de cible ou de critère, tandis que la variable indépendante est également appelée variable prédictive, explicative ou de régression. En fin de compte, quel que soit le terme que vous utilisez, il est préférable d'être cohérent. Nous les considérerons comme des variables dépendantes et indépendantes tout au long de ce guide. Dans ce guide, nous vous montrons comment effectuer une régression linéaire en utilisant Stata, ainsi que d'interpréter et de rapporter les résultats de ce test. Toutefois, avant de vous présenter cette procédure, vous devez comprendre les différentes hypothèses que vos données doivent respecter pour que la régression linéaire vous donne un résultat valide. Nous discutons ces hypothèses à la suite. Hypothèses Il existe sept hypothèses qui sous-tendent la régression linéaire. Si l'une de ces sept hypothèses n'est pas remplie, vous ne pouvez pas analyser vos données en utilisant linéaire parce que vous n'obtiendrez pas un résultat valide. Puisque les hypothèses 1 et 2 se rapportent à votre choix de variables, elles ne peuvent pas être testées pour utiliser Stata. Cependant, vous devez décider si votre étude répond à ces hypothèses avant de passer à autre chose. Hypothèse 1: Votre variable dépendante doit être mesurée au niveau continu. Parmi les exemples de ces variables continues figurent la hauteur (mesurée en pieds et en pouces), la température (mesurée en o C), le salaire (mesuré en dollars américains), le temps de révision (mesuré en heures), l'intelligence Mesurée en millisecondes), la performance des tests (mesurée de 0 à 100), les ventes (mesurées en nombre de transactions par mois), et ainsi de suite. Si vous ne savez pas si votre variable dépendante est continue (c'est-à-dire mesurée au niveau de l'intervalle ou du ratio), consultez notre guide Types de variables. Hypothèse 2: Votre variable indépendante doit être mesurée au niveau continu ou catégorique. Cependant, si vous avez une variable indépendante catégorique, il est plus courant d'utiliser un test t indépendant (pour 2 groupes) ou un ANOVA unidirectionnel (pour 3 groupes ou plus). Si vous n'êtes pas certain, des exemples de variables catégorielles incluent le sexe (p. Ex. 2 groupes: hommes et femmes), l'appartenance ethnique (par exemple 3 groupes: caucasien, afro-américain et hispanique), le niveau d'activité physique (4 groupes: sédentaire, Haut) et la profession (p. Ex. 5 groupes: chirurgien, médecin, infirmière, dentiste, thérapeute). Dans ce guide, nous vous présentons la procédure de régression linéaire et le résultat de Stata lorsque vos variables dépendantes et indépendantes ont été mesurées sur un niveau continu. Heureusement, vous pouvez vérifier les hypothèses 3, 4, 5, 6 et 7 en utilisant Stata. En passant aux hypothèses 3, 4, 5, 6 et 7, nous suggérons de les tester dans cet ordre parce qu'il représente un ordre où, si une violation à l'hypothèse n'est pas corrigible, vous ne pourrez plus utiliser la régression linéaire. En fait, ne soyez pas surpris si vos données échouent une ou plusieurs de ces hypothèses, car cela est assez typique lorsque l'on travaille avec des données du monde réel plutôt que des exemples de manuels scolaires, qui montrent souvent comment effectuer une régression linéaire quand tout va bien. Cependant, ne vous inquiétez pas parce que même lorsque vos données échouent certaines hypothèses, il ya souvent une solution pour surmonter cela (par exemple, transformer vos données ou en utilisant un autre test statistique à la place). N'oubliez pas que si vous ne vérifiez pas que vos données répondent à ces hypothèses ou si vous les testez de manière incorrecte, les résultats obtenus lors de l'exécution d'une régression linéaire pourraient ne pas être valides. Hypothèse 3: Il doit y avoir une relation linéaire entre les variables dépendantes et indépendantes. Bien qu'il existe plusieurs façons de vérifier si une relation linéaire existe entre vos deux variables, nous vous suggérons de créer un nuage de points à l'aide de Stata, où vous pouvez tracer la variable dépendante en fonction de votre variable indépendante. Vous pouvez alors inspecter visuellement le nuage de points pour vérifier la linéarité. Votre diagramme de dispersion peut ressembler à un des éléments suivants: Si la relation affichée dans votre diagramme de dispersion n'est pas linéaire, vous devrez exécuter une analyse de régression non linéaire ou transformer vos données, ce que vous pouvez faire en utilisant Stata. Hypothèse 4: Il ne devrait pas y avoir de valeurs aberrantes significatives. Les valeurs aberrantes sont simplement des points de données qui ne suivent pas le schéma habituel (p. Ex., Dans une étude portant sur 100 résultats de QI d'élèves, où le score moyen était de 108 avec une faible variation entre les élèves; Est très inhabituel, et peut même la mettre dans le top 1 des scores de QI dans le monde). Les diagrammes de dispersion suivants mettent en évidence l'impact potentiel des valeurs aberrantes: Le problème avec les valeurs aberrantes est qu'ils peuvent avoir un effet négatif sur l'équation de régression qui est utilisée pour prédire la valeur de la variable dépendante basée sur la variable indépendante. Cela modifiera la production produite par Stata et réduira la précision prédictive de vos résultats. Heureusement, vous pouvez utiliser Stata pour effectuer des diagnostics casewise pour vous aider à détecter d'éventuels outliers. Hypothèse 5: Vous devez avoir l'indépendance des observations. Que vous pouvez facilement vérifier en utilisant la statistique Durbin-Watson. Qui est un test simple à exécuter en utilisant Stata. Hypothèse 6: Vos données doivent montrer homoscédasticité. Qui est où les variances le long de la ligne de meilleur ajustement restent similaires que vous vous déplacez le long de la ligne. Les deux diagrammes de dispersion ci-dessous fournissent des exemples simples de données qui répondent à cette hypothèse et qui échoue l'hypothèse: Lorsque vous analysez vos propres données, vous serez chanceux si votre nuage de points ressemble à l'un des deux ci-dessus. Bien que cela aide à illustrer les différences dans les données qui rencontre ou viole l'hypothèse de l'homoscédasticité, les données du monde réel est souvent beaucoup plus salissant. Vous pouvez vérifier si vos données ont montré l'homoscédasticité en traçant les résidus standardisés de régression par rapport à la valeur prédite normalisée de régression. Hypothèse 7: Enfin, vous devez vérifier que les résidus (erreurs) de la droite de régression sont approximativement distribués normalement. Deux méthodes courantes pour vérifier cette hypothèse comprennent l'utilisation soit d'un histogramme (avec une courbe normale superposée) soit d'un tracé P-P normal. En pratique, la vérification des hypothèses 3, 4, 5, 6 et 7 prendra probablement la plus grande partie de votre temps lors de la régression linéaire. Cependant, ce n'est pas une tâche difficile, et Stata fournit tous les outils dont vous avez besoin pour ce faire. Dans la section Procédure. Nous illustrons la procédure Stata requise pour effectuer la régression linéaire en supposant qu'aucune hypothèse n'a été violée. Tout d'abord, nous présentons l'exemple que nous utilisons pour expliquer la procédure de régression linéaire dans Stata. Des études montrent que l'exercice peut aider à prévenir les maladies cardiaques. Dans des limites raisonnables, plus vous exercer, moins le risque que vous avez de souffrir d'une maladie cardiaque. Une façon dont l'exercice réduit votre risque de souffrir de maladie cardiaque est en réduisant une graisse dans votre sang, appelé cholestérol. Plus vous faites de l'exercice, plus votre concentration de cholestérol est faible. En outre, il a été récemment montré que le temps que vous passez à regarder la télévision ndash un indicateur d'un style de vie sédentaire ndash pourrait être un bon prédicteur de la maladie cardiaque (c'est-à-dire, plus TV vous regardez, plus votre risque de maladie cardiaque ). Par conséquent, un chercheur a décidé de déterminer si la concentration de cholestérol était liée au temps passé à regarder la télévision chez des hommes sains de 45 à 65 ans (une catégorie de personnes à risque). Par exemple, comme les gens passaient plus de temps à regarder la télévision, leur concentration en cholestérol augmentait également (une relation positive) ou faisait le contraire. Le chercheur voulait également connaître la proportion de concentration de cholestérol que le temps passé à regarder la télévision pourrait expliquer, Capable de prédire la concentration de cholestérol. Le chercheur pourrait ensuite déterminer si, par exemple, les gens qui ont passé huit heures passées à regarder la télévision par jour avaient dangereusement des niveaux élevés de concentration de cholestérol par rapport aux personnes regardant seulement deux heures de télévision. Pour mener l'analyse, le chercheur a recruté 100 participants masculins en bonne santé âgés de 45 à 65 ans. La quantité de temps passé à regarder la télévision (c'est-à-dire la variable indépendante, timetv) et la concentration en cholestérol (c'est-à-dire la variable dépendante, cholestérol) ont été enregistrées pour les 100 participants. Exprimé en termes variables, le chercheur voulait régresser le cholestérol sur timetv. Remarque: L'exemple et les données utilisés pour ce guide sont fictifs. Nous venons de les créer pour les besoins de ce guide. Configuration dans Stata Dans Stata, nous avons créé deux variables: (1) timetv. Qui est le temps quotidien moyen passé à regarder la télévision en minutes (c'est-à-dire la variable indépendante) et (2) le cholestérol. Qui est la concentration en cholestérol en mmolL (c'est-à-dire la variable dépendante). Note: Peu importe si vous créez la variable dépendante ou indépendante en premier. Après avoir créé ces deux variables ndash timetv et ndash de cholestérol, nous avons entré les scores pour chacun dans les deux colonnes de la feuille de calcul Editeur de données (Éditer) (c'est-à-dire le temps en heures que les participants ont regardé la télévision dans la colonne de gauche Variable indépendante), et la concentration de cholestérol des participants en mmolL dans la colonne de droite (c.-à-d. Le cholestérol, la variable dépendante), comme indiqué ci-dessous: Publié avec autorisation écrite de StataCorp LP Procédure d'essai dans Stata Dans cette section, Analyser vos données à l'aide d'une régression linéaire dans Stata lorsque les six hypothèses de la section précédente, Hypothèses, n'ont pas été violées. Vous pouvez effectuer une régression linéaire à l'aide du code ou de l'interface utilisateur graphique de Statas. Le code pour effectuer une régression linéaire sur vos données prend la forme suivante: regress DependentVariable IndependentVariable Publié avec l'autorisation écrite de StataCorp LP . En utilisant notre exemple où la variable dépendante est le cholestérol et la variable indépendante est timetv. Le code requis serait: régress cholestérol timetv Note 1: Vous devez être précis lorsque vous entrez le code dans la boîte. Le code est sensible à la casse. Par exemple, si vous avez entré Cholestérol où le C est en majuscules plutôt que minuscules (c'est-à-dire un petit c), ce qui devrait être, vous obtiendrez un message d'erreur comme ce qui suit: Remarque 2: : Ci-dessus, il vaut la peine de vérifier le nom que vous avez donné vos deux variables dans l'éditeur de données lorsque vous configurez votre fichier (voir l'écran de l'éditeur de données ci-dessus). Dans la zone de droite de l'écran de l'Editeur de données, c'est la façon dont vous avez épelé vos variables dans la section, et non la section que vous devez entrer dans le code (voir ci-dessous pour notre variable dépendante). Cela peut sembler évident, mais c'est une erreur qui est parfois faite, résultant de l'erreur de la note 2 ci-dessus. Par conséquent, entrez le code, régresser le cholestérol timetv. Et appuyez sur le bouton ReturnEnter de votre clavier. Publié avec l'autorisation écrite de StataCorp LP. Vous pouvez voir la sortie de Stata qui sera produite ici. Interface utilisateur graphique (GUI) Les trois étapes nécessaires à la régression linéaire dans Stata 12 et 13 sont les suivantes: Click S tatistics gt Modèles linéaires et gt apparentés Régression linéaire sur le menu principal, comme indiqué ci-dessous: Publié avec l'autorisation écrite de StataCorp LP. Vous recevrez la boîte de dialogue Regress ndash Linear regression: Publié avec l'autorisation écrite de StataCorp LP. Sélectionnez le taux de cholestérol à partir de la zone de liste déroulante Variable dépendante et de timetv dans la zone déroulante Variables indépendantes:. Vous allez vous retrouver avec l'écran suivant: Publié avec l'autorisation écrite de StataCorp LP. Résultats de l'analyse de régression linéaire dans Stata Si vos données ont passé l'hypothèse 3 (c'est-à-dire qu'il y avait une relation linéaire entre vos deux variables), 4 (c'est-à-dire qu'il n'y avait pas de valeurs aberrantes significatives), hypothèse 5 C'est-à-dire que vos données ont montré l'homoscédasticité) et l'hypothèse 7 (c'est-à-dire que les résidus (erreurs) étaient approximativement distribués), que nous avons expliqué plus haut dans la section Hypothèses, vous n'aurez qu'à interpréter la sortie de régression linéaire suivante dans Stata: StataCorp LP. La sortie consiste en quatre informations importantes: (a) la valeur R 2 (R-carré) représente la proportion de variance dans la variable dépendante qui peut être expliquée par notre variable indépendante (techniquement c'est la proportion de la variation comptabilisée Par le modèle de régression au-dessus et au-delà du modèle moyen). Cependant, R 2 est basé sur l'échantillon et est une estimation positivement biaisée de la proportion de la variance de la variable dépendante représentée par le modèle de régression (c'est-à-dire trop grande) (b) une valeur R 2 ajustée (Adj R - (C) la valeur F, les degrés de liberté (F (1, 98)) et la signification statistique du modèle de régression (probabilité de la ligne F) Et (d) les coefficients de la variable constante et indépendante (Coef. Colonne), qui est l'information dont vous avez besoin pour prédire la variable dépendante, le cholestérol. En utilisant la variable indépendante, timetv. Dans cet exemple, R 2 0,151. R ajusté 0,143 (à 3 p. p.), ce qui signifie que la variable indépendante, timetv. Explique 14,3 de la variabilité de la variable dépendante, le cholestérol. Dans la population. La R 2 ajustée est également une estimation de la taille de l'effet qui, à 0,143 (14,3), est indicative d'une taille d'effet moyenne, selon la classification de Cohens (1988). Cependant, il est normalement que R 2 ne soit pas le R 2 ajusté qui est rapporté dans les résultats. Dans cet exemple, le modèle de régression est statistiquement significatif, F (1, 98) 17.47, p .0001. Cela indique que, dans l'ensemble, le modèle appliqué peut statistiquement prédire de façon significative la variable dépendante, le cholestérol. Note: Nous présentons la sortie de l'analyse de régression linéaire ci-dessus. Cependant, étant donné que vous auriez dû tester vos données pour les hypothèses que nous avons expliquées plus haut dans la section Hypothèses, vous devrez également interpréter la sortie Stata qui a été produite lorsque vous avez testé ces hypothèses. Cela suppose: a) les diagrammes de dispersion que vous avez utilisés pour vérifier s'il y avait une relation linéaire entre vos deux variables (c'est-à-dire l'hypothèse 3) (b) les diagnostics cas pour vérifier qu'il n'y avait pas de valeurs aberrantes significatives (c.-à-d. La statistique de Durbin-Watson pour vérifier l'indépendance des observations (c.-à-d. L'hypothèse 5) (d) un diagramme de dispersion des résidus standardisés de régression par rapport à la valeur prédite normalisée de régression afin de déterminer si vos données présentaient une homoscédasticité (hypothèse 6) et un histogramme (superposé) Courbe normale) et PP normal Tracé pour vérifier si les résidus (erreurs) étaient approximativement distribués normalement (c'est-à-dire l'hypothèse 7). N'oubliez pas non plus que si vos données échouaient à l'une ou l'autre de ces hypothèses, la sortie que vous obtenez de la procédure de régression linéaire (c'est-à-dire la sortie dont nous avons discuté ci-dessus) ne sera plus pertinente et vous devrez peut-être effectuer un test statistique différent vos données. Déclaration de la sortie de l'analyse de régression linéaire Lorsque vous signalez la sortie de votre régression linéaire, il est bon d'inclure: (a) une introduction à l'analyse que vous avez effectuée; (b) des informations sur votre échantillon, y compris les valeurs manquantes; c) La valeur F observée, les degrés de liberté et le niveau de signification (c'est-à-dire la valeur p) (d) le pourcentage de la variabilité de la variable dépendante expliquée par la variable indépendante (ie votre R 2 ajusté) et (e) l'équation de régression Pour votre modèle. Une régression linéaire a établi que le temps quotidien passé à regarder la télévision pourrait prédire statistiquement significativement la concentration de cholestérol, F (1, 98) 17.47, p .0001 et le temps passé à regarder la télévision Représentaient 14,3% de la variabilité expliquée de la concentration de cholestérol. L'équation de régression était: prédiction de la concentration de cholestérol -2,135 0,044 x (temps passé à regarder la télévision). En plus de la déclaration des résultats comme ci-dessus, un diagramme peut être utilisé pour présenter visuellement vos résultats. Par exemple, vous pouvez le faire en utilisant un nuage de points avec confiance et des intervalles de prédiction (bien qu'il n'est pas très commun d'ajouter le dernier). Cela peut rendre plus facile pour les autres de comprendre vos résultats. En outre, vous pouvez utiliser votre équation de régression linéaire pour faire des prédictions sur la valeur de la variable dépendante basée sur différentes valeurs de la variable indépendante. Alors que Stata ne produit pas ces valeurs dans le cadre de la procédure de régression linéaire ci-dessus, il existe une procédure dans Stata que vous pouvez utiliser pour le faire.
No comments:
Post a Comment