How To Calculate Y Hat In Stata Forex




How To Calculate Y Hat In Stata ForexStata: Analise de Dados e Software Estatistico Brian P. Poi, StataCorp Muitas pessoas escreveram para a equipe tecnica perguntando sobre as diferencas entre prever e ajustar. Nesta FAQ, eu apresento um exemplo simples usando o auto dataset. Isso nao e de forma alguma um substituto para as entradas do Manual de Referencia para ajustar ou prever. Presumivelmente, voce ja leu aqueles. Se nao, isso seria uma boa ideia. Para comecar, letrsquos carregar o dataset auto. dta e regressar mpg contra peso. comprimento. E estrangeiros. Em seguida, calcular a predicao linear da variavel dependente e resumi-la por rep78. Compare isto com o que obtemos se usarmos o comando adjust: Os resultados sao os mesmos Quando voce usa o comando adjust sem especificar qualquer variavel, simplesmente resume as previsoes lineares da regressao por rep78. Suponha que em vez disso eu digitei A chave para entender o que aconteceu aqui sao as duas linhas na parte superior da saida: Para duas das variaveis ??independentes em nossa regressao, peso e comprimento. Ajustar fez nada que deixou como e. No entanto, ao calcular a previsao linear de mpg, o ajuste nao usou os valores reais de estrangeiros que estao no conjunto de dados. Em vez disso, calculou a previsao, fingindo que o valor de foreign foi 0,30434781 para cada observacao no conjunto de dados. Algumas pessoas argumentam que avaliar a equacao com estrangeiros igual a 0,304 e absurdo porque estrangeiro e uma variavel dummy que leva apenas os valores 0 ou 1 ou o carro e estrangeiro, ou e domestico. Por outro lado, pode-se interpretar os resultados com estrangeiros igual a 0,304 como pertencentes a um carro que contem 70 pecas nacionais e 30 pecas estrangeiras. Se forcar uma variavel dummy permanecer 0 ou 1 ao formar previsoes depende inteiramente do contexto do modelo. O poder real do ajuste e o de ser capaz de criar previsoes assumindo certos valores para algumas das variaveis ??independentes. Suponha que eu quisesse saber a economia media prevista de combustivel dos carros pelo rep78 sob a suposicao que todos os carros sao domesticos. Com ajuste. Isso e facil de fazer: Claro, voce pode especificar mais de uma variavel com ajuste. E voce pode ter algumas variaveis ??definidas para valores que voce especificar e outras variaveis ??definidas em seus meios. Por exemplo, agora eu quero saber a economia de combustivel media por rep78 sob os pressupostos de que todos os carros sao domesticos e todos os carros sao do mesmo comprimento (media). Eu nao tenho ideia do que o comprimento medio dos carros e, entao eu vou deixar ajustar figurar para fora: Como o topo da saida mostra, ajustar o comprimento do conjunto igual ao seu valor medio de 188.28986, e definir foreign igual a 0 como nos Requeridos. Porque pedimos que os resultados fossem tabulados com base no rep78. A media de comprimento foi calculada usando apenas as 69 observacoes para as quais rep78 nao esta ausente. As 5 observacoes com um rep78 em falta sao completamente ignoradas por ajuste. Mesmo que tenham sido utilizados na regressao original. Na verdade, ajustar e realmente apenas um front end para prever. E e util trabalhar atraves da mecanica de um exemplo para ilustrar isso. A tabela de resultados anterior poderia ter sido obtida da seguinte maneira: A vantagem do ajuste e que nao temos que preservar nossos dados, resumi-los e substitui-los e, em seguida, chamar o tabstat nos mesmos. O codigo a seguir tentara replicar os resultados de A funcao lm () em R. Para este exercicio, vamos usar um conjunto de dados de corte transversal fornecido por R chamado 8220women8221, que tem dados de altura e peso para 15 individuos. A equacao de regressao OLS: onde um termo de erro de ruido branco. Para este exemplo, peso e altura. O impacto marginal uma mudanca de uma unidade na altura tem sobre o peso. Lembre-se que a seguinte equacao de matriz e usada para calcular o vetor de coeficientes estimados de uma regressao de OLS: onde a matriz de dados de regressor (a primeira coluna e toda 18217s para a interceptacao) eo vetor de dados de variavel dependente. Operadores de matriz em R as. matrix () coagindo um objeto na classe de matriz. T () transpoe uma matriz. E o operador para a multiplicacao matricial. Solve () toma o inverso de uma matriz. Note, a matriz deve ser invertible. Para uma introducao mais completa as operacoes matriciais em R, confira esta pagina. Voltar para OLS O codigo a seguir calcula a matriz 2 x 1 de coeficientes: Calculando erros padrao Para calcular os erros padrao, primeiro voce deve calcular a matriz de variancia-covariancia (VCV), da seguinte forma: A matriz VCV sera uma matriz kxk quadrada . Os erros padrao para os coeficientes estimados sao encontrados tomando a raiz quadrada dos elementos diagonais da matriz VCV. A Scatterplot com OLS linha Women039s altura vs peso usando plot () e abline () funcoes em R. Agora voce pode verificar os resultados acima usando a funcao lm (): Regressao linear simples Criando a linha de regressao Calculo b1 b0, criando o Linha e testando seu significado com um teste t. DEFINICOES: b1 - Esta e a INCLINACAO da linha de regressao. Assim, esta e a quantidade que a variavel Y (dependente) mudara para cada mudanca de 1 unidade na variavel X. B0 - Esta e a intercepcao da linha de regressao com o eixo y. Em outras palavras, e o valor de Y se o valor de X 0. Y-hat b0 b1 (x) - Esta e a linha de regressao da amostra. Voce deve calcular b0 b1 para criar esta linha. Y-hat representa o valor predito de Y, e pode ser obtido conectando um valor individual de x na equacao e calculando y-hat. EXEMPLO: Uma empresa quer ver se ha vendas e explicado pelo numero de horas extras que seus vendedores trabalham. Usando uma planilha contendo 25 meses de numeros de horas extras de vendas, os seguintes calculos sao feitos SSx 85, SSy 997 e SSxy 2,765, X-bar 13 e Y-bar 67,987, tambem s (b1) 21,87. Crie a linha de regressao. (1) find b1 - Um metodo de caluacao b1 e b1 SSxy / SSx 2765/85 32,53. Esta e a inclinacao da linha - para cada mudanca de unidade em X, y aumentara em 32,53. E um numero positivo, portanto, e uma relacao direta - como X sobe, assim faz Y. No entanto, se b1 -32.53, entao saberiamos que a relacao entre XY e uma relacao inversa - como X vai para cima, y ??vai para baixo) (2) encontrar b0 - novamente a formula esta na pg. 420 e e b0 Y-bar - b1 (x-bar) 67.987 - 32.53 (13) 67.987 - 422.89 67.564, esta e a intercepcao da linha e do eixo Y, e pode ser interpretada como o valor de Y se zero horas De horas extras (x0) sao trabalhadas. (3) Criar Linha - Y-hat b0 b1 (x) ou Y-hat 67,564 32,53 (x), Esta linha quantifica a relacao entre X Y. Mas esta Relacao e Significativa. Uma vez que se baseia em uma amostra e queremos generalizar para uma populacao, ela deve ser testada para ver se ela e significativa, ou seja, a relacao que encontramos realmente existe na populacao ou e o resultado devido ao erro de amostragem Nao representam a verdadeira populacao). O teste especifico que usamos e um teste t para testar se b1 e diferente de 0. Como B1 seria a inclinacao da linha de regressao na populacao, faz sentido testar se e diferente de zero. Se for zero, entao nossa inclinacao e 0, significando que se grafamos a relacao entre XY, acabariamos com uma linha horizontal (plana). E se esta linha e plana, entao sabemos que nao importa o valor da variavel X assume, o valor Y variaveis ??nao vai mudar. Isso significa que nao ha relacao linear entre as duas variaveis. Isso tambem significa que a linha de regressao que calculamos e inutil para explicar ou prever a variavel dependente. TESTE B1 Utilizamos o nosso procedimento de teste de hipoteses de cinco passos. Hipoteses: H0: B1 0, H1: B1 nao 0 Valor critico: um valor t baseado em n-2 graus de liberdade. Tambem dividir alfa por 2 porque e um teste de 2 colas. Neste caso n 25 (dados de 25 meses usados) assim n-2 23. Com alfa .05 temos alfa / 2 .025 e depois t 2.069 (de t-tabela dentro da capa do livro). Valor calculado: A formula esta na pagina 442 e e simplesmente t b1 / s (b1) 32,53 / 21,87 1,49. S (b1) e o erro padrao de b1 e e dado no problema) Comparacao: t-calc Correlacao A correlacao e uma medida do grau de associacao linear entre duas variaveis. O valor de uma correlacao pode variar de -1, a 0, a 1. Uma correlacao 0 significa que nao ha associacao LINEAR entre as duas variaveis, um valor de -1 ou 1 significa que ha uma associacao linear perfeita entre as duas variaveis, Sendo a diferenca que -1 indica uma relacao inversa perfeita e 1 uma relacao positiva perfeita. A notacao de amostra para uma correlacao e r enquanto que o coeficiente de correlacao populacional e representado pela letra grega Rho (que se parece com um p pequeno). Muitas vezes queremos descobrir se uma correlacao de amostra calculada seria significativa. Novamente, isso significaria que testariamos para ver se Rho 0 ou nao. Se Rho0 entao nao haveria relacao linear entre as duas variaveis ??na populacao. EXEMPLO: Com base em uma amostra de 42 dias, calcula-se a correlacao entre as vendas eo numero de horas ensolaradas no dia para a loja Sunglass Hut no Meridian Mall. O r .56. Esta e uma correlacao significativa Este e um teste basico de hipoteses. O teste t para a significancia de Rho tem n-2 graus de liberdade, e alfa tera de ser dividido por 2, assim, n-2 40 e alfa (0,05 / 2) 0,025. Da tabela encontramos: 2.021. Valor calculado: A formula na pagina 438 e t r / sqr raiz de (1-r-sqrd) / (n-2). Neste caso, que e igual a 0,56 / a raiz quadrada de (1-.56-quadrado) / (40) .56 / .131 4.27 Comparar: O t-calc e maior do que o t-crit assim REJEITAM Ho. Conclusao: Rho nao e igual a zero e, portanto, ha evidencia de uma associacao linear entre as duas variaveis ??na populacao. O teste F em Regressao EXEMPLO Usando a informacao fornecida, construa a tabela ANOVA e determine se ha uma relacao de regressao entre anos de posse de carro (Y) e salario (X). N 47, SSR 458 e SSE 1281. Tabela de ANOVA: A tabela de anova esta na pagina 451, e e basicamente a mesma que uma tabela ANOVA unidirecional. A primeira coisa que precisamos e o df e, por definicao, o df para a regressao 1, o df para o erro n-2 ou 45 eo total df n-1 ou 46. Em seguida, precisamos dos calculos MS. MSR SSR / df para a regressao SSR / 1 SSR ou 458. MSE SSE / n-2 1281/45 28,47. Finalmente, o F-calc MSR / MSE ou 458 / 28,47 16,09. Hipoteses: H0: Nao ha relacao de regressao, ie, B1 0. H1: Ha uma relacao de regressao, ou seja, B1 nao e 0. Valor critico: F (num. Df, den. Alfa .05 4.08 Valor calculado: de cima ANOVA tabela 16.09 Comparar: F-calc maior do que F-crit assim REJEITAR Conclusao: Existe uma regressao (linear) relacao entre anos de propriedade de carro e salario. O Coeficiente de Determinacao - r-sqrd Tambem podemos testar a significancia do coeficiente de regressao usando um teste F. Como temos apenas um coeficiente na regressao linear simples, este teste e analogo ao teste t. No entanto, quando se procede a regressao multipla, o teste F sera um teste de TODOS os coeficientes de regressao conjuntamente sendo 0. (Nota: b0 nao e um coeficiente e geralmente nao testamos sua significancia, embora pudessemos fazer isso com um R-sqrd e sempre um numero entre 0 e 1. Quanto mais proximo estiver de 1,0, melhor a relacao XY prediz ou explica a variancia em Y. Infelizmente nao ha valores definidos que permitem que voce Para dizer que e um bom r-sqrd ou r-sqrd ruim. Uma determinacao e subjetiva e e determinada pela pesquisa que voce esta conduzindo. Se ninguem nunca explicou mais que 15 da variancia em alguma variavel Y antes, e voce projetar Um estudo que explica 25 de variancia, entao isso pode ser considerado bom r-sqrd, mesmo que o numero real, 25, nao e muito alto. Exemplo: O que e o r-sqrd se SSR 345 e SSE 123 r-sqrd SSR / SST. Nos nao temos SST, mas sabemos que SSR SSE SST, portanto SST 345 123 468, portanto r-sq 345/468.737.Isso significa que a relacao de regressao entre XY explica 73.7 da variancia na variavel Y. Na maioria das circunstancias isso seria uma quantia alta, mas novamente teriamos que saber mais sobre nossos varaiveis de pesquisa.