Regressão linear múltipla - Definição de MLR
O que é regressão linear múltipla - MLR?A regressão linear múltipla (MLR), também conhecida simplesmente como regressão múltipla, é uma técnica estatística que usa várias variáveis explicativas para prever o resultado de uma variável de resposta. O objetivo da regressão linear múltipla (MLR) é modelar a relação linear entre as variáveis explicativas (independentes) e a variável resposta (dependente).
Em essência, a regressão múltipla é a extensão da regressão de mínimos quadrados ordinários (OLS) que envolve mais de uma variável explicativa.
A fórmula para regressão linear múltipla é
yi = β0 + β1xi1 + β2xi2 + ... + βpxip + ϵ onde, para i = n observações: yi = variável dependente = variáveis expanatóriasβ0 = interceptação em y (termo constante) βp = coeficientes de inclinação para cada variável explicativaϵ = termo do erro do modelo (também conhecido como resíduos) \ begin {alinhado} & y_i = \ beta_0 + \ beta _1 x_ {i1} + \ beta _2 x_ {i2} + ... + \ beta _p x_ {ip} + \ epsilon \\ & \ textbf {onde, para} i = n \ textbf {observações:} \\ & y_i = \ text {variável dependente} \\ & x_i = \ text {variáveis expanatórias} \\ & \ beta_0 = \ text {interceptação em y (constante term)} \\ & \ beta_p = \ text {coeficientes de inclinação para cada variável explicativa} \\ & \ epsilon = \ text {o termo de erro do modelo (também conhecido como resíduos)} \\ \ end {align} = β0 + β1 xi1 + β2 xi2 + ... + βp xip + ϵ onde, para i = n observações: yi = variáveis dependentes = variáveis expanatóriasβ0 = interceptação em y (termo constante) βp = Coeficientes de inclinação para cada variável explicativaϵ = termo de erro do modelo (também conhecido como resíduos)
Explicando várias regressões lineares
Uma regressão linear simples é uma função que permite que um analista ou estatístico faça previsões sobre uma variável com base nas informações conhecidas sobre outra variável. A regressão linear só pode ser usada quando se tem duas variáveis contínuas - uma variável independente e uma variável dependente. A variável independente é o parâmetro usado para calcular a variável dependente ou resultado. Um modelo de regressão múltipla se estende a várias variáveis explicativas.
O modelo de regressão múltipla é baseado nas seguintes suposições:
- Existe uma relação linear entre as variáveis dependentes e as variáveis independentes.
- As variáveis independentes não estão muito correlacionadas entre si.
- y i As observações são selecionadas de forma independente e aleatória na população.
- Os resíduos devem ser normalmente distribuídos com uma média de 0 e variância σ.
O coeficiente de determinação (R ao quadrado) é uma métrica estatística usada para medir quanto da variação no resultado pode ser explicada pela variação nas variáveis independentes. R2 sempre aumenta à medida que mais preditores são adicionados ao modelo de MLR, mesmo que os preditores possam não estar relacionados à variável de resultado.
O R2 por si só não pode, portanto, ser usado para identificar quais preditores devem ser incluídos em um modelo e quais devem ser excluídos. R2 pode estar apenas entre 0 e 1, onde 0 indica que o resultado não pode ser previsto por nenhuma das variáveis independentes e 1 indica que o resultado pode ser previsto sem erro das variáveis independentes.
Ao interpretar os resultados de uma regressão múltipla, os coeficientes beta são válidos enquanto mantêm todas as outras variáveis constantes ("todas as demais são iguais"). A saída de uma regressão múltipla pode ser exibida horizontalmente como uma equação ou verticalmente na forma de tabela.
Exemplo usando regressão linear múltipla
Por exemplo, um analista pode querer saber como o movimento do mercado afeta o preço da Exxon Mobil (XOM). Nesse caso, sua equação linear terá o valor do índice S&P 500 como variável independente, ou preditor, e o preço do XOM como variável dependente.
Na realidade, existem vários fatores que prevêem o resultado de um evento. O movimento de preços da Exxon Mobil, por exemplo, depende mais do que apenas o desempenho do mercado em geral. Outros preditores, como o preço do petróleo, as taxas de juros e o movimento dos preços dos futuros do petróleo, podem afetar o preço do XOM e os preços das ações de outras empresas de petróleo. Para entender um relacionamento em que mais de duas variáveis estão presentes, uma regressão linear múltipla é usada.
A regressão linear múltipla (MLR) é usada para determinar uma relação matemática entre várias variáveis aleatórias. Em outros termos, a MLR examina como várias variáveis independentes estão relacionadas a uma variável dependente. Uma vez que cada um dos fatores independentes tenha sido determinado para prever a variável dependente, as informações sobre as múltiplas variáveis podem ser usadas para criar uma previsão precisa do nível de efeito que eles têm na variável de resultado. O modelo cria um relacionamento na forma de uma linha reta (linear) que melhor se aproxima de todos os pontos de dados individuais.
Referindo-se à equação MLR acima, em nosso exemplo:
- y i = variável dependente: preço do XOM
- x i1 = taxas de juros
- x i2 = preço do petróleo
- x i3 = valor do índice S&P 500
- x i4 = preço dos futuros de petróleo
- B 0 = interceptação em y no tempo zero
- B 1 = coeficiente de regressão que mede uma mudança unitária na variável dependente quando x i1 muda - a mudança no preço do XOM quando as taxas de juros mudam
- B 2 = valor do coeficiente que mede uma mudança unitária na variável dependente quando x i2 muda - a mudança no preço do XOM quando os preços do petróleo mudam
As estimativas de mínimos quadrados, B 0, B 1, B 2 ... B p, são geralmente calculadas por software estatístico. Tantas variáveis podem ser incluídas no modelo de regressão no qual cada variável independente é diferenciada com um número - 1, 2, 3, 4 ... p. O modelo de regressão múltipla permite que um analista preveja um resultado com base nas informações fornecidas em várias variáveis explicativas.
Ainda assim, o modelo nem sempre é perfeitamente preciso, pois cada ponto de dados pode diferir um pouco do resultado previsto pelo modelo. O valor residual E, que é a diferença entre o resultado real e o resultado previsto, é incluído no modelo para contabilizar essas pequenas variações.
Supondo que executamos nosso modelo de regressão de preços XOM por meio de um software de computação estatística, que retorna essa saída:
Um analista interpretaria esse resultado como se outras variáveis fossem mantidas constantes, o preço do XOM aumentaria 7, 8% se o preço do petróleo nos mercados aumentar 1%. O modelo também mostra que o preço do XOM diminuirá 1, 5% após um aumento de 1% nas taxas de juros. R2 indica que 86, 5% das variações no preço das ações da Exxon Mobil podem ser explicadas por alterações na taxa de juros, preço do petróleo, futuros do petróleo e índice S&P 500.
Principais Takeaways
- A regressão linear múltipla (MLR), também conhecida simplesmente como regressão múltipla, é uma técnica estatística que usa várias variáveis explicativas para prever o resultado de uma variável de resposta.
- A regressão múltipla é uma extensão da regressão linear (OLS) que usa apenas uma variável explicativa.
- A MLR é amplamente utilizada em econometria e inferência financeira.
A diferença entre regressão linear e múltipla
A regressão linear (OLS) compara a resposta de uma variável dependente, dada uma alteração em alguma variável explicativa. No entanto, é raro que uma variável dependente seja explicada por apenas uma variável. Nesse caso, um analista usa regressão múltipla, que tenta explicar uma variável dependente usando mais de uma variável independente. Regressões múltiplas podem ser lineares e não lineares.
Regressões múltiplas são baseadas no pressuposto de que existe uma relação linear entre as variáveis dependentes e independentes. Também não assume correlação importante entre as variáveis independentes.
Compare contas de investimento Nome do provedor Descrição Divulgação do anunciante × As ofertas que aparecem nesta tabela são de parcerias das quais a Investopedia recebe remuneração.