Hola, alumnas y alumnos de la
asignatura de Estadística
del grado de Ciencias Ambientales.
Empezamos con este vídeo la serie
de vídeos correspondientes
al último tema de la asignatura,
en el que abordaremos el
estudio de relaciones
entre variantes en este estudio.
Distinguir dos casos principalmente.
Vamos a distinguir,
primero el caso de relaciones entre
variables cuantitativas
y después veremos el
caso de relaciones
entre variables cualitativa
cada día; por tanto,
la mezcla entre las relaciones
entre variables cualitativas
y cuantitativas.
Esto último, se puede hacer
en dos direcciones.
Por un lado, podremos ver cómo
afecta a una variable cualitativa,
a una cuantitativa, o al revés,
podríamos ver cómo afectó una
variable cuantitativa
a una variable cualitativa.
El primer caso en realidad
ya lo hemos estudiado
y se trataría de la de la nota.
Del análisis de la danza que
vimos en el tema anterior
esto lo revisaremos más tarde.
Veremos que efectivamente
se trata de ver
cómo afecta una variable cualitativa
y cuantitativa
y en el segundo caso el estudio
de una de una relación
entre una variable cuantitativa
y una variable;
cualitativa en lo que se
conoce como regresión,
logística por cuestiones de tiempo.
Este tema este estudio
de la redes logística no lo podemos
abordar en este tema,
pero ese día digamos el tópico
correspondiente
a ese tipo de relación, bien.
Por tanto los apartados que vamos
a ver demás lo siguiente.
Haremos una breve introducción
al tema que se corresponde
con la sección uno de los apuntes y
después en una segunda sección
veremos lo que se llama análisis
como análisis de regresión lineal
que se corresponde con la
lectura de relaciones
entre variables cuantitativa.
Esta sección la divide
en tres secciones.
Por un lado tendremos
en la sección dos
uno el estudio del modelo estadístico
que moviliza esa relación entre
variables cuantitativa
y cómo se puede hacer inferencias
sobre ese modelo,
la sección de su posición
de linealidad, normalidad
independencia, inferencia
y por otro lado tendremos a dos
secciones adicionales,
que son la verificación de las
suposiciones iniciales
del modelo de regresión lineal,
que lo haremos a través
de lo que se conoce
como análisis de los residuos, y
lo abordaremos en la sección
y por último veremos cómo
se utiliza este modelo
para la estimación en prevención
por un nuevo valor
de que se corresponde con la sección
El tema se cierra con
la sección tercera,
donde veremos con el contacto
de independencia,
cómo se analiza la relación entre
dos variables cualitativas.
Bien, en este vídeo lo que vamos
a hacer va a ser presentada
esa introducción breve a estudiar
relaciones entre variable
y comenzaremos con el estudio
de relaciones
entre variables cuantitativas
a través de lo que se conoce como
análisis de regresión lineal.
En concreto lo que veremos es el
modelo estadístico que se utiliza
para describir la relación entre
variable y cuantitativas
bajo lo que se conoce.
Como suposición de linealidad,
normalidad e independencia
en un segundo vídeo.
Veremos cómo se hace inferencia
para este modelo
y en un tercer vídeo veremos cómo se
verifican las posiciones iniciales
y cómo se utiliza el modelo para
predecir nuevos valores
de modelo a partir de un nuevo
valor de la variable.
Bien, pues vamos a pasar
a la introducción
como he dicho en este tema iniciamos
uno de los tópicos considerado
uno de los más interesantes
de la estadística, que es el estudio
de relaciones entre variable
y como he dicho anteriormente
distingue la relación
entre variables cuantitativa
que comenzaremos a abordar
con el análisis de reducción
lineal simple,
y la relación entre cualitativa,
que abordaremos con lo que se
conoce como le contrate;
si cuadrado de independencia bien
pues vamos a pasar al análisis
de Regresión bien.
Un problema usual en la estadística
es el estudio de relaciones
funcionales
entre varias variables.
El ajuste de esas relaciones
funcionales.
Con el propósito de predecir
una variable,
a partir de otras es lo que se
conoce con el nombre de análisis
de regresión, qué quiere decir esto?
Del estudio de relaciones
funcionales entre varias variables,
bien fundamentalmente lo que se
trata de intentar ajustar una función
de tal forma que yo pueda obtener
una variable vamos a llamarle
y a partir de otra variable equis
a través de esa función Efe,
que me permite estudiar esa relación.
Daros cuenta que si yo puedo
establecer esta relación funcional
entre y yo conociendo el valor de
que puedo predecir el valor de ley,
esto no es un problema nuevo,
puesto que la asignatura de Física
habéis visto mucho modelo matemático
que describen relaciones
entre variable.
Lo que ocurre es que este es tu.
Este planteamiento general
donde yo quiero estudiar una
relación entre una variable
y que en nuestro caso será continua
frente a una variable que será
una variable numérica,
puede ser discreta, puede ser
continuo en esta forma,
o sea intentar encontrar quiénes.
Esa funciones es un problema
muy complicado en general,
por lo cual.
Por lo cual, en este tema
lo que vamos a hacer va a ser
abordar un caso más sencillo, que es el caso
en que la variable y se relaciona
con la variable
que a través de una relación
lineal es decir,
a través de una recta y ese estudio
de relaciones lineales
entre dos variable en
lo que se conoce
como análisis de regresión, línea
simple bien, entonces,
siendo más concreto la idea sería
estudiar una relación
entre la variable y la variable
que tenga esta expresión,
con lo cual lo único que nos queda
por determinar son los valores de A
y b.
Una vez que yo tenga los valores de
ahí deben puede obtener el valor
de conociendo el valor de la equis.
Básicamente lo que puedo hacer
es predecir el valor
de ahí conociendo el valor
de la crisis.
Este modelo es relativamente
sencillo y en un principio podría parecer
que no tenía mucho sentido estudiar
este modelo, tan simple simple,
la razón por la cual se intuye
que hemos sido tan simples
porque en muchas situaciones hay
relaciones lineales entre variable,
con lo cual tiene una
gran organización
y la segunda razón es que aunque hay
modelos que no son lineales,
se pueden hacer cambios de variable
y convertirse esas relaciones
a través del cambio variable
en relación a la línea,
con lo cual podemos aplicar todo
lo que veamos en este tema
y estudiar esas relaciones
no lineales.
Nosotros no vamos a abordar el tema
de relaciones no lineales,
pero simplemente saber que con
cambio de variable el problema
en algunos casos no lineales,
se produce,
se reduce a un problema
de modelo lineales.
Bien, pues entonces por para
ir fijando anotación,
se va a entender por análisis
de regresión lineal simple.
El estudio de una relación lineal
que nos da el valor
de una variable que llamaremos
variable, dependiente en términos
de una variable equis,
que es lo que llamaremos variable
independiente y claro,
haremos estudio de esa relación.
En el caso de que exista
esa relación.
En general para proceder al
estudio de las relaciones
entre dos variables, lo que se hace
usualmente es obtener una serie
de observaciones que no notaremos,
porque subí y subí
de esa variable bidimensional.
La forma sencilla de abordar ese
problema es muy, muy fácil.
Sí existiese de verdad una
relación lineal exacta
entre ambas variable,
ésta quedaría de manifiesto
simplemente dibujando
en el plano lo subí y sui,
puesto que eso parece estaría
aliñado sobre esa recta
y, como sabe, para conocer el valor
de una recta lo único que necesitó
de dos puntos de esa recta recuerdo,
con lo cual, si existiese esa
relación en un principio exacta
entre la y la equis, yo cojo los
pares de puntos del plan
y puedo sacar cual la red, como
ya he visto en el tema;
segundo de Estadística,
descriptiva de mi variante con
tres pares de puntos;
el la gráfica que se construye
pintando esos puntos en el plano,
en lo que se conoce como diagrama
de dispersión o nube de puntos.
Así que dado una serie de puntos,
si yo tengo una relación
lineal exacta,
entrando variable simplemente con
el diagrama de expresión o nube
de puntos, podría obtener cuál
es la recta que hay
y que describe la relación entre
la variable y la variable,
pues para ilustrar esto vamos
a utilizar el siguiente.
En este ejemplo se trata de un
problema de tipo medioambiental
en el cual hay una zona que recibe
el vertido de aguas residuales
de una empresa como saber
las empresas
como parte de su proceso.
Utilizan agua para enfriar el parte
del proceso industrial,
que al final ese agua se suele
verter en algún sitio,
ocurre que en estos vertidos
hay un alto contenido
en lo que se quiere estudiar,
qué relación hay
entre la cantidad de plomo que lleva
el agua residual que se vierte
y la cantidad de plomo residual que
queda después de un tiempo.
En ese terreno, y para ello,
pues lleva a cabo un experimento.
Se cogen distintas áreas,
se cogen en total 25 áreas y en
las cuales se vierte agua
con distintas concentraciones
de plomo concentraciones
de plomo que están fijadas de
antemano y posteriormente
se analiza la cantidad
de plomo residual
que cada una de ellas pasaba
un cierto tiempo bien,
los resultados que se obtuvieron
en este experimento
son los que aparecen aquí
tenemos por pareja
la cantidad de plomo residual
que llevaba el agua
y después, la cantidad
de plomo residual
que quedan en el terreno
de un cierto tiempo.
Aquí en estos cinco primeros
pared de puntos.
La cantidad de plomo en el agua,
cero en estos cinco siguientes es 1,
25 en los siguientes cinco dos
con cinco así con valores
de cinco 10 días bien.
Sin necesidad de hacer el diagrama
de impresiona nueve puntos,
en este ejemplo ya se va viendo
que esa relación lineal exacta
no puede existir.
Por qué?
Porque nos encontramos con que para
mí los mismos valores de equis
o tenemos distintos valores de ahí.
Y, sin embargo,
si la relación lineal fuera exacta
para el mismo valor
de o tendríamos siempre
el mismo valor
entonces aquí donde empieza a entrar
en función la aleatoriedad,
porque estamos viendo que,
aunque yo fije el valor
de que el valor de ahí se comporta
de manera aleatoria
y donde tenemos que hacer uso de
la inferencia estadística
para poder analizar este
tipo de situaciones,
bien si hacemos el diagrama de punto
o le impresiona nueve puntos
en este caso fijado,
que la gráfica que tenemos
en la que aparece aquí
para un mismo valor de la ceoe,
distintos colores de valor
de igual a uno
o creo que era una 25
cosa es distinto,
y así sucesivamente para cada
una de las situaciones.
Luego ejemplo poner en evidencia
que el estudio relaciones
lineales exacta
es complicado, en general
no se suele dar,
hay que hacer una variación
en ese modelo
que relaciona la y con la equipara
para que pueda abarcar
situaciones que son las que
se dan en la práctica.
La forma de obtener esta gráfica
ya lo habéis visto ante quemado
yo lo voy a recuperar aquí
para hacer el análisis.
Entonces vamos a tener nuestro lector
de que nuestro vector de ahí fijará
que es muy importante,
que identifiquen quién
es la variable.
Por lo tanto, no independiente
y quienes la variable y por qué
la variable dependiente.
Puesto que la idea al final
el objetivo último que nosotros
vamos a pretender
con el análisis de regresión
lineal simple es
intentar saber cuánto vale la a
partir de un valor de Laiki.
Es cierto que ya sabemos de ejemplo
que aún con la misma valor
de que puedo obtener distintos,
balones de todo,
al final lo que pretendemos era dar
un intervalo de posible palo
desde cada vez que fije un valor.
Pero esto es una cuestión que
abordaremos más adelante al final
de esta tanda.
De momento simplemente
tenemos dos vectores
y con esta instrucción podemos
generar el diagrama de inversión
a nueve puntos que hemos considerado
anteriormente,
donde efectivamente se ve que
no hay una relación lineal.
Entonces, qué modelo podemos
utilizar para intentar predecir los valores
de la y, en función de qué?
Bueno, pues para eso voy a hacer
uso de un ejemplo ficticio,
al que ve la idea que hay dentro
del modelo alternativo
que se propone.
La idea que hay detrás de todo esto
es que cuando yo fijó un valor de
por ejemplo equis igual a cinco
en realidad al valor que se obtiene
a través de la recta
en ese punto cinco es decir
al valor a b por cinco
se les sumó una cantidad
que es aleatoria,
que puede ser tanto positiva
como negativa
y que estropea la linealidad.
Cuando yo tengo el valor a más
de cinco a ese panorama
de cinco se le suma una cantidad
de la historia,
y esa cantidad aleatoria que yo
no puedo controlar puede
ser positiva o negativa,
con lo cual el punto se desplaza
o por encima de la recta
o por debajo de la red y por tanto
se estropea la relación
y vamos a ver esa idea con
el ejemplo de ficticio
que dicho vamos a considerar.
Esta situación, en la cual yo tengo
una serie de punto de acuerdo
y va a considerar que yo tuviera
una relación lineal exacta
entre una variable que y una
variable es decir, para cada valor de la equis
a través de la recta y obtendría
los correspondientes punto,
la idea en la siguiente.
La idea es que en vez de obtener en
la práctica ese valor exacto
sobre la recta lo que va ocurriendo
en lo siguiente,
y es que cada punto se eleva sumando
o restando una cantidad que a veces
es positiva y a veces negativa
que les place
el punto o por debajo compone
encima de la recta,
con lo cual la situación que yo
observo excepto aquí y por lo tanto
no se ve una relación lineal
exacta entre la pareja.
Volviendo a nuestro transparencia,
resumiendo lo que hemos dicho hasta
ahora, el primer punto es
observar que los puntos no se hallan
perfectamente alineadas con una recta
aunque sí que presentan una
tendencia aproximadamente lineal.
Guardo como ejemplo no hay
una relación lineal,
exacta pero no puntos al estar
alrededor de la recta
presentar una cierta tendencia línea.
La siguiente cuestión es que
esa falta de linealidad
se produce por la presencia
de errores de medición,
factores experimentales,
etc, etc. Que son aleatorio
y que producen,
que la relación lineal no sea exacta,
luego aquí entra la aleatoriedad y
por lo tanto hemos de proponer
otro modelo que no sea la
relación lineal exacta
que describa mejor esta situación.
Entonces la idea es proponer un
modelo para esa variable,
esos valores observados de ley,
de acuerdo que describa mejor
que lo que estamos viendo
en la práctica, y una vez
que tengamos ese modelo
propuesto lo que haremos será hacer
inferencias sobre ese modelo,
porque el modelo estará
caracterizado por unos parámetros
que en un principio son desconocidos
y eso lo cuales nosotros pretendemos
obtener información a partir
de las parejas de padres
de puntos equis,
uvi y su entonces volviendo
al ejemplo.
La idea es que cuando yo tengo
un valor de equis
a ese valor de equis se le asocie
un balón en la recta
por ejemplo en igual a la sociedad
muestra el valor por tres
ya se valoraba Deportes,
se les sumó una cantidad
que por ejemplo
en este caso es positiva.
De carácter aleatorio que
desplaza el punto
o por encima o por debajo de la red.
En concreto, y procediendo
a formalizar esa idea,
el modelo que se propone
es el siguiente,
y este modelo que se propone
constituyen
la suposición de linealidad
normalidad e independencia
de un problema de análisis
de reversión lineal,
si entonces las suposiciones
que se hacen
son la siguiente.
Los valores son aleatorio,
de acuerdo son observaciones
de una variable velatorio
que verifica la siguiente relación.
Con los valores equis
subí la variable
y subí de la forma hamás ve, es
decir una relación línea
con la variable más un término
que es el término aleatorio,
que se suma y se recta según
sea positivo o negativo.
Entonces en esta relación entre la
variable y la variable equis
tienen primero que los
valores de Ipswich
son valores fijo.
Recordar que el experimento fijamos
valores de igual a 0,
igual a un 25, dos con cinco creo
que era cinco 10 de acuerdo.
Entonces aquí hay unos
valores que fija
el experimentado Bale a
esa relación lineal,
se suma un término Epsilon.
Subí y ese término Epsilon Subi
que estropea la línea.
La linealidad,
lo que hacemos considerar, que
es una maniobra dilatoria
que tiene para empezar
distribución normal.
Además esos términos
que se van sumando se generan
de manera independiente,
no hay ninguna relación entre
los Epsilon su pie
para un equipo y para otro distinto
y además esa distribución normal
que la media y danza constante
sin más cuadra.
Este conjunto de hipótesis
es lo que se llama
la hipótesis de normalidad,
independencia emocional,
actividad.
Este domingo le he obviado el inicio
del de la transparencia para no
hacerlo mucho más largo,
pero esta hipótesis de
voces que hiciera,
es decir que todos los
valores de Epsilon
tiene la misma es algo que ya
apareció en el tema de Anova
y por otro lado que la relación
entre la isla
y que esta relación lineal lo
que se llama la hipótesis
de lo que tenemos una relación
lineal más un término Epsilon Subi,
que es un término aleatorio,
con distribución normal
de medio hacer y constante.
Sin en realidad esta hipótesis
se puede reescribir de manera
mucho más sencilla,
de acuerdo antes de proceder a
la reescritura más sencilla
y resumiendo lo que hemos
dicho anteriormente.
Lo que entendemos que es la variable
y se compone como una relación lineal
a través de los episodios
y un factor que hace
que la relación lineal no sea exacta,
y eso terminó que hacen y que
estropean esa relación lineal
exacta en lo que se conoce
como residuo o error.
Posteriormente recuperaremos el
residuo en una sección posterior.
Entonces, como decía, toda
estas suposiciones
que aparecen aquí se puede
reescribir de manera más sencilla,
como parece, y es que en realidad lo
anterior es equivalente a decir
que la variable, y sui son
su emocionante variable
y su mayor cola, que tienen
distribución normal,
que son independientes y que
verifican que la esperanza
de la variable, de la forma de
subir y la danza de Sui
que cuadrado.
Vamos a ver gráficamente esta idea.
Entonces, para ver gráficamente
esa idea,
la cuestión más en la siguiente, y
es que para cada valor de equis
yo observo una población de valores
y que sigue una distribución norma,
es decir, que es igual a 1.
Por ejemplo, yo tengo asociada una
distribución norma como variable
y ahora lo que hago es observar
uno o varios valores.
Como ejemplo de esa variable,
con distribución anual,
por ejemplo, en este caso este
es el balón que observó
para igualados observó ahora la ley,
y lo que ocurre es que la variable
y tiene una distribución normal
observó un valor de esa
variable normal.
Lo mismo ocurre para que
es igual a tres equis,
igual a cuando yo quise a 5.
Ya la característica que tienen
estas variables normales
es que la media de la variable
se corresponde con el valor;
por ejemplo, se correspondería
con ama de por allí;
se correspondería con Hamás de por
dos a más de 3, cuatro 5.
La apariencia,
como observan en estos 5, caso,
son iguales y, por otro lado,
tenemos que las observaciones
que aparecen aquí
son independientes.
No tiene ninguna relación.
La observación en este caso con
la observación en este caso
y para cualquier posible pareja
y conjunto de observaciones
que queréis.
Considera entonces la
idea fundamental
que tiene que quedar gravemente
esta relación de la variable
y respecto de la variable ha fijado
que la variable que está fijada
por el experimentado
y lo que es aleatorio es el
valor y que yo observo
a partir de esa variable y lo
que decimos en este modelo
de linealidad y independencia
y linealidad,
es que la variable y tiene esta
forma tiene distribución normal.
La media va variando de una recta
en relación con la equis
y la apariencia son costa.
Qué es lo que ocurre ahora?
En nuestro caso lo que ocurre ahora
es que nosotros no sabemos cómo se
comportan esas variables normales
ni tampoco sabemos quiénes la
recta y lo que pretendemos
es recuperar toda la información
de esta estructura
que describe el conjunto de datos
a partir de este conjunto
de observación y eso
es lo que pretendemos desarrollar
en la parte diferencia.
Por lo tanto y volviendo
a la transparencia.
Fijamos que en este modelo no
se hace ninguna suposición
sobre la naturaleza aleatoria
de los datos que soy
y se consideran valores que
están fijados previamente
por el investigador.
Es cierto que en algunos estudios
el valor de la variable se genera
de manera aleatoria,
pero lo importante es que ese
valor se genere previamente
a la observación del valor de
la variable, por ejemplo,
y recuperando el primer estudio
de análisis de regresión
realizado en la historia
por el científico,
hizo un estudio donde analizó
la relación entre la altura
de los hijos con la altura
de los padres.
Consideró como variable aleatoria
dependiente,
altura del hijo y como variable
independiente.
La altura del padre lo que pretendía
era predecir la altura de un hijo,
a partir de la altura del padre,
cogió una serie de familia de
acuerdo donde anotó la altura del padre,
y después pudo apuntar cuáles eran
las alturas de los hijos.
Evidentemente, en esa lección
de familia aleatoria
él no podía fijar cuál era
la altura del padre,
pero desde el punto de vista
del experimento
el valor de la altura del
padre estaba prefijado,
antes de observarse la
altura de los hijos.
En el tiempo, el valor de la Ekhi
precede al valor de ley.
Luego en esa situación
es donde podamos considerar una
un estudio de ese tipo
donde la variable que precede
al valor de ley
podremos aplicar este modelo;
consideraremos que el valor de aquí
está fijado antes del de la
variable, y y la idea es simplemente
cómo podemos obtener información
del parámetro del parámetro b
e implícitamente también
de Sigma Cuadra,
fijaron que esos son los cuatro
elementos que determinan
los cuatro elementos que determinan
el los tres elementos
que determinan el en nuestro.
Nuestro estudio vale.
Lo que ocurre es que eso parámetros
no nos conocemos,
lo que queremos hacer es recuperarlo.
Bien.
Eso es lo que abordaremos
en el siguiente vídeo,
que sea el vídeo correspondiente
a la influencia
en el modelo de regresión lineal.
Si un saludo cerramos aquí y
continuamos en el siguiente vídeo.