Idioma: Español
Fecha: Subida: 2020-04-14T00:00:00+02:00
Duración: 17m 42s
Lugar: OnLine - Online
Lugar: Curso
Visitas: 1.239 visitas

Tema 2 - Video 10

Sección 3.4: Recta de Regresión

Transcripción

Vienen último gracias, vídeo correspondiente a la parte variables cuantitativas. Lo que vamos a ver en la recta de regresión ánimo, cuadrados. Entonces recordar teníamos dos variables. Como mínimo. Tiene un montón variables cuantitativas. Aquí sí y una colección de puntos uno uno quintos y dos se viene correspondiente a la observación de. Eran dos variables sobre un conjunto de individuos. Entonces, nosotros lo que teníamos era un gráfico. Mal veo más o menos unos y. Vale. Además, hemos generado más o menos ese. Lo que buscábamos era. Aquí tenemos la variable que se denomina la variable e-y este sería el diagrama de dispersión para para esas dos variables. Y hemos dicho que lo que nosotros llamamos lo que nosotros nos íbamos a centrar es en la relación lineal entre las dos variables. Entonces lo que buscamos es la recta, que mejor se ajustes a nueve puntos. Hemos dicho que cualquier recta tenía la forma a más b por equis a era la ordenada en el origen y ve la pendiente de la recta. Bien, entonces el problema que vamos a plantear ahora es el problema de mínimo cuadrado, que corresponde a la búsqueda de esa. Y sabe qué es lo que me la quién me determina cuál es esa recta que yo quiero saber por qué? Porque si yo conozco esa recta de manera exacta yo puedo estimar la variable e y para un valor de la variable equis, generados en el, por ejemplo para el ejemplo de los estudiantes y las calificaciones, en el primer y segundo parcial, si yo encuentro la recta que mejor se ajusta es a nueve puntos. Yo puedo aproximar la nota que es al que sacaría un estudiante en el segundo parcial si conozco su nota en el primer parcial marcial. Bien entonces, cuál es el problema que vamos a plantear? Nosotros lo que queremos minimizar es el error que cometemos cuando utilizamos la recta para estimas qué? Qué quiere decir eso? Por ejemplo, para el estudiante, uno al estudiante o uno el estudiante uno tiene la planificación en guiso 1, en el primer parcial, y la calificación y su boom en el segundo parcial. Si yo encuentro la recta igual a más Bronx, que mejor se ajustase a esa nueve puntos para el segundo parcial. Yo tengo dos cosas. Yo tengo, por un lado, su nota exacta que si uno por otro lado yo podría utilizar la recta para calcular sus de aproximadas unos de aproximada sería a más b por equis, 1, no para el segundo estudiante, para el estudiante dos. Yo tengo equips dos la nota en el primer parcial y 2, la Noda en el segundo parcial entonces en el segundo parcial. Yo vengo como nota y 2, como nota aproximada, según esa recta, según la relación que existe entre la Xmile ahí a más ver por equipitos. Entonces quién será la mejor recta, o sea, que valores de ahí ves eran los mejores, pues aquellos que hagan que la diferencia entre y uno a más por equis uno la diferencia entre heridos menos a más b por el dos así con todo sea lo más pequeña posible, no, eso lo va a mí me interesa. Si esta es su nota de verdad, y esta es su nota próxima según la recta. Cuanta más diferencia entre estos dos valores, peor valor será este, mientras que cuanto más se acerque este valora este mejor valor será eso para el estudiante? Ahora lo mismo para el segundo, cuanto más se acerque este valor a este de allí mejor, cuanta más pequeña sea la diferencia de y dos este valor mejor, y así con todos. Entonces, todas esas diferencias sería esta cantidad y uno menos a mí me curen, quiso uno o más ido menos amable precavidos así hasta la última, ahora, lo que ya hemos comentado en alguna ocasión para otros problemas. Si yo sumo así puede basar que alguien tenga valores positivos igual en negativo, porque esto básicamente, si lo traducimos en el gráfico. Fijaros que estas cantidades son la línea recta, vertical, entre cada punto y la recta por ejemplo. Esto de aquí estoy aquí estoy aquí estoy aquí estoy a mis porque, por ejemplo, parece punto. Este punto es el punto. Quiso 1, por ejemplo, vamos a suponer que este es el 1. Vale, da igual el que se cierto. Si uno entonces la altura está esta altura es si uno ahora cuál es esta altura? Pues altura en la imagen de quiso uno sobre la recta, o sea esta altura esa más ve por mis 1. Entonces, la diferencia entre y uno que es este valor aquí y a modo por equis uno es este trocito de aquí; o sea todas estas cantidades está ahí está son todos estos de aquí que me interesa que sean lo más pequeños posible; o sea me interesa que los puntos estén lo más cerca posible de esa recta. Entonces, qué pasa con estos trocitos? Pues que dependiendo de si el punto está por debajo o por encima de la recta son positivos o negativos. Entonces, como yo quiero tener en cuenta todas las diferencias, lo que hago se elevará al cuadrado todas estas cantidades para que todas sean positivos y no se cancelen unas con otras. Entonces, por eso al final a lo que llegamos es al problema de. Bueno, minimizadas. El problema que vamos a plantear es minimizar. La cantidad y uno menos a más veo por mis uno al cuadrado más y dos menos a b por ellos dos han cuadrado etc, etc. Hasta y su vene menos a más b por isn. Y qué es lo que puede variar en esta electa en esta expresión que mi minimizo? En función de quién poder? Ahí? Del helio uno es fijo en la nota que ha obtenido el estudiante en el primer parcial, en el segundo parcial, perdón y equis, uno obtenido el estudiante en el primer parcial. Por tanto, todas las seis las equis son conocidas, que cambia lo único que es variable, la y entonces yo miro entre todas las así ves posibles, y busco aquella que me hace que esta cantidad sea lo más pequeña posible. Esto también lo podemos escribir como el sumatorio; igual aún no está en el de insume y menos a no ve por el y su Cuadra que lo que se aparece en el guión. Entonces, el problema de minimizar esta cantidad es lo que se conoce como el problema de mínimo cuadrados. Entonces, la solución de ese problema en la que me da esta recta aquí que lo que yo quiero, este problema además siempre tiene solución, hicieron siempre. Hay una y, una vez que minimizan esa cantidad. Esto se dio, pero. Esto aquí dentro del de la última sección que se corresponde. Es vídeo. Con lo que les acabo de explicar sería esta parte de aquí el problema de mínimo cuadrado, o sea, dado un conjunto de puntos xhup, vih, y su vi. Estos eran las observaciones. Para los individuos. De las dos variables buscamos la y la, que es lo que vamos a llamar avorrits de gorrito, que minimizan esta cantidad, o sea, todas las diferencias que existen entre la observación de esa variable y la estimación mediante la recta. Entonces, como digo, eso siempre tiene siempre tiene solución. La gorrito tiene esta expresión que se equivalente a esta, es decir, fijar o que está en función de las medidas efectivas que hemos visto, esa depende de el coeficiente de correlación, o si lo expresamos de esta manera de la varianza, el reto. Son medidas descriptivas del tema 1. La media de la y la media medio de la y medio de la desviación típica de la equips y la ve igual a la vez. Depende, según según lo expresemos, conectado. Conecta de la Gobernanza o del coeficiente de correlación. Entonces, al final, la ecuación de la recta sería esta. Ahí se puede pensar cómo. La media de la y menos largo varianza partido de la típica el cuadrado, que es la varianza por la medida de la equis más. La covarianzas partido, la varianza de la equis por la eix lo hemos dicho antes, esto no lo vamos a calculáramos nuestra emprenderemos a calcularlo con el ordenador e importante que entendáis el problema que estamos planteando, porque si no, no entenderé para que utilizamos esa recta. Entonces entonces qué problemas resuelve esta recta? Pues es el que minimiza las distancias entre los puntos y la recta, es decir, buscamos la recta que mejor se ajusta a nueve puntos, o sea, la recta, que mejor aproximación me da de la variable e y a partir de la variable que es esa es la solución -venta recta. Entonces, por ejemplo, para el cómic, para el ejemplo de las calificación, nosotros tenemos que la recta de regresión es está aquí. Esa es la que minimiza las diferencias. Entonces, la calificación del segundo control las podemos escribir como menos, -0 puntos, 0, 1, 1, tres más, cero puntos, 79, cuadro cero 2, por la calificación en el primer control. Es una manera de aproximar la verificación en el segundo control a partir de la calificación. En el primer control fijaros que la ve nos ha salido positiva cosa lógica. Sí hemos dicho que la relación entre las dos variables era directa y que el coeficiente de correlación era positivo, o sea que la relación directa, la renta tiene que ser creciente, valore pequeños con valores pequeños, valore grandes, con valores grandes. Eso ya dijimos en video anterior que se correspondía con una pendiente positiva, pendiente positiva. Eran las rectas que crecían y la pendiente negativa en las rentas que decrecían, y este número simplemente indica donde corta el eje al era la ordenada en el origen. Entonces, para qué nos pueden servir este esta recta? Pues imaginaros que ahora mismo tenemos 1, un nuevo estudiante, vale, o para el año siguiente o en fin, de repente tenemos otro estudiante para el cual no conocemos su. Nos dan el segundo control, y si conocemos la nota en el primer control, pues podemos estimar la nota en un segundo control a partir de esta recta. Entonces en el ejemplo bueno, perdón. Se me olvida decir esto. Entonces, la pregunta ahora es la siguiente. Vale, yo puede utilizar esta recta para estimar la calificación en segundo control, pero esa estimación es aproximación, es buena, es real. Me puedo fiar si por ejemplo a mí esa recta me dice que ese alumno va a sacar un siete de verdad. Ese alumno va a sacar un siete o no el último día que nos queda por ver entonces cómo puedo responder a esa pregunta? Como no sé yo si se siente, es fiable o no es fiable? Bueno, en primer lugar, lo que podemos hacer es pintar la recta sobre los puntos. Si los puntos están casi todos sobre la recta muy cerca de ella querrá decir que esa estimación es fiable porque efectivamente la recta ajusta muy bien en la nueve puntos, ahora, si no, no nos podemos fiar, no tiene por qué sacarle el alumno una, una calificación cercana, 7. Entonces lo que hay que ver es lo lejos que están los puntos respecto de la recta con Tom Alejo menos fiable problema. Esto es muy lejos. Cuantificar si son lejos o es cerca. Ojo, es difícil, no dependiendo de las calas, etc. Etc. Pues contestaríamos a esa pregunta, pero esto es subjetivo. Entonces, cómo puedo yo analizar eso? Objetivamente, para eso tenemos el coeficiente de determinación. El coeficiente de determinación no cuantifica lo bueno, que es el modelo para estimar lo fiable que es esa recta. Entonces, cómo se calcula el coeficiente de determinación, el coeficiente de determinación vamos a ver notar por el cuadrado y es simplemente el coeficiente de correlación al cuadrado. Entonces, cómo este valor estaba entre menos -1 1. El coeficiente de determinación siempre va a estar entre cero uno. Lo que vamos a hacer es pedirle que sea muy, muy alto. Para fiarnos, vale, es fiable. Sí es mayor, igual hacer o no debe, le pedimos mucho, pero claro, es que estamos pidiendo que esa recta nos dé una información fiable sobre la variable y que le estamos pidiendo mucha recta. Entonces le tenemos que pedir mucho, le tenemos que pedir que sea muy bueno. Entonces, siempre que este valor esté por encima del nueve pues asumiremos que el resultado es decir, que la recta fiable y para un nuevo individuo podemos utilizar la recta. Igual hablamos de por Ellis para conocido el valor de equis, estimar el valor de en nuestro ejemplo de la calificación. Tenemos que el coeficiente de determinación 0, 43 aproximadamente. En este caso no podemos decir que la recta sea buena como para predecir. No es que sea mala, vale, 0, pero no es suficientemente buena. No llegamos a ese cero con nueve que le estamos pidiendo, va y ya por último hacer simplemente un comentario, que es que en realidad, cuando estamos haciendo esta parte de utilizar la recta para predecir para un nuevo individuo, en realidad estamos haciendo inferencia estadística no estamos haciendo descriptiva, porque estamos haciendo el salto ese que os comenté de nuestra muestra de nuestra población de estudio a una población más grande, o sea, estamos intentando utilizar la información que tenemos de un grupo de estudiantes para analizar la calificación de un estudiante que no tenemos en ese grupo 3. Ese salto sería la inferencia estadística. Por lo tanto, para obligar es el problema. Desde este punto de vista, en realidad tendríamos que comprobar una serie de cosas que por supuesto no puedo explicar porque no hemos visto nada de diferencia. Entonces, simplemente que se va a ir, que aparte de que el modelo sea bueno, no sea bueno en función del coeficiente de terminación, se tienen que cumplir otra serie de requisitos que nosotros no podemos ver por dónde llegamos en esta asignatura, pero que hay que tener en cuenta y que son importantes

Intervienen

Carolina Martinez Riquelme

Propietarios

Carolina Martinez Riquelme

Comentarios

Nuevo comentario

Serie: (5802) Estadística (+información)

Grado en Geografía y Ordenación del Territorio