Idioma: Español
Fecha: Subida: 2025-03-07T00:00:00+01:00
Duración: 34m 17s
Lugar: Videotutoriales
Visitas: 200 visitas

Jamovi01: archivo de datos

Preparando el archivo de datos

Descripción

Preparando el archivo de datos: Introducción de datos (niveles de medida y etiquetado). Validación de datos. Filtros. Transformación de datos. Variables calculadas.

Transcripción (generada automáticamente)

En esta serie de vídeos vamos a centrarnos en el uso del móvil como paquete estadístico. Lo primero que tenemos que tener en cuenta cuando hablamos de software estadístico es el sentido de la medida. La medida es una cuantificación o una asigna numerosa las cosas. Cuando medimos algo lo podemos hacer con 3 niveles de medida. Una medida puede ser continuado cuantitativa, donde un número tiene sentido numérico, así 4, es el doble de 2 o un poco la diferencia que hay entre 4 2 es semejante o es igual a la diferencia que hay entre 8 6, una medida ordinal. Lo sé o cuasi cuantitativa es aquella que no tiene del todo sentido numérico, no podemos decir que 4 es el doble de 2 ni que la distancia que de 4 a 2 en la misma, que de 6 a 4 simplemente son valores que se pueden ordenar. Así que podemos saber cuál es el disco, la canción, más escuchada, la segunda canción, más escuchada, la tercera, la cuarta, pero esos números, si así se los asignamos, no tienen sentido numérico, y por último, una medida puede ser nominal si simplemente denomina así por ejemplo medidas continúan cuantitativas puede ser pesan kilogramos la altura en cm el tiempo en segundos el número de errores que se cometen al realizar una tarea todo ello tiene sentido; medidas ordinarias o cuasi cuantitativas son muy frecuentes en cuestionarios y escalas donde se utilizan. Escalas tipo linker que ofrecen una gradación desde muy en desacuerdo hasta muy de acuerdo si a eso le asignamos números 1, 2, 3 4 No podemos decir que el 4 sea el doble de 2 ni sabemos la distancia, no tenemos mucho muy claro cuál es la distancia entre unos valores y otros, lo que sí que sabemos es que el 1 va antes que el 2 va antes que el 3 así sucesiva, medidas de tipo ordinal, las últimas y muy frecuentes en la medida en nominales o cualitativas o categóricas, que simplemente se utilizan para denominar o nominar las cosas. Así que podemos decir 1 o masculino o femenino entre no binario Cómo podríamos haber puesto a b y c? No tienen sentido o no he visto eso? Vamos a plantear un ejemplo, un ejemplo en el que tenemos una serie de datos de trescientas 50 personas mayores. Son datos simulados, no se corresponden a una muestra real. En esta hoja de cálculo tenemos una serie de datos. La distribución de los datos para un paquete estadístico siempre es en la misma. Cada fila es una persona. Un caso, cada columna es una variable o una medida. Aquí aparece una medida que es el identificador, no es una medida que se utilice a nivel estadístico, lo que nos sirve es para poder identificar casos que puedan tener un dato erróneo. Saber a quién corresponde no vamos a poner nombre y apellidos de la persona, pero sí que tenemos un código único, un identificador de esa persona que podremos utilizar. Para revisar los datos de esa persona vemos que tenemos en la que tenemos el género, la educación, el estado civil, los ingresos y, si observamos todos, son números, todos son números porque ponemos números, porque utilizar un 1 para masculino, para hombre un 2 para mujer o femenino es mucho más rápido a la hora de introducirlo y para un paquete estadístico. Hombre, con mayúscula y hombre con minúsculas, son valores diferentes. Entonces siempre siempre es recomendable utilizar números a la hora de introducirlo. Los números son enteros, 1, 2. Podríamos tener datos, tipo texto donde 1 es sí y el 2 no, y entonces serían datos de tipo texto, pero qué siempre recomendamos? Es que sean datos numéricos. Pero visto estos datos no tenemos muy claro qué significa. Claro que no lo tenemos claro, porque necesitamos un libro de codificación o de boca donde podemos entender cómo es cada variable. La edad es una variable cuantitativa o continua que se expresa los años que tienen la persona géneros; una variable nominal que tiene 2 valores Unidos masculino y femenino. La educación tiene 4 niveles sin estudios. Primaria, secundaria y universitaria al estado civil tienen 4 niveles, y así sucesivamente. El nivel de satisfacción con la vida, que tiene 3 niveles bajo medio y alto podría considerarse ordinal, porque el 1 en menos que el 2 el 2 en menos -3, al igual que el nivel de estudios podría considerarse ordinal porque sabemos que es menor y que es mayor, aunque no tengan eso dígitos. Un sentido propiamente visto. Esto, pues ya podemos irnos a Jaén hoy y lo que vamos a hacer. Esta hoja de cálculo es cargársela en el programa; para eso nos vamos a la ciudad rayita sola hamburguesa abrimos y vamos a buscar este archivo, que lo tenemos aquí y ya tenemos estas variables. Jamás mí lo primero que tenemos que hacer con un archivo de datos es identificar las variables e identificar su nivel de medida y, en su caso denominarlo niveles. El IDE no vamos a trabajar con él, era ese pico. 2 veces me aparece el panel de la variabilidad, donde puedo indicar el tipo de medida nominal, ordinario, continua. La edad es una variable continua, perfecto, género es una variable, hemos dicho que nominal, y está representado por los valores 1 2. Estos valores no son, no, no son texto, son valores enteros. Esto es importante tenerlo en cuenta y después veremos las implicaciones que tiene. Tiene educación. Educación es una variable nominal y sus valores son enteros. Voy a ir identificando el tipo de medida y, ya que estoy también los niveles a denominar los niveles. Hemos dicho que 1 es masculino, y 2 es femenino. Género masculino y femenino, pero aquí sigue estando. Los datos 1 2 es que en realidad jamón voy sabe que esto es un honor y estos son 2 solo que nos muestra esta etiqueta. Si yo hubiera cometido un error en ese dato y fuese de género femenino, no debería escribir femenino, simplemente pondré fondos, y automáticamente me asignaría la etiqueta del valor. 2, pero volvemos a educación, picudo OPC, sobre el nombre, y hemos dicho que es sin estudios la siguiente. Primaria, secundaria y universitaria. Nivel educativo. El estado civil es una variable nominan. Sus datos son de tipo entero. Los datos originales que tenemos. En la hoja de cálculos son de tipo entero soltera soltera Casado casada dibuja, viuda-divorciado, divorciado puedo aquí ir pasando de variable en variable. También los ingresos, cuando continúa los datos los asigna automáticamente como decimales, que significa que pueden ser datos; al ser datos continuos podrían tener decimales en este caso no los tiene, pero siempre es conveniente que que se identifiquen como decimales y automáticamente lo hace jamón, cuando la variables con enfermedades crónicas estas variables nominan; y esto es si no hemos dicho antes que educación podríamos considerar la perdón ordinario pues así lo consideramos coordina, no tienen ningún a nivel de las etiquetas de los valores, no tienen ninguna diferencia. Los medicamentos hemos dicho que es una variable continua que expresa el número de medicamentos. Aquí podemos tomar el número de medicamentos prescritos. Cuántos medicamentos tiene que tomar? Por si queremos simplemente expresarlo? La actividad física son las horas de actividad física por semana o van por semana. Es una variable continua. Cuando es una variable. Continúan no expresa niveles, el IGME C es el IPC. El índice de masa corporal aquí lo expresó también índice de masa corporal. Bien. La descripción de la variable es opcional. La satisfacción con la vida es ordinal donde una es baja, si fuese nominal, no tendría diferencia media y alta cuando son muchos los valores, y si hay una importante diferencia entre una variable ordinal, la red de apoyo social vamos a ponerlo aquí de apoyo social, que presa, pues la persona que tiene cerca familiares, amigos de apoyo social, expresa el número de personas, número de personas en su red de apoyo social es una variable continua cuantitativa y las horas de sueño por la noche perdón, sumió de manera que yo tengo etiquetadas toda mi parece muy bien. Lo primero que vamos a hacer siempre, una vez que tengamos los datos es validar estos datos. La validación es comprobar que los datos disponibles encajan en esta descripción. No puedo tener un valor de género que sea 5 ni puedo tener una valora enfermedad crónica, que sea 8 porque solo se admiten el 1 el 2 Cómo hacemos eso? Bueno, por lo que vamos a hacer es explorar los datos de que vivir esos datos y para describir vamos a empezar con las variables que son nominales, ordenarles esto. Al etiquetar las variables. Ya habríamos observado los valores a la hora de que los etiquetamos por ejemplo en el género nos habían aparecido los valores 1 2, si me hubiera parecido un 8, ya sabría que hay un error que no encaja, que no encaja bien en este caso, como son variables nominales, lo que puedo hacer es obtener una tabla de frecuencias, 100 ya veo los valores que tengan cada variable masculino y femenino. Sin estudios primaria perfecto, son los datos esperados. No tengo nada que sea atípico. Repito, que al etiquetarlo valore, me habría dado cuenta de que tenía algo atípico. Vamos, entonces a hacer una descripción de las variables que son continuas. Bien, aquí tengo las variables, las variables, continuación, voy a observar, sobre todo los cánones mínimo y máximo y entonces tengo que le da el valor mínimo de 60, son personas mayores y el máximo de 195. Esto es claramente un esfuerzo porque no hay una persona que tenga 195 años, tendré que buscar dónde está ese dato y revisar ese dato vamos a asumir bueno ahora lo comentamos ingresos medicamentos actividad física en actividad física menos -3 pero la actividad física, si es el número de horas de actividad física a la semana, no puede ser menos -3 entonces de nuevo claramente un error bueno pues tenemos que identificar esos errores nos vamos fijados en lo menos que tenemos variables que donde puedo ver la variable, si las descripciones que he realizado, los datos, que la hoja de cálculo y análisis, que es donde los análisis estadísticos bien, sé que tengo un problema con edad y tengo que identificar el caso, que es 195, claro, en la que la tengo aquí 195, podría ir 1 a 1 si tengo muchos datos, pues realmente será difícil. En este caso, qué hacemos? Aplicamos, un filtro para localizar ese dato, por ejemplo, filtro, un filtro siempre va a ser el nombre de una variable y la tengo que escribir, tal cual. Aparece aquí si es una variable que sea larga, pues si quiere le puedo dar aquí hace equis y busco aquí las variables queda sería lo mismo que inscribirla, que da que sea mayor de 60, de 90 para que veamos cómo funciona un filtro. Cuando yo aplico eso me identificar con una marca verde los que cumplen esa condición. Claro, aquí hay muchos y yo quisiera solo ver ver estos con el ojo, simplemente limito y veo los que cumplen esa condición, que es la mayor de 90 o mayor de 95 o mayor de 95, pues solo los que cumplen esa condición vale, pero yo el dato que tengo es bueno cuando dice mayor de 95 puede ser mayor o igual a 99 Pues los que cumplen esa condición. Ya tengo aquí el que han dado buscando, pero también sé que yo estoy buscando un caso que es 195. Bien, el valor 195, cuando lo quiero buscar exactamente un valor, debería ser igual a 195, pero, pero importante, importante. El igual lógico es con 2 signos iguales, queda igual a 195. Entonces ya tengo identificado, que es el caso con el de 3, 3, 7 puedo modificar aquí? No, no puedo modificar este dato porque tengo un filtro asignado, para eso debería el filtro, quitarlo con la he escrito el filtro, recuerdo que es el tren 3 7 ya me puedo ir al caso 3 3 7 3 3 7 modificar vamos a asumir que esto le dará a 95. Lo que debería hacer es buscar la información que del que tengo del caso 3 3 7 verificar su edad pero bueno pues simplicidad vamos a suponer 95 ya lo tengo. Actividad física en menos -3. Sé que es un error, lo demás parece ser que no tengo errores porque encajan en el rango de valores, pero este sí por nada me tendré que ir, y en actividad física puede describir aquí el nombre, tal como aparece mayúsculas, minúsculas, y tilde si las hubiera que no son recomendables en nombre de variables que optimiza actividad física sea menor o igual a 3, por ejemplo, menor igual a 3. Pues claro, solo tendría actividad física menor igual a 3 estos casos de aquí yo estoy buscando, no que sea menos -3. Bueno, les conozco exactamente ese valor que sea igual a menos -3. Tengo un caso, que es el 299 Ya sé que aquí no lo puedo, no lo puedo hacer. Observa que ha pasado con la tala de descriptivas cuando aplique un filtro, los resultados que tengo en pantalla se restringen a ese filtro. Vale? Bien, sé que tengo que ir al 299 aprovecho esto para lo siguiente. Si pongo aquí género igual, ya que estamos, vamos vamos a aprovechar esto. Perdón, perdón, pero nos va a venir muy bien. Yo sé que la variable género es masculino y femenino y que los datos eran de tipo 0. Vale? Bien. Quiero filtrar fijar en todos estos actos. Quiero filtrar los cánones que son género igual entre comillas simple igual pongo masculinos masculino yo supongo eso porque los datos los tengo aquí también estoy viendo los tengo aquí solo son hombres que hay 164 estos porcentajes corresponden solo a los hombres, al filtro que yo he aplicado este filtro, lo he aplicado con comillas, simples, pero también lo podía haber aplicado con comillas dobles. Sería exactamente igual. Incluso como los datos de origen son enteros, yo puedo buscar que generosa, igual a 1, porque es el dato original que hay en la la hoja de cálculo y perfectamente lo tengo vale género igualados, porque es el dato el dato, el 2 es el dato original femenino. La etiqueta a la hora de buscar. Por tanto, cuando aplique un filtro puedo buscar por el dato original si es entero o bien con la etiqueta correspondiente. Hay 186 mujeres, el 22,6 por 100 de las mujeres son. Si no tienen estudios, el 25,8 por 100 son universitarias cuando quite el filtro. Bueno, ya sabemos cómo filtrar dato y que eso filtros afectan, afectan a a lo que se ven pantalla. Los resultados se limitan a ese filtro. Cuando utilizo un filtro también puedo hacerlo con varias variables que generó sea igual alguno que son hombres y más que educación, sea igual a 3 en educación perdón, que mi propia guerra, que se iguala 3 entonces hombres con educación secundaria, pues solo hay 49 ya todo se limita. Todos los análisis se limitan a estas 49 personas, porque es el filtro que utilizan, quitamos el filtro, no vamos a la actividad física, sabemos que es el 299, 299, aquí lo tenemos, que era menos -3 esto vamos a suponer que he revisado la información original de ese caso y esto era 3. Ya tengo mis datos revisados muy bien. Observamos entonces en las variables cuantitativas, que hay 350 casos y que no hay ningún caso perdido, no hay ningún caso perdido, que es un caso perdido, pues un caso del que no tenemos información. Por ejemplo, vamos a suponer el primer caso no sabemos su edad la voy a abordar pues ya tenemos un caso perdido y 349 disponibles en el número de casos, casos perdidos y entonces estadístico básico, media mediana, desviación típica mínimo y máximo; hemos dicho que esto era 90 de estos estadísticos básicos. Antes de esto, ante esto sí me fijo aquí tengo unos estos datos, este panel de resultados perdón, que son los estadísticos descriptivos, las frecuencias y porcentaje de la variable nominales y ordinal mes y este panel de resultados, que son los estadísticos, descriptivo de las variables continuas. Observamos que este está en blanco es el activo de los resultados activos ya la izquierda tengo la las órdenes que yo di para obtener estos resultados de manera que sí pico aquí pues entonces tendré el panel con el que obtuve estos resultados. Muy bien, pues ya sabemos cómo cómo obtener estos datos descriptivos y en el caso de variables continuas, si necesito algún estadístico descriptivo lo tengo en la pestaña estadísticas donde tengo, en los perdidos media mediana puede obtener los percentiles, de manera que el 75 por 100 de la muestra tiene una edad inferior a 89 años, el otro 25 por encima superior a 89 años, el 25 por 100 tiene una edad inferior a 71 años, el 75 por 100, que me falta hasta 100 tiene una edad superior a 71. Los percentiles puede obtener además el que aquello se ampliaban. 95 percentil 25 añade una coma el percentil que quiero y automáticamente muestra el 5 por 100. Lo que me queda por encima del 95 tiene una edad superior a 98 años. Puede obtener otros estadísticos que pueda precisar bien el recorrido en la diferencia entre el valor mínimo y el máximo y el recorrido intercuartil. La diferencia entre el percentil 25 el 75, la moda, el valor más frecuente, el que más se repite, por ejemplo el 84, es la edad que más se repite. El 7 es el número de medicamentos más dispensados, que más personas consumen, y 1.634. Es un valor que se repite mucho, pero hay otros valores que se repiten el mismo número de veces y por eso me lo indica. Bueno, la media es el estadístico dependencia central, que me representa, lo que sería lo común, y está ideada para datos cuantitativos, la mediana para datos ordinarias y la moda, para adaptar nominales, pero sí la distribución muy asimétrica, por ejemplo, si pensamos en la renta per cápita. En Brasil podemos pensar que esa distribución no es no es simétrica en el sentido de una distribución normal que habrá muchísima gente con pocos recursos y pocas personas, con unos recursos inmensos. Cuando se calcule la media esa media no será representativa. En ese caso sería preferible en la mediana, porque esa distribución es muy muy asimétrica. Estos datos descriptivos puedo no voy a quedarme con con los más habituales. Percentiles lo voy a quitar también, y son los datos para la muestra en su conjunto, observar este panel de aquí separar por yo puedo separar estos datos en función del género y entonces tengo el tamaño muestral, 164 hombres, 186 mujeres, la media de hombres y mujeres, la mediana, la desviación típica, incluso puedo separar por más de una variable, por ejemplo, por género y por enfermedades crónicas, de manera que tendré 97 personas, que son nombres y tienen enfermedades crónicas. Los ingresos, los medicamentos, en fin, toda la variable que tenemos que tenemos disponibles muy bien, vamos a estar aquí yo puedo quitar, tengo el Mc, que es una variable de uso bastante frecuente, que en realidad es el peso de una persona dividido entre el cuadrado de su altura, pero alguien me cese se suele categorizar en 4 niveles, y MCA bajo que se inflara peso, cuando el valor de 10 veces inferior a 18 con 5 normal, cuando está entre 18 con 5 24 con 9 sobrepeso sobrepeso cuando está entre 25 29 con 9 obesidad, cuando es de 30 o más. Bueno, lo que vamos a hacer ahora es crear una variable adicional. Cómo hago esto? Pues, media situara externa, es necesario, pero me voy a situar en esta variable, porque cuando yo le dé a transformar esta variable en otra me la va a crear a continuación. Por eso me pongo aquí para que me la creo justo a continuación. Si le voy a transformar, me crea una variable que me va a llamar como merecedor. Yo la voy a llamar cada 1 tiene sus manías y MCA fe para saber qué está categorizada esta variable, la variable de orígenes y Homs, y tengo que utilizar una transformación, porque ahora mismo tengo los mismos valores. Como no he utilizado ninguna aquí me indica que no hay ninguna transformación bien propia. Crear una nueva transformación a esta es la formación Le había llamar y MCA. Pues sí acabaría que sepa que transformaciones. La definición, una vez que la ha denominado empiezo, a poner condiciones de recorrido eficacia, la primera condición, sin la fuente que se líe mece, es menor de 18, punto 5. Entonces voy a usar el valor 1. Ahora después veremos qué supone esto. La siguiente vuelva a pulsar condición de riesgo de edificación; si es menor. Hoy igual, a 24, 9 voy a usar 2. Añado la siguiente. Si es menor o igual a 29, 9 voy a usar 3, si es mayor o igual a 30 voy a usar 4. Bien, cuando tenga esto ya tengo aquí estos datos preparados. Ahora lo que voy a hacer es en análisis explorar estadística descriptivas. Ha trasladado aquí hay perdón perdón, perdón, que me ha quedado. Me ha faltado hacer una cosa. Me ha faltado en esta variable. Evitar esta transformación y que el tipo de medida sea denominar voy a forzar, a que sean nominal bueno, también puede ser, ordena no significa menos aún cuando hay pocos valores, como ha dicho, no tiene, no tiene mucha diferencia. Bien, entonces vuelvo a análisis y en exploración. Dice en la sala de aquí piden la tabla de frecuencias y me la pone al revés, y yo quiero primero la luz, la razón y luego la 3 luego la 4. Bueno, pues qué puedo hacer en estos casos? Lo que puedo hacer es vuelvo a la transformación que he hecho y en vez de esto voy hacer lo siguiente, entre comillas, 1 punto bajo o antes de eso, poner entre comillas bajo para que veamos las distintas diferencias, entre comillas, normal, poco comillas, porque esto es texto y tengo que poner comillas para que me lo admita sobrepeso, y la última obesidad. He puesto una obesidad muy bien, cuando pongo esto, lo considero ordinario iba a decir que sí ordinal, aunque sea ordinario poner en la nómina, y cuando veo la tabla bajo normal, obesidad y sobrepeso, claro, cuando me lo ordena menor, ordena alfabética mente. Pero yo primero debía estar sobrepeso y después obesidad. Bueno, pues la única manera que tengo de eso para eso es poner aquí un 1, por ejemplo, 2 puntos 2 para forzar que se que se ordene 2, 3 4 en principio debería hacerme caso, y en este caso yo tengo bajo normal sobrepeso y obesidad o bien poner a sede en vez de 1 2, 3 4 de esa manera. Bueno, hemos visto que hemos transformado una variable a otra, pero cuando la quiere de manera que sea con datos categóricos pues es conveniente poner poner este podría hacer lo mismo para hacer un intervalo de edad y entonces poner de 60, 70, de 71 a 80. Bueno, pues vamos a hacerlo en edad. Me sitúo en edad. Doy al transformar llamar era categorizada categorizada, donde ahora mismo mostrar lo mismo porque no tengo ninguna ninguna otra formación creada para esta variable y voy a crear una nueva que la a llamar era para identificarla de la otra y empieza a añadir si era tal y como está escrita y es menor o igual a 80, 70. Perdón, es que empiezan en 60 años, aquí veo usar 60, 70. Dijeron que aquí no voy a poner lo del 1 adelante porque se van a quedar ordenados tal, tal y como son los valores se van a quedar ordenados. Añado otra condición -Silleda es menor o igual a 80, entonces será de 70, 71 80, 71, 80. La siguiente condición, si edad es me ayuda, no lo tengo que poner perdón, si 80, si da si es menor igual a 90, entonces era 81 90 aquí porque como ya se sabe cuál es la de origen, que se da por no tengo que ponerlo aquí sino desde luego me va a dar un error aquí y añado. La tercera condición, si es menor o igual al FIEM -voy a usar 91 vale. Cuando yo entro ya tengo creada esta variable y espero que sea bueno y me haga lo que quiero que es explorar esta variable que se da categórica, tienen la tabla de frecuencias y aquí sí que me sale ordenada porque se sentaba antes que 71.081 91. No ocurría lo mismo en esta, porque la obesidad iba antes de la ESO, por eso me he visto forzado a poner esos dígitos delante, para que queden ordenados. Muy bien. Pues con esto espero que sirva para saber cómo preparar un archivo de datos en el móvil. Decir que cualquier variable se puede eliminar toda la variable o se puede eliminar ese caso. También podemos que no. Lo hemos visto. Podemos calcular nuevas nuevas variables. Aquí no tiene mucho mucho sentido, pero vamos a suponer que el 10 el 6 son 2, los 2 datos, por ejemplo, actividades que se hacen por la mañana y actividades que se hacen por la tarde o similar, y nos interesa tener la suma de lazos para eso utilizaría calcular, de manera que aquí calcular voy a llamar suma suma, sería medicamento, una actividad física. Tengo que poner la variable tal, tal como vienen aquí pero como sabemos aquí puedo tener la variable pico medicamentos, le pongo el signo más y actividad física, porque hoy a sumarlas. Automáticamente tengo esa nueva variable calcula, pero bueno, esto realmente no me interesa, se pone. No me interesa. Eliminó esa variable bien, ya tenemos nuestro archivo preparado para trabajar, un saludo.

Intervienen

Juan Jose Lopez Garcia

Propietarios

Juan Jose Lopez Garcia

Comentarios

Nuevo comentario

Serie: Jamovi (+información)

Análisis Estadístico con Jamovi

Descripción

En esta serie de videos se muestra el uso de Jamovi para la realización de los análisis estadísticos más frecuentes en la investigación empírica.