Idioma: Español
Fecha: Subida: 2022-09-15T00:00:00+02:00
Duración: 56m 22s
Lugar: Videotutoriales
Visitas: 1.109 visitas

Hércules. Formación. DESARROLLADORES Enriquecimiento de datos-20220912_110702-Grabación de la reunión

Transcripción (generada automáticamente)

Yo no. Lo vamos a ver en esta. Esta formación es la primera parte de lo que tiene que ver con el enriquecimiento de datos en el proyecto Hércules, es que es el proyecto de gestión del currículum. El enriquecimiento tiene los 2, 2 partes. Por un lado está la generación de información de escriptores, tanto específicos como temáticos, que es lo que vamos a ver hoy y por otra parte está la generación de recomendaciones a partir de las similitudes de los arreos, de la similitud de una publicación con otra similitud, de un código con otro, etc. Entonces, esta primera parte de la formación que quedamos hoy se centra en la parte de los experimentos sobre extracción de destructores temáticos y específicos servicios de enriquecimiento y entrenamientos. De modelos. Se muestra momento el detalle de lo que iremos viendo la parte de los experimentos. Revisaremos la documentación que ya están, en la que se explica cómo, cuál ha sido el proceso de desarrollo de este ámbito. La parte del servicio de crecimiento presentaremos cómo se hace la instalación y haremos una demo y la parte que tiene que ver con el entrenamiento de modelos haremos una descripción de los escritores temáticos específicos y ya, pues bueno, sin más preámbulo, le cedió la palabra Xavier Sala Lewis. Pues me lo que le hizo Solé se ha hecho, lo que yo no soy lo que trabajan en Bonn anteriormente, la Fundación ahora se ha constituido como empresa, creo que es hora y punto. Yo por ahí no y que son los que han colaborado con nosotros en este ámbito del proyecto. Entonces, bueno, pues cedo y queréis compartir. Pantalla. Ya llevaba unos días del grupo de por ahí me pongo a comentarlo este, pues se ha creado algo dentro del ámbito de la fundación. Sin más detalles, voy a compartir pantalla. Como ha comentado Esteban corto vamos a voy a explicar cuáles han sido los experimentos preliminares iniciales que se han realizado para una manera determinar los enfoques más más robustos para las tareas de enriquecimiento que estaban establecidas en los pliegos técnicos. Concretamente, el objetivo de enriquecimiento era la abstracción de escriptores. Llevamos utilizado el término de estos tópicos, lo bueno que la tecnología que tenemos más correctas escriptores entonces me compartir pantalla con vosotros. Básicamente es un un documento que está incluido en concluir que de manera experimentos realizado en torno a este tema. No puedo compartir la pantalla. Un momento revisado. No tengo ni como opción un momento. Disculpas a los que están atendiendo a prueba de que si no me deja buen inhabilitado, puedo habilitar ahora. Pero a ver si gracias. La página concluía. Si es bueno, pues sí nos hemos entrenado un poco y estaba diciendo, y vamos a explicar, los experimentos que se han realizado en torno las tareas de extracción de escritores, salen diciendo que se analizaron diferentes estrategias para abordar esta tarea, por un lado, estrategias no supervisadas, es decir, que no requieren de entrenamientos a partir de ejemplos anotados o de estándar, por un lado, y por otro estrategias supervisadas, que de alguna manera requieren entrenamiento; una serie de experimentos preliminares, sobre todo centrados en ritmos de top, model, que no son supervisado los visados mediante diferentes evaluaciones, sobre todo cualitativas en los resultados, y el margen de mejora que tenía ese enfoque no supervisado. No, no cumplía con los requisitos, con la calidad mínima que se esperaba este proyecto, de alguna manera se alinea Bacon con experimentos que hemos realizado en otros proyectos anteriores, lo que la es, por tanto. Decidimos utilizar el enfoque supervisor, la tarea de extracción de tópicos como cuando el término que se mencionaba en los pliegos se habla de tópico -en general, no se detallaba exactamente qué se quiere decir. Tiene una idea de lo que puede ser un tema, pero un tema puede ser tener distintas variedades puede ser un tema, pues genera lo que más utilizamos. La terminada escriptor, claro, utilizando el término de tópico pero es alguna manera, denota con más precisión que lo que se lo que se esperaba en esta tarea y de alguna manera distinguimos prescriptores temáticos, es decir, más más generales, por un lado, y por otro escritores específicos como habrá pues de temas más específicos. Esta manera alguna de esta manera cubrimos tanto escriptores, temas generales como vimos que había un enfoque que pudiese abordar estas 2 tareas de manera conjunta y no encontramos nada. Literatura. Entonces, para la estación de escritores temáticos, un enfoque concreto y para la extracción de escritores específicos o otras que son los que vamos a comentar, os va a comentar en primer lugar, os voy a explicar brevemente cuáles fueron los datos conjuntas de entrenamiento que hemos utilizado estos experimentos. Si no recuerda es en este proyecto se deben tratar 3 tipos de objetos. De investigación. De forma inicial, digamos, artículos científicos, protocolos y proyectos de código, viene a ser la descripción de las páginas de proyectos. Según avanzó el proyecto, los protocolos desecharon todo el proyecto. Entonces, no voy a entrar en detalles sobre lo experimentos que realizamos en tonos protocolos centrales. Los experimentos se han hecho expertos. Protocolo y el protocolo. Voy saltar a no ser que al final de la sesión tengáis pregunta si podemos comentarlas. Entonces, para abordar la tarea de la inscripción, la extracción de escritores temáticos, a partir de proyectos de código descripciones de proyectos de código, utilizamos que nos va a servir tanto para entrenar como ajustar parámetros como para evaluar el sistema moderno. Utilizamos como fuente son ellos los que ya utilizaban una sistema de etiquetado alrededor de 14 por categorías. Había bastantes páginas o descripciones de código; por lo tanto, utilizamos esta fuente. Analizamos otro tipo de fuentes que no cumplían o no utilizaban un un conjunto categorías cerradas o conjunto categoría será muy, muy, muy anárquico. Había un número mínimo de ejemplos. Si optamos por utilizar este contexto de esta manera, pues queremos una tasa, como puedes ver aquí 50, casi 60.000 ejemplos anotados para consumo, en sus categorías temáticas. Veis cuál es su caso? Tenemos ya la sociedad, y, como está diciendo, estamos una parte conjunta de ese conjunto total para entrenar por mayoría la orden, 70, 15, 15. Hemos menos para ajustar y prepararme para el caso de artículos científicos despiertan nuestras fuentes a caer comer. Yo hago una caseta que teníamos. Nosotros, generamos a partir de los cuerpos en un proyecto imposible. Tantas obras de arte. Si juntamos estos 3 fases en este caso y lo utilizaron. Se generó una taxonomía, eso no lo habría comentado. No una sesión de formación a partir de esas calles y se genera un taxonomía 5 ejes temáticos, en los 27 hayan 3 modalidades distintas, pero siempre en el ámbito de escritores temáticos. Pues alrededor de 250.000 ejemplares, un aparte para entrenamiento para usted y parámetros para jugar cómo abordamos la tarea de cómo implementamos la tarea de extracción. Todo esto nos lo planteamos como una situación muy crítica. Recuerdo que enfoques implementamos comparamos, por un lado, otros enfoques clásicos basados en representación vectorial, utilizando el Palais paradigma de cosa de palabras acá, dimensiones, una palabra del vocabulario así no es normal, en este caso nos enseñan los enfoques clásicos, oímos distinto agresión alimentada con vectores y aseguran unos clásicos para este tipo de tareas. Si nos fijamos sencillos, clásicos, llevábamos enfoques más innovadores o que más se alinea con el estado actual de pienso, no estábamos en modelos entrenados; son ajustados a la tarea de etiqueta, utilizando la tasa de la tarea que nos hemos comentado anteriormente. Analizar diferentes modelos lenguaje entrenados. Tras esta variante estatal se muestran los ojos. Vamos un resumen de todos. La evaluación se hizo mediante las métricas clásicas. En esta tarea habitual, precisión, cobertura y que es la medalla armónica las 2 se ve claramente a sumarse a este esperado. Esto es de los protocolos de código y no se observan como etiquetas basados en modelos neuronales. Tienen resultados significativamente, tanto estadísticamente como desde la perspectiva del usuario notablemente mejores que los obtenidos. Con los clásicos tenemos exactos casi 10 puntos. En términos de. Y estos son los modelos que luego se están implementadas en el sistema, que no se explicará en qué momento se utilizan estos modelos. En el caso las verdes? Pues la tendencia, los resultados fueron los mismos. Con los modelos neuronales se obtenían resultados mucho mejores como explosivos, y esto es lo normal es que se utilizan en el sistema. También conviene mencionar que hicimos un experimento para ver si para de alguna manera medir las capacidades multilingüe de modelo ver entrenamos un modelo multilingüe. De alguna manera es capaz de aprender a partir de ejemplos en inglés, y luego aplicar ese modelo, ese conocimiento sobre los documentos, en este caso en castellano. Hicimos unas pruebas, una evaluación entrenando con ingleses volcando en castellano y podéis ver qué resultados bastante buenos. El caso de la extracción de escritores específicos este caso no queremos extraer escritores entre las temáticas, son ya de temas concretos. Las. Citas de la computación, pues el sistema operativo, escriptor completo, sistema distribuido. Para abordar esta esa tarea que utilizamos una estrategia diferente, no utilizamos mutuo etiqueta porque sean muchas las etiquetas que había que entrenarse, un espacio casi, casi, si Abierto miles, miles de etiquetas no es viable. Entonces, lo que utilizamos. Incluye 2 pasos en un primer paso. Se estrena en los síntomas nominales. Procesador, lingüístico, sus síntomas nominales son de alguna manera candidatos a ser descrito en un segundo paso. Se escriban los que realmente se valen de escriptores. Es bastante común que si el calor supervisado que utiliza diferentes atributos la frecuencia de ese candidato, la posición es más frecuente, pues tiene más opciones. Si es un escritor específico, si está al principio de un chiste, incluido en el título, si tiene que encontrarse, supervisado, determina si es tan mínimo específico, no atendiendo a estas características. En este caso utilizamos una métrica diferente. El espacio de escritores específicos no conjunto, más cerrado. Hay mucha variabilidad. Si se utiliza una estándar, hay que tener la flexibilidad a la hora de interpretar los resultados. Todo por la métrica de. Según la oposición, ese cómputo cogernos 5, los 10 primeros clasificados y luego se ve de todos los que había que seleccionar, una muestra, son algunas tandas, pactos cuantos afectados en este caso utilizamos, Harding Burstein y si tuviera unos resultados aceptables desde el punto de vista a los usuarios y una obligación cualitativa que se determina como satisfactorio. También analizamos un sistema basado en verde para hacer el todos los pasos a la vez, pero que no tenía atributos de frecuencia position y no se obtuvieron resultados satisfactorios. Entonces el enfoque que estaba incluido en el sistema se ha basado en 2 pasos, como socio entrenamiento y en qué punto se ejecuta, y esto sería lo referente a los experimentos. Hay más detalles, pero hemos intentado hacer un resumen para, sobre todo dejar claras las las estrategias más exitosas y las claves de la experimentación, que es lo que ha pasado ya la palabra Suárez. Entrar en más detalles, como se ha visto, cómo está desplegado en código, cómo hay el y no se pueden hacer los entrenamientos. Todo sale muy bien Buenos días, yo soy de lo que forma parte del equipo de horario y he participado en el desarrollo de este servicio de enriquecimiento. Entonces ahora hemos podido explicar un poco acerca de la instalación del servicio y voy a mostrar una pequeña demo para ver un par de ejemplos en funcionamiento, más que nada para que veáis cómo es la estructura de las solicitudes y de las respuestas que devuelven al servicio y luego ya al final también nos explicará cómo se pueden entrenar estos modelos que nos ha enseñado Xavi, partiendo de los datos originales de los textos originales, vale. Cesc a ver si voy a compartir la pantalla. Parece ver la terminal. Sí Sí Sí. Valga entonces, sería bueno, voy a ser los ritmes del proyecto, vale, que está explicado todo paso a paso, la instalación nos ejemplos al final. Vale entonces, empezar con los requisitos de conviene tener 32 gigas de memoria, RAM, vale con 24, igual puede que sea suficiente, habría que probar, pero se recomienda tener 32 gigas libres, pero el software aquí no se indica, pero bueno, nosotros hemos hecho todo el desarrollo y todas las pruebas en Linux. Entonces, lo más sencillo sería utilizar Ubuntu. Bueno, no habría sido un principio, no habría ningún problema a la hora de utilizar otro sistema operativo? Van a entonces, empezaré con la instalación, la forma más sencilla de instalar y ejecutar este servicio sería utilizar el contenedor. El contenedor vale en el repositorio encontraréis, el archivo o toques Rafael y consuelo de ejecutar este comando. Se crearía el contenedor con todas sus dependencias y se pondría unos ejecutaría el servicio en este punto. Por defecto en el puerto, 5.080 Vale? Esto se puede configurar, pero ahora, en esta sesión voy a seguir todos los pasos para aclarar cualquier duda que pueda haber. Vale es lo primero. Sería bueno, voy a intentar seguir los pasos en la terminal, pero varios de los pasos pueden llevar bastantes minutos. Entonces, tengo lo tengo todo ya preparado, listo para utilizar, pero bueno, en cualquier caso, voy a seguir los pasos de la terminal, vale? Entonces ese material que voy a utilizar en Hércules es el punto que está el repositorio de clonado en el directorio de los ejemplos, tengo varios ejemplos ya preparados para enseñar Oslo, pues lo estos archivos comprimidos. Son los modelos, los datos, etc. Que vamos a utilizar después y lo es el entorno virtual de. Entonces, el primer paso sería instalar las dependencias a nivel de sistema, serían solamente y si obtienes este último spa para extraer el texto de archivos perece, vale. Luego ya, un entorno virtual de con virtual, en por ejemplo. Todas las dependencias de gestión ya lo tengo hecho en Leuven, lo tengo activado, incluso entonces voy a continuar luego el modelo de spray, si si es una librería que utilizamos para para las tareas básicas, como pueden ser la o el análisis a nivel morfológico -sintáctico entonces, esto también pueden llevar unos minutos y esto se descarga y se instalará en el entorno virtual, vale luego los modelos ya entrenados. Esto pesadas son más de 3 gigas. Me parece. Entonces voy a enseñar donde estén los modelos balear. Voy a entrar en el proyecto de ley y me voy a dirigir a la sección de este servicio de enriquecimiento. Vale, es aquí en modelo, estarían los modelos extraídos y es que hay bastantes más. Bueno. Entonces, una vez que tenemos estos modelos, al siguiente paso sería crear el archivo de configuración del servicio avale. El repositorio se encuentra en el templete de la configuración con punto y punto. Son entonces este archivo y le pondríamos el nombre con Ellison. Y aquí se indican las ubicaciones de los modelos, 1 se indica también si queremos utilizar el CP o los en este caso. Bueno, normalmente puede que sea suficiente con él, pero bueno, si se ve que va demasiado lento, siempre se puede utilizar un GPO y todo iría más fluido. Luego se indica dónde se encuentra cada 1 de los modelos. Son 4 modelos en total. En el caso de los escriptores temáticos son 3 modelos los artículos científicos, los proyectos de código y los protocolos, que al final creo que se han eliminado del proyecto. Pero bueno, el servicio está bueno, en el servicio está implementado la parte de los protocolos, se indica, el pazo, la ubicación de los modelos y también el tipo de modelo base que se ha utilizado para entrenar. Estos modelos, en este caso en el caso de los artículos, es un verde. En el caso de los casos, de los proyectos y los protocolos serían Roberta y lo están los escriptores específicos, como ha dicho saber, y aquí también hay que indicar el modelo de la misma forma. Vale? Luego, lo de los usuarios en el triplete, esta, todas, si estos son nuestros una buena plantilla, pero esto esto, hay que darle una vuelta más, porque actualmente esto no se ha utilizado todos los usuarios entonces todo habría que implementarlo mejor pero bueno la versión final se supone que habrá unos usuarios que tendrán acceso a este servicio. Hasta entonces, que tengamos el archivo de configuración creado. Vale? Entonces ya podemos poner en marcha del servicio y para ello tenemos 2 opciones. Esto está implementado en Flash, entonces Flash. Lleva incorporado un servidor básico, vale? Es mucho más sencillo de ejecutar y está muy bien para para el desarrollo y él y para testear, pero luego para ponerlo en producción siempre es mejor utilizar apache o nexo un servidor de este tipo. Vale, ahora sin complicarme demasiado. Voy a ejecutar el servicio. Un servidor integrado de Flash, de hecho, lo tengo en marcha aquí si está en funcionamiento, entonces vale? Sería la parte de la instalación. Vale? Entonces ya ahora pasamos a ver unos ejemplos, vale? Este servicio tiene 2 puntos de acceso, 2 en vale, 1 es para los escriptores temáticos y el otro para los específicos. Con la parte de los temáticos, en este caso pasaríamos un objeto, bueno, un artículo o un proyecto de Código Vale, o sea, el contenido textual del artículo y el servicio nos devolvería las categorías principales de este texto. Vale esas categorías siempre. O sea la categorización está basada en una taxonomía. Predefinida y, bueno, vamos a ver, un par de ejemplos. Sea esta sería la forma de la solicitud. En este caso, esta. Este hecho concurre. 3 horas una de las formas más sencillas de hacer bueno las peticiones de http entonces y esta sería la forma de la estructura, que son las solicitudes, pero vemos que tenemos varios atributos. Vale, Ahora voy a explicar esto. Tenemos 2 opciones de hacer solicitudes. Una es pasándole la URL del PDC, el artículo vale. Entonces con eso ya la extranjería descargaría ese PDC extrañaría el contenido del texto de archivo, y utilizaría ese texto para las predicciones, y si no tenemos acceso al PDC. Otra opción es pasarle directamente el título. El abstract Journal, los nombres de los autores, las afiliaciones, estos parámetros, son opcionales, pero cuanto cuanta más información siempre las predicciones serán mejor. Calidad. Ahora voy a hacer un nuevo ya ejecutar un ejemplo. Pasándole la URL de PDC. Lo voy a abrir, el navegador, pero se trata de un artículo de? Vale? Masters? . 431 00:32:24,530 --> 00:32:24,970 Series está en marcha. Entonces. Para este director yo tengo, ya los hay, son creados, por ejemplo, sería el temático 1. Y este sería el otro, vale? Las categorías serían en este caso artificial. Si Statistics probable, vale y podemos hacer lo mismo sin sin el PDF, indicándole el título de lastra, las afiliaciones y, etc. Te hemos preparado en lo que está en este archivo. Vale, voy a hacer lo mismo, pero. Sin el PDC, y vemos que en este caso el resultado no es exactamente el mismo, tenemos artificiales, pero también nos ha dado Distributed para Lancaster, que también puede tener sentido en este caso, pero, bueno, la diferencia sea por qué el resultado es diferente, porque en el primer caso tenía se ha podido utilizar el texto completo, el pdf completo, y en el segundo caso, solo ha utilizado el título, el abstract y demás parámetros, siempre tiene menos información y luego también veréis qué resultado siempre hay 2 atributos. Porcentaje y huerta. 1 Worth. Ser a la categoría el nombre de la categoría, y el porcentaje sería el nivel de confianza de esta predicción. Vale entre sí es una probabilidad entre 0 1 vale, pero cuando las protocolos lo mismo esto lo vamos a saltar. Podemos probar un ejemplo también de proyectos de código. En este caso tengo en vale. En este caso no hay predecesor, vale solo título si en realidad no son abstractas. Son resúmenes o descripciones del proyecto. En este caso se trata de un plug-in un no sé si es un plug-in o algo relacionado con Extreme, y los fideos. La forma de hacer la solicitud sería las mismas. Solo voy a cambiar el cuerpo de la petición. Tenía. En este caso, nos devuelve multimedia y comunicación. Vale, y luego ya estarían los escriptores específicos en este caso no se trata de devolver las categorías principales del texto, sino de extraer las palabras y los términos más importantes del texto. Cuáles serían las palabras claves del texto? Entonces todo cambia el puente. El tema es muy específico, y el cuerpo de las solicitudes es parecido al de indicamos el título, El abstracta, opcional. En este caso hemos he entrenado 2 modelos diferentes, 1 con los tickets, los textos completos y el otro solo con los títulos y los extractos. Entonces sí se indica el texto completo, la solicitud se utiliza el modelo correspondiente, y si se omite el botillo, el texto completo, se utiliza el modelo. Entrenado con solo con los abstractos. Para estos explica, tienen 1.000. Vamos a ver un ejemplo. Sería. Balas un artículo sobre sino software. Sé si. Vale, que ves que encuentran diferentes especies. Para asaltar una comedia. Van a cambiar la dirección. Tampoco un segundo. Vale, el nombre del archivo. Está mal. Palabras para un momento. Lo voy a hacer de esta forma para ser mejor. Vale, esta serían ya las palabras claves que nos devuelve la UEFA el 6 no vale bueno pues básicamente sería un servicio aval vale hemos utilizado los modelos ya entrenados Los hemos entrenado nosotros en nuestros servidores, pero también compartimos el código para poder entrenar estos modelos partiendo de los datos originales de los corpus o de los textos de los artículos, los protocolos, y provistos de software. Entonces. A continuación os voy a explicar cómo podríamos llevar a cabo estos entrenamientos. Voy a empezar con los escriptores temáticos. Vale, bueno, la instalación o la preparación del entorno sería básicamente el mismo. Vale. Podemos utilizar el entorno que hemos creado antes? No sé si tiene alguna dependencia nueva. Creo que si entonces bueno las dependencias del vale, también tenemos que descargar los datos originales o sin procesar. Yo los tengo aquí. Ahora están en este directorios de hitos. Vale, la estructura de los conjuntos de datos sería esta espera? Un segundo. Lo que me falta aquí vale? No sería suficiente. Entonces, la estructura de los es el siguiente. Vale dentro de Twitter o los artículos científicos están. Bueno, hay un montón de artículos de Arkaiz Scopus y. Y tenemos 2 versiones de este conjunto 1 con los textos completos salen los y el otro solo con los títulos y los abstractos en ambos casos vale en ambos casos hay 3 conjuntos diferentes, porque la taxonomía ni a que utilizamos está clasificada en 3 niveles, en el primer nivel, estarían las categorías básicas o las más generales. En el tercer nivel, las más específicas, entonces tenemos que entrenar a los 3 modelos de forma independiente, estarían los protocolos y los proyectos de código para entrenar los proyectos de código. Utilizamos los datos de que es una plataforma, un repositorio de proyectos de código libre, y utilizamos el título y la descripción de los proyectos. Vale. Vale para entrenar modelos. Utilizamos una librería que hemos desarrollado nosotros normalmente la utilizamos en nuestros proyectos para facilitar la tarea de entrenamiento y la evaluación de los modelos neuronales. En este caso, 6. Esta librería, en los que está incluido en los punto te vale. Entonces. Tendríamos que tener instalada. Vale para entrenar, simplemente ejecutamos este comando, pero es que tienen bastantes parámetros, pero bueno, es bueno, es muy sencillo. Bueno, el entrenamiento puede tardar varias horas, entonces no tendría sentido por entrenarlo ahora, claro, pero podemos ver la ejecución, pero sea el tren, sería un escrito que nos proporciona la librería. Vale nuevo. El siguiente parámetro es la ubicación del, el siguiente es el look donde queremos que se cree el modelo Directorio Transformers quiere decir que queremos utilizar la librería o original, de Transformers. Esto. Tampoco tiene mayor importancia, sea el número de épocas por defecto? 10, aunque con 4. También. Podría ser suficiente balas buenas todo esto y luego ver? Esto quiere decir qué modelo queremos utilizar como base? Vale? En este caso queremos utilizar y el último parámetro en 0 indica que GP o queremos utilizar para entrenar el modelo. es un modelo neuronal! Entonces siempre conviene utilizarlo porque, si no, puede llevar días o incluso semanas o meses es en este caso. Quiero utilizar el GPO con el identificador 0, si ejecutamos envidias e-mail, puedo ver que tengo disponibles en esta máquina! En este caso tengo 2, 0 el 1 veo que está libre. Entonces voy a utilizar, pero. Y primero procesa los datos del INE esta ley, ahora empezaría con el entrenamiento. Vale, vale, pues tenemos una barra de progreso, son 41.000 pasos los que tienen que hacer. Entonces, bueno, vemos que puede tardar varias horas, no voy a cancelar. También nos quería mostrar cómo podemos evaluar el modelo después de todo el entrenamiento en esta librería que os comentaba. También hay un escrito, se llama Evaluación, nos parece Value, vale Valuev? Pues le indicamos el sea, la ubicación del conjunto de datos y la ubicación del modelo. Vale? Que tengo un modelo que entrena el otro día. Si el identificador del GP. Para esto se debería ejecutar en unos segundos. Algo que tardará entre vale 10 segundos vale y vemos que nos devuelve el resultado de cada una de cada una de las categorías, vale estas son todas las categorías de la taxonomía y luego, al final el resultado final vale. La media del resultado de cada de cada categoría son los resultados que nos ha mostrado. Vale luego lo mismo con los protocolos y con los señores. Lo mismo. El comando y todos el mismo lo único que cambia es el conjunto de datos, pero la estructura de los datos es la misma. Entonces, no creo que merezca la pena entrar en más detalles van a entonces. Esto sería, serían los pasos para entrenar los modelos de los destructores temáticos. Entonces, por último, quería enseñar cómo podemos entrenar los modelos de los suscriptores específicos. En este caso no se trata de modelos neuronales, hemos utilizado una solución más clásica. Es todo, es más bueno, el proceso es mucho más ligero, no nos hace falta, nos hacen falta GPS para esto Bueno, la preparación del entorno sería la misma, estábamos las dependencias. El modelo de sí que es el mismo de antes. Podemos reutilizar el entorno virtual antes y vale en este caso. Utilizamos de retráctil, que es un conjunto de artículos científicos con sus correspondientes palabras clave. Vale las palabras claves, tan sean algo de forma manual. Por ello, hemos utilizado este tratase para entrenar el modelo. Entonces primero tenemos que extraer los los ficheros o los atributos que se van a utilizar para llevar a cabo el entrenamiento del modelo. Primero tenemos que descargar el original, como antes, con podemos descargar de esta dirección, yo ya la tengo descargada. Entonces, bueno, también hay que descargar los modelos se utilizan para, bueno, para generar varios de los atributos que se van a utilizar después. Balear, voy a empezar con esto. Vale? Entonces, tenemos que ir 2 pasos. Primero extraemos los atributos y. Por último, ya ejecutamos lo que es el entrenamiento. Vale utilizando esos atributos. El primer paso sería la ejecutoria de esta forma. Incluso lo podemos hacer en tiempo real. Queda bastante repartido sobres. Vengo aquí a dictarse ya descargado. Bueno, en realidad este paso creo que tarda unos minutos y entonces sí igual lo podemos omitir, porque el resultado de este paso es este archivo. Punto. Yo ya lo tengo generado, podemos ver que enciende. Son una serie de preguntas, en este caso, por ejemplo, en esta línea, pues que la palabra clave es empírica al Estadi. Se trata de este documento. Este sería el identificador del documento luego la longitud en caracteres. Esta palabra clave se encuentra en el título, en este caso, si se encuentra en el abstracto, en este caso no lo sé. De este candidato, una serie de atributos y la más importante. Al final, si se trata de un Ivor real o no vale, porque aquí tenemos todos los candidatos aquí por para que el modelo aprenda. Cuáles son realmente las palabras clave y cuáles no? Para. Vale. Luego, tenemos que y dividir el conjunto de datos en 3 Bueno, en 3 conjuntos, vale. 1 para para el entrenamiento, otro, para evaluar el modelo y el otro para ajustar los parámetros del modelo, simplemente con ejecutar. Esto sería suficiente. Me habrá creado 3 conjuntos. Y por último. Vale, nos quedaría ya entrenar. Ya hemos omitió el texto lo que tarde, menos. Unos segundos, sea tras entrenar. Y en el Lopo nos va a mostrar los resultados basados en el conjunto de textos del conjunto de evaluación. Ahora este sería el resultado final. Nos habrá creado el modelo en el mismo director. Si aquellos 2 modelos son 2 modelos, porque si al final decidimos entrenar aparte, los modelos para extraer palabras clave contienen sólo una palabra y las palabras clave de más de más, de una palabra. Si los términos clave de de una palabra vale y luego, por último, podemos comprobar, indicándole el identificador de 1 de los documentos del conjunto de test, podemos ver. Un ejemplo de. Las predicciones que nos devolvería, si os. Bueno, ya lo ves y existen. Si es bueno, claro, no tenemos la información del texto original del artículo, pero este sería el resultado. Vale, con esto creo que he descubierto lo que tenía. Si todo el material que quería mostrar, si me dejó algo Esteban, no me esperaba todo lo que está previsto para hoy. Si alguien. Ahora sí decía que voy a parar la grabación. Un momento si si puedes dejar de compartir y pasamos a un turno de preguntas que abro la grabación a través vale, Ventilla. Voy a grabar otra vez.

Propietarios

Proyecto Hércules

Comentarios

Nuevo comentario

Serie: FORMACION EDMA Desarrolladores (+información)

EDMA Desarrollo