Yo no.
Lo vamos a ver en esta.
Esta formación es la primera parte
de lo que tiene que ver
con el enriquecimiento de datos
en el proyecto Hércules,
es que es el proyecto de gestión
del currículum.
El enriquecimiento tiene
los 2, 2 partes.
Por un lado está la generación de
información de escriptores,
tanto específicos como temáticos,
que es lo que vamos
a ver hoy y por otra parte está la
generación de recomendaciones
a partir de las similitudes
de los arreos,
de la similitud de una publicación
con otra similitud,
de un código con otro, etc. Entonces,
esta primera parte
de la formación que quedamos
hoy se centra en la parte
de los experimentos sobre extracción
de destructores temáticos
y específicos servicios de
enriquecimiento y entrenamientos.
De modelos.
Se muestra momento el detalle de
lo que iremos viendo la parte
de los experimentos.
Revisaremos la documentación que ya
están, en la que se explica cómo,
cuál ha sido el proceso de
desarrollo de este ámbito.
La parte del servicio de crecimiento
presentaremos
cómo se hace la instalación
y haremos una demo
y la parte que tiene que ver con
el entrenamiento de modelos
haremos una descripción de los
escritores temáticos específicos
y ya, pues bueno, sin más preámbulo,
le cedió la palabra
Xavier Sala Lewis.
Pues me lo que le hizo
Solé se ha hecho,
lo que yo no soy lo que trabajan en
Bonn anteriormente, la Fundación
ahora se ha constituido como empresa,
creo que es hora y punto.
Yo por ahí no y que son los que
han colaborado con nosotros
en este ámbito del proyecto.
Entonces, bueno, pues cedo
y queréis compartir.
Pantalla.
Ya llevaba unos días del
grupo de por ahí
me pongo a comentarlo este,
pues se ha creado algo dentro
del ámbito de la fundación.
Sin más detalles, voy a
compartir pantalla.
Como ha comentado Esteban corto
vamos a voy a explicar
cuáles han sido los experimentos
preliminares iniciales
que se han realizado para una manera
determinar los enfoques
más más robustos
para las tareas de enriquecimiento
que estaban establecidas
en los pliegos técnicos.
Concretamente, el objetivo
de enriquecimiento
era la abstracción de escriptores.
Llevamos utilizado el término
de estos tópicos,
lo bueno que la tecnología que
tenemos más correctas escriptores
entonces me compartir pantalla
con vosotros.
Básicamente es un un documento que
está incluido en concluir
que de manera experimentos realizado
en torno a este tema.
No puedo compartir la pantalla.
Un momento revisado.
No tengo ni como opción un momento.
Disculpas a los que están atendiendo
a prueba de que si no me deja
buen inhabilitado,
puedo habilitar ahora.
Pero a ver si gracias.
La página concluía.
Si es bueno,
pues sí nos hemos entrenado un
poco y estaba diciendo,
y vamos a explicar, los experimentos
que se han realizado
en torno las tareas de extracción
de escritores,
salen diciendo que se analizaron
diferentes estrategias
para abordar esta tarea, por un lado,
estrategias no supervisadas,
es decir,
que no requieren de entrenamientos
a partir de ejemplos anotados
o de estándar, por un lado, y por
otro estrategias supervisadas,
que de alguna manera requieren
entrenamiento;
una serie de experimentos
preliminares,
sobre todo centrados en
ritmos de top, model,
que no son supervisado los visados
mediante diferentes evaluaciones,
sobre todo cualitativas
en los resultados,
y el margen de mejora que tenía
ese enfoque no supervisado.
No, no cumplía con los requisitos,
con la calidad mínima
que se esperaba este proyecto, de
alguna manera se alinea Bacon
con experimentos que hemos realizado
en otros proyectos anteriores,
lo que la es, por tanto.
Decidimos utilizar el
enfoque supervisor,
la tarea de extracción de tópicos
como cuando el término
que se mencionaba en los pliegos
se habla de tópico
-en general,
no se detallaba exactamente
qué se quiere decir.
Tiene una idea de lo que
puede ser un tema,
pero un tema puede ser tener
distintas variedades
puede ser un tema, pues genera
lo que más utilizamos.
La terminada escriptor, claro,
utilizando el término de tópico
pero es alguna manera, denota
con más precisión
que lo que se lo que se esperaba
en esta tarea
y de alguna manera distinguimos
prescriptores temáticos,
es decir, más más generales,
por un lado,
y por otro escritores específicos
como habrá pues de temas
más específicos.
Esta manera alguna de esta manera
cubrimos tanto escriptores,
temas generales como vimos
que había un enfoque
que pudiese abordar estas 2
tareas de manera conjunta
y no encontramos nada.
Literatura.
Entonces, para la estación
de escritores temáticos,
un enfoque concreto
y para la extracción de escritores
específicos
o otras que son los que
vamos a comentar,
os va a comentar en primer lugar,
os voy a explicar brevemente
cuáles fueron los datos conjuntas de
entrenamiento que hemos utilizado
estos experimentos.
Si no recuerda es en este proyecto
se deben tratar 3 tipos de objetos.
De investigación.
De forma inicial,
digamos, artículos científicos,
protocolos y proyectos de código,
viene a ser la descripción de
las páginas de proyectos.
Según avanzó el proyecto,
los protocolos desecharon
todo el proyecto.
Entonces, no voy a entrar en
detalles sobre lo experimentos que realizamos
en tonos protocolos centrales.
Los experimentos se han
hecho expertos.
Protocolo y el protocolo.
Voy saltar a no ser que al final
de la sesión tengáis pregunta
si podemos comentarlas.
Entonces, para abordar la tarea
de la inscripción,
la extracción de escritores
temáticos,
a partir de proyectos de código
descripciones de proyectos
de código,
utilizamos que nos va a servir tanto
para entrenar como ajustar parámetros
como para evaluar el sistema moderno.
Utilizamos como fuente son ellos
los que ya utilizaban
una sistema de etiquetado alrededor
de 14 por categorías.
Había bastantes páginas o
descripciones de código;
por lo tanto, utilizamos esta fuente.
Analizamos otro tipo de fuentes
que no cumplían o no
utilizaban un un conjunto categorías
cerradas o conjunto categoría
será muy, muy, muy anárquico.
Había un número mínimo de ejemplos.
Si optamos por utilizar este
contexto de esta manera,
pues queremos una tasa, como
puedes ver aquí 50,
casi 60.000 ejemplos anotados
para consumo,
en sus categorías temáticas.
Veis cuál es su caso?
Tenemos ya la sociedad, y,
como está diciendo,
estamos una parte conjunta
de ese conjunto total
para entrenar por mayoría
la orden, 70, 15, 15.
Hemos menos para ajustar y prepararme
para el caso de artículos
científicos despiertan nuestras fuentes
a caer comer.
Yo hago una caseta que teníamos.
Nosotros, generamos a partir
de los cuerpos
en un proyecto imposible.
Tantas obras de arte.
Si juntamos estos 3 fases
en este caso
y lo utilizaron.
Se generó una taxonomía, eso
no lo habría comentado.
No una sesión de formación
a partir de esas calles
y se genera un taxonomía
5 ejes temáticos,
en los 27 hayan 3 modalidades
distintas,
pero siempre en el ámbito de
escritores temáticos.
Pues alrededor de 250.000
ejemplares, un aparte
para entrenamiento para
usted y parámetros
para jugar cómo abordamos la tarea
de cómo implementamos la tarea
de extracción.
Todo esto nos lo planteamos como
una situación muy crítica.
Recuerdo que enfoques implementamos
comparamos,
por un lado, otros enfoques clásicos
basados en representación vectorial,
utilizando el Palais paradigma
de cosa de palabras acá,
dimensiones, una palabra del
vocabulario así no es normal,
en este caso nos enseñan
los enfoques clásicos,
oímos distinto agresión alimentada
con vectores
y aseguran unos clásicos para
este tipo de tareas.
Si nos fijamos sencillos, clásicos,
llevábamos enfoques más innovadores
o que más se alinea con
el estado actual
de pienso, no estábamos en
modelos entrenados;
son ajustados a la tarea de etiqueta,
utilizando la tasa de la tarea que
nos hemos comentado anteriormente.
Analizar diferentes modelos
lenguaje entrenados.
Tras esta variante estatal
se muestran los ojos.
Vamos un resumen de todos.
La evaluación se hizo mediante
las métricas clásicas.
En esta tarea habitual,
precisión, cobertura
y que es la medalla armónica
las 2 se ve claramente
a sumarse a este esperado.
Esto es de los protocolos de código
y no se observan como etiquetas
basados en modelos neuronales.
Tienen resultados significativamente,
tanto estadísticamente como
desde la perspectiva
del usuario notablemente mejores
que los obtenidos.
Con los clásicos tenemos exactos
casi 10 puntos.
En términos de.
Y estos son los modelos que luego
se están implementadas
en el sistema,
que no se explicará en qué momento
se utilizan estos modelos.
En el caso las verdes?
Pues la tendencia, los resultados
fueron los mismos.
Con los modelos neuronales se
obtenían resultados mucho mejores
como explosivos,
y esto es lo normal es que se
utilizan en el sistema.
También conviene mencionar que
hicimos un experimento para ver
si para de alguna manera medir
las capacidades multilingüe
de modelo ver entrenamos
un modelo multilingüe.
De alguna manera es capaz de
aprender a partir de ejemplos en inglés,
y luego aplicar ese modelo,
ese conocimiento sobre
los documentos,
en este caso en castellano.
Hicimos unas pruebas,
una evaluación entrenando con
ingleses volcando en castellano
y podéis ver qué resultados
bastante buenos.
El caso de la extracción de
escritores específicos este caso
no queremos extraer escritores
entre las temáticas,
son ya de temas concretos.
Las.
Citas de la computación,
pues el sistema operativo,
escriptor completo,
sistema distribuido.
Para abordar esta esa tarea que
utilizamos una estrategia diferente,
no utilizamos mutuo etiqueta porque
sean muchas las etiquetas
que había que entrenarse,
un espacio casi, casi,
si Abierto miles, miles de
etiquetas no es viable.
Entonces, lo que utilizamos.
Incluye 2 pasos en un primer paso.
Se estrena en los síntomas nominales.
Procesador, lingüístico,
sus síntomas nominales
son de alguna manera candidatos a
ser descrito en un segundo paso.
Se escriban los que realmente
se valen de escriptores.
Es bastante común que si
el calor supervisado
que utiliza diferentes atributos la
frecuencia de ese candidato,
la posición es más frecuente,
pues tiene más opciones.
Si es un escritor específico, si
está al principio de un chiste,
incluido en el título, si
tiene que encontrarse,
supervisado, determina si es
tan mínimo específico,
no atendiendo a estas
características.
En este caso utilizamos una
métrica diferente.
El espacio de escritores específicos
no conjunto, más cerrado.
Hay mucha variabilidad.
Si se utiliza una estándar,
hay que tener la flexibilidad
a la hora
de interpretar los resultados.
Todo por la métrica de.
Según la oposición, ese
cómputo cogernos 5,
los 10 primeros clasificados y luego
se ve de todos los que había
que seleccionar, una muestra,
son algunas tandas,
pactos cuantos afectados en
este caso utilizamos,
Harding Burstein y si tuviera
unos resultados aceptables
desde el punto de vista
a los usuarios
y una obligación cualitativa que se
determina como satisfactorio.
También analizamos un sistema
basado en verde
para hacer el todos los
pasos a la vez,
pero que no tenía atributos
de frecuencia position
y no se obtuvieron resultados
satisfactorios.
Entonces el enfoque que
estaba incluido
en el sistema se ha basado
en 2 pasos,
como socio entrenamiento y
en qué punto se ejecuta,
y esto sería lo referente
a los experimentos.
Hay más detalles,
pero hemos intentado hacer
un resumen para,
sobre todo dejar claras las las
estrategias más exitosas
y las claves de la experimentación,
que es lo que ha pasado
ya la palabra Suárez.
Entrar en más detalles,
como se ha visto,
cómo está desplegado en código,
cómo hay el y no se pueden hacer
los entrenamientos.
Todo sale muy bien
Buenos días, yo soy de lo que forma
parte del equipo de horario
y he participado en el desarrollo de
este servicio de enriquecimiento.
Entonces ahora
hemos podido explicar un poco acerca
de la instalación del servicio
y voy a mostrar una pequeña demo
para ver un par de ejemplos
en funcionamiento,
más que nada para que veáis cómo es
la estructura de las solicitudes
y de las respuestas que devuelven
al servicio y luego ya al final
también nos explicará cómo se pueden
entrenar estos modelos
que nos ha enseñado Xavi,
partiendo de los datos originales
de los textos originales,
vale.
Cesc a ver si voy a compartir
la pantalla.
Parece ver la terminal.
Sí Sí Sí.
Valga entonces, sería bueno,
voy a ser los ritmes del
proyecto, vale,
que está explicado todo paso a paso,
la instalación nos ejemplos al final.
Vale entonces, empezar
con los requisitos
de conviene tener 32 gigas de
memoria, RAM, vale con 24,
igual puede que sea suficiente,
habría que probar,
pero se recomienda tener
32 gigas libres,
pero el software aquí no
se indica, pero bueno,
nosotros hemos hecho todo el
desarrollo y todas las pruebas en
Linux.
Entonces, lo más sencillo
sería utilizar Ubuntu.
Bueno, no habría sido un principio,
no habría ningún problema a la hora
de utilizar otro sistema operativo?
Van a entonces, empezaré
con la instalación,
la forma más sencilla de instalar
y ejecutar este servicio
sería utilizar el contenedor.
El contenedor vale en el repositorio
encontraréis,
el archivo o toques Rafael y consuelo
de ejecutar este comando.
Se crearía el contenedor con
todas sus dependencias
y se pondría unos ejecutaría
el servicio en este punto.
Por defecto en el puerto, 5.080 Vale?
Esto se puede configurar,
pero ahora, en esta sesión voy
a seguir todos los pasos
para aclarar cualquier duda
que pueda haber.
Vale es lo primero.
Sería bueno, voy a intentar seguir
los pasos en la terminal,
pero varios de los pasos pueden
llevar bastantes minutos.
Entonces, tengo lo tengo
todo ya preparado,
listo para utilizar, pero bueno,
en cualquier caso,
voy a seguir los pasos
de la terminal,
vale?
Entonces ese material
que voy a utilizar en Hércules es el
punto que está el repositorio
de clonado en el directorio
de los ejemplos,
tengo varios ejemplos ya preparados
para enseñar Oslo,
pues lo estos archivos comprimidos.
Son los modelos, los datos, etc.
Que vamos a utilizar después
y lo es el entorno virtual de.
Entonces, el primer paso sería
instalar las dependencias
a nivel de sistema,
serían solamente y si obtienes
este último spa
para extraer el texto
de archivos perece,
vale.
Luego ya, un entorno virtual de
con virtual, en por ejemplo.
Todas las dependencias de gestión
ya lo tengo hecho en Leuven,
lo tengo activado,
incluso entonces voy a continuar
luego el modelo de spray,
si si es una librería que utilizamos
para para las tareas básicas,
como pueden ser la o el análisis
a nivel morfológico
-sintáctico entonces,
esto también pueden llevar
unos minutos
y esto se descarga y se instalará
en el entorno virtual,
vale luego los modelos ya entrenados.
Esto pesadas son más de 3 gigas.
Me parece.
Entonces voy a enseñar donde
estén los modelos balear.
Voy a entrar en el proyecto de ley
y me voy a dirigir a la sección
de este servicio de enriquecimiento.
Vale, es aquí en modelo,
estarían los modelos extraídos
y es que hay bastantes más.
Bueno.
Entonces, una vez que tenemos estos
modelos, al siguiente paso
sería crear el archivo de
configuración del servicio avale.
El repositorio se encuentra en el
templete de la configuración
con punto y punto.
Son entonces este archivo
y le pondríamos el nombre
con Ellison.
Y aquí se indican las ubicaciones
de los modelos,
1 se indica también si queremos
utilizar el CP
o los en este caso.
Bueno, normalmente puede que
sea suficiente con él,
pero bueno, si se ve que
va demasiado lento,
siempre se puede utilizar un GPO
y todo iría más fluido.
Luego se indica dónde se encuentra
cada 1 de los modelos.
Son 4 modelos en total.
En el caso de los escriptores
temáticos
son 3 modelos los artículos
científicos, los proyectos de código
y los protocolos, que al final creo
que se han eliminado del proyecto.
Pero bueno, el servicio está bueno,
en el servicio está implementado
la parte de los protocolos,
se indica, el pazo, la ubicación
de los modelos
y también el tipo de modelo
base que se ha utilizado
para entrenar.
Estos modelos, en este caso en
el caso de los artículos,
es un verde.
En el caso de los casos,
de los proyectos
y los protocolos serían Roberta y lo
están los escriptores específicos,
como ha dicho saber,
y aquí también hay que indicar
el modelo de la misma forma.
Vale?
Luego, lo de los usuarios
en el triplete, esta,
todas, si estos son nuestros
una buena plantilla,
pero esto esto, hay que
darle una vuelta más,
porque actualmente esto no se ha
utilizado todos los usuarios entonces
todo habría que implementarlo mejor
pero bueno la versión final
se supone que habrá unos usuarios
que tendrán acceso a este servicio.
Hasta entonces, que tengamos el
archivo de configuración creado.
Vale?
Entonces ya podemos poner
en marcha del servicio
y para ello tenemos 2 opciones.
Esto está implementado en Flash,
entonces Flash.
Lleva incorporado un servidor
básico, vale?
Es mucho más sencillo
de ejecutar y está muy bien
para para el desarrollo
y él y para testear, pero luego
para ponerlo en producción
siempre es mejor utilizar apache o
nexo un servidor de este tipo.
Vale, ahora sin complicarme
demasiado.
Voy a ejecutar el servicio.
Un servidor integrado
de Flash, de hecho,
lo tengo en marcha aquí si
está en funcionamiento,
entonces vale?
Sería la parte de la instalación.
Vale?
Entonces ya ahora pasamos
a ver unos ejemplos,
vale?
Este servicio tiene 2
puntos de acceso,
2 en vale, 1 es para los
escriptores temáticos
y el otro para los específicos.
Con la parte de los temáticos, en
este caso pasaríamos un objeto,
bueno, un artículo o un proyecto
de Código Vale,
o sea, el contenido textual
del artículo
y el servicio nos devolvería
las categorías principales
de este texto.
Vale esas categorías siempre.
O sea la categorización está
basada en una taxonomía.
Predefinida y, bueno, vamos a
ver, un par de ejemplos.
Sea esta sería la forma
de la solicitud.
En este caso, esta.
Este hecho concurre.
3 horas una de las formas
más sencillas de hacer
bueno las peticiones de http
entonces y esta sería la forma
de la estructura, que son
las solicitudes,
pero vemos que tenemos
varios atributos.
Vale, Ahora voy a explicar esto.
Tenemos 2 opciones de
hacer solicitudes.
Una es pasándole la URL del
PDC, el artículo vale.
Entonces con eso ya la extranjería
descargaría ese PDC
extrañaría el contenido
del texto de archivo,
y utilizaría ese texto para
las predicciones,
y si no tenemos acceso al PDC.
Otra opción es pasarle directamente
el título.
El abstract Journal, los nombres
de los autores,
las afiliaciones, estos parámetros,
son opcionales, pero cuanto
cuanta más información
siempre las predicciones serán mejor.
Calidad.
Ahora voy a hacer un nuevo
ya ejecutar un ejemplo.
Pasándole la URL de PDC.
Lo voy a abrir, el navegador,
pero se trata de un artículo de?
Vale?
Masters?
.
431
00:32:24,530 --> 00:32:24,970
Series está en marcha.
Entonces.
Para este director yo
tengo, ya los hay,
son creados, por ejemplo,
sería el temático 1.
Y este sería el otro, vale?
Las categorías serían en
este caso artificial.
Si Statistics probable,
vale y podemos hacer
lo mismo sin sin el PDF,
indicándole el título de lastra,
las afiliaciones
y, etc. Te hemos preparado en lo
que está en este archivo.
Vale, voy a hacer lo mismo, pero.
Sin el PDC,
y vemos que en este caso el
resultado no es exactamente el mismo,
tenemos artificiales,
pero también nos ha dado Distributed
para Lancaster,
que también puede tener
sentido en este caso,
pero, bueno, la diferencia
sea por qué el resultado
es diferente, porque en
el primer caso tenía
se ha podido utilizar
el texto completo,
el pdf completo,
y en el segundo caso, solo
ha utilizado el título,
el abstract y demás parámetros,
siempre tiene menos información
y luego también veréis
qué resultado siempre
hay 2 atributos.
Porcentaje y huerta.
1 Worth.
Ser a la categoría el nombre
de la categoría,
y el porcentaje sería el nivel de
confianza de esta predicción.
Vale entre sí es una probabilidad
entre 0 1 vale,
pero cuando las protocolos lo mismo
esto lo vamos a saltar.
Podemos probar un ejemplo también
de proyectos de código.
En este caso tengo en vale.
En este caso no hay predecesor,
vale solo título
si en realidad no son abstractas.
Son resúmenes o descripciones
del proyecto.
En este caso se trata de un plug-in
un no sé si es un plug-in o algo
relacionado con Extreme,
y los fideos.
La forma de hacer la solicitud
sería las mismas.
Solo voy a cambiar el cuerpo
de la petición.
Tenía.
En este caso, nos devuelve
multimedia y comunicación.
Vale, y luego ya estarían los
escriptores específicos
en este caso no se trata de devolver
las categorías principales
del texto, sino de extraer
las palabras
y los términos más importantes
del texto.
Cuáles serían las palabras
claves del texto?
Entonces todo cambia el puente.
El tema es muy específico, y el
cuerpo de las solicitudes
es parecido al de indicamos el
título, El abstracta, opcional.
En este caso hemos he entrenado
2 modelos diferentes,
1 con los tickets, los
textos completos
y el otro solo con los títulos
y los extractos.
Entonces sí se indica
el texto completo,
la solicitud se utiliza el
modelo correspondiente,
y si se omite el botillo,
el texto completo,
se utiliza el modelo.
Entrenado con solo con
los abstractos.
Para estos explica, tienen 1.000.
Vamos a ver un ejemplo.
Sería.
Balas un artículo sobre
sino software.
Sé si.
Vale, que ves que encuentran
diferentes especies.
Para asaltar una comedia.
Van a cambiar la dirección.
Tampoco un segundo.
Vale, el nombre del archivo.
Está mal.
Palabras para un momento.
Lo voy a hacer de esta forma
para ser mejor.
Vale, esta serían ya las palabras
claves que nos devuelve la UEFA
el 6 no vale bueno pues básicamente
sería un servicio aval
vale hemos utilizado los
modelos ya entrenados
Los hemos entrenado nosotros
en nuestros servidores,
pero también compartimos el código
para poder entrenar estos modelos
partiendo de los datos originales
de los corpus
o de los textos de los artículos,
los protocolos,
y provistos de software.
Entonces.
A continuación os voy a explicar
cómo podríamos llevar a cabo
estos entrenamientos.
Voy a empezar con los escriptores
temáticos.
Vale, bueno, la instalación o
la preparación del entorno
sería básicamente el mismo.
Vale.
Podemos utilizar el entorno
que hemos creado antes?
No sé si tiene alguna
dependencia nueva.
Creo que si entonces bueno las
dependencias del vale,
también tenemos que descargar
los datos originales
o sin procesar.
Yo los tengo aquí.
Ahora están en este directorios
de hitos.
Vale, la estructura de los conjuntos
de datos sería esta espera?
Un segundo.
Lo que me falta aquí vale?
No sería suficiente.
Entonces, la estructura de
los es el siguiente.
Vale dentro de Twitter
o los artículos científicos están.
Bueno, hay un montón de artículos
de Arkaiz Scopus y.
Y tenemos 2 versiones
de este conjunto 1
con los textos completos salen
los y el otro solo
con los títulos y los abstractos
en ambos casos vale
en ambos casos hay 3 conjuntos
diferentes,
porque la taxonomía ni
a que utilizamos
está clasificada en 3 niveles,
en el primer nivel,
estarían las categorías básicas
o las más generales.
En el tercer nivel, las
más específicas,
entonces tenemos que entrenar a los
3 modelos de forma independiente,
estarían los protocolos y
los proyectos de código
para entrenar los proyectos
de código.
Utilizamos los datos de que
es una plataforma,
un repositorio de proyectos
de código libre,
y utilizamos el título y la
descripción de los proyectos.
Vale.
Vale para entrenar modelos.
Utilizamos una librería que
hemos desarrollado
nosotros normalmente la utilizamos
en nuestros proyectos
para facilitar la tarea de
entrenamiento y la evaluación
de los modelos neuronales.
En este caso, 6.
Esta librería,
en los que está incluido
en los punto te vale.
Entonces.
Tendríamos que tener instalada.
Vale para entrenar, simplemente
ejecutamos este comando,
pero es que tienen bastantes
parámetros, pero bueno,
es bueno, es muy sencillo.
Bueno, el entrenamiento puede
tardar varias horas,
entonces no tendría sentido por
entrenarlo ahora, claro,
pero podemos ver la ejecución,
pero sea el tren,
sería un escrito que nos proporciona
la librería.
Vale nuevo.
El siguiente parámetro
es la ubicación del,
el siguiente es el look donde
queremos que se cree el modelo
Directorio Transformers quiere decir
que queremos utilizar la librería
o original, de Transformers.
Esto.
Tampoco tiene mayor importancia, sea
el número de épocas por defecto?
10, aunque con 4.
También.
Podría ser suficiente balas
buenas todo esto
y luego ver?
Esto quiere decir qué modelo
queremos utilizar como base?
Vale?
En este caso queremos utilizar
y el último parámetro en 0
indica que GP o queremos utilizar
para entrenar el modelo.
es un modelo neuronal!
Entonces siempre conviene utilizarlo
porque, si no, puede llevar días
o incluso semanas o meses
es en este caso.
Quiero utilizar el GPO con
el identificador 0,
si ejecutamos envidias e-mail,
puedo ver que tengo disponibles
en esta máquina!
En este caso tengo 2, 0 el
1 veo que está libre.
Entonces voy a utilizar, pero.
Y primero procesa los datos
del INE esta ley,
ahora empezaría con el entrenamiento.
Vale, vale, pues tenemos
una barra de progreso,
son 41.000 pasos los que
tienen que hacer.
Entonces, bueno, vemos que puede
tardar varias horas,
no voy a cancelar.
También nos quería mostrar cómo
podemos evaluar el modelo
después de todo el entrenamiento en
esta librería que os comentaba.
También hay un escrito,
se llama Evaluación,
nos parece Value, vale Valuev?
Pues le indicamos el sea, la
ubicación del conjunto de datos
y la ubicación del modelo.
Vale?
Que tengo un modelo que
entrena el otro día.
Si el identificador del GP.
Para esto se debería ejecutar
en unos segundos.
Algo que tardará entre vale
10 segundos vale
y vemos que nos devuelve el
resultado de cada una de cada una
de las categorías, vale estas son
todas las categorías de la taxonomía
y luego, al final el resultado
final vale.
La media del resultado de cada
de cada categoría son
los resultados que nos ha mostrado.
Vale luego lo mismo con
los protocolos
y con los señores.
Lo mismo.
El comando y todos el mismo
lo único que cambia es el
conjunto de datos,
pero la estructura de los
datos es la misma.
Entonces, no creo que merezca la
pena entrar en más detalles
van a entonces.
Esto sería, serían los pasos
para entrenar los modelos
de los destructores temáticos.
Entonces, por último, quería enseñar
cómo podemos entrenar los modelos
de los suscriptores específicos.
En este caso no se trata
de modelos neuronales,
hemos utilizado una solución
más clásica.
Es todo, es más bueno, el proceso
es mucho más ligero,
no nos hace falta, nos hacen
falta GPS para esto Bueno,
la preparación del entorno
sería la misma,
estábamos las dependencias.
El modelo de sí que es
el mismo de antes.
Podemos reutilizar el entorno
virtual antes y vale en este caso.
Utilizamos de retráctil, que es un
conjunto de artículos científicos
con sus correspondientes
palabras clave.
Vale las palabras claves, tan
sean algo de forma manual.
Por ello, hemos utilizado este
tratase para entrenar el modelo.
Entonces primero tenemos
que extraer los los ficheros
o los atributos que se van
a utilizar para llevar a cabo el
entrenamiento del modelo.
Primero tenemos que descargar
el original,
como antes, con podemos descargar
de esta dirección,
yo ya la tengo descargada.
Entonces, bueno, también hay
que descargar los modelos
se utilizan para, bueno, para
generar varios de los atributos que se van
a utilizar después.
Balear, voy a empezar con esto.
Vale?
Entonces, tenemos que ir 2 pasos.
Primero extraemos los atributos y.
Por último, ya ejecutamos lo
que es el entrenamiento.
Vale utilizando esos atributos.
El primer paso sería la ejecutoria
de esta forma.
Incluso lo podemos hacer
en tiempo real.
Queda bastante repartido sobres.
Vengo aquí a dictarse ya descargado.
Bueno, en realidad este paso creo
que tarda unos minutos
y entonces sí igual lo
podemos omitir,
porque el resultado de este
paso es este archivo.
Punto.
Yo ya lo tengo generado, podemos
ver que enciende.
Son una serie de preguntas,
en este caso, por ejemplo,
en esta línea,
pues que la palabra clave
es empírica al Estadi.
Se trata de este documento.
Este sería el identificador
del documento luego
la longitud en caracteres.
Esta palabra clave se encuentra
en el título, en este caso,
si se encuentra en el abstracto,
en este caso no lo sé.
De este candidato, una
serie de atributos
y la más importante.
Al final,
si se trata de un Ivor
real o no vale,
porque aquí tenemos todos
los candidatos
aquí por para que el modelo aprenda.
Cuáles son realmente las palabras
clave y cuáles no?
Para.
Vale.
Luego, tenemos que y dividir
el conjunto de datos en 3
Bueno, en 3 conjuntos, vale.
1 para para el entrenamiento, otro,
para evaluar el modelo
y el otro para ajustar los
parámetros del modelo,
simplemente con ejecutar.
Esto sería suficiente.
Me habrá creado 3 conjuntos.
Y por último.
Vale, nos quedaría ya entrenar.
Ya hemos omitió el texto
lo que tarde, menos.
Unos segundos, sea tras entrenar.
Y en el Lopo nos va a mostrar
los resultados basados
en el conjunto de textos del
conjunto de evaluación.
Ahora este sería el resultado final.
Nos habrá creado el modelo
en el mismo director.
Si aquellos 2 modelos son 2 modelos,
porque si al final decidimos
entrenar aparte,
los modelos para extraer palabras
clave contienen sólo una palabra
y las palabras clave de más de más,
de una palabra.
Si los términos clave de
de una palabra vale
y luego, por último,
podemos comprobar,
indicándole el identificador de 1 de
los documentos del conjunto de test,
podemos ver.
Un ejemplo de.
Las predicciones que nos
devolvería, si os.
Bueno, ya lo ves y existen.
Si es bueno, claro,
no tenemos la información del texto
original del artículo,
pero este sería el resultado.
Vale, con esto creo que he
descubierto lo que tenía.
Si todo el material que quería
mostrar, si me dejó algo Esteban,
no me esperaba todo lo que
está previsto para hoy.
Si alguien.
Ahora sí decía que voy a
parar la grabación.
Un momento si si puedes
dejar de compartir
y pasamos a un turno de preguntas
que abro la grabación a través vale,
Ventilla.
Voy a grabar otra vez.