Bueno, pues vamos a tener que ir con
la formación siguiente tema
que quería que quería tratar, un
tema de la entrada de datos
y el sistema para las
siguientes partes
van poco a poco el proceso
de entrada de datos
y los formando para posteriormente,
en esta primera lista.
Primera parte, vamos a ir viendo
la entrada de datos.
Lo primero que tenemos que
tener en cuenta es
que va a haber distintos
orígenes de Fuentes,
pero.
Van a ser, por un lado,
es lo que decía datos de
diferentes lugares
de diferentes proveedores
de información,
las cuales van a ponernos la
información de diferentes maneras
con distintos protocolos
en Manresa un etc
etc etc no poder los cuales se
vamos a tener que tratar.
Las fuentes de datos décimas
más conocidas
que vamos a tener pues podría
ser de ese del sheriff etc
etc entonces por por resumir
digamos que vamos a tener
diferentes orígenes de datos,
con con datos distintos, con los
datos en distinto formato,
pero además, con distintos
protocolos,
lo cual vamos a tener que
poder darles soportes
desde la aplicación.
En primer lugar, bueno,
pues volviendo a ver
lo que es el la parte de la
arquitectura de la del módulo
de importación, que ya lo vimos
un poco antes del descanso.
Vamos a estar formado
por por por varias,
por varios elementos,
no en primer lugar
el que va a tener que lidiar
con las colas,
fuentes de datos o los
orígenes de datos
que van a ser los importadores.
La idea es tener uno por cada
una de las fuentes externas
las que se toma la información.
Como decía, cada una
de estas fuentes,
disponer de los datos en un
formato de diferente
y además en una estructura diferente
a la que se vaya luego trabajan
en el sistema bale.
Entonces, estos.
Micro servicios no van a estar
implementados en el sistema
y habrá algunos como los
importadores que van a estar más acoplado
esa al cliente y luego va otros
que no lo van a estar tanto,
por lo que será conveniente que cada
uno de los componentes reales
de las operaciones de la forma
más más atómica y acoplada
posible en el caso de
los importadores,
como comentaba Miguel servicios,
1, por cada fuente de datos
que se van a encargar de leer.
Los datos de estas fuentes,
el sistema a través de un
tope de Kafka Bale,
su única misión será la de leer
los datos de esa década.
Una de las fuentes no va a realizar
transformación ninguna,
sino que lo único
que lo único que va a hacer es saber
cómo, cómo interactuar,
cómo leer de esas fuentes de
datos y recoger el dato.
Simplemente si es una crisis,
lo cogerá el XML,
lo procesara ese dato en se le da
un evento en la cola de Kafka
para que luego ya sea una
un formato más conocido
por el sistema.
Para los siguientes servicios
tenemos que hacer esa labor de
actuación poco lo que decía,
por ejemplo, caso de que una fuente
sea un importador correspondiente
pues se encargaría de recuperar
los ficheros vía.
Pongamos que esos ficheros son XML,
pues tendría que extraerlo
con de XML y generar,
lo que lo que comentaba,
que serían esos.
Esos eventos dentro de la cola de
interna del módulo de entrada.
Una vez, una vez ya tenemos
los datos en el sistema,
que pasaría a esa fase de
los de los importadores
de cada una de las de las fuentes.
Ya ya tenemos todos esos datos
adaptados dentro de nuestro modelo
de entrada dentro de nuestro sistema
pero digamos ha bastado simplemente
en el formato vale no no en el dato
no en la estructura de la
información creo que eso vamos a tener
que transformarlas posteriormente.
Entonces, una vez ha pasado
por los importadores
que lo que los ha estado
en la cola de Kafka
vale.
La tarea del procesamiento de
del procesador de datos
Suárez es la tarea que
va, que va a tener,
es encargarse de transformar los
datos de la entrada en datos
que se precisa para la antología.
No la va a hacer,
no sabe o no la va a hacer
el por por sí mismo,
sino que esa transformación la va
a llevar a cabo más adelante
o una de un proceso que va a estar
implementado con Bale,
pero se queda la parte del
procesador en la que se va
a encargar de consumir.
Esa información está consumiendo,
lo que es el tope de los datos en
una base de datos intermedia,
que es la base de datos con
la que trabajarla,
se podría conectar directamente al
Kafka por poderse podría valer.
Pero el problema que
vamos a tener aquí
es que un uno cada uno de los
elementos por sí solo
no es completo, digamos, no,
sino que voy al para
poder componer los la estructura
de datos final
que se vaya a almacenar sea
la estructura que define
la antología realmente, no puede
almacenar en tripleta
los recursos que veamos antes.
Digamos que voy a tener
que coger datos
de diferentes de diferentes sitios,
para decirlo de alguna manera,
a tener que estar picando de
L Aquila, y ya entonces,
digamos que si me viene un dato por
una cola de, solamente voy
a poder procesar ese ese
dato realmente.
Entonces, por eso vamos a necesitar
tener una base de datos intermedia
en la que pueda hacer las consultas,
la tele posteriormente,
hecho hasta que el procesador no
termina de insertar los datos
en esta base de internet ya no va
a poder comenzar el proceso
de la de la tele.
Por este motivo.
Vale, bueno, pues nada la en cuanto
al proceso de de tele,
pues eso se va, va a hacer,
es esa transformación y como
resultado de esa,
de esa transformación, en este caso
va a escribir en una cola de casta
para volver a realizar el
procesamiento en streaming;
las siguientes en las
siguientes fases
del del sistema
para para que no dependa de la
velocidad de de procesamiento
el que yo pueda seguir estando datos
para decirlo de alguna manera
desacoplados un poco la
producción de datos
con el consumo de los mismos.
Bueno, un poco un poco lo que diga,
lo que hablamos no realmente
no merece la pena
ser mucho más de lo que
ya hemos comentado.
Esto sería la parte del
procesamiento de procesamiento.
Bueno, como decía, aquí
lo dejamos obstante,
ha indicado, no tendremos los
datos en formato de entrada
a través de este procesamiento.
Se va a definir los datos
en más buenos datos.
Una salida en datos, formato es
que muchas veces hablamos
de los ojos.
Realmente esto es pocos,
van, van a ser clases,
objetos que van a estar definidos,
van a generar a partir
de la antología.
Es decir,
si la antología de cine que va a
haber un objeto de tipo artista,
como obviamos Andersen, el ejemplo
otro equipo investigador
ya llevándole un poco más
al mundo universitario,
digamos que va a haber un proceso
que se va a encargar
de que a partir de esa antología
de ese modelo
que se ha definido ese o un vale
a través de algo que se llama
siete expresiones,
que seguro que mañana
lo van a explicar,
en la formación que tenéis la
infraestructura antológica,
se va a poder generar una
clase, es decir,
yo y tengo la antología de
filme mi investigador,
que tiene un hombre que tiene
apellidos, etc, etc. Vale.
Pues realmente eso va a desembocar
en que se va
a generar una clase que es pública
y que las investigador,
que tiene un pub private
nombre apellido
y así sucesivamente, no, eso es
lo que denominamos pozo,
vale?
Entonces tenemos que tenemos que
poder rellenar esas esas clases
y sus esos datos a partir de
los datos de la entrada,
y eso es lo que hace el
proceso de tele.
Para ello vamos a utilizar
ventajosas,
nos va ayudar en ese
cometido ventaja,
lo que lo que nos va a permitir,
por un lado,
es leer datos de diferentes fuentes.
Dejando de entrada y realizar
transformaciones
sobre los mismos cálculos mapping
filtrado pivotado de información etc
Etc. Un poco el resumen de lo
que de lo que vamos a hacer
en ese proceso de transformación
para cada una de las entidades
responda a esta estructura,
para cada transformación
que se centra en una entidad
en particular,
y se siguen estos estos pasos no
abran entidades por un lado
se llama general las entidades sin
relación que no tenga relaciones
con otras con otras entidades se van
a leer los distintos orígenes
implicados en la transformación,
la entidad principal
y todos aquellos que contengan datos
relacionados con la entidad principal
y que consiste en propiedades
de la misma
para poder rellenarla una vez
obtenidos esta información,
se van a eliminar, hacer un
proceso de limpieza,
eliminando los caracteres extraños
o seleccionando.
los datos que sean necesarios
añade en otro tipo de datos
de tipo constantes,
y si procede ordenación.
Es bueno un poco lo que lo
que comentaba antes,
aplicando diferentes fórmulas.
Una vez los datos se encuentren
unificado.
Después se realizaría un último
último filtrado para terminar
con ese proceso de limpieza.
Sería una carga en la base
de datos de esto
es un poco lo que comentaba
antes de desventaja.
No diré directamente que es el que
va a hacer esa esa transformación,
y esa ese proceso de limpieza,
lo que sería el procesador
de eventos,
viéndonos ya justamente, a ventaja;
no quería descomponer el cuerpo
y la estructura del formato de
salida aplicando una serie de fórmulas
y teniendo un poco en
cuenta los datos,
el patrón descrito antes y
por último las gratas,
se cargaría y se cargaría
en la cola en la cola,
Kafka correspondiente a los
objetos sin relaciones.
Luego, en cuanto a los sujetos
con relación,
pues se cargan las correspondientes
desde la base de datos
donde se almacena la entidad
y sus propiedades,
y y luego se carga.
La relación es cuando cuando
estábamos hablando de objetos
con relación a esa relación
es realmente.
Lo que quiero decir es que por
un lado se va a generar
las, la los Los Tojos Bale,
sin sin tener en cuenta que
puedan tener relaciones
con otros elementos.
Vale, por ejemplo, un investigador.
Puedes decir que trabaja en
determinado departamento
y ese departamento es una
relación ahí que vas
a que vas a tener un determinaba
universidad.
Entonces, lo que vamos a hacer,
digamos, es, por un lado,
generar esos objetos
sin las relaciones
todavía en una primera pasada vale,
y es por eso por lo que decimos
que en primer lugar,
se va a enviar esas entidades sin
relación, vale, porque no se va
a enviar las las relaciones entre
ellas y lo va a haber
otra segunda pasada en la que se van
a enviar esas esos enlaces,
esos esas relaciones entre entre
todas las entidades
vale?
Porque porque lo hacemos así
Bale lo hacemos así
un poco para para gestionar el hecho
de que si en un primer momento
enviamos ya toda la información que
podríamos podíamos hacerlo
perfectamente enviar su entidad
con sus, con sus relaciones,
podría darse el caso de que
se envíe una relación
a un objeto, que no existe,
algo que no existe.
Entonces de de cierta manera
tendríamos un problema,
no hay al poder insertar eso en
el triple story general,
el centro para asegurarnos de que
todos los objetos exista.
Lo primero que vamos a hacer es
insertar todos sin relaciones
y, por último, vamos a hacer otra.
Segunda.
Pasaba enviando las relaciones entre
los diferentes objetos.
Para parar ya en ese momento,
si somos conscientes o tenemos
la constancia
de que de que existen
en, por ejemplo,
pues enviado todos los
investigadores enviado todas las universidades
y tengo una relación entre ambos,
pues ya puedo hacer
la reforma de forma bastante,
bastante sencilla.
Habría otras alternativas,
como por ejemplo,
crear objetos vacíos o ejemplo.
Si tengo una relación con
una universidad equis
y no existe esa universidad, pues
crear la de cierta manera.
Lo que pasa es que después podría
tener problemas de rendimiento
y también problemas a
la hora de poder
identificar esa universidad,
como cuando me llega el dato
para poder relacionar
que esa universidad de la universidad
que me está llegando en
un momento dado,
no.
Entonces, para un poco eliminar
esos problemas
de que estoy comentando, decidimos
hacerlo de esta,
de esta, de esta manera,
y funcionando bastante de manera
bastante adecuada.
Bueno, de la parte de importación
sería sería un poco hasta hasta aquí
no sé si si queréis comentar
alguna duda además,
o si no, pasamos a la parte
del sistema de gestión,
menos.