Bueno, continuamos, una vez se ha
visto un poco de los aspectos
generales de limpieza pelota.
En esta siguiente parte local saber
un poco su aplicación en Asia
y posteriormente lo lo lo que
va a suponer en el conjunto
de los proyectos Hércules ha sido
ese es el vacante semántico
de ese, pero también es el proyecto
en el que se ha definido
la red de antologías -Hércules,
que va a tener otros usos
en el ámbito de de los
proyectos Hércules,
particularmente en los proyectos,
en el proyecto.
Esto es esma, en cuanto a
requerimiento de datos
y métodos de análisis.
Entonces, los dos aspectos
que vamos a ver aquí
sería, por una parte Hércules,
ha sido incierto Open Data
y enlazado con datos externos
que se está haciendo, nació
y el que se propone y el que
se va a proponer hacer
en proyectos futuros.
Repasando un poco lo que era lo
que era el luego lo que es,
el proyecto del club
de ser culés está definido como
un proyecto de semántica,
de datos de investigación
de universidades.
El proyecto Hércules va a crear
un sistema de gestión
de investigación que circule
si se está basado en datos
abiertos para ofrecer
una visión global
de los datos de investigación del
sistema universitario español.
El objetivo es mejorar la gestión,
el análisis y las posibles sinergias
entre universidades
y el gran público.
Si sí digamos, si comparamos esto no
con lo que comentábamos en él
en la presentación anterior
son el tipo de objetivos
digamos que se cumplen con un
proyecto de datos abiertos
y datos enlazados, hércules
fue bueno,
como como comentábamos, un proyecto
de arquitectura semántica.
Los dos tienen sistemas de gestión
de investigación y universidades,
círculo, y se le exige, y
Hércules en principio
a la arquitectura.
También se podrían conectar sistemas
de gestión de otras universidades,
de otros tipos.
Digamos que los los dos pilares
no, que tiene ser
la parte de la arquitectura
semántica es así y el prototipo innovador,
sistema de gestión de
la investigación,
que es el sistema de lo que
aquí está representado
como sistema de gestión,
investigación y universidades.
Estos son los 2, las dos patas
principales del proyecto.
El proyecto Hércules hacemos
un repaso rápido,
tiene tres proyectos, por una parte
es así que estamos ahora que
esa arquitectura semántica
e infraestructura antológica la
parte de la infraestructura antológica
básicamente se trata de definir
el modelo antológico.
La red de antologías
-Hércules, la arquitectura,
se mantenga,
lo que define pues el conjunto,
agregamos el conjunto de herramientas
que permiten la carga y
almacenamiento de los datos.
En formato se mantiene y su
posterior publicación
interrogación la sgae y ese
sistema de gestión
de la investigación y encima
son dos en dos proyectos,
enriquecimiento de datos a partir
de internet y desarrollo
de métodos de análisis.
Saltamos, no, aquí es ese, ha sido
esa arquitectura semántica lógica,
datos a partir de internet vale,
son los tres aspectos, digamos,
que tenemos que hacer.
Tenemos que destacar en relación
con datos, en la zaga,
es decir, tenemos, es una
plataforma que cumple
los estándares de la web semántica.
Hay un desarrollo de tecnologías
Hércules
y además, enlaza y enriquece con
datos a partir de interna.
Ha sido, era el bueno, pero
digamos que tenía 2.
Estas 2, las dos patas de la
partida de arquitectura
se mantiene, correspondería
al desarrollo
de una plataforma eficiente
para almacenar gestión
y publicar los datos basándose
en la infraestructura
y con la capacidad de poder
sincronizar instancias instaladas
en diferentes universidades
y por otra parte
está la creación de una red
de antologías antológica
que pueda ser usada para describir.
Para disculpar.
Que pueda ser usada para describir
con fidelidad,
y los datos del dominio de gestión
de la investigación.
Ese es el prototipo innovador del
sistema de gestión, que incluye
todas las actividades de gestión
relacionadas con la investigación,
un requisito que tiene que estar
integrado con la actitud,
con la arquitectura,
se desarrollo y por último,
tenemos esma que el objetivo es
identificar, extraer y analizar,
analizar y evaluar conjuntos
de datos.
Son relevantes y se completa
con datos obtenidos
a partir de fuentes externas.
Datos, datos con los que puede
lanzar entonces el el.
Bueno, aquí hemos resaltado un
poco en rojo no carácter,
no del tema de publicar
datos en Asia.
Es importante esa parte
de publicaciones
en los crecimientos de los datos
enlazados en la parte
del esma la parte de información
de fuentes externas
y de las fuentes externas.
Si empezamos un poco
los tres proyectos en su
comunicación entre ellos,
no tenemos que ser enviado a,
ha sido consolidar datos en una
central unidad central,
datos homogéneos entre nodos,
explotar los datos del nodo central
y enriquece datos de fuentes
de internet,
y encima se conecta con esa ley
para la gestión de proyectos,
y esto es una presentación general
que ya vimos en su momento
cuando hablábamos del
proyecto Hércules,
cuando presentamos el
proyecto conjunto.
Esto es lo que decíamos,
pero podemos decir algo más, no, que
ha sido publicar datos abiertos
y enlazados, es decir, no solamente
consolida estos datos
sino que los pública son hace la
publicación de los datos abiertos
y enlazados y el nodo central no
solamente unifica los datos
sino que publica esos datos abiertos,
y no es que no es que se los
que digamos los consolida
y los para que nadie lo o lo que
hace es publicarlos hacia fuera.
Como queda.
Entonces, esto, bueno convierte
estos dos proyectos,
nos convierten en unos
proyectos de datos.
En la zaga se este símbolo,
bueno, Jorge para ti,
especialmente si lo ves por
ahí en webs y demás,
lo que significa en general
es que tiene un proyecto
que de alguna manera está
relacionado o exponer a los ojos.
Esto que comentábamos en la
presentación anterior,
datos abiertos, datos enlazados,
que data de.
El publicar datos abiertos
con rapidez
es un factor de innovación esto
ya lo comentamos, pero bueno,
es así; es decir, es más fácil,
como hemos visto antes, publicar
datos con una estrella
y publicar datos con 5,
pero es mucho más incómodo
reutilizar los datos de una estrella que lo sé.
Entonces, la rapidez es un
factor de innovación,
la gente puede reutilizar esa
información con rapidez,
pero si su uso no es cómodo
con la innovación,
entonces digamos si pensamos
en la abstención, modelo,
relación entre los datos,
en la zaga de los datos,
actualización y difusión,
tenemos dudas o problemas.
Con ellos, saben cómo se
obtienen estos datos
no se con un con una descarga
es con una pie, el modelo,
como es cerrado, abierto, público
o privado, propietario,
la relación no se pueden relacionar
los datos que están disponibles,
es decir, yo puedo ir a una
tabla, otra tabla,
otra tabla de manera aislada,
o puedo hacer consultas directamente
sobre los datos.
De alguna manera, los datos están
lanzados o no los datos,
se actualizan.
Quién es el responsable
de la actualización,
es el utilizado, o es el propietario,
es decir, tiene que procurarse
los datos más nuevos
o responsabilidad del propietario.
Yo sé dónde están y siempre
están actualizados,
se accede con una descarga
se hace con una pie
y luego, en cuanto a difusión.
Si hay, os hablamos de que
son enlaces expansivos,
entonces ha sido, ofrece una app.
Para obtener estos datos, el modelo
que ofrece es abierto,
es público, es estándar,
y es expresivo,
y extensible permite acceso a
consultas para almacenar datos.
Es decir, no solamente dejo acceso a
una, tendría acceso a una tabla,
sino que tuviera acceso al conjunto
de tablas, digamos,
el conjunto de entidades y sus
relaciones, en este caso,
caso para que la consulta o las
consultas que quieras.
Los datos están lanzados
con fuentes externas,
se pueden enlazar la actualización
es mediante una pie.
La responsabilidad es del
propietario de que estén actualizados
y, bueno, en principio,
los los los datos se difunden
vía vía web.
Es una discusión activa.
Pues bueno, el mejor medio
para publicar datos
abiertos es el medio ideal.
Hay otro asunto
que la a la que también tiene
relación con los datos abiertos,
que es el seguimiento de los
principios mínimos.
Son unos principios de publicación
de datos que se basan
en que los datos sin ser
encontrado tienen
que ser accesibles interoperable sí
reutilizables esto además bueno
esto es un juego de palabras porque
eso también significa bueno
de alguna manera entonces bueno son
ser es serían datos buenos pero bueno
son datos que cumplen estas
estos cuatro principios,
digamos, qué hacen estos principios,
después nos nos dan unas guías para
publicar recursos digitales
como conjuntos, de datos, códigos,
flujos de trabajo,
objetos de investigación, de forma
que sean localizables accesibles,
interoperable, sí reutilizables.
Estos principios se refieren
no solamente a los datos
para cualquier objeto digital,
sino a sus metadatos
y a la infraestructura.
Digamos que todo eso tiene que
proporcionar un acceso
a los datos, datos, datos clave.
Cómo vamos a ver?
Limpieza Open Data, también es el
mejor medio para ser sacerdote?
Bueno, creo que ya lo vimos
anteriormente.
Le queda táser ver en él
es el componente de.
Entrando ya nació el componente
que, que permite en Asia
la arquitectura semántica del
componente que permite
la publicación de los datos que
están en el error de gestor
están cargados de gestor con datos
abiertos y enlazados.
El servicio tiene las siguientes
características.
Proporcionar una interfaz
htc con estilos
y formatos personalizables.
En nuestro caso
nosotros hemos incluido además una
presentación con tablas y brazos
para enriquecer un poco
en la presentación
de ciertas entidades la presentación
de los datos de otras entidades.
Proporcionar los datos informa Efe
para permitir la reutilización;
cumple las recomendaciones y cuenta
con un servicio que permite
localizar entidades por el nombre,
las presentaciones buenas parecidas,
esta enzima presentación
un poco.
Digamos que una parte estándar
de decir que dato
de que dato estamos,
a sea cuál es el dato que
estamos presentando
y qué valor tiene.
El valor de ese dato puede
ser otra entidad
o directamente una cadena de texto.
Es por ejemplo, que el nombre es
Antonio Fernando Skármeta
Gómez y luego, bueno,
pues hay una buena presentación
de datos,
como las publicaciones
en formato tabla,
o la relación entre los
entre los autores
con los que comparte,
con los que comparte publicaciones
este investigador concreto.
Esto lo lo veremos en con más
detalle en la hora siguiente.
La otra parte que permite acceder
a los datos en la arquitectura.
Que permite a los administradores
consultar los datos del conocimiento
que están en ese sector
mediante el lenguaje
Parker esto vimos ayer a quién
correspondía un repaso rápido,
es el protocolo de consulta de
interrogación para la FCC,
y así pues, bueno, va a tener
un puente sobre lectura
para los héroes públicos que no va a
tener acceso a los datos privados.
Esto es importante, es el texto,
permite un parque que le permite
el acceso a los datos,
que están directamente en el
resto y en otros, Rhodes.
Estos,
mediante otro tipo de consultas
federadas.
Como comentaba, Jorge al principio,
no para cuando, cuando te enfrentas
a la reutilización de los datos,
hay una primera parte que es
importante que conocer
el modelo semántico de los datos
en el caso de asilo,
en particular de Hércules.
Este modelo romántico tiene
una cierta complejidad
para reutilizar falta, conocerlo,
el modelo y ejecutar consultas.
Es y reutilizar.
El texto es el componente
de la arquitectura
que almacena desgracia conocimiento
dentro de ha sido.
Además, es un servidor de datos,
que responde a consultas.
Es porque a veces eso es
nombrado como seguidor
de los servidores de receptores el
que proporciona servicio de datos
y consultas al servicio
de los parques.
Ayer vimos eso, que en el desarrollo
de para cada universidad,
cuál sea la solución que más le
convenga y, como decíamos ayer,
uno de los requisitos obligatorios
es que debe cumplir el estándar.
Es parcial, uno punto en particular,
lo que se refiere a actualizaciones
de datos.
Esto pues eso es importante.
Esta proporciona servicio
de datos y consultas;
ha liquidado, tras ser vendida,
los parques.
Aquí hay una parte importante que
tiene que ver con la ingrata,
que es la que tiene que ver con él
con él esa limpieza del dos
de los datos que comentábamos antes.
No hay unos procesos que tienen que
se llama genéricamente procesos
de descubrimiento en el
proyecto Hércules,
así que tiene tres procesos,
no la reconciliación,
descubrimiento de enlaces y
detección de equivalencias.
Los tres procesos actúan
conjuntamente
en el gran proceso de descubrimiento
en la reconciliación.
Lo que se hace es evitar la
duplicación de entidades
mediante un conjunto de reglas.
Esto es lo que comentábamos antes,
no identificar a un un autor
que llega con la denominación,
saber si es uno que ya está cargado
o no para que no esté duplicado
la reconciliación es toma de
decisiones de tipo autónomos,
y si las reglas digamos,
ya superan un cierto umbral
de confianza,
y si queda en un rango de duda,
digamos, la validación del usuario.
El proceso de reconciliación
utiliza datos obtenidos
en el descubrimiento del acceso
a datos externos
adquirido y etc
desde el nodo, unidad, el
descubrimiento de enlaces,
lo que hace es obtener
identificadores de fuentes externas.
Se enriquece de alguna
manera con datos,
enriquece con la, proporciona
información
para el otro proceso
de reconciliación,
y además tiene un proceso
con ejecución continua,
para que cada cierto tiempo,
ir a buscar
a los repositorios en cuestión por
si hubiera algún dato nuevo,
un nuevo enlace o alguna
nueva información,
y, por último, estaría el
asunto de la detección
de equivalencias que obtienen las
entidades de otros nuevos.
Entonces, esto es el digamos
que enlaza con otros más, ha sido
el más que hemos visto antes,
pues una publicación es la
misma que la publicación
en esta otra universidad
o que este autor
es el mismo que hay en
esta universidad.
Entrando ya en Asia,
lo que hacemos con el enlazado
de datos externos
digamos que ha sido, obtiene enlaces
a fuentes externas,
por ejemplo, la página del
investigador Ortiz,
pero digamos que que lo quería esto,
digamos, si nos quedáramos
limitados a esto,
es que estaríamos enlazando
una web a otra,
una página la página del
investigador nación, la estaremos en la zona
con una página web, en otro sitio,
pero en realidad se pueden.
La farsa no es solamente un enlace,
un vínculo entre páginas web,
sino que también lo estamos
con el dato.
Es decir, esta petición, por ejemplo,
lo que hace es devolver el el
formato de este investigador,
mientras que aquí vamos a la página.
Con esto lo que hacemos
es obtener datos.
Es decir, lanzamos el dato
en Acción con el dato.
Como comentábamos,
el proceso de descubrimiento incluye
el enlazado de datos por tanto
con otras universidades poniendo un
ejemplo no en este investigador
un investigador
que tuviera este código que tuviera
en la Universidad de Murcia.
Gran punto es.
Podemos declarar, que es el mismo
que unidad se llama así
y a su vez, podríamos tener un
seis más que indicase que es
este investigador.
Es decir, podríamos llegar saltando
de datos o mediante datos lanzado
a la información que de
este investigador.
Tenga obtuviera el espacio de datos
abierto de la Universidad de Deusto
de datos abiertos y enlazados.
Podríamos pedir toda su
información viviendo.
Pero lo único que tendríamos,
lo único que puedo
que nos haría falta en realidad
tener enlazado en el único triple
que nos haría falta tener en
la Universidad de Murcia
para poder llegar hasta aquí
sería este primero.
El resto de la información
que mostraremos
se obtendrían mediante
mediante esos autos.
En cuanto a la zaga de
datos que hacemos
en la fase de descubrimiento, nos
ese es un proyecto bueno,
que la aparte de recoger la
actividad investigadora de los investigadores
ofrece un identificador único.
Tenemos este ejemplo?
Pues bueno, esto es lo que digamos
que lo que sería la página web
y esto serían los los datos que
están en un formato como este
en el caso de que se pidiera
que se diría pues eso,
que el autor,
en este caso sí lo es por aquí
que es Diego López.
También hacemos las de BP.
Es un espacio de datos
de investigación
relacionados con tres años.
Es muy específico, por
tanto, pero bueno,
es que si este las digamos
al alegre investigador,
pues no se vuelve una cosa parecida
a la que hemos visto antes,
entre ellos.
Bueno, por cierto, el propio código
que está aquí también
es un dato que se podría recuperar.
A lanzamos, también con
él, con unos costes,
es decir, las categorías,
los los de las entidades,
van a venir categorizado con
el tesoro de la Unesco,
y lo que vamos a hacer es el con un,
que es la implementación en
del tesoro de la Unesco,
que se aprovechaba la Universidad
de Murcia.
Entonces, por ejemplo, si algo viene
con una categoría 8, 3, 3,
esta categoría está apuntando a un
un apuntaría a este rdc tenemos
pues bueno las la el texto que
es la creatividad tenemos
cuál es el enlace a la categoría
padre con broker
y tenemos otras categorías
relacionadas.
Las patentes las vamos a enlazar con
el con los datos de la europea.
Ese es un proyecto de ley que
data que está muy bien.
Si os fijáis, el espacio o la
representación para humanos
llevamos es bastante parecida
a la que hemos implementado
nosotros, parecida a la que tiene
esto es un poco estándar
del que data de un servidor queda
tanto es tenemos la la página digamos
de una patente para una persona
y si pudiéramos, los datos,
lo que tenemos es eso, es
esa misma información
para poder ser reutilizadas.
Decir.
Nosotros lo único que necesitaríamos
guardar.
Como triples que una determinada
patente del es la misma,
es la misma que este enlace
o bueno habría que ver
cómo se declara.
Pero bueno,
el caso es que se podría
enlazar con este,
con este espacio, con esta, con este
y a partir de aquí obtener
toda la información de la patente
sin necesidad de tener más otro dato
almacenado distinto con el IBI.
Bastaría.
Entonces, en cuanto a, en cuanto
al enriquecimiento,
la extinción de los tres proyectos
que teníamos,
lo que decíamos era que ahí
hay una parte de aquí
sería el enriquecimiento de los
datos que corresponde al proyecto
Esma, que es el completar los datos
a partir de información de fuentes
hasta entonces, cuál es el futuro?
No los los próximos pasos
que esta arquitectura nos
va a permitir dar.
No es enriquecer datos o
lanzarlos con la wiki,
data de cualquiera, es bueno,
ya hemos visto,
son espacios de datos en la casa dos
de carácter enciclopédico y general
y por tanto como en principio
cualquier entidad.
Bueno, bueno, cualquier entidad en
casi cualquier ámbito va a poder
ser lanzada con un concepto.
Aquí sí que es cierto que conceptos
muy específicos
de ámbitos médicos especialmente
igual,
no están en que no están
en Wikipedia.
Por tanto, no van a estar en huída,
tampoco para esos casos.
Habrá otros espacios con los
que las armas concretos.
Pero bueno, no, no, es un
que a veces discusión,
no sobre la calidad de la
información que contiene tanto
como wiki data, que es la misma
discusión que en realidad
se tiene sobre Wikipedia, como
fuente de información fiable;
entonces, es cierto que,
bueno, pues tal vez
no sea una fuente de información
fiable al 100 por 100,
pero sí que es cierto que permite
un reconocimiento de entidades
y nadie es ambiguo;
acción que no hay que
despreciar y luego
ese reconocimiento de entidades
te permite relacionar.
Te permite relacionar entidades como
con más precisión es un sí
si bien podría ser discutible,
digamos la definición que haya
de despedida de una cierta entidad
en el ámbito médico,
lo que lo que no es discutible es
que si la entidad ha reconocido
de manera ambigua, eso
ya es un valor.
Además, haremos el enriquecimiento
con términos
como mes, que son términos que están
en el ámbito de la medicina
de la investigación médica.
Hay una en el caso de completarse
-años, con términos de antologías,
deseo en el caso de autores,
publicaciones y temas españoles
hay una fuente importante que es la
datos de esto además bueno Oscar
creo que estará implicado
en este proyecto,
porque tiene relación con el
grupo en el que trabaja.
Bueno, hay una puede ser
interesante, el azar,
con autores, publicaciones y temas
de la Biblioteca Nacional.
Además, tenemos que ofrecer,
tiene una información
particularmente interesante en temas que ya no son,
que no corresponde a la
investigación en ámbitos tecnológicos,
sino que son más, pues en temas que
pueden ser sociales de Derecho,
historia, etc. La que bueno, pues
pues otros otros medios igual
pueden tener alguna carencia,
hay algún otro sitio,
como Meteora, que es Diccionario
médico de terminología
médica, es Noves, se tiene que
determinar qué integral
tenemos puntos suspensivos,
porque, bueno, ahora mismo esto es
una cosa que está ahora mismo
un estudio y una de las no de los.
Una de las tareas que tienen estos
proyectos ahora mismo
es el identificar fuentes
en las tablas adecuadas
para cada área de conocimiento de
las publicaciones científicas.
Es decir, sí cual es adecuada.
Para la publicación, publicaciones
sobre sociología o política,
lo cual es asociado así en
las investigaciones
sobre derecho etc
En principio los ámbitos científicos
tecnológicos
en esto están más desarrollados
pero bueno,
hay que tratar de ofrecer la
funcionalidad de enlazado
de datos para investigaciones
en cualquier ámbito,
resultados de investigación,
incluso en el artístico.
Con esto acabaríamos la presentación
de esta de esta primera parte
de datos enlazados.
No sé si.
Jorge, tienes alguna pregunta Oscar?
Alguna observación.
No solo esta parte, no, por mi parte,
pues si queréis, hacemos una
posibilidad prevista,
creo que una pausa de media
hora si queréis la,
podamos hacer un poquito más
corta, un cuarto de hora,
o así y Podemos a las 11 10,
o así da?
Igual.
Vale?
Voy a para la grabación.