epespad

Los archivos secretos del Vaticano, develados por IA

Los archivos secretos del Vaticano, develados por IA






Los Archivos Secretos del Vaticano son una de las mayores colecciones de documentos históricos del mundo. Son el hogar de más de 85 kilómetros de estanterías, con piezas que se remontan a más de 12 siglos en el pasado. Entre ellas, la bula de excomunión de Martín Lutero o los archivos de la Santa Inquisición.
El problema de esta enorme colección es que, a pesar de su tamaño, la mayoría no está digitalizada. Para indagar más a fondo en ella es necesario pedir un permiso especial, ir hasta Roma e ir revisando a mano cada documento. Sin embargo, un proyecto llamado In Codice Ratio podría cambiar todo eso.


Reconocimiento óptico para leer caracteres antiguos








In Codice Ratio ha sido desarrollado por científicos de la Universidad Tre de Roma, y utiliza una mezcla de inteligencia artificial y software de reconocimiento óptico de caracteres (OCR). El OCR lleva años usándose para escanear documentos, y ahora se ha adaptado para digitalizar los antiguos códices del Archivo.
Su funcionamiento es muy simple: “rompe” las palabras en una serie de letras buscando los espacios entre ellas. Después compara cada una con las que tiene en su banco de memoria y, después de decidir cuál se ajusta mejor a las letras que ha visto, transcribe el texto de un libro en la pantalla de un ordenador.


Sin embargo, este proceso sólo funciona bien con texto impreso. El texto manuscrito está conectado entre sí, por lo que el escáner OCR no puede encontrar espacios entre las letras. Algunos ingenieros intentaron solventar esto haciendo que reconociese palabras completas, pero no es viable.
La principal razón es la necesidad de enormes bancos de memoria; no se trata de reconocer caracteres individuales, sino palabras completas. Entonces, ¿cómo se ha solucionado el problema?




Adaptar el OCR a las necesidades del proyecto


vaticano
 
Aunque pueda parecer una perogrullada, no ha sido fácil adaptar la tecnología de reconocimiento de caracteres a lo que los científicos necesitaban. La tarea ha supuesto recurrir a unos ayudantes inesperados: estudiantes de instituto.


Los impulsores de In Codice Ratio reclutaron estudiantes en 24 escuelas, que serían los encargados de construir los bancos de memoria del nuevo sistema. Para ello se los colocaba delante de un ordenador, se conectaban a una web y en ella encontraban una pantalla dividida en tres secciones:






iglesiaIn Codice Ratio
En la primera de ellas se encuentran ejemplos legibles de una letra de un texto medieval en latín. La segunda contiene lo que los científicos han dado en llamar “falsos positivos”. La tercera es lo que el OCR ha devuelto, su intento de adivinar qué es lo que ha visto.
Después, los estudiantes tenían que juzgar si el OCR lo había hecho bien o no; comparando las tres líneas de la pantalla y marcando una casilla. Este procedimiento ha recibido el nombre de “segmentación en puzzle”. De esta manera, se ha construido un banco de memoria capaz de interpretar los trazos de una pluma.




Un porcentaje muy alto de aciertos


archivos
Llegó un momento en el que los estudiantes ya no eran necesarios. El software de In Codice Ratio ya era capaz de detectar letras manuscritas por sí solo. Ellos habían “enseñado” a la máquina, y ahora ella podía demostrar si realmente había aprendido algo.




Sin embargo, quedaba aún algo por solucionar: deserntrañar las letras conectadas del texto manuscrito. Los científicos decidieron enseñar al OCR algo de sentido común. Encontraron un corpus en latín con más de un millón de palabras ya digitalizado; las examinaron en grupos de dos y tres letras, dedujeron qué combinaciones son las más comunes y cuáles no se dan nunca.






Una vez se hubo introducido esto en el software, el OCR ya podía empezar a leer texto por su cuenta. Se pasaron más de 18.000 páginas de los Archivos por el programa y, aunque casi un tercio de lo que devolvió contenía errores tipográficos, en total logró un 96% de aciertos.




El software irá mejorando con el tiempo, conseguirá refinar sus imperfecciones y volverse todavía más preciso. El objetivo de In Codice Ratio es poder adaptarse para leer textos en otros idiomas además del latín. Las posibilidades que ofrece son asombrosas, así que tendremos que esperar para ver cómo evoluciona. Para saber más puedes consultar el documento publicado por los responsables del proyecto.








Documento

Comentarios Destacados

El-Loco-Camote +9
¿Dónde dice que son secretos?. Créanme que cuando estén digitalizados no los vamos a leer por fiaca, después no vamos a entender el idioma en el que están escritos y por último vamos a decir que las traducciones están viciadas de malas interpretaciones y omisiones por los curas, los moishes, los aliens, los terraplanistas, Macri gato, los Kukas, etc
Emaus +1
muy de acuerdo! pero MUY.

18 comentarios - Los archivos secretos del Vaticano, develados por IA

luciano1001 +1
Buen post. +10+reco
Miyata1987
Muchas gracias, Luciano!
LeonidasPerez1 -2
a esta IA la irán a suicidar si encuentra algo que no le conviene al vaticano?
EmanuelB15
la misma biblia dice que Jesús dijo que no van a encontrarlos a ellos (ni a jebus ni a dios) entre las paredes de un templo, ya lo sabemos pero igualmente la iglesia sigue robando igual, qué pensás que pueden encontrar aparte de eso?
Carlos_unico
Podría caerse un negocio de 2000 años, uno de los más duraderos de la historia tal vez
ElPipaEstevez +3
no son boludos, saben muy bien que largar y que no debe salir a la luz. O si salen hacer la vieja confiable, no reconocerlos como auténticos como con el Evangelio de Pedro, o de Tomás o un poco menos relevante el de Nicodemo..La religión es ridícula q causa gracia y pena que la gente no pueda ver cosas obvias, y no hablo de creer o no en Dios, yo creo, a mi manera, pero una religión fundada en los antojos de UN hombre (Constantino) por mas de 2000 años y q nada se modifique?
crucesymentiras
Y sería peligroso para los curas -y para el judaísmo y el islam- que se supiera que el Cristo real es Julio César, el amado del pueblo, de cuya historia manipulada se formó el mito literario del jesús hebreo: https://www.taringa.net/posts/noticias/18598717/Gran-revelacion-Jesucristo-fue-Julio-Cesar.html
fac23 +1
que lindo seria que digitalicen todos los archivos. Con el simple hecho de pensar que hay 85 kilometros de archivos se me hace agua la boca.
Donato88 -5
Los unicos papeles que me gusta son de color verde y tienen la cara de washington
cocorfield +1
fijate que le deje un par a tu vieja, pero pagando por mes y adelantado
TheNextHackermen
Entonces los archivos secretos no están en este post...

Ojalá te caigas del autobús mañana
Angelica2060 +1
Hay que aclarar que los monjes inventaron las letras minúsculas y la separación de palabras en la edad media, la máquina está intentando leer libros antes de esta invención. Si no fuera por la iglesia católica el mundo sería distinto, ellos inventaron las universidades como las conocemos, los hospitales, el arte moderno, nuevas técnicas de arquitectura, los derechos humanos, empezando por las mujeres, niños y pobres, y demás cosas que ahora nos parecen que siempre existieron.
archivos secretos del vaticano
Maekor +1
Hay que aclarar que los monjes inventaron las letras minúsculas y la separación de palabras en la edad media, la máquina está intentando leer libros antes de esta invención. Si no fuera por la iglesia católica el mundo sería distinto, ellos inventaron las universidades como las conocemos, los hospitales, el arte moderno, nuevas técnicas de arquitectura, los derechos humanos, empezando por las mujeres, niños y pobres, y demás cosas que ahora nos parecen que siempre existieron.
archivos secretos del vaticano
ayamon
primero, escanear documentos antiguos es muy laborioso, primero por los escribientes de su tiempo que hacian lo que podian con los medios que tenian, y la interpretacion, por cierto que en los antiguos textamentos se esta descubriendo que no se modificaron tanto, al compara fechas con otras escritos de otras religiones o textos,
Otro es como estan conservados esos textos durante siglos , a veces una simple gotera puede arruianar siglos de informacion, no digamos incendios o ratas,
Interpretacion de los datos con esa informacion actual (de echos historicos com¡nocidos) puede cambiar mucho segun quien lo haga, maxime cuando las lengua varian con el tiempo, solo hace falta leer el quijote original, y esoq eu no pasaron tantos siglos , como para entender una lengua una lengua practicamente muerta como el latin
ayamon
aqui un enlace del archivo de las indias en las diferentes versiones del español
http://www.mecd.gob.es/cultura/areas/archivos/mc/registro-memoria-unesco/2015/vocabulario-lenguas-nuevo-mundo.html