• Home
  • Química
  • Astronomía
  • Energía
  • Naturaleza
  • Biología
  • Física
  • Electrónica
  • Creación de un archivo digital para documentos en papel en descomposición

    La conversión de documentos en papel antiguos a archivos digitales puede ser un esfuerzo minucioso. Crédito:Archivo Digital de Sociedades de Esclavos, CC BY-ND

    Los documentos en papel siguen siendo registros invaluables del pasado, incluso en un mundo digital. Fuentes primarias almacenadas en archivos locales en toda América Latina, por ejemplo, describir una sociedad multiétnica de siglos de antigüedad que se enfrenta a cuestiones de raza, clase y religión.

    Sin embargo, los archivos de papel son vulnerables a las inundaciones, humedad, insectos y roedores, entre otras amenazas. La inestabilidad política puede cortar el dinero que se utiliza para mantener los archivos y la negligencia institucional puede transformar los archivos valiosos en basura enmohecida.

    Trabajando en estrecha colaboración con colegas de todo el mundo, Construyo archivos digitales y herramientas especializadas que nos ayudan a aprender de esos registros, que rastrea las vidas de personas de ascendencia africana libres y esclavizadas en las Américas desde el siglo XVI hasta el siglo XIX. Nuestro esfuerzo, el Archivo Digital de Sociedades de Esclavos, es uno de los muchos proyectos de humanidades que han acumulado importantes colecciones de imágenes digitales de documentos en papel.

    El objetivo es garantizar que esta información, incluida parte de documentos que ya no existen físicamente, sea accesible para las generaciones futuras.

    Pero preservar la historia tomando fotografías de alta resolución de documentos centenarios es solo el comienzo. Los avances tecnológicos ayudan a los académicos y archiveros como yo a preservar mejor estos registros y aprender de ellos. pero no siempre lo hagas fácil.

    Un archivo en Cuba contiene tesoros de papel que son difíciles de usar y estudiar, incluso en persona. Crédito:Archivo Digital de Sociedades de Esclavos, CC BY-ND

    Recopilación de documentos

    Desde 2003, el Archivo Digital de Sociedades de Esclavos ha recopilado más de 700, 000 imágenes digitalizadas de registros históricos que documentan la vida de millones de africanos y personas de ascendencia africana en América del Norte y del Sur.

    Miembros del equipo central, de universidades en los EE. UU., Canadá, y Brasil, viajar a los sitios del proyecto en toda América Latina, donde capacitan a estudiantes y archiveros locales para digitalizar registros eclesiásticos y gubernamentales de sus comunidades. Le damos a estas comunidades las cámaras, computadoras y otro hardware que necesitan para preservar digitalmente los documentos apilados en las esquinas de los sótanos de las iglesias del siglo XVIII, o a punto de ser descartado por archivos municipales reducidos por el espacio.

    También les enseñamos una habilidad crucial para el archivo y la recuperación:cómo crear metadatos, la información descriptiva para ayudar a las personas a encontrar lo que les interesa, como si un documento es un certificado de matrimonio o un registro de bautismo, y de qué año y ciudad es. Los buenos metadatos permiten a los visitantes del sitio web del proyecto, por ejemplo, busque todos los registros de bautismos de la Colombia del siglo XVII.

    De la digitalización a la preservación

    Tiempo extraordinario, hemos mejorado mucho en la digitalización de documentos. En imágenes más antiguas, No es raro ver que el dedo del fotógrafo se desvía del lado del encuadre. Algunas de esas imágenes más antiguas se almacenan como archivos JPEG de resolución relativamente baja, un formato que comprime el tamaño del archivo de imagen eliminando algunos datos cuando se guarda. La mayoría de esos archivos siguen siendo completamente legibles incluso cuando un espectador hace zoom, pero algunos no lo están y deberán digitalizarse nuevamente en el futuro.

    Mucha gente se involucra tanto para enseñar como para aprender a fotografiar correctamente los documentos. Crédito:Archivo Digital de Sociedades de Esclavos, CC BY-ND

    Nuestra preservación más reciente se adhiere a los rigurosos estándares de la Biblioteca Británica, que financia gran parte de nuestro trabajo. Esas imágenes se toman en resoluciones muy altas y se almacenan en múltiples formatos de archivo, incluido TIFF, que sigue siendo el estándar de archivo.

    Transformar una colección de imágenes digitalizadas en un verdadero archivo digital es un esfuerzo que requiere mucho tiempo y está orientado a los detalles. Al principio de este proceso, nos encontramos con un problema curioso relacionado con fotografías tomadas durante nuestros primeros esfuerzos de digitalización. El software moderno frecuentemente malinterpreta la orientación de estas imágenes, dándonos páginas giradas 90 grados a la derecha o izquierda o incluso completamente al revés. En los casos en que un volumen completo se giró de la misma manera incorrecta, podría arreglarse automáticamente, pero otros con una variedad de errores tuvieron que corregirse a mano para que los investigadores pudieran trabajar más fácilmente con el material.

    También hemos descubierto que los nombres de los archivos de datos pueden causar problemas. Muchas cámaras asignan nombres predeterminados a las imágenes, como DSCN9126.jpg, que no son útiles para averiguar qué son las imágenes. Tenemos que cambiar el nombre de cada imagen de una manera estándar que indique cómo encaja en nuestra colección.

    Por el momento, hemos optado simplemente por numerar las imágenes secuencialmente dentro de cada volumen; otra opción razonable sería prefijar cada uno de estos números con una identificación que se refiera al volumen del que proviene la imagen.

    Estos no son obstáculos importantes, pero ellos y otros en líneas similares toman algún tiempo para resolver y abordar adecuadamente. Pero este esfuerzo vale la pena cuando las personas que desean explorar la colección tienen más facilidad para encontrar y usar nuestras imágenes.

    Con cuidado, La preservación digital puede dar nueva vida a los documentos en ruinas. Crédito:Archivo Digital de Sociedades de Esclavos, CC BY-ND

    ¿Dónde guardarlos?

    Una vez que hayamos capturado las imágenes, we need to save them somewhere.

    At present, the Slave Societies Digital Archive collection is close to 20 terabytes—roughly the space needed to store all the text in the Library of Congress.

    Few institutions have the resources, personnel or expertise needed to store humanities data at such large scales. Data storage isn't exorbitantly expensive, but it's also not cheap—especially when the data needs to be accessed regularly, as opposed to being stored in a static backup or archival copy.

    Durante muchos años, the Vanderbilt University Library hosted the data, but we outgrew what that organization could afford. We had been backing up many of our most important records on the Digital Preservation Network, a consortium of universities that pooled resources to fund a reliable digital storage system for scholarly production. But that organization shut down in late 2018 after consulting with each member organization to ensure that no data would be lost.

    Our path has led to the cloud, computers in technology companies' massive server-warehouse buildings that we access remotely to store and retrieve information. En este momento, multiple copies of our entire dataset are stored on servers on opposite sides of North America. Como resultado, we're far less likely to lose our data than at any previous point in the project's history.

    Si usted puede leer esto, you’re very highly trained. Credit:The Conversation screenshot of Slave Societies Digital Archive file, CC BY-ND

    Opening access

    Storing these records in secure systems is another part of the equation, but we also need to make sure that they're accessible to the people who want to see them.

    Our documents, typically written in archaic Spanish or Portuguese, are very hard to read. Even native speakers need special training to decipher what they say.

    For several years, we've been producing manual transcriptions of some of our most noteworthy records, such as a volume of baptisms from late 16th-century Havana. But that takes 10 to 15 minutes per page—meaning that transcribing our entire collection would take more than 100, 000 hours.

    Other projects have used volunteers to do similar work, but that approach is less likely to be the solution for our archive because of the linguistic skills required to read our documents.

    We are exploring automating the transcription process using handwriting recognition technology. Those systems need more work, particularly when dealing with centuries-old handwriting styles, but some researchers are already making progress.

    We are also looking at ways to identify the people and places mentioned in our records, making them searchable and connecting them to other similar datasets.

    As we and other researchers connect our work, the stories contained in these old documents will come to life and bring new insight to modern scholars.

    Este artículo se ha vuelto a publicar de The Conversation con una licencia de Creative Commons. Lea el artículo original.




    © Ciencia https://es.scienceaq.com