El archivo web como herramienta de conocimiento para el presente y el futuro

7 noviembre, 2016 at 08:04

Que los archivos son un bien necesario para la sociedad no es ningún secreto. Los archivos preservan, custodian y dan acceso a colecciones documentales y de información para que las sociedades, en general, y las personas, en particular, puedan conocer su pasado y puedan, incluso, vislumbrar su futuro a través de hechos pasados. Ahora bien, ¿cómo recopilar toda la información que hay en la web?… Por suerte la Biblioteca Nacional de España ya se está ocupando de eso.

La Biblioteca Nacional de España ya ha recolectado el 87% de todos los dominios .es

La Biblioteca Nacional de España a través de su ‘archivo web’ recolecta de manera automatizada los sitios web de España. La finalidad de este archivo web es la preservación y difusión de estos recursos “nacidos digitales” para que puedan servir como herramienta de conocimiento para generaciones presentes y futuras. Hay iniciativas que ya realizan este tipo de recolecciones, como por ejemplo Internet Archive, PADICAT (Patrimonio Digital de Cataluña) o ONDARENET (Archivo del Patrimonio Digital Vasco).

El pasado mes de julio la Biblioteca Nacional de España terminó la primera recolección web del dominio .es. El software de recolección automática recorrió 1,8 millones de dominios y se descargó un total de 460 millones de archivos. El resultado final fue que el 87% de los dominios .es en activo fueron recolectados y el tamaño de la colección a guardar alcanzó los 20 Terabytes. [A tener en cuenta: No se limita la recolección al dominio .es porque hay mucho patrimonio documental fuera de dicho dominio]

Anteriormente se habían llegado a cabo recolecciones selectivas sobre acontecimientos importantes de trascendencia social y política, como por ejemplo la muerte de Adolfo Suárez, la abdicación de Juan Carlos I y proclamación de Felipe VI o las elecciones europeas, autonómicas, locales y generales.

Ahora se enfrenta a una serie de retos, como la normalización del depósito de publicaciones en línea no recuperables por medios automáticos, la descripción / catalogación de las publicaciones, el acceso de los usuarios a través de un sistema que garantice la protección de la propiedad intelectual…

La importancia del RD 635/2015 para el archivo web de España

El 25 de julio de 2015 se publicó en el Boletín Oficial de España el Real Decreto 635/2015 por el que se regula el depósito legal de las publicaciones en línea. A través de este Real Decreto se consideran por primera vez objeto de depósito legal los sitios web y las publicaciones en línea.

Este real decreto tiene por objeto regular el procedimiento de gestión y constitución del depósito legal de las publicaciones en línea, con la finalidad de cumplir con el deber de preservar el patrimonio bibliográfico, sonoro, visual, audiovisual y digital de las culturas de España en cada momento histórico y permitir el acceso al mismo con fines culturales, de investigación o información.

El artículo 3 del RD 635/2015 dice que serán objeto de depósito legal, junto con los metadatos que incluyan, todo tipo de sitios web y las publicaciones en ellos contenidas –tanto de acceso libre como restringido–; cualquiera que sea el procedimiento de producción, edición o difusión; cualquiera que sea el soporte o medio no tangible por el que sean distribuidas o comunicadas; cualquiera que sea la localización física del servidor o servidores a partir de los cuales se difunden a las redes electrónicas; y cualquiera que sea el dominio que albergue la publicación; siempre que contengan patrimonio bibliográfico, sonoro, visual, audiovisual o digital de las culturas de España; y siempre que cumplan alguna de las condiciones siguientes:

  1. Que estén en cualquiera de las lenguas españolas oficiales;
  2. Que estén producidas o editadas por cualquier persona física o jurídica que tenga su domicilio, residencia o establecimiento permanente en España;
  3. Que estén producidas o editadas bajo un nombre de dominio vinculado al territorio español.

En cuanto a las publicaciones exentas del depósito legal estarían los corres y la correspondencia privada, los contenidos albergados únicamente en una red privada y los ficheros de datos de carácter personal a los que solo tiene acceso un grupo restringido de personas.

En cuanto a las novedades que trae el depósito legal de publicaciones en línea con respecto al depósito legal es que la iniciativa no recaerá sobre los editores, sino por los centros de conservación (la BNE y los designados autonómicos) y no se asignará un número de depósito legal. Además, existe la obligación de editores y productores de contenido en línea a dejar que los centros de conservación recolecten sus publicaciones o a facilitar el depósito cuando estos se lo soliciten.

Para finalizar hacer mención al magnífico post, e infografía, que elaboró Carmen Menchero de los Ríos: Depósito legal electrónico: cómo se “archiva” Internet. Post en el que se menciona que tras un año desde la aprobación del Real Decreto ya hay 132 terabytes de información. Sin duda que se va a necesitar nuevas formas de almacenamiento para tantísima información.

Depósito Legal Electrónico - España

Imagen superior cortesía de Shutterstock