Nuestro plan para conservar las webs de hace años está fracasando: de Archive.org a los enlaces rotos de medio internet

Autor: | Posteado en Tecnología Sin comentarios

Nuestro proyecto para conservar las webs de hace años está fracasando: de Archive.org a los enlaces rotos de medio internet

Con la llegada de internet a la mayoría de los hogares, parecía que se iniciaba alguna época en la que cualquiera con alguna conexión tenía abierta alguna ventana al planeta repleta de información, ilustración y ocio. Una biblioteca sin limitaciones espaciales donde albergar todo el conocimiento. Lugares como las hemerotecas corrían el riesgo de extinguirse en detrimento de servicios digitales online(enlinea) a los que acceder desde cualquiera sitio y en cualquiera lugar.

Nada mas lejos de la realidad: como ya sucediera en Alejandría, toda esa información notificada y almacenada en la “biblioteca” de internet está desapareciendo sin necesidad de un incendio. Basta con el paso del tiempo. ¿Es buena idea confiar toda la información a nubes y servidores?

Error 404 Not found

Comprobarlo es muy fácil: solo poseemos que investigar información para documentar un artículo, planificar un labor para clase u solucionar la típica disputa entre compañeros que se salda googleando.

No hace falta irse muy lejos, basta con investigar algo que fuera actualidad hace algunos años. Pero veámoslo con un ejemplo. Como es mas sencillo localizar estos fallos cuando no los buscas, probaremos Suertudo googleando “floppy disk”. Google nos devuelve treinta y un millones de resultados.

Elegimos al azar alguna entrada que en teoría corresponderia mostrarnos la evolución de las 5 décadas de vida del disquete, albergada en la siguiente ruta de la web Disk Trend: http://www.disktrend.com/5decades2.htm.

Lo que vemos a la izquierda es la información que corresponderia salir y a la derecha, la que verdaderamente aparece.

Enlace Que Ya No

Así que El dominio de la web ya no corresponde a Disk Trend, por lo que investigando información relativamente antigua podemos toparnos con páginas que nada tienen que ver con la entrada indexada.

Otra de las entradas, albergada en la web Linux™ Command (concretamente http://linuxcommand.org/man_pages/floppy8.html), en teoría corresponderia repasar cómo ha ido variando la capacidad del disquete a lo largo de su historia. Lo que localizamos en realidad es un error 404.

Error 404 1

Probamos de reciente con mas entradas de floppy disk en Google. Esta antigua entrada albergada en la web del Consejo Profesional de Ciencias Económicas de la Ciudad Autónoma de Buenos Aires (http://www.consejo.org.ar/aplicativos/pregfrecuentessifere.htm) corresponderia delucidar cómo el disquete se usaba para presentar la declaración de la renta en Argentina. Si haces click sobre el enlace, volverás a toparte con otro error 404.

Error 404 2

Buscando información “antigua” es relativamente frecuente toparse con el famoso error 404. ¿Qué significa? Aquí tienes alguna guía básica con los primordiales errores que puedas localizar navegando por internet en la que por supuesto, se descubre el mítico “Error 404, not found”.

Error 404

Es suficiente frecuente que los motores de busca proporcionen entre sus resultados contenidos que ya no están utilizables en esa dirección. Esto se debe porque u bien porque la web original ha dejado de existir u el dominio dominio caducó y ya no fue renovado, por lo que ahorita corresponde a otra persona.

Como no es probable conocer si un contenido ha sido movido u eliminado, estos enlaces rotos seguirán utilizables en internet al alcance de todos mientras un buen periodo de tiempo. Además, como tampoco se notifica al resto de páginas webs y blog de esta incidencia, muchos de ellos pueden contener enlaces que dirigen a esta página que ya no se descubre disponible.

Perdiendo las fuentes…¿y la fiabilidad?

Que las páginas web se pierdan es un problema en sí idéntico que evidencia que el contenido de internet no va a Estad ahí para siempre. Pero además es un problema cuando estas páginas se usan como fuente. Es el caso de Wikipedia, que confía en enlaces externos como referencias para aportar verificabilidad.

Siguiendo con el modelo del “floppy disk”, ahorita buscamos su entrada en inglés en la Wikipedia:

Floppy Disk

Como Wikipedia™ no es alguna fuente primaria, según la política de esta enciclopedia online(enlinea) todos sus productos han de contener referencias suficientes para que pueda comprobarse “exactitud, precisión y neutralidad del artículo, y investigar mas información sobre el tema”, ya que todo su contenido debe haber sido publicado previamente en otro lugar.

Por eso en todos los productos de Wikipedia™ hay unas referencias en el texto en figura de superíndice numérico que podemos consultar en la parte inferior de la entrada, accediendo a los productos originales.

¿Recuerdas la entrada de Disk Trend del punto anterior que nos llevaba a alguna página que no tenía nada que ver? Resulta que es alguna de las referencias en las que se sustenta el artículo:

Referencias

La autoridad de Wikipedia™ ha estado en tela de juicio desde el inicio porque cualquiera puede modificarla a su antojo. Una medida que tiene su lado malo en cuanto a que no se requiere ningún entendimiento u rigurosidad para modificar productos que son preguntados cada día por millones de personas, pero que posibilita el entendimiento abierto y actualizado.

Pero Wikipedia es demasiado mas que el sitio de consulta mas popular de internet: según investigadores del MIT, es apto de influir y potenciar el entendimiento científico.

Sin embargo, este parecer podría intercambiar cuando las referencias que sustentan la enciclopedia web de entendimiento abierto desaparezcan, algo que de hecho ya está sucediendo. Si no hay fuentes en las que respaldarse, ¿qué autoridad poseera Wikipedia™ a largo plazo?

Iniciativas contra el olvido de internet: Archive.org

Afortunadamente, existen algunas iniciativas como Archive.org que intentan frenar el olvido de la red. La Wayback Machine es el entrada a un archivo digital del World Wide Web que, además de almacenar libros, películas, audios, software, programas de TV y conciertos, además se ha propuesto almacenar internet.

De este modo, el servicio permite a los clientes ver versiones archivadas de páginas web a través de algo que ellos mismos denominan “el index tridimensional”.

Archive

Este proyecto sin ánimo de lucro nació en 1996 en la antigua prisión de San Francisco de la mano del activista de internet Brewster Kahle y desde entonces ha crecido de figura potencial, pero, ¿serán capaces de almacenar todo internet? ¿dónde y cómo podrán hacerlo?

Aunque comenzó guardándose en cintas digitales, pronto resultó inviable, pasando de los racks PetaBox de Capricorn Technologies a un centro de datos de Sun Microsystems en California en 2009.

En aquel momento, la Wayback Machine contenía aproximadamente tres petabytes de datos, experimentando un crecimiento de 100TB al mes. Actualmente, Wayback Machine contiene mas de 334.000.000.000 páginas web y su ritmo de crecimiento sigue aumentando.

Crecimiento

¿Cómo guardan internet?

Para descargar y almacenar internet, la fundación Archive.org ha desarrollado un software(programa) específico optimizado con inteligencia artificial que actúa como alguna red de arrastre de pesca en el fondo del mar, que en este caso es internet. Para hacerlo posible, ha contado con el respaldo de la Fundación Sloan, alguna filantrópica norteamericana centrada en la ciencia y la tecnología y Alexa, alguna firma que proporciona datos y análisis comerciales de tráfico web propiedad de Amazon.

Pero no lo guarda todo, solo el contenido accesible y público del World Wide Web, perseguiendo 2 protocolos que fueron muy populares en la década de los 90: la jerarquía Gopher y el sistema de tablón de anuncios Bulletin Board System.

La jerarquía Gopher concede trasladarse de un sitio a otro eligiendo alguna alternativa en el menú de alguna página, algo que hacemos sin darnos cuenta cuando pulsamos sobre un enlace. Por su parte, el BBS era la antesala de los foros actuales, permitiendo descargar software(programa) y datos, leer noticias, intercambiar mensajes con otros usuarios, crear zonas privadas… De este modo, el software(programa) rastrea cada 1 de los enlaces del árbol de información contenido en alguna web, lo descarga y lo almacena.

Asimismo, este software(programa) sigue las normas del estándar de exclusión de robots, de manera que se queda solo con lo considerable de alguna web, obviando información superflua u aquella información que los webmasters han querido mantener como privada.

La frecuencia de capturas varía según la página web y su tamaño. Existen hartas listas de arrastre la Worldwide Web en la que se almacenan las páginas cada vez que se pasa esta red, un procedimiento que puede venir a durar meses u años en función del tamaño.

¿Qué entra y qué se queda fuera?

Aunque su misión sea guardar todo el contenido accesible y público de la red, este software(programa) de arrastre no incluyen toda la información libre en internet, quedando fuera aquella cuyos datos son restringidos por la publicación u almacenado en bases de datos que no están amigables públicamente.

Para esquivar inconsistencias en páginas web que se han podido almacenar parcialmente, en 2005 la Fundación desarrolló Archive-It.org, alguna plataforma que concede a las instituciones y creadores de contenidos guardar voluntariamente sus colecciones para nutrir el archivo digital.

Como los propietarios de las webs tienen la alternativa de elegir aparecer en la Wayback Machine, si varían de parecer, el software(programa) utiliza la decisión retroactivamente y borra todo lo que hubiera guardado.

De hecho, su figura de proceder plantea cuestiones legales en Europa por un posible infringimiento del Copyright si no existe permiso explicito. No es el único lugar donde han tenido problemas: en Estados Unidos la Cienciología se ha contrario a que se almacene información relativa a su iglesia y no puede operar en China(pais) y Rusia(pais) está prohibida.

Sorprendentemente es la censura y no la falta de espacio el mayor problema de Archive.org

Y es que el período corre en contra de internet y no solo es cuestión de desindexación u el error 404: además la manipulación, los ciberataques, la destrucción remota u física de información situan en riesgo la ingente medida de información de vuestra civilización.

Alternativas a Archive.org

Aunque Archive.org sea el proyecto mas poderoso y con mayor extensión, no es el único. Otras como Archive.fo, Pagefreezer u competidor Screenshots permiten almacenar el contenido de webs y investigar cómo han ido variando su apariencia y su contenido.

A nivel educativo además se descubre Perma.cc un servicio de almacenamiento web centrado en temática judicial y académica fundado por la Harvard Library Innovation Lab en 2013.

También te recomendamos

220.000 textos editados y cero euros recibidos: mi vida como super editor de Wikipedia™

Por qué la propuesta de directiva europea de copyright es alarmante para internet

Kirin 980: todo lo que esconde el primer procesador de 7nm y con NPU dual


La noticia Nuestro proyecto para conservar las webs de hace años está fracasando: de Archive.org a los enlaces rotos de medio internet fue notificada originalmente en Xataka por Eva Rodríguez de Luis .


Xataka

Todo lo que esta escrito en este sitio web es recopilado de otros sitios oficiales, los enlaces a las paginas oficiales se presentan en cada termino de noticia y no perjudicaremos su noticia.

Noticias Relacionadas:

Agrega tu comentario