Les archives du net et la Wayback Machine (machine à remonter dans le temps)

Internet est soit une immense pile de données, ou une organisation à but non-lucratif dont le but est de permettre « l’accès universel à toute connaissance ». Ou les deux. Dans le cadre de leur mission, les archives d’internet ont parcouru le web pendant plus de 20 ans, créant des copies des pages web et les préservant pour la postérité. Aujourd’hui, environ 280 milliards de page web provenant de 1,5 milliards de site sont préservées sur leurs serveurs. Continuez à lire pour apprendre comment accéder à cette ressource incroyable qui ouvre une fenêtre sur l’histoire d’Internet…

Qu’est-ce que l’IA (Internet Archive)

Les archives d’internet ont été fondées par Brewster Kahle, un ingénieur informatique qui a aidé à développer WAIS (Wide Area Information System), un précurseur du web, en ligne de commande. Kahle et d’autres ont fondé WAIS, Inc. pour commercialiser leur technologie de recherche de texte. Ils ont compté parmi leurs clients la campagne présidentielle de Ross Perot en 1992, l’EPA, la bibliothèque du Congrès, le ministère de l’énergie américain, le Wall Street Journal et l’encyclopédie Britannica.

WAIS, Inc. a été vendue à AOL en 1995 (c’est pourquoi vous n’en avez probablement jamais entendu parler) et Kahle est parti fonder The Internet Archive ainsi que le moteur de recherche Alexa (à ne pas confondre avec l’Alexa d’Amazon).

Le résultat de cette massive collection de données est la Wayback Machine (que les fans de Mr. Peabody et Sherman reconnaîtront). Elle permet aux journalistes, aux chercheurs et aux nostalgiques curieux de rechercher d’anciennes versions de pages web, même si ces pages n’existent plus sur le web. Si vous voulez voir ce à quoi ressemblait Yahoo.com en octobre 1996, ou bien encore voir l’évolution de YouTube à travers le temps, c’est par là.

Il est aussi possible de soumettre l’URL d’une page pour l’archiver, et ainsi obtenir un URL qui marche même si la page est supprimée du site d’origine ou déplacée. Ces permaliens sont de plus en plus importants. Les adresses web étant de plus en plus utilisées comme source dans les travaux de fin d’année de nombreux élèves, dans les dissertations de doctorat ou encore dans les publications scientifiques ou même les documents légaux. Une « Erreur 404 » est souvent embêtante dans ce dernier cas, et c’est pourquoi la Wayback Machine permet d’éviter ce genre de problèmes. Il est possible avec de chercher des copies d’une page même avec son url d’origine qui ne marcherait plus en temps normal.

Pour faciliter la recherche d’une page perdue, il existe même une extension pour Google Chrome et un add-on pour Firefox. Une fois installé, il recherche automatiquement dans les archives à chaque fois que vous vous trouvez face à une des nombreuses erreurs de page non trouvée que votre navigateur peut rencontrer quand il recherche une page web. (D’un point de vue technique, il s’agit des erreurs 404, 408, 410, 451, 500, 502, 503, 504, 509, 520, 521, 523, 524, 525, ou 526). Si une version archivée de la page recherchée est trouvée, une fenêtre de notification vous laisse choisir laquelle vous désirez afficher.

Mais il y a encore mieux !

En plus des pages web, les archives d’internet contiennent des ouvrages dans leurs bases de données, un peu à l’image de Google Books. Elles préservent aussi des copies d’anciens jeux vidéo (et les émulateurs requis pour jouer aux jeux Atari sur PC), des logiciels, de la musique, des films, des vidéos et des GIF animés. Le quartier général des archives se trouve dans l’ancienne Fourth Church of Christ, Scientist, un bâtiment néoclassique avec des colonnes grecques située à l’avenue Funston, dans le district de Richmond à San Francisco en Californie. En octobre 2016, les archives détenaient plus de 15 petaoctets de données. Un petaoctet correspond à un million de gigaoctets.

Il vaut la peine de parcourir les « Top Collections at the Archive », où vous trouverez des collections triées par thèmes couvrant un grand éventail de thèmes comme des anciennes émissions de radio, des jeux MS-DOS, des vieux magasines et des dizaines de sujets différents. Faites-moi savoir ce que vous y trouverez !

En Savoir Plus:
Définir Chrome comme le navigateur par défaut dans Windows 10
4 choses cool à savoir sur le navigateur Edge dans Windows 10

0 Partages

Les archives du net et la Wayback Machine (machine à remonter dans le temps)

Qu’est-ce que l’IA (Internet Archive)

Mais il y a encore mieux !

Laisser un commentaire Annuler la réponse