Wayback-machine
![]() | |
Type site | Archief |
---|---|
Gediend gebied | Wereldwijd (behalve China en Rusland) |
Eigenaar | Internetarchief |
URL | web ![]() |
Registratie | Optioneel |
Gelanceerd | 24 oktober 2001 [1] [2] |
Huidige status | Actief |
Geschreven in | Java , Python |
De Wayback Machine is een digitaal archief van het World Wide Web , opgericht door het Internet Archive , een non-profitbibliotheek in San Francisco . Het stelt de gebruiker in staat om "terug in de tijd" te gaan en te zien hoe websites er in het verleden uitzagen. De oprichters, Brewster Kahle en Bruce Gilliat , ontwikkelden de Wayback Machine met de bedoeling "universele toegang tot alle kennis" te bieden door gearchiveerde kopieën van ter ziele gegane webpagina's te bewaren.
Sinds de lancering in 2001 zijn er meer dan 531 miljard pagina's aan het archief toegevoegd. De service heeft ook tot controverse geleid over de vraag of het maken van gearchiveerde pagina's zonder toestemming van de eigenaar een inbreuk op het auteursrecht vormt in bepaalde rechtsgebieden.
Geschiedenis [ bewerken ]
De oprichters van Internet Archive Brewster Kahle en Bruce Gilliat lanceerden de Wayback Machine in 2001 om het probleem aan te pakken dat website-inhoud verdwijnt wanneer deze wordt gewijzigd of wanneer een website wordt gesloten. [3] De dienst stelt gebruikers in staat om gearchiveerde versies van webpagina's in de loop van de tijd te zien, wat het archief een "driedimensionale index" noemt. [4] Kahle en Gilliat hebben de machine gemaakt in de hoop het hele internet te archiveren en "universele toegang tot alle kennis" te bieden. [5]
De naam Wayback Machine werd gekozen als verwijzing naar een fictief tijdreizend apparaat, de " Wayback Machine " (uitgesproken als way-back ), gebruikt door de personages Mister Peabody en Sherman in de tekenfilm The Rocky and Bullwinkle Show uit de jaren zestig. [6] [7] In een van de samenstellende delen van de tekenfilm, Peabody's Improbable History , gebruikten de personages de machine routinematig om getuige te zijn van, deel te nemen aan en vaak wijzigingen aan te brengen in beroemde gebeurtenissen in de geschiedenis.
De Wayback Machine begon in mei 1996 [8] [9] met het archiveren van webpagina's in het cachegeheugen met als doel de dienst vijf jaar later openbaar te maken. [10] Van 1996 tot 2001 werd de informatie op digitale tape bewaard, waarbij Kahle af en toe onderzoekers en wetenschappers toestond de onhandige database te gebruiken . [11] Toen het archief in 2001 zijn vijfde verjaardag bereikte, werd het onthuld en voor het publiek geopend tijdens een ceremonie aan de University of California, Berkeley . [12] Tegen de tijd dat de Wayback Machine werd gelanceerd, bevatte deze al meer dan 10 miljard gearchiveerde pagina's. [13]
Tegenwoordig worden de gegevens opgeslagen op het grote cluster van Linux- knooppunten van het internetarchief . [5] Het bezoekt en archiveert af en toe nieuwe versies van websites (zie technische details hieronder). [14] Sites kunnen ook handmatig worden vastgelegd door de URL van een website in het zoekvak in te voeren, op voorwaarde dat de website de Wayback Machine toestaat deze te "crawlen" en de gegevens op te slaan. [10] Op 30 oktober 2020 begon de Wayback Machine de inhoud te controleren. [15]
Technische details [ bewerken ]
Er is software ontwikkeld om het web te "crawlen" en alle openbaar toegankelijke informatie en gegevensbestanden op webpagina's, de Gopher- hiërarchie, het Netnews (Usenet) bulletin board-systeem en downloadbare software te downloaden. [16] De informatie die door deze "crawlers" wordt verzameld, omvat niet alle informatie die op internet beschikbaar is, aangezien een groot deel van de gegevens wordt beperkt door de uitgever of opgeslagen in databases die niet toegankelijk zijn. Om inconsistenties in gedeeltelijk gecachte websites te overwinnen, werd Archive-It.org in 2005 ontwikkeld door het Internet Archive als een middel om instellingen en makers van inhoud in staat te stellen vrijwillig verzamelingen digitale inhoud te oogsten en te bewaren, en digitale archieven te creëren. [17]
Crawls worden bijgedragen vanuit verschillende bronnen, sommige geïmporteerd van derden en andere intern gegenereerd door het archief. [14] Zo worden crawls bijgedragen door de Sloan Foundation en Alexa , crawls die worden gerund door IA namens NARA en de Internet Memory Foundation , mirrors van Common Crawl . [14] De "Wereldwijde webcrawls" lopen sinds 2010 en veroveren het wereldwijde web. [14] [18]
De frequentie van het vastleggen van snapshots verschilt per website. [14] Websites in de "Wereldwijde webcrawls" worden opgenomen in een "crawllijst", waarbij de site eenmaal per crawl wordt gearchiveerd. [14] Een crawl kan maanden of zelfs jaren duren, afhankelijk van de grootte. [14] 'Brede crawlnummer 13' begon bijvoorbeeld op 9 januari 2015 en werd voltooid op 11 juli 2016. [19] Er kunnen echter meerdere crawls tegelijk plaatsvinden en een site kan worden opgenomen in meer dan één crawllijst, dus hoe vaak een site wordt gecrawld, verschilt sterk. [14]
Vanaf oktober 2019 zijn gebruikers beperkt tot 5 archiefverzoeken en opvragingen per minuut.
Opslagcapaciteit en groei [ bewerken ]
Naarmate de technologie zich in de loop der jaren heeft ontwikkeld, is de opslagcapaciteit van de Wayback Machine gegroeid. In 2003, na slechts twee jaar openbare toegang, groeide de Wayback Machine met een snelheid van 12 terabyte / maand. De gegevens worden opgeslagen op PetaBox-reksystemen die op maat zijn ontworpen door personeel van Internet Archive. Het eerste 100TB rack werd in juni 2004 volledig operationeel, al werd al snel duidelijk dat er veel meer opslagruimte nodig zou zijn. [20] [21]
Het internetarchief migreerde in 2009 zijn aangepaste opslagarchitectuur naar Sun Open Storage en herbergt een nieuw datacenter in een Sun Modular Datacenter op de Californische campus van Sun Microsystems . [22] Vanaf 2009 [update]bevatte de Wayback Machine ongeveer drie petabytes aan gegevens en groeide deze met een snelheid van 100 terabyte per maand. [23]
Een nieuwe, verbeterde versie van de Wayback Machine, met een bijgewerkte interface en een frissere index van gearchiveerde inhoud, werd in 2011 beschikbaar gesteld voor openbare testen. [24] In maart van dat jaar werd op het Wayback Machine-forum gezegd dat "de De bètaversie van de nieuwe Wayback Machine heeft een completere en up-to-date index van alle gecrawlde materialen tot in 2010, en zal regelmatig worden bijgewerkt. De index die de klassieke Wayback Machine aanstuurt, heeft slechts een klein beetje materiaal van na 2008, en er zijn geen verdere updates van de index gepland, aangezien deze dit jaar zal worden afgebouwd. " [25] Eveneens in 2011 installeerde het Internet Archive hun zesde paar PetaBox-rekken, waardoor de opslagcapaciteit van de Wayback Machine met 700 terabyte werd vergroot. [26]
In januari 2013 kondigde het bedrijf een baanbrekende mijlpaal aan van 240 miljard URL's. [27]
In oktober 2013 introduceerde het bedrijf de functie "Een pagina opslaan" [28] [29] waarmee elke internetgebruiker de inhoud van een URL kan archiveren en snel een permanente link genereert in tegenstelling tot de voorgaande liveweb- functie.
In december 2014 bevatte de Wayback Machine 435 miljard webpagina's - bijna negen petabytes aan gegevens, en groeide met ongeveer 20 terabyte per week. [13] [30] [31]
In maart 2015 werden beveiligingsonderzoekers [ datum verificatie nodig ] zich bewust van de dreiging die uitgaat van het onbedoeld hosten van kwaadaardige binaire bestanden van gearchiveerde sites door de service . [32] [33]
In juli 2016 bevatte de Wayback Machine naar verluidt ongeveer 15 petabyte aan gegevens. [34]
In september 2018 bevatte de Wayback Machine meer dan 25 petabyte aan gegevens. [35] [36]
Vanaf december 2020 bevatte de Wayback Machine meer dan 70 petabytes aan gegevens. [37]
Wayback Machine per jaar | Gearchiveerde pagina's (miljard) |
---|---|
2005 | 40 |
2008 | 85 |
2012 | 150 |
2013 | 373 |
2014 | 400 |
2015 | 452 |
Tussen oktober 2013 en maart 2015 is de wereldwijde Alexa-rangschikking van de website gewijzigd van 163 [40] naar 208. [41] In maart 2019 was de rangschikking 244. [42]
Beleid voor het uitsluiten van websites [ bewerken ]
Historisch gezien heeft Wayback Machine de robots-uitsluitingsnorm (robots.txt) gerespecteerd bij het bepalen of een website zou worden gecrawld - of als de archieven al gecrawld zouden zijn, of de archieven openbaar zouden kunnen worden bekeken. Website-eigenaren hadden de mogelijkheid om zich af te melden voor Wayback Machine door het gebruik van robots.txt. Het paste de robots.txt-regels met terugwerkende kracht toe; als een site het internetarchief blokkeerde, werden alle eerder gearchiveerde pagina's van het domein ook onmiddellijk onbeschikbaar gemaakt. Bovendien verklaarde het internetarchief dat "soms een website-eigenaar rechtstreeks contact met ons opneemt en ons vraagt te stoppen met het crawlen of archiveren van een site. We voldoen aan deze verzoeken." [43]Bovendien zegt de website: "Het internetarchief is niet geïnteresseerd in het bewaren of toegang bieden tot websites of andere internetdocumenten van personen die hun materiaal niet in de collectie willen hebben." [44] [45]
Op 17 april 2017 doken er rapporten op van sites die niet meer beschikbaar waren en geparkeerde domeinen werden die robots.txt gebruikten om zichzelf uit te sluiten van zoekmachines, waardoor ze per ongeluk werden uitgesloten van de Wayback Machine. [46] Het internetarchief veranderde het beleid om nu een expliciet verzoek om uitsluiting te vereisen om het van de Wayback Machine te verwijderen. [47]
Oakland Archive Policy [ bewerken ]
Wayback's retroactieve uitsluitingsbeleid is gedeeltelijk gebaseerd op aanbevelingen voor het beheren van verwijderingsverzoeken en het behouden van archiveringsintegriteit, gepubliceerd door de School of Information Management and Systems aan de University of California, Berkeley in 2002, die een website-eigenaar het recht geeft om de toegang tot de archieven van de site te blokkeren . [48] Wayback heeft zich aan dit beleid gehouden om dure rechtszaken te helpen voorkomen. [49]
Het Wayback-uitsluitingsbeleid met terugwerkende kracht begon te versoepelen in 2017, toen het niet langer de robots.txt op Amerikaanse overheids- en militaire websites respecteert voor zowel het crawlen als weergeven van webpagina's. Vanaf april 2017 negeert Wayback robots.txt breder, niet alleen voor Amerikaanse overheidswebsites. [50] [51] [52] [53]
Gebruikt [ bewerken ]
Vanaf de publieke lancering in 2001 is de Wayback Machine door wetenschappers bestudeerd, zowel voor de manier waarop het gegevens opslaat en verzamelt, als voor de daadwerkelijke pagina's in het archief. Vanaf 2013 hadden wetenschappers ongeveer 350 artikelen over de Wayback Machine geschreven, voornamelijk op het gebied van informatietechnologie, bibliotheekwetenschappen en sociale wetenschappen. Wetenschappers op het gebied van sociale wetenschappen hebben de Wayback Machine gebruikt om te analyseren hoe de ontwikkeling van websites vanaf het midden van de jaren negentig tot heden de groei van het bedrijf heeft beïnvloed. [13]
Wanneer de Wayback Machine een pagina archiveert, bevat deze meestal de meeste hyperlinks, waardoor die links actief blijven wanneer ze net zo gemakkelijk hadden kunnen worden verbroken door de instabiliteit van internet. Onderzoekers in India onderzochten de effectiviteit van het vermogen van de Wayback Machine om hyperlinks op te slaan in online wetenschappelijke publicaties en ontdekten dat het iets meer dan de helft ervan redde. [54]
"Journalisten gebruiken de Wayback Machine om dode websites, gedateerde nieuwsberichten en wijzigingen in de inhoud van websites te bekijken. De inhoud ervan is gebruikt om politici ter verantwoording te roepen en leugens op het slagveld bloot te leggen." [55] In 2014 liet een gearchiveerde social media-pagina van Igor Girkin , een separatistische rebellenleider in Oekraïne, hem zien dat hij opschepte over het feit dat zijn troepen een vermoedelijk Oekraïens militair vliegtuig hadden neergeschoten voordat bekend werd dat het vliegtuig eigenlijk een civiel vliegtuig van Malaysian Airlines was. ( Malaysia Airlines Flight 17 ), waarna hij de post verwijderde en het Oekraïense leger de schuld gaf van het neerhalen van het vliegtuig. [55] [56] In 2017 is de March for Science ontstaan uit een discussie over Redditdie aangaf dat iemand Archive.org had bezocht en ontdekte dat alle verwijzingen naar klimaatverandering van de website van het Witte Huis waren verwijderd. In reactie daarop merkte een gebruiker op: "Er moet een Wetenschappersmars in Washington zijn". [57] [58] [59]
Bovendien wordt de site intensief gebruikt voor verificatie, waardoor toegang wordt geboden tot referenties en contentcreatie door Wikipedia-editors . [60]
In september 2020 werd een partnerschap aangekondigd met Cloudflare om automatisch websites te archiveren die worden bediend via zijn "Always Online" -service, waardoor het gebruikers ook naar zijn kopie van de site kan leiden als het de oorspronkelijke host niet kan bereiken. [61]
Beperkingen [ bewerken ]
In 2014 was er een vertraging van zes maanden tussen het moment waarop een website werd gecrawld en het moment waarop deze beschikbaar kwam voor weergave in de Wayback Machine. [62] Momenteel is de vertragingstijd 3 tot 10 uur. [63] De Wayback Machine biedt slechts beperkte zoekmogelijkheden. De "Site Search" -functie stelt gebruikers in staat een site te vinden op basis van woorden die de site beschrijven, in plaats van woorden die op de webpagina's zelf worden gevonden. [64]
De Wayback Machine omvat niet elke webpagina die ooit is gemaakt vanwege de beperkingen van zijn webcrawler. De Wayback Machine kan webpagina's die interactieve functies bevatten, zoals Flash-platforms en formulieren geschreven in JavaScript en progressieve webapplicaties , niet volledig archiveren , omdat voor deze functies interactie met de hostwebsite vereist is. Dit betekent dat de Wayback Machine sinds juni 2013 geen YouTube-opmerkingen meer kan weergeven bij het opslaan van YouTube-pagina's, omdat volgens het Archive Team de opmerkingen niet langer "op de pagina zelf worden geladen". [65]De webcrawler van de Wayback Machine heeft moeite met het extraheren van iets dat niet in HTML of een van zijn varianten is gecodeerd, wat vaak kan resulteren in verbroken hyperlinks en ontbrekende afbeeldingen. Hierdoor kan de webcrawler geen ‘verweesde pagina's’ archiveren die niet zijn gekoppeld aan andere pagina's. [64] [66] De Wayback Machine-crawler volgt alleen een vooraf bepaald aantal hyperlinks op basis van een vooraf ingestelde dieptelimiet, dus het kan niet elke hyperlink op elke pagina archiveren. [18]
Vanaf april 2018 hebben de administratieve medewerkers van het archiefteam van de Wayback Machine de regel van een kwart maand gehandhaafd door af en toe tijdsintervallen van 23 dagen of 39 dagen (respectievelijk 3/4 en 5/4 van een maand) te verwijderen om verkleinen van de wachtrij.
In juridisch bewijs [ bewerken ]
Civiele rechtszaken [ bewerken ]
Netbula LLC tegen Chordiant Software Inc. [ bewerken ]
In een zaak uit 2009, Netbula, LLC v.Chordiant Software Inc. , diende gedaagde Chordiant een motie in om Netbula te dwingen het robots.txt- bestand op zijn website uit te schakelen, waardoor de Wayback-machine met terugwerkende kracht de toegang tot eerdere versies van pagina's die het had gearchiveerd van de site van Netbula, pagina's waarvan Chordiant dacht dat ze deze zaak zouden ondersteunen. [67]
Netbula maakte bezwaar tegen de motie op grond dat beklaagden vroegen om de website van Netbula te wijzigen en dat ze het internetarchief rechtstreeks voor de pagina's hadden moeten dagvaarden. [68] Een medewerker van Internet Archive diende een beëdigde verklaring in ter ondersteuning van de motie van Chordiant, maar verklaarde dat het de webpagina's niet op een andere manier kon produceren "zonder aanzienlijke lasten, kosten en verstoring van zijn activiteiten". [67]
Magistraat-rechter Howard Lloyd in het Northern District van Californië, San Jose Division, verwierp de argumenten van Netbula en beval hen om de robots.txt-blokkering tijdelijk uit te schakelen zodat Chordiant de gearchiveerde pagina's kon ophalen die ze zochten. [67]
Telewizja Polska [ bewerken ]
In een zaak uit oktober 2004, Telewizja Polska USA, Inc. v. Echostar Satellite , nr. 02 C 3293, 65 Fed. R. Evid. Serv. 673 (ND Ill. 15 oktober 2004), probeerde een procederende partij de Wayback Machine-archieven te gebruiken als een bron van toelaatbaar bewijs, misschien voor de eerste keer. Telewizja Polska is de leverancier van TVP Polonia en EchoStar exploiteert het Dish Network . Voorafgaand aan de rechtszaak gaf EchoStar aan dat het van plan was Wayback Machine-snapshots aan te bieden als bewijs van de eerdere inhoud van de website van Telewizja Polska. Telewizja Polska bracht een motie in limine om de snapshots te onderdrukken op grond van geruchtenen niet-geverifieerde bron, maar Magistraat Judge Arlander Keys afgewezen Telewizja Polska bewering van horen zeggen en ontkende TVP de motie in limine om het bewijsmateriaal tijdens het proces uit te sluiten. [69] [70] Tijdens het proces echter, verwierp de rechtbankrechter Ronald Guzman, de onderzoeksrechter, de bevindingen van Magistraat Keys en oordeelde dat noch de beëdigde verklaring van de medewerker van het Internet Archive, noch de onderliggende pagina's (dwz de Telewizja Polska-website ) waren toelaatbaar als bewijs. Rechter Guzman redeneerde dat de beëdigde verklaring van de werknemer zowel geruchten als onduidelijke ondersteunende verklaringen bevatte, en dat de vermeende webpagina-afdrukken niet zelfverificerend waren. [71] [72]
Octrooirecht [ bewerken ]
Op voorwaarde dat aan enkele aanvullende vereisten wordt voldaan (bijvoorbeeld het verstrekken van een gezaghebbende verklaring van de archivaris), zullen het Amerikaanse octrooibureau en het Europees Octrooibureau datumstempels van het internetarchief accepteren als bewijs wanneer een bepaalde webpagina toegankelijk was voor het publiek. Deze data worden gebruikt om te bepalen of een webpagina als stand van de techniek beschikbaar is, bijvoorbeeld bij het onderzoeken van een octrooiaanvraag. [73]
Beperkingen van nut [ bewerken ]
Er zijn technische beperkingen aan het archiveren van een website, en als gevolg daarvan is het mogelijk dat tegenpartijen in een rechtszaak misbruik maken van de resultaten van website-archieven. Dit probleem kan worden verergerd door de gewoonte om schermafbeeldingen van webpagina's in klachten, antwoorden of rapporten van getuige-deskundigen in te dienen wanneer de onderliggende links niet zichtbaar zijn en daarom fouten kunnen bevatten. Archieven zoals de Wayback Machine vullen bijvoorbeeld geen formulieren in en nemen daarom niet de inhoud van niet- RESTful e-commerce databases op in hun archieven. [74]
Juridische status [ bewerken ]
In Europa kan de Wayback Machine worden geïnterpreteerd als een schending van copyrightwetten . Alleen de maker van de inhoud kan beslissen waar zijn inhoud wordt gepubliceerd of gedupliceerd, dus het archief zou op verzoek van de maker pagina's uit zijn systeem moeten verwijderen. [75] Het uitsluitingsbeleid voor de Wayback Machine is te vinden in de FAQ-sectie van de site. [76]
Juridische problemen met gearchiveerde inhoud [ bewerken ]
Er is een aantal zaken aangespannen tegen het internetarchief, specifiek vanwege de archiveringsinspanningen van de Wayback Machine.
Scientology [ bewerken ]
Eind 2002 verwijderde het internetarchief verschillende sites die kritiek hadden op Scientology van de Wayback Machine. [77] In een foutmelding stond dat dit was in reactie op een "verzoek van de site-eigenaar". [78] Later werd duidelijk gemaakt dat advocaten van de Scientology Kerk de verwijdering hadden geëist en dat de eigenaren van de site niet wilden dat hun materiaal werd verwijderd. [79]
Healthcare Advocates, Inc. [ bewerken ]
In 2003 verdedigde Harding Earley Follmer & Frailey een klant tegen een handelsmerkgeschil met behulp van de Wayback Machine van het archief. De advocaten konden aantonen dat de claims van de eiser ongeldig waren op basis van de inhoud van hun website van enkele jaren daarvoor. De aanklager, Healthcare Advocates, paste vervolgens hun klacht aan om het internetarchief op te nemen, waarbij de organisatie werd beschuldigd van inbreuk op het auteursrecht en van schendingen van de DMCA en de Computer Fraud and Abuse Act . Healthcare Advocates beweerde dat, aangezien ze een robots.txt hadden geïnstalleerdbestand op hun website, zelfs als nadat de eerste rechtszaak was aangespannen, het Archief alle eerdere exemplaren van de website van de eiser van de Wayback Machine had moeten verwijderen, maar een deel van het materiaal bleef publiekelijk zichtbaar op Wayback. [80] De rechtszaak werd buiten de rechtbank beslecht, nadat Wayback het probleem had opgelost. [81]
Suzanne Shell [ bewerken ]
Activiste Suzanne Shell diende in december 2005 een aanklacht in en eiste dat Internet Archive haar $ 100.000 zou betalen voor het archiveren van haar website profane-justice.org tussen 1999 en 2004. [82] [83] Internet Archive diende een declaratoire uitspraak in bij de Amerikaanse rechtbank het Northern District van Californië op 20 januari 2006, om een gerechtelijke vaststelling te vragen dat Internet Archive het auteursrecht van Shell niet schond . Shell reageerde en spande een tegenzaak aan tegen Internet Archive voor het archiveren van haar site, die volgens haar in strijd is met haar servicevoorwaarden . [84] Op 13 februari 2007 heeft een rechter voor deDe Amerikaanse rechtbank voor het district Colorado heeft alle tegenvorderingen afgewezen, behalve contractbreuk . [83] Het internetarchief was niet van plan om claims inzake inbreuk op het auteursrecht af te wijzen die Shell beweerde voortkomend uit haar kopieeractiviteiten, die ook zouden worden voortgezet. [85]
Op 25 april 2007 maakten Internet Archive en Suzanne Shell gezamenlijk de schikking van hun rechtszaak bekend. [82] Het internetarchief zei dat het "... heeft geen interesse in het opnemen van materiaal in de Wayback Machine van personen die niet willen dat hun webinhoud wordt gearchiveerd. We erkennen dat mevrouw Shell een geldig en afdwingbaar auteursrecht op haar website heeft. en we betreuren het dat de opname van haar website in de Wayback Machine tot deze rechtszaak heeft geleid. " Shell zei: "Ik respecteer de historische waarde van het doel van Internet Archive. Ik was nooit van plan me met dat doel te bemoeien of het enige schade toe te brengen." [86]
Daniel Davydiuk [ bewerken ]
Tussen 2013 en 2016 probeerde een pornografische acteur genaamd Daniel Davydiuk gearchiveerde afbeeldingen van zichzelf te verwijderen uit het archief van de Wayback Machine, eerst door meerdere DMCA-verzoeken naar het archief te sturen en vervolgens door in beroep te gaan bij het federale gerechtshof van Canada . [87] [88] [89]
Censuur en andere bedreigingen [ bewerken ]
Archive.org is momenteel geblokkeerd in China . [90] [91] Nadat de terroristische organisatie van Islamitische Staat was verboden, was het internetarchief in zijn geheel geblokkeerd in Rusland als gastheer van een outreach-video van die organisatie, voor een korte tijd in 2015-2016. [55] [92] [93] [ heeft update nodig ] Sinds 2016 is de website weer in zijn geheel beschikbaar, hoewel lokale commerciële lobbyisten het internetarchief bij een lokale rechtbank aanklagen om het op auteursrechtelijke gronden te verbieden. [94]
Alison Macrina , directeur van het Library Freedom Project, merkt op dat "hoewel bibliothecarissen grote waarde hechten aan individuele privacy, wij ook sterk tegen censuur zijn". [55]
Er zijn zeldzame gevallen bekend waarbij online toegang tot inhoud die "voor niets" mensen in gevaar heeft gebracht, door de website is uitgeschakeld. [55] [ verduidelijking nodig ]
Andere bedreigingen zijn onder meer natuurrampen, [95] vernietiging (op afstand of fysiek), [96] manipulatie van de inhoud van het archief (zie ook: cyberaanval , back-up ), problematische auteursrechtwetten [97] en toezicht op de gebruikers van de site. [98]
Alexander Rose, uitvoerend directeur van de Long Now Foundation , vermoedt dat op de lange termijn van meerdere generaties "bijna niets" op een nuttige manier zal overleven. Hij stelt: "Als we continuïteit hebben in onze technologische beschaving, vermoed ik dat veel de kale gegevens blijven vindbaar en doorzoekbaar. Maar ik vermoed dat bijna niets van het formaat waarin ze zijn afgeleverd herkenbaar zal zijn ", want sites" met diepe back-ends van contentmanagementsystemen zoals Drupal en Ruby en Django "zijn moeilijker te archief. [99]
In een artikel waarin wordt nagedacht over het behoud van menselijke kennis, heeft The Atlantic opgemerkt dat het internetarchief, dat zichzelf beschrijft als zijnde gebouwd voor de lange termijn, [100] "woedend bezig is om gegevens vast te leggen voordat ze verdwijnen zonder enige lange termijn. infrastructuur om over te spreken. " [101]
Zie ook [ bewerken ]
- Lijst met initiatieven voor webarchivering
- Heritrix
- Bibliotheek Genesis
- Webarchivering
- Tijd machine
Referenties [ bewerken ]
- WHOIS . Gearchiveerd van het origineel op 14 mei 2020 . Ontvangen op 13 maart 2016 .
- WHOIS . Gearchiveerd van het origineel op 12 mei 2020 . Ontvangen op 13 maart 2016 .
- "The Wayback Machine: The Web's Archive". Online . 26 : 59-61 - via EBSCOhost.
-
- blog.archive.org . 25 oktober 2016. Gearchiveerd van het origineel op 20 oktober 2018 . Opgehaald op 15 oktober 2018 .
- "Een bibliotheek zo groot als de wereld" . BusinessWeek . Gearchiveerd van het origineel op 20 december 2011.
- "Verantwoordelijke partij - Brewster Kahle; Een bibliotheek van het web, op het web" . De New York Times . Gearchiveerd van het origineel op 20 februari 2011 . Ontvangen 15 augustus 2011 .
- Wayback-machine . 12 mei 1996. Gearchiveerd van het origineel op 12 mei 1996 . Opgehaald op 17 juli 2020 .
- Wayback-machine . 12 mei 1996. Gearchiveerd van het origineel op 12 mei 1996 . Ontvangen 16 december 2016 .
- archive.org . Gearchiveerd van het origineel op 3 januari 2014 . Opgehaald op 15 oktober 2018 .
- "Website neemt je mee terug in de internetgeschiedenis" . Seattle Post-Intelligencer . Gearchiveerd van het origineel op 12 augustus 2014 . Ontvangen 15 augustus 2011 .
- "Wayback Goes Way Back on Web" . Bedraad . Gearchiveerd van het origineel op 16 oktober 2017 . Opgehaald op 16 oktober 2017 .
- Li, Yin; Youtie, Jan; Shapira, Philip (5 mei 2015). "De wayback-machine gebruiken om websites in de sociale wetenschappen te ontginnen: een methodologische hulpbron" . Tijdschrift van de Association for Information Science and Technology . 67 (8): 1904-1915. doi : 10.1002 / asi.23503 . ISSN 2330-1635 .
- "Het internetarchief wordt 20: een kijkje achter de schermen bij het archiveren van het web" . Forbes . Gearchiveerd van het origineel op 16 oktober 2017 . Opgehaald op 16 oktober 2017 .
- "Feitencontroles en context voor Wayback Machine-pagina's" . Internetarchiefblogs . Opgehaald op 17 januari 2021 .
- "Internet archiveren" . Scientific American - uitgave maart 1997. Gearchiveerd van het origineel op 3 april 2012 . Ontvangen 19 augustus 2011 .
- "Archive-It: Crawling the Web Together" . Internetarchiefblogs . Gearchiveerd van het origineel op 12 oktober 2017 . Opgehaald op 16 oktober 2017 .
- Internetarchief. Gearchiveerd van het origineel op 19 oktober 2017 . Opgehaald op 16 oktober 2017 .
- Internetarchief. Gearchiveerd van het origineel op 19 oktober 2017 . Opgehaald op 16 oktober 2017 .
- archive.org . Ontvangen op 25 oktober 2018 .
- "Grote opslag aan de goedkope kant" . CNET News.com. Gearchiveerd van het origineel op 3 april 2007 . Ontvangen 29 juli 2007 .
- Sun Microsystems . 25 maart 2009. Gearchiveerd van het origineel op 26 maart 2009 . Ontvangen 27 maart 2009 .
- "Internetarchief om een enorm datacenter van Wayback Machine te onthullen" . Computerworld.com. Gearchiveerd van het origineel op 23 maart 2009 . Ontvangen 22 maart 2009 .
- Gearchiveerd van het origineel op 23 augustus 2011 . Ontvangen 19 augustus 2011 .
- Gearchiveerd van het origineel op 17 april 2014 . Ontvangen 16 april 2014 .
- archive.org . Gearchiveerd van het origineel op 24 oktober 2016 . Ontvangen op 25 oktober 2018 .
- 9 januari 2013. Gearchiveerd van het origineel op 14 april 2014 . Ontvangen 16 april 2014 .
- "Gebroken links op internet repareren" . archive.org . San Francisco, CA, VS: Collections Team, the Internet Archive. Gearchiveerd van het origineel op 7 november 2014 . Ontvangen 25 maart 2015 .
We hebben de mogelijkheid toegevoegd om een pagina direct te archiveren en een permanente URL voor die pagina terug te krijgen in de Wayback Machine. Met deze service kan iedereen - wikipedia-editors, wetenschappers, juridische professionals, studenten of thuiskoks zoals ik - een stabiele URL maken om alle informatie te citeren, te delen of te bookmarken waartoe ze in de toekomst nog toegang willen hebben.
- www.digitaljournal.com . 23 oktober 2013. Gearchiveerd van het origineel op 19 november 2020 . Opgehaald op 19 november 2020 .
- Gearchiveerd van het origineel op 21 oktober 2009 . Ontvangen 17 januari 2015 .
- 18 december 2014. Gearchiveerd van het origineel op 18 december 2014 . Opgehaald op 13 december 2018 .
- "207.241.226.190 IP-adresgegevens" . virustotal.com . Dublin 2, Ierland: VirusTotal . Gearchiveerd van het origineel op 14 juli 2014 . Ontvangen 25 maart 2015 .
25-03-2015: Laatste URL's gehost in dit IP-adres gedetecteerd door ten minste één URL-scanner of schadelijke URL-gegevensset. ... 2/62 2015-03-25 16:14:12 [volledige URL geredigeerd] /Renegotiating_TLS.pdf ... 1/62 2015-03-25 04:46:34 [volledige URL geredigeerd] /CBLightSetup.exe
CS1 maint: location (link) - "Safe Browsing Diagnostic page for archive.org" . google.com/safebrowsing . Mountain View, CA, VS. Gearchiveerd van het origineel op 6 april 2015 . Ontvangen 25 maart 2015 .
25-03-2015: Een deel van deze site is in de afgelopen 90 dagen 138 keer (s) vermeld op basis van verdachte activiteit. ... Wat gebeurde er toen Google deze site bezocht? ... Van de 42410 pagina's die we de afgelopen 90 dagen op de site hebben getest, hebben 450 pagina ('s) geleid tot het downloaden en installeren van schadelijke software zonder toestemming van de gebruiker. De laatste keer dat Google deze site bezocht was op 25-03-2015, en de laatste keer dat verdachte inhoud op deze site werd gevonden was op 25-03-2015. ... Schadelijke software omvat 169 trojan ('s), 126 virus, 43 achterdeur (en).
- The National . Gearchiveerd van het origineel op 12 januari 2017 . Opgehaald 14 mei 2017 .
- "Inside Wayback Machine, de tijdcapsule van het internet" . De drukte . Gearchiveerd van het origineel op 2 oktober 2018 . Opgehaald op 26 oktober 2018 .
- "Dingen breken en verval op internet - dat is een goede zaak" . BEDRAAD . Gearchiveerd van het origineel op 25 september 2018 . Opgehaald op 26 oktober 2018 .
- adafruit. Gearchiveerd van het origineel op 2 december 2020 . Opgehaald op 2 december 2020 .
- "Wayback Machine bereikt 400.000.000.000!" Internetarchief. Gearchiveerd van het origineel op 26 augustus 2014 . Ontvangen 25 maart 2015 .
- Internetarchief. Gearchiveerd van het origineel op 13 februari 2015 . Ontvangen 25 maart 2015 .
- Alexa internet . Gearchiveerd van het origineel op 28 oktober 2013 . Ontvangen op 29 oktober 2013 .
- Alexa internet. Gearchiveerd van het origineel op 9 april 2015 . Ontvangen 9 april 2015 .
- 23 maart 2019. Gearchiveerd van het origineel op 23 maart 2019 . Opgehaald op 5 april 2019 .
- Gearchiveerd van het origineel op 15 april 2011.
- Gearchiveerd van het origineel op 17 april 2014.
- "De Wayback Machine verwijdert bewijs van malware die aan stalkers is verkocht" . Gearchiveerd van het origineel op 23 mei 2018 . Opgehaald op 23 mei 2018 .
- Internetarchief . 17 april 2017 . Opgehaald op 29 juni 2019 .
- Helpcentrum voor internetarchief .
- Universiteit van Californië . 14 december 2002. Gearchiveerd van het origineel op 18 september 2017 . Opgehaald op 14 september 2017 .
- Internetarchief. 7 juli 2014. Gearchiveerd van het origineel op 10 oktober 2017 . Opgehaald op 14 september 2017 .
- "Robots.txt bedoeld voor zoekmachines werken niet goed voor webarchieven" . Internetarchiefblogs . Gearchiveerd van het origineel op 17 april 2017 . Opgehaald op 16 april 2017 .
- heise online. Gearchiveerd van het origineel op 27 april 2017 . Opgehaald 14 mei 2017 .
- Gearchiveerd van het origineel op 19 juni 2017 . Opgehaald 14 mei 2017 .
- Digitale trends. 24 april 2017. Gearchiveerd van het origineel op 16 mei 2017 . Opgehaald 14 mei 2017 .
- Prithviraj, KR (21 oktober 2014). "Leven tot dood brengen: rol van Wayback Machine bij het ophalen van verdwenen URL's". Journal of Information Science . 41 (1): 71-81. doi : 10.1177 / 0165551514552752 . ISSN 0165-5515 . S2CID 28320982 .
- Gearchiveerd van het origineel op 6 januari 2017 . Opgehaald 14 mei 2017 .
- "Wat het internet gisteren zei" . De New Yorker . Gearchiveerd van het origineel op 25 januari 2015 . Opgehaald 14 mei 2017 .
- Washington Post . Gearchiveerd van het origineel op 23 april 2017 . Opgehaald op 23 april 2017 .
- De Washington Post . Gearchiveerd van het origineel op 31 januari 2017 . Ontvangen op 31 januari 2017 .
- "De wereldwijde March for Science begon met een enkele Reddit-thread" . Kwarts . Gearchiveerd van het origineel op 24 april 2017 . Opgehaald op 23 april 2017 .
- "Meer dan 9 miljoen verbroken links op Wikipedia zijn nu gered" .
- "Cloudflare en de Wayback Machine, bundelen hun krachten voor een betrouwbaarder web" . Internetarchiefblogs . Opgehaald op 17 september 2020 .
- Internetarchief . 2 april 2014. Gearchiveerd van het origineel op 2 april 2014 . Opgehaald op 23 november 2018 .
- archive.org . Opgehaald op 23 november 2018 .
- "The Wayback Machine". Online . 26 : 80 - via EBSCOhost.
- archiveteam.org . Gearchiveerd van het origineel op 5 augustus 2020 . Opgehaald op 6 augustus 2020 .
- archive.org . Gearchiveerd van het origineel op 20 april 2013 . Op 18 oktober 2018 opgehaald .
- "Bestelling om Robots.txt uit te schakelen" (pdf) . Gearchiveerd van het origineel (pdf) op 8 augustus 2019 . Ontvangen 15 oktober 2009 .
- "Beweging tegen verwijdering van Robots.txt" . Gearchiveerd van het origineel op 27 oktober 2010 . Ontvangen 15 oktober 2009 .
- "Momentopnamen van webpagina's van Internet Archive worden als bewijs aanvaardbaar geacht" . Pakketten . 2 (3). Gearchiveerd van het origineel op 30 april 2011 . Ontvangen 4 januari 2007 .
- "Webgeschiedenis bewijzen: het internetarchief gebruiken" (pdf) . Journal of Internet Law : 3-9. Gearchiveerd van het origineel (pdf) op 5 juli 2010 . Ontvangen op 6 augustus 2008 .
- Gearchiveerd van het origineel op 1 juli 2019 . Opgehaald 14 juni 2020 .
- Rosch, Mark E. (2010). Vind informatie als een professional: het ontginnen van de openbaar beschikbare bronnen van internet voor onderzoek, Tom 1 . American Bar Association. blz. 194-196. ISBN 978-1-60442-890-2 Gearchiveerd van het origineel op 18 december 2020 . Opgehaald 14 juni 2020 .
- "Stand van de techniek op het gebied van octrooien voor zakelijke methoden - Wanneer is een elektronisch document een gedrukte publicatie voor doeleinden volgens de stand der techniek?" USPTO . Gearchiveerd van het origineel op 21 september 2012 . Ontvangen 15 augustus 2012 .
- Gearchiveerd van het origineel op 29 juni 2010.
- "The Wayback Machine und Google Cache - eine Verletzung deutschen Urheberrechts?" JurPC (in het Duits): 9. doi : 10.7328 / jurpcb / 20021719 . Gearchiveerd van het origineel op 23 augustus 2009.
- Gearchiveerd van het origineel op 17 april 2014 . Ontvangen 16 april 2014 .
- "Netarchief legt Scientology-criticus het zwijgen" . CNET News.com. Gearchiveerd van het origineel op 15 mei 2012 . Ontvangen 4 januari 2007 .
- "uitsluitingen van de Wayback Machine" (Blog) . Wayback Machine Forum . Internetarchief. Gearchiveerd van het origineel op 11 februari 2007 . Ontvangen 4 januari 2007 . Auteur en datum geven de start van de forumthread aan .
- "Sherman, zet de Wayback Machine voor Scientology" . LawMeme . Yale Law School. Gearchiveerd van het origineel (blog) op 16 november 2012 . Ontvangen 4 januari 2007 .
- "Website aangeklaagd wegens controversiële reis naar internetverleden". EContent . 28. 11 : 8-9.
- "Internetarchief regelt pak over Wayback-machine" . Ars Technica . Gearchiveerd van het origineel op 5 november 2007 . Ontvangen 29 november 2007 .
-
- Gearchiveerd (pdf) van het origineel op 25 januari 2014 . Ontvangen 25 maart 2015 .
1) De motie van Internet Archive om de tegenvordering van Shell wegens conversie en civiele diefstal af te wijzen (tweede oorzaak van actie) wordt TOEGEKEND, 2) de motie van Internet Archive om de tegenvordering van Shell wegens contractbreuk af te wijzen (derde oorzaak van actie) is GEWEIGERD; 3) De motie van Internet Archive om de tegenvordering van Shell voor afpersing onder RICO en COCCA (Fourth Cause of Action) af te wijzen, wordt TOEGEKEND.
- "Colorado Woman klaagt om webcrawlers aan contracten te houden" . New York, NY, VS: InformationWeek , UBM Tech, UBM LLC. Gearchiveerd van het origineel op 4 september 2014 . Ontvangen 25 maart 2015 .
Computers kunnen namens mensen contracten sluiten. De Uniform Electronic Transactions Act (UETA) zegt dat een 'contract kan worden gevormd door de interactie van elektronische agenten van de partijen, zelfs als niemand op de hoogte was van de acties van de elektronische agenten of de daaruit voortvloeiende voorwaarden en overeenkomsten.'
- "Internetarchief v. Suzanne Shell" . internetlibrary.com . Internet Library of Law and Court beslissingen. Gearchiveerd van het origineel op 3 augustus 2014 . Ontvangen 25 maart 2015 .
Wat nog belangrijker was, vond de rechtbank dat het louter kopiëren van de site van Shell door Internet Archive en het weergeven daarvan in haar database niet de vereiste uitoefening van heerschappij en controle over de eigendommen van de verdachte vormde. Belangrijk is, merkte de rechtbank op, dat de verdachte te allen tijde haar eigen site bezat en beheerde. De rechtbank zei: 'Shell heeft nagelaten feiten aan te voeren die aantonen dat Internet Archive dominantie of controle uitoefende over haar website, aangezien in de klacht van Shell expliciet staat dat zij eigenaar en beheer bleef van de website terwijl deze werd gearchiveerd op de Wayback-machine. Shell identificeert geen enkele autoriteit die het idee ondersteunt dat het kopiëren van documenten op zichzelf al een gebrek aan gebruik is om conversie te ondersteunen. Omgekeerd hebben talrijke circuits vastgesteld dat dit niet het geval is. '
- "Internetarchief en Suzanne Shell regelen rechtszaak" . archive.org . Denver, CO, VS: internetarchief. Gearchiveerd van het origineel op 5 december 2010 . Ontvangen 25 maart 2015 .
Beide partijen betreuren oprecht de onrust die de rechtszaak voor de ander heeft veroorzaakt. Noch Internet Archive, noch mevrouw Shell keurt enig gedrag goed dat mogelijk schade heeft toegebracht aan een van beide partijen als gevolg van de publieke aandacht voor deze rechtszaak. De partijen zijn niet betrokken bij dergelijk gedrag en vragen dat de publieke reactie op de minnelijke schikking van dit geschil in overeenstemming is met hun wens dat geen van beide partijen verdere schade of onrust wordt berokkend.
- "Copyright implicaties van een" recht om te worden vergeten "? Of hoe het internetarchief te verwijderen" . Mondaq . Gearchiveerd van het origineel op 18 november 2018 . Op 8 maart 2019 opgehaald .
- Philpott, James; Weissman, Adam; Bucholz, Ren; Waterkokers, Brent; Pearl, Aaron (red.). "Davydiuk v. Internet Archive Canada, 2014 FC 944" . CanLII . Federation of Law Societies of Canada . Gearchiveerd van het origineel op 18 december 2020 . Op 8 maart 2019 opgehaald .
- Philpott, John; Alton, Alex; Bucholz, Ren (red.). "Davydiuk v. Internet Archive Canada and Internet Archive, 2016 FC 1313 (CanLII)" . CanLII . Ottawa, Ontario: Federation of Law Societies of Canada . Gearchiveerd van het origineel op 29 juni 2019 . Op 8 maart 2019 opgehaald .
- "Een back-up maken van de geschiedenis van internet in Canada om het te redden van Trump" . TechCrunch . Gearchiveerd van het origineel op 27 december 2016 . Opgehaald 14 mei 2017 .
- Public Radio International. Gearchiveerd van het origineel op 28 maart 2017 . Opgehaald 14 mei 2017 .
- "Er is geen weg terug in Rusland: Poetin blokkeert Archive.org" . Gearchiveerd van het origineel op 7 oktober 2016 . Opgehaald 14 mei 2017 .
- Digitale trends. 26 juni 2015. Gearchiveerd van het origineel op 17 april 2016 . Opgehaald 14 mei 2017 .
- Российская газета (in het Russisch). Gearchiveerd van het origineel op 5 april 2019 . Opgehaald op 18 oktober 2020 .
- 29 november 2016. Gearchiveerd van het origineel op 21 mei 2017 . Opgehaald 14 mei 2017 .
- Gearchiveerd van het origineel op 9 november 2020 . Opgehaald op 28 september 2020 .CS1 maint: archived copy as title (link)
- Consumentistisch. 7 juni 2016. Gearchiveerd van het origineel op 11 november 2016 . Opgehaald 14 mei 2017 .
- "Die Trump-Angst grassiert" (in het Duits). heise online. Gearchiveerd van het origineel op 7 december 2016 . Opgehaald 14 mei 2017 .
- "De donkere middeleeuwen van het internet" . De Atlantische Oceaan . Gearchiveerd van het origineel op 7 mei 2017 . Opgehaald 14 mei 2017 .
- Moederbord. 29 november 2016. Gearchiveerd van het origineel op 16 mei 2017 . Opgehaald 14 mei 2017 .
- "De menselijke angst voor totale kennis" . De Atlantische Oceaan . Gearchiveerd van het origineel op 2 december 2016 . Opgehaald 14 mei 2017 .
Externe links [ bewerken ]
- Officiële website
- De internetgeschiedenis is kwetsbaar. Dit archief zorgt ervoor dat het niet verdwijnt . San Francisco: PBS Newshour . Opgehaald op 19 september 2018 .