web-archiving

There are 51 repositories under web-archiving topic.

ArchiveBox
ArchiveBox / ArchiveBox
🗃 Open source self-hosted web archiving. Takes URLs/browser history/bookmarks/Pocket/Pinboard/etc., saves HTML, JS, PDFs, media, and more...
archivebox backups bookmark-archiver browser-bookmarks chromium digipres firefox headless-browser internet-archiving pinboard pocket python rss self-hosted singlefile warc wayback-machine web-archiving wget youtube-dl
Language:Python 25490
webrecorder / pywb
Core Python Web Archiving Toolkit for replay and recording of web archives
python pywb wayback web-archives web-archiving
Language:JavaScript 1576
conifer
Rhizome-Conifer / conifer
Collect and revisit web pages.
webrecorder web-archiving archives pywb python docker wayback warc
Language:Python 1525
webrecorder / archiveweb.page
A High-Fidelity Web Archiving Extension for Chrome and Chromium based browsers!
chromium extension web-archiving webrecorder archiving wacz browser-extension warc
Language:TypeScript 1086
gildas-lormeau / single-file-cli
CLI tool for saving a faithful copy of a complete web page in a single HTML file (based on SingleFile)
cli nodejs single-file web-archiving web-scraper web-scraping archiving scraping-websites crawler web-crawler deno dockerfile
Language:JavaScript 1034
bellingcat / auto-archiver
Automatically archive links to videos, images, and social media content from Google Sheets (and more).
archive docker open-source-research python scraping service web-archiving
Language:Python 976
webrecorder / browsertrix-crawler
Run a high-fidelity browser-based web archiving crawler in a single Docker container
crawler crawling wacz warc web-archiving web-crawler webrecorder
Language:TypeScript 910
Ray-D-Song / web-archive
Free web archiving and sharing service based on Cloudflare. 跑在 Cloudflare 上的免费网页归档和分享工具。
cloudflare cloudflare-pages d1 free hono self-hosted serverless web-archive web-archiving
Language:TypeScript 892
webrecorder / replayweb.page
Serverless replay of web archives directly in the browser
web-archiving web-archive replay-web-page web-replay wayback-machine warc service-worker wacz
Language:TypeScript 854
ipwb
oduwsdl / ipwb
InterPlanetary Wayback: A distributed and persistent archive replay system using IPFS
ipfs warc wayback web-archiving python service-worker memento memento-rfc docker
Language:Python 647
waybackpy
akamhy / waybackpy
Wayback Machine API interface & a command-line tool
internet-archive wayback-machine internet-archiving archive-webpage archive-webpages wayback-machine-api cdx-api wayback-machine-python savepagenow web-archiving webarchiving osint
Language:Python 552
harvard-lil / perma
Indelible links
web-archiving libraries
Language:JavaScript 488
eclaire-labs / eclaire
Local-first, open-source AI assistant for your data. Unify tasks, notes, docs, photos, and bookmarks. Private, self-hosted, and extensible via APIs.
ai ai-assistant automation bookmark-manager bookmarks data-extraction document-processing llm local-first note-taking ocr on-device-ai open-source personal-knowledge-management privacy rest-api self-hosted task-management web-archiving
Language:TypeScript 484
rahiel / archiveror
Archiveror will help you preserve the webpages you love. 💾
archiving webextension linkrot mhtml browser-extension web-archiving firefox-extension chrome-extension javascript bookmark
Language:JavaScript 448
webrecorder / webrecorder-player
Webrecorder Player for Desktop (OSX/Windows/Linux). (Built with Electron + Webrecorder)
webrecorder warc pywb electron web-archiving
Language:JavaScript 446
webrecorder / warcio
Streaming WARC/ARC library for fast web archive IO
web-archives web-archiving warc pywb python
Language:Python 438
oduwsdl / archivenow
A Tool To Push Web Resources Into Web Archives
web-archiving internet-archive
Language:Python 423
Florents-Tselai / WarcDB
WarcDB: Web crawl data as SQLite databases.
crawling sqlite warc cli web-data database web-archiving
Language:Python 406
wail
machawk1 / wail
:whale2: Web Archiving Integration Layer: One-Click User Instigated Preservation
web-archiving wayback python heritrix gui warc openwayback pyinstaller
Language:Roff 381
ArchiveBox / archivebox-browser-extension
Official ArchiveBox browser extension: automatically/manually preserve your browsing history using ArchiveBox.
archivebox archiving browser-extension chrome-extension digipres digital-preservation firefox-extension internet-archiving svelte web-archiving
Language:JavaScript 374
webrecorder / browsertrix
Browsertrix is the hosted, high-fidelity, browser-based crawling service from Webrecorder designed to make web archiving easier and more accessible for all!
archiving cloud warc web-archive web-archiving webrecorder wacz kubernetes
Language:TypeScript 350
warcreate
machawk1 / warcreate
Chrome extension to "Create WARC files from any webpage"
chrome-extension warc web-archiving
Language:JavaScript 224
cocrawler / cdx_toolkit
A toolkit for CDX indices such as Common Crawl and the Internet Archive's Wayback Machine
web-archiving web-archives warc cdx cdx-api commoncrawl python
Language:Python 186
ArchiveBox / electron-archivebox
Desktop Electron app for ArchiveBox internet archiver. (ALPHA: not ready for general use)
archivebox electron docker internet-archiving digipres web-archiving desktop desktop-electron macos windows linux gui
Language:JavaScript 178
gwu-libraries / sfm-ui
Social Feed Manager user interface application.
code4lib social-feed-manager web-archiving social-media
Language:Python 156
helgeho / ArchiveSpark
An Apache Spark framework for easy data processing, extraction as well as derivation for web archives and archival collections, developed at Internet Archive.
archivespark spark-framework spark web-archiving webarchive internet-archive warc
Language:Scala 153
programminghistorian / ph-submissions
The repository and website hosting the peer review process for new Programming Historian lessons
api data-management dh digital-history digital-humanities distant-reading linked-open-data mapping multi-lingual network-analysis open-educational-resources open-source pedagogy programming-historian python web-archiving web-scraping r-studio
Language:HTML 147
N0taN3rd / wail
:whale2: One-Click User Instigated Preservation
electron web-archiving warc browser-based-presrevation high-fidelity-preservation
Language:JavaScript 129
internetarchive / fatcat
Perpetual Access To The Scholarly Record
rust web-archiving scholarly-communication digital-library python open-access postgresql
Language:Python 119
maxcountryman / warc-parquet
🗄️ A simple CLI for converting WARC to Parquet.
crawling duckdb parquet warc web-archiving
Language:Rust 113
N0taN3rd / node-warc
Parse And Create Web ARChive (WARC) files with node.js
webarchive webarchiving web-archives warc-files warc web-archiving pupeteer chrome-remote-interface
Language:JavaScript 102
hoardy-web
Own-Data-Privateer / hoardy-web
Passively capture, archive, and hoard your web browsing history, including the contents of the pages you visit, for later offline viewing, replay, mirroring, data scraping, and/or indexing. Your own personal private Wayback Machine that can also archive HTTP POST requests and responses, as well as most other HTTP-level data.
archive backups internet internet-archiving self-hosted wayback-machine web-archiving web-archive archiver archiving web-browsing website-archive auto-save offline-reading snapshot browser-extension cli
Language:Python 100
oduwsdl / warrick
Recover lost websites from the Web Infrastructure
web-archiving memento-rfc memento recovery
Language:HTML 89
xarantolus / Collect
A server to collect & archive websites that also supports video downloads
self-hosted webinterface archive website-archive video-downloader website-scraper web-archiving
Language:TypeScript 86
website-downloader
PKHarsimran / website-downloader
Website-downloader is a powerful and versatile Python script designed to download entire websites along with all their assets. This tool allows you to create a local copy of a website, including HTML pages, images, CSS, JavaScript files, and other resources. It is ideal for web archiving, offline browsing, and web development.
automation beautifulsoup data-mining html internet-tools offline-browsing open-source python python-scripts requests web-archiving web-scraping website-cloner website-downloader wget
Language:Python 78
MemGator
oduwsdl / MemGator
A Memento Aggregator CLI and Server in Go
web-archiving memento timemap memento-rfc
Language:Go 70

web-archiving

ArchiveBox / ArchiveBox

webrecorder / pywb

Rhizome-Conifer / conifer

webrecorder / archiveweb.page

gildas-lormeau / single-file-cli

bellingcat / auto-archiver

webrecorder / browsertrix-crawler

Ray-D-Song / web-archive

webrecorder / replayweb.page

oduwsdl / ipwb

akamhy / waybackpy

harvard-lil / perma

eclaire-labs / eclaire

rahiel / archiveror

webrecorder / webrecorder-player

webrecorder / warcio

oduwsdl / archivenow

Florents-Tselai / WarcDB

machawk1 / wail

ArchiveBox / archivebox-browser-extension

webrecorder / browsertrix

machawk1 / warcreate

cocrawler / cdx_toolkit

ArchiveBox / electron-archivebox

gwu-libraries / sfm-ui

helgeho / ArchiveSpark

programminghistorian / ph-submissions

N0taN3rd / wail

internetarchive / fatcat

maxcountryman / warc-parquet

N0taN3rd / node-warc

Own-Data-Privateer / hoardy-web

oduwsdl / warrick

xarantolus / Collect

PKHarsimran / website-downloader

oduwsdl / MemGator