scraping

There are 178 repositories under scraping topic.

scrapy
scrapy / scrapy
Scrapy, a fast high-level web crawling & scraping framework for Python.
crawler crawling framework hacktoberfest python scraping web-scraping web-scraping-python
Language:Python 52578
gocolly / colly
Elegant Scraper and Crawler Framework for Golang
crawler crawling framework go golang scraper scraping spider
Language:Go 23117
mendableai / firecrawl
🔥 Turn entire websites into LLM-ready markdown or structured data. Scrape, crawl and extract with a single API.
ai crawler data markdown scraper html-to-markdown llm rag scraping web-crawler ai-scraping
Language:TypeScript 15249
crawlee
apify / crawlee
Crawlee—A web scraping and browser automation library for Node.js to build reliable crawlers. In JavaScript and TypeScript. Extract data for AI, LLMs, RAG, or GPTs. Download HTML, PDF, JPG, PNG, and other files from websites. Works with Puppeteer, Playwright, Cheerio, JSDOM, and raw HTTP. Both headful and headless mode. With proxy rotation.
apify automation crawler crawling headless headless-chrome javascript nodejs npm playwright puppeteer scraper scraping typescript web-crawler web-crawling web-scraping
Language:TypeScript 15186
ScrapeGraphAI / Scrapegraph-ai
Python scraper based on AI
ai automated-scraper gpt-3 gpt-4 llama3 llm machine-learning sc scraping scraping-python scrapingweb webscraping
Language:Python 14668
psf / requests-html
Pythonic HTML Parsing for Humans™
beautifulsoup css-selectors html http kennethreitz lxml pyquery python requests scraping
Language:Python 13715
feder-cr / Auto_Jobs_Applier_AIHawk
Auto_Jobs_Applier_AIHawk is a tool that automates the jobs application process. Utilizing artificial intelligence, it enables users to apply for multiple job offers in an automated and personalized way.
application-resume automate automation bot challenge chatgpt chrome gpt human-resources job jobs jobsearch jobseeker opeai python python3 resume scraper scraping selenium
Language:Python 12633
code4craft / webmagic
A scalable web crawler framework for Java.
crawler framework java scraping
Language:Java 11387
ultrafunkamsterdam / undetected-chromedriver
Custom Selenium Chromedriver | Zero-Config | Passes ALL bot mitigation systems (like Distil / Imperva/ Datadadome / CloudFlare IUAM)
anti-bot anti-detection automation bot-detection browser captcha chrome chromedriver cloudflare cloudflare-bypass distil navigator python3 scraping selenium testing webdriver
Language:Python 9697
tabulapdf / tabula
Tabula is a tool for liberating data tables trapped inside PDF files
pdf csv excel tables scraping
Language:CSS 6710
lorien / awesome-web-scraping
List of libraries, tools and APIs for web scraping and data processing.
captcha-bypass captcha-recaptcha crawler crawling crawling-framework crawling-python crawling-tool scraping scraping-framework scraping-python scraping-tool spider web-scraping webscraping
Language:Makefile 6598
autoscraper
alirezamika / autoscraper
A Smart, Automatic, Fast and Lightweight Web Scraper for Python
scraping scraper scrape webscraping crawler web-scraping ai artificial-intelligence python webautomation automation machine-learning
Language:Python 6195
ferret
MontFerret / ferret
Declarative web scraping
cdp chrome cli crawler crawling data-mining dsl go golang hacktoberfest library query-language scraper scraping scraping-websites tool
Language:Go 5721
yujiosaka / headless-chrome-crawler
Distributed crawler powered by Headless Chrome
chrome chromium crawler crawling headless-chrome jquery promise puppeteer scraper scraping
Language:JavaScript 5518
sparklemotion / mechanize
Mechanize is a ruby library that makes automated web interaction easy.
ruby scraping web
Language:Ruby 4391
khuyentran1401 / Data-science
Collection of useful data science topics along with articles, videos, and code
articles artificial-intelligence data-analysis data-science data-visualization machine-learning natural-language-processing python scraping time-series
Language:Jupyter Notebook 4031
apify / crawlee-python
Crawlee—A web scraping and browser automation library for Python to build reliable crawlers. Extract data for AI, LLMs, RAG, or GPTs. Download HTML, PDF, JPG, PNG, and other files from websites. Works with BeautifulSoup, Playwright, and raw HTTP. Both headful and headless mode. With proxy rotation.
apify automation beautifulsoup crawler crawling hacktoberfest headless headless-chrome pip playwright python scraper scraping web-crawler web-crawling web-scraping
Language:Python 4026
fake-useragent / fake-useragent
Up-to-date simple useragent faker with real world database
python python3 user agent fake faker scraping user-agent user-agent-spoofer useragent useragent-scraper
Language:Python 3647
adbar / trafilatura
Python & Command-line tool to gather text and metadata on the Web: Crawling, scraping, extraction, output as CSV, JSON, HTML, MD, TXT, XML
article-extractor corpus corpus-builder corpus-tools crawler html-to-markdown html2text news news-aggregator news-crawler nlp readability rss-feed scraping tei text-cleaning text-extraction text-mining text-preprocessing web-scraping
Language:Python 3498
aapatre / Automatic-Udemy-Course-Enroller-GET-PAID-UDEMY-COURSES-for-FREE
Do you want to LEARN NEW STUFF for FREE? Don't worry, with the power of web-scraping and automation, this script will find the necessary Udemy coupons & enroll you for PAID UDEMY COURSES, ABSOLUTELY FREE!
python scraping selenium python3 scraper
Language:Python 3134
snoop
snooppr / snoop
Snoop — инструмент разведки на основе открытых данных (OSINT world)
osint termux username-search username-checker pentest web-scraping ctf scanner redteam blueteam infosec security nickname ip geo police parser scraping geocoder username
Language:Python 2937
panther
symfony / panther
A browser testing and web crawling library for PHP and Symfony
scraping e2e-testing webdriver selenium selenium-webdriver symfony php chromedriver hacktoberfest
Language:PHP 2933
NikolaiT / GoogleScraper
A Python module to scrape several search engines (like Google, Yandex, Bing, Duckduckgo, ...). Including asynchronous networking support.
crawler python scraping search-engine search-engine-optimization search-engines
Language:HTML 2630
geziyor / geziyor
Geziyor, blazing fast web crawling & scraping framework for Go. Supports JS rendering.
crawler go scraper scraping spider
Language:Go 2602
kevinzg / facebook-scraper
Scrape Facebook public pages without an API key
facebook scraping facebook-scraping facebook-scraper hacktoberfest
Language:Python 2394
transitive-bullshit / awesome-puppeteer
A curated list of awesome puppeteer resources.
puppeteer headless-chrome awesome awesome-list scraping crawling automation
2389
lorien / grab
Web Scraping Framework
web-scraping http-client framework python pycurl asynchronous network urllib3 spider crawler crawling scraping python-library python3
Language:Python 2386
emadehsan / thal
Getting started with Puppeteer and Chrome Headless for Web Scraping
puppeteer chrome-headless nodejs scraping mongoose mongodb
Language:JavaScript 2358
oscarotero / Embed
Get info from any web service or page
opengraph twitter-cards embeds scraping oembed
Language:PHP 2088
shot-scraper
simonw / shot-scraper
A command-line utility for taking automated screenshots of websites
playwright playwright-python scraping screenshot-utility screenshots
Language:Python 1661
claffin / cloudproxy
Hide your scrapers IP behind the cloud. Provision proxy servers across different cloud providers to improve your scraping success.
cloud proxy proxy-server scraping
Language:Python 1397
mlscraper
lorey / mlscraper
🤖 Scrape data from HTML websites automatically by just providing examples
crawler crawler-python crawling extraction-engine html machine-learning scraper scraping
Language:Python 1290
twikit
d60 / twikit
Twitter API Scraper | Without an API key | Twitter Internal API | Free | Twitter scraper | Twitter Bot
bot client python python-web-scraper python3 scrape scraper scraping search tweepy twitter twitter-api twitter-bot twitter-client twitter-internal-api twitter-scraper wrapper x x-api
Language:Python 1250
istresearch / scrapy-cluster
This Scrapy project uses Redis and Kafka to create a distributed on demand scraping cluster.
distributed kafka python redis scraping scrapy
Language:Python 1182
holgerd77 / django-dynamic-scraper
Creating Scrapy scrapers via the Django admin interface
python django scraper scraping scrapy spider webscraping
Language:Python 1150
scrapy / parsel
Parsel lets you extract data from XML/HTML documents using XPath or CSS selectors
css hacktoberfest lxml python scraping selectors xml xpath
Language:Python 1124

scraping

scrapy / scrapy

gocolly / colly

mendableai / firecrawl

apify / crawlee

ScrapeGraphAI / Scrapegraph-ai

psf / requests-html

feder-cr / Auto_Jobs_Applier_AIHawk

code4craft / webmagic

ultrafunkamsterdam / undetected-chromedriver

tabulapdf / tabula

lorien / awesome-web-scraping

alirezamika / autoscraper

MontFerret / ferret

yujiosaka / headless-chrome-crawler

sparklemotion / mechanize

khuyentran1401 / Data-science

apify / crawlee-python

fake-useragent / fake-useragent

adbar / trafilatura

aapatre / Automatic-Udemy-Course-Enroller-GET-PAID-UDEMY-COURSES-for-FREE

snooppr / snoop

symfony / panther

NikolaiT / GoogleScraper

geziyor / geziyor

kevinzg / facebook-scraper

transitive-bullshit / awesome-puppeteer

lorien / grab

emadehsan / thal

oscarotero / Embed

simonw / shot-scraper

claffin / cloudproxy

lorey / mlscraper

d60 / twikit

istresearch / scrapy-cluster

holgerd77 / django-dynamic-scraper

scrapy / parsel