crawling

There are 67 repositories under crawling topic.

scrapy
scrapy / scrapy
Scrapy, a fast high-level web crawling & scraping framework for Python.
python scraping crawling framework crawler hacktoberfest web-scraping web-scraping-python
Language:Python 51104
gocolly / colly
Elegant Scraper and Crawler Framework for Golang
golang scraper framework crawler scraping crawling spider go
Language:Go 22300
codelucas / newspaper
newspaper3k is a news, full-text, and article metadata extraction in Python 3. Advanced docs:
python news crawler crawling scraper news-aggregator
Language:Python 13781
crawlee
apify / crawlee
Crawlee—A web scraping and browser automation library for Node.js to build reliable crawlers. In JavaScript and TypeScript. Extract data for AI, LLMs, RAG, or GPTs. Download HTML, PDF, JPG, PNG, and other files from websites. Works with Puppeteer, Playwright, Cheerio, JSDOM, and raw HTTP. Both headful and headless mode. With proxy rotation.
web-scraping web-crawling npm headless-chrome puppeteer automation apify scraping crawling crawler headless scraper web-crawler javascript nodejs playwright typescript
Language:TypeScript 12326
lorien / awesome-web-scraping
List of libraries, tools and APIs for web scraping and data processing.
web-scraping captcha-bypass captcha-recaptcha crawling crawling-framework crawling-python crawling-tool scraping scraping-framework scraping-python scraping-tool webscraping crawler spider
Language:Makefile 6357
ferret
MontFerret / ferret
Declarative web scraping
golang query-language data-mining scraping scraping-websites dsl cdp crawling scraper crawler go chrome cli tool library hacktoberfest
Language:Go 5631
yujiosaka / headless-chrome-crawler
Distributed crawler powered by Headless Chrome
headless-chrome puppeteer jquery crawler crawling scraper scraping chrome chromium promise
Language:JavaScript 5479
go-rod / rod
A Devtools driver for web automation and scraping
cdp chrome-headless chrome-devtools chrome-devtools-protocol headless web-scraping automation scraper devtools devtools-protocol rod go golang testing web gorod crawling
Language:Go 4841
hakrawler
hakluke / hakrawler
Simple, fast web crawler designed for easy, quick discovery of endpoints and assets within a web application
bugbounty crawling hacking osint pentesting recon reconnaissance
Language:Go 4250
hardkoded / puppeteer-sharp
Headless Chrome .NET API
puppeteer chrome chromium automation crawler crawling csharp e2e e2e-testing webautomation
Language:C# 3185
apache / nutch
Apache Nutch is an extensible and scalable web crawler
java nutch web-crawler crawling hadoop apache
Language:Java 2821
lorien / grab
Web Scraping Framework
web-scraping http-client framework python pycurl asynchronous network urllib3 spider crawler crawling scraping python-library python3
Language:Python 2359
transitive-bullshit / awesome-puppeteer
A curated list of awesome puppeteer resources.
puppeteer headless-chrome awesome awesome-list scraping crawling automation
2330
zorlan / skycaiji
蓝天采集器是一款开源免费的爬虫系统，仅需点选编辑规则即可采集数据，可运行在本地、虚拟主机或云服务器中，几乎能采集所有类型的网页，无缝对接各类CMS建站程序，免登录实时发布数据，全自动无需人工干预！是网页大数据采集软件中完全跨平台的云端爬虫系统
crawler crawling spider webcrawler php
Language:PHP 1867
edoardottt / cariddi
Take a list of domains, crawl urls and scan for endpoints, secrets, api keys, file extensions, tokens and more
endpoints endpoint-discovery bugbounty crawler secret-keys secrets-detection infosec reconnaissance recon crawling golang pentesting go security osint penetration-testing security-tools scraper hacktoberfest redteam
Language:Go 1368
roach-php / core
The complete web scraping toolkit for PHP.
php web-scraping crawling
Language:PHP 1322
mlscraper
lorey / mlscraper
🤖 Scrape data from HTML websites automatically by just providing examples
scraping crawling html machine-learning extraction-engine scraper crawler crawler-python
Language:Python 1231
holiday-cn
NateScarlet / holiday-cn
📅🇨🇳**法定节假日数据自动每日抓取国务院公告
data natural-language-processing crawling holiday china
Language:Python 1117
needleworm / bhban_rpa
<6개월 치 업무를 하루 만에 끝내는 업무 자동화(생능출판사, 2020)>의 예제 코드입니다. 파이썬을 한 번도 배워본 적 없는 분들을 위한 예제이며, 엑셀부터 디자인, 매크로, 크롤링까지 업무 자동화와 관련된 다양한 분야 예제가 제공됩니다.
rpa automation crawling design python education
Language:Python 991
clemfromspace / scrapy-selenium
Scrapy middleware to handle javascript pages using selenium
scrapy selenium crawling
Language:Python 892
elixir-crawly / crawly
Crawly, a high-level web crawling & scraping framework for Elixir.
elixir erlang scraper scraping scraping-websites extract-data spider crawler crawling
Language:Elixir 845
iawia002 / Lulu
[Unmaintained] A simple and clean video/music/image downloader 👾
downloader video python python3 crawler scraper crawling scraping
Language:Python 817
scrapinghub / scrapyrt
HTTP API for Scrapy spiders
crawler crawling hacktoberfest hacktoberfest2021 python scraper scrapy twisted webcrawler webcrawling
Language:Python 816
MorvanZhou / easy-scraping-tutorial
Simple but useful Python web scraping tutorial code.
beautifulsoup scrapy regex urllib scraping crawler crawling requests asyncio distributed-scraper
Language:Jupyter Notebook 765
bluet / proxybroker2
The New (auto rotate) Proxy [Finder | Checker | Server]. HTTP(S) & SOCKS :performing_arts:
proxy proxy-server proxies proxy-list proxypool proxy-checker proxychains crawler crawling http-proxy https-proxy anonymity privacy anonymous socks hacktoberfest
Language:Python 666
slotix / dataflowkit
Extract structured data from web sites. Web sites scraping.
golang golang-library extract-data chrome-fetcher scraping-websites crawling scraper scraping cdp go headless
Language:Go 645
AdminHack
mishakorzik / AdminHack
today we will hack the admin panel of the site.
termux linux admin-hack website websitehacking admin-website-hack website-hacking website-hacking-methods admin-panel cpanl-finder directory-bruteforce cpanel kali-linux crawling admin-finder hacking-tool allhackingtools termux-hacking termux-tool
Language:Shell 637
essandess / isp-data-pollution
ISP Data Pollution to Protect Private Browsing History with Obfuscation
web crawling data obfuscation privacy-enhancing-technologies data-analytics privacy
Language:Python 581
webrecorder / browsertrix-crawler
Run a high-fidelity browser-based crawler in a single Docker container
crawler crawling wacz warc web-archiving web-crawler webrecorder
Language:TypeScript 552
scrapinghub / spidermon
Scrapy Extension for monitoring spiders execution.
scrapinghub scraping monitoring spiders crawling testing monitoring-tool hacktoberfest
Language:Python 511
zhuyingda / webster
a reliable high-level web crawling & scraping framework for Node.js.
scraping-framework crawler crawling headless-chrome chromium spider automation-ui automation-test nodejs nodejs-framework javascript javascript-framework puppeteer
Language:JavaScript 505
crawljax / crawljax
Crawljax
crawling crawler dom dynamic test-generation web-analysis web-testing event-driven-crawling javascript
Language:Java 504
josephlimtech / linkedin-profile-scraper-api
🕵️‍♂️ LinkedIn profile scraper returning structured profile data in JSON.
puppeteer nodejs scraper scraping scraping-websites website-scraper json linkedin-profile-scraper linkedin scrapers crawler crawling spider expressjs linkedin-scraper linkedin-scraping linkedin-bot linkedin-crawler profile-data linkedin-profile
Language:TypeScript 482
Florents-Tselai / WarcDB
WarcDB: Web crawl data as SQLite databases.
crawling sqlite warc cli web-data database web-archiving
Language:Python 384
l4rm4nd / LinkedInDumper
Python 3 script to dump/scrape/extract company employees from LinkedIn API
osint python3 employees linkedin spider crawling extracting scraping
Language:Python 371
mhmdiaa / second-order
Second-order subdomain takeover scanner
security security-tools wordlist wordlist-generator penetration-testing pentesting infosec recon reconnaissance mapping web-application-security penetration-testing-tools crawler crawling
Language:Go 359