MattJeanLouis / scrap_web

C'est un projet de web scraping qui utilise Streamlit, BeautifulSoup, et html2text pour extraire, convertir en Markdown, et afficher le contenu de toutes les pages liées à une URL donnée. Il fournit un sommaire interactif des URL visitées et permet d'afficher le contenu extrait dans un format facile à lire.

Home Page:https://mattjeanlouis-scrap-web-app-70ir3y.streamlit.app/

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Web Scraper avec Streamlit

Ce projet est un web scraper construit avec Streamlit, une bibliothèque Python pour créer des applications web rapidement. Il permet d'extraire le texte de n'importe quelle page web et de ses sous-pages, puis de convertir le contenu HTML en Markdown pour un affichage facile à lire.

Fonctionnalités

  • Extraction du texte de n'importe quelle page web et de ses sous-pages.
  • Conversion du contenu HTML en Markdown pour un affichage facile à lire.
  • Exploration récursive des sous-pages d'une URL donnée.
  • Affichage du contenu Markdown extrait dans un format lisible.
  • Affichage d'un sommaire des URL visitées dans un volet déroulant.

Installation

  1. Clonez ce dépôt sur votre machine locale.
  2. Installez les dépendances en exécutant pip install -r requirements.txt dans votre terminal.
  3. Exécutez l'application en tapant streamlit run app.py dans votre terminal.

Utilisation

  1. Entrez l'URL de la page web dont vous voulez extraire le texte dans le champ de saisie.
  2. L'application extrait le texte de l'URL principale et de toutes ses sous-URLs, et convertit le contenu HTML en Markdown.
  3. Le contenu Markdown extrait est affiché dans un format facile à lire.
  4. Un sommaire des URL visitées est affiché dans un volet déroulant.
  5. Tout le contenu extrait est affiché dans un volet déroulant.

Dépendances

  • streamlit
  • requests
  • beautifulsoup4
  • html2text

Auteur

[Matt Pasquier]

About

C'est un projet de web scraping qui utilise Streamlit, BeautifulSoup, et html2text pour extraire, convertir en Markdown, et afficher le contenu de toutes les pages liées à une URL donnée. Il fournit un sommaire interactif des URL visitées et permet d'afficher le contenu extrait dans un format facile à lire.

https://mattjeanlouis-scrap-web-app-70ir3y.streamlit.app/


Languages

Language:Python 100.0%