LeMoussel / LinkContext

Catégorisation des liens par segmentation d’une page HTML.

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

LinkContext

Catégorisation des liens par segmentation d’une page HTML.

Ce programme Python, développé au dessus de Block-o-Matic (BoM), permet de décomposer une page web en segments, visuellement et sémantiquement cohérents, appelés blocs. Les liens sont ensuite extraits pour chaque bloc identifié.

Pré-requis

  • Python version 3.7. Les versions plus anciennes de Python ne devraient PAS fonctionner. Les versions plus récentes de Python devraient être OK.

  • Microsoft Playwright for Python. Playwright nécessite Python 3.7 ou plus. Les binaires de navigateur pour Chromium, Firefox et WebKit fonctionnent sur les 3 plateformes (Windows, macOS, Linux). Voir Installation de Playwright for Python.

  • Matplotlib : Visualisation avec Python. Matplotlib est une bibliothèque complète permettant de créer des visualisations statiques, animées et interactives en Python.

  • Librairie JS BoM.

Execution

Windows 10

# Windows
py main.py --url "http://example.com/"

# Linux
python3 main.py --url "http://example.com/"

Références

Todo

Toutes suggestions qui semble être une bonne idée. S'il vous plaît, essayez-le, soumettez des PRs pour étendre ou corriger des choses, et signalez toute bizarrerie ou bogue que vous rencontrez 😄

About

Catégorisation des liens par segmentation d’une page HTML.

License:MIT License


Languages

Language:JavaScript 91.6%Language:Python 8.4%