linuxscout / adawat

Adawat: Arabic Text tools

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Adawat: Arabic Language Toolkit

مكتبة أدوات اللغة العربية

Adawat: Arabic Language Toolkit

adawat logo

PyPI - Downloads

Developpers: Taha Zerrouki: http://tahadz.com taha dot zerrouki at gmail dot com

Features value
Authors Authors.md
Release 0.1
License GPL
Tracker linuxscout/adawat/Issues
Source Github
Feedbacks Comments
Accounts @Twitter)

Description

Adawat: Arabic Language Toolkit

مزايا:

تجمع هذه المكتبة كل الأدوات المستعملة في معالجة النص العربي مثل:

  • التشكيل
    • تشكيل النص العربي، يستحسن استعمال مكتبة مشكال، أو برنامج مشكال

    • تشكيل مع اقتراحات تشكيلات أخرى لكل كلمة

    • اختزال الحركات من النص المشكول

    • إزالة التشكيل

    • مقارنة جملة مشكولة يدويا مع ما ينتج عن برنامج التشكيل

  • وظائف التحويل
    • نقحرة النص العربي بحروف لاتينية
    • تعريب نص مكتوب بحروف لاتينية
    • قلب نص
    • تفقيط: تحويل عدد إلى نص
    • تنميط النص: توحيد الهمزات والألفات
    • فك تشابك الحروف العربية
  • التحليل والتوليد
    • تحليل صرفي للنص
    • تفريق النص إلى كلمات وعلامات
    • تصنيف الكلمات إلى اسم وفعل وحرف
    • توليد كل الأشكال المختلفة للكلمة
  • استخلاص
    • استخلاص المتلازمات اللفظية
    • كشف اللغات المختلفة
    • استخلاص المسميات
    • استخلاص العبارات العددية
  • متفرقات
    • ضبط قصيدة شعرية عمودية
    • توليد نص عشوائي

Features

  • Tashkeel
    • tashkeel : vocalize text, we recomand to use mishkal-console instead.
    • tashkeel with suggestions for every word.
    • reduce : strip unnecessary tashkeel from avocalized text
    • strip : remove all harakat and shadda
    • compare : Compare Tashkeel between input text and the automatic vocalized text
  • Transformation and Converion
    • romanize : convert an arabic script text to latin representation
    • arabize : convert an transliterated arabic script text to arabic
    • inverse : inverse text
    • numbers to words : convert numeric value to words
    • normalize : normalize letters in arabic text
    • unshape : unshape arabic letters
  • Analysis and generation
    • stem : morphology analysis of given texts
    • tokenize : tokenize a text to words
    • wordtag : classify words into (nouns, verbs, stopwords)
    • affixate : generate all word forms by affixation
  • Extraction
    • collocation : extract collocations from text
    • language : detect arabic and latin clauses in text
    • named : extract named enteties from text
    • numbered : extarct numbred clauses from text
  • Divers
    • affixate : generate all word forms by affixation
    • poetry : format poetry texts to columns poetry
    • random : get a random text

Citation

@thesis{zerrouki2020adawat,
author = {Taha Zerrouki},
title = {Towards An Open Platform For Arabic Language Processing},
type = {PhD thesis},
institution = {Ecole Nationale Supérieure d'informatique, Alger, Algérie},
date = {2020},
}

Usage

install

pip install adawat

import

>>> import adawat.adaat

Examples

Detailed examples and features in Features

Tashkeel

  • tashkeel : vocalize text, we recomand to use mishkal-console instead.
  • tashkeel with suggestions for every word.
  • reduce : strip unnecessary tashkeel from avocalized text
  • strip : remove all harakat and shadda
  • compare : Compare Tashkeel between input text and the automatic vocalized text
>>> lastmark = True
>>> text = u"تطلع الشمس صباحا"
>>> adawat.adaat.tashkeel_text(text, lastmark)
' تَطْلُعُ الشَّمْسُ صَبَاحًا'

[requirement]

asmai>=0.1
mishkal>=0.3
naftawayh>=0.4
pyarabic>=0.6.8
qalsadi>=0.3.6
repr>=0.3.1
sylajone>=0.2
tashaphyne>=0.3.4.1

About

Adawat: Arabic Text tools

License:GNU General Public License v3.0


Languages

Language:Python 99.2%Language:Makefile 0.8%