adawat 0.1

Creator: bradpython12

Last updated:

0 purchases

adawat 0.1 Image
adawat 0.1 Images

Languages

Categories

Add to Cart

Description:

adawat 0.1

Adawat: Arabic Language Toolkit


مكتبة أدوات اللغة العربية
Adawat: Arabic Language Toolkit



adawat logo





PyPI - Downloads


Developpers: Taha Zerrouki: http://tahadz.com taha dot zerrouki at gmail
dot com


Features
value



Authors
Authors.md

Release
0.1

License
GPL

Tracker
linuxscout/adawat/Issues

Source
Github

Feedbacks
Comments

Accounts
[@Twitter](https://twitter.com/linuxscout))




Description
Adawat: Arabic Language Toolkit

مزايا:
تجمع هذه المكتبة كل الأدوات المستعملة في معالجة النص العربي مثل:


التشكيل

تشكيل النص العربي، يستحسن استعمال مكتبة مشكال، أو برنامج مشكال
تشكيل مع اقتراحات تشكيلات أخرى لكل كلمة
اختزال الحركات من النص المشكول
إزالة التشكيل
مقارنة جملة مشكولة يدويا مع ما ينتج عن برنامج التشكيل
وظائف التحويل





نقحرة النص العربي بحروف لاتينية

تعريب نص مكتوب بحروف لاتينية
قلب نص
تفقيط: تحويل عدد إلى نص
تنميط النص: توحيد الهمزات والألفات
فك تشابك الحروف العربية
التحليل والتوليد





تحليل صرفي للنص

تفريق النص إلى كلمات وعلامات
تصنيف الكلمات إلى اسم وفعل وحرف
توليد كل الأشكال المختلفة للكلمة
استخلاص





استخلاص المتلازمات اللفظية

كشف اللغات المختلفة
استخلاص المسميات
استخلاص العبارات العددية





متفرقات

ضبط قصيدة شعرية عمودية
توليد نص عشوائي







Features


Tashkeel

tashkeel : vocalize text, we recomand to use mishkal-console instead.
tashkeel with suggestions for every word.
reduce : strip unnecessary tashkeel from avocalized text
strip : remove all harakat and shadda
compare : Compare Tashkeel between input text and the automatic
vocalized text





Transformation and Converion

romanize : convert an arabic script text to latin representation
arabize : convert an transliterated arabic script text to arabic
inverse : inverse text
numbers to words : convert numeric value to words
normalize : normalize letters in arabic text
unshape : unshape arabic letters





Analysis and generation

stem : morphology analysis of given texts
tokenize : tokenize a text to words
wordtag : classify words into (nouns, verbs, stopwords)
affixate : generate all word forms by affixation





Extraction

collocation : extract collocations from text
language : detect arabic and latin clauses in text
named : extract named enteties from text
numbered : extarct numbred clauses from text





Divers

affixate : generate all word forms by affixation
poetry : format poetry texts to columns poetry
random : get a random text








Citation
@thesis{zerrouki2020adawat,
author = {Taha Zerrouki},
title = {Towards An Open Platform For Arabic Language Processing},
type = {PhD thesis},
institution = {Ecole Nationale Supérieure d'informatique, Alger, Algérie},
date = {2020},
}

Usage


install
pip install adawat

import
>>> import adawat.adaat




Examples
Detailed examples and features in Features

Tashkeel

tashkeel : vocalize text, we recomand to use mishkal-console instead.
tashkeel with suggestions for every word.
reduce : strip unnecessary tashkeel from avocalized text
strip : remove all harakat and shadda
compare : Compare Tashkeel between input text and the automatic
vocalized text

>>> lastmark = True
>>> text = u"تطلع الشمس صباحا"
>>> adawat.adaat.tashkeel_text(text, lastmark)
' تَطْلُعُ الشَّمْسُ صَبَاحًا'

[requirement]
asmai>=0.1
mishkal>=0.3
naftawayh>=0.4
pyarabic>=0.6.8
qalsadi>=0.3.6
repr>=0.3.1
spellcheck>=1.0.2
sylajone>=0.2
tashaphyne>=0.3.4.1

License

For personal and professional use. You cannot resell or redistribute these repositories in their original state.

Files In This Product:

Customer Reviews

There are no reviews.