- تنظيف النصوص من الرموز والأرقام
- إزالة التشكيل والحركات
- إزالة الأسطر الفارغة والفراغات الزائدة
- معالجة متقدمة للنصوص العربية
- استخراج جميع الكلمات والكلمات الفريدة
- حساب تكرار كل كلمة
- تحليل طول الكلمات
- إحصائيات شاملة عن الكلمات
- استخراج المركبات الثنائية والثلاثية
- حساب تكرار المركبات
- تحليل المختار التركيبي مع:
- مقاييس الربط (PMI, T-score, Log-likelihood)
- تصنيف قوة التراكيب
- تحليل السياقات النصية
- الأسماء والأعلام
- الدول والمدن
- المؤسسات والمنظمات
- التواريخ والأماكن
- نموذج LDA لاستخراج الموضوعات
- تصنيف الملفات حسب الموضوعات
- إحصائيات الموضوعات
- تقرير HTML تفاعلي شامل
- رسوم بيانية وإحصائيات مرئية
- واجهة مستخدم جميلة
- استنسخ المستودع:
git clone https://github.com/ayzem88/data-analyzer.git
cd data-analyzer- المتطلبات:
- Python 3.6 أو أحدث
- لا حاجة لمكتبات خارجية (يستخدم المكتبات الأساسية فقط)
محلل البيانات/
├── المدونة/ # ضع ملفات txt هنا
├── stop_words.txt # ملف كلمات الإيقاف
├── الأعلام والشخصيات.txt # قاعدة بيانات الأسماء
├── الدول والمدن.txt # قاعدة بيانات الدول
├── المنظمات والمؤسسات.txt # قاعدة بيانات المؤسسات
└── || التشغيل هنا ||.py # ملف التشغيل الرئيسي
# تشغيل المحلل الأساسي
python "|| التشغيل هنا ||.py"
# أو التشغيل الشامل (المحلل + التقرير التفاعلي)
python تشغيل_شامل.pyسيتم إنشاء مجلد نتائج_التحليل يحتوي على جميع النتائج:
نصوص_مُعالجة.txt- النصوص بعد التنظيفتقرير_التنظيف.txt- تقرير عملية التنظيف
جميع_الكلمات.txt- جميع الكلماتالكلمات_الفريدة.txt- الكلمات الفريدةتكرار_الكلمات.txt- تكرار كل كلمةطول_الكلمات.txt- طول كل كلمةإحصائيات_الكلمات.txt- إحصائيات شاملة
المركبات_الثنائية.txt- جميع المركبات الثنائيةالمركبات_الثلاثية.txt- جميع المركبات الثلاثيةتكرار_المركبات_الثنائية.txt- تكرار المركبات الثنائيةتكرار_المركبات_الثنائية.txt- تكرار المركبات الثلاثيةالمركبات_المختارة_تركيبياً.txt- المركبات المختارة بالمختار التركيبيإحصائيات_المركبات.txt- إحصائيات المركبات
الأسماء_والأعلام.txt- الأسماء والأعلام المستخرجةالدول_والمدن.txt- الدول والمدن المستخرجةالمؤسسات_والمنظمات.txt- المؤسسات والمنظماتالتواريخ_والأماكن.txt- التواريخ والأماكن
التقرير_النهائي.txt- تقرير شامل عن جميع العمليات
التقرير_التفاعلي_الشامل.html- تقرير تفاعلي شامل مع واجهة جميلة
محلل البيانات/
├── المحلل_الرئيسي.py # المحلل الرئيسي
├── معالج_النصوص.py # معالج النصوص
├── محلل_الكلمات.py # محلل الكلمات
├── محلل_المركبات.py # محلل المركبات
├── مستخرج_الكيانات.py # مستخرج الكيانات
├── منشئ_التقرير_التفاعلي.py # منشئ التقرير التفاعلي
├── تشغيل_شامل.py # ملف التشغيل الشامل
├── || التشغيل هنا ||.py # ملف التشغيل الأساسي
├── المدونة/ # مجلد ملفات النصوص
├── نتائج_التحليل/ # مجلد النتائج
└── README.md # هذا الملف
المحلل_الرئيسي.py: المحلل الرئيسي الذي ينسق جميع العملياتمعالج_النصوص.py: معالجة وتنظيف النصوصمحلل_الكلمات.py: تحليل الكلمات المفردةمحلل_المركبات.py: تحليل المركبات (Bigrams/Trigrams)مستخرج_الكيانات.py: استخراج الكيانات المسماةمنشئ_التقرير_التفاعلي.py: إنشاء التقارير التفاعلية
نرحب بمساهماتكم! يمكنك المساهمة من خلال:
- فتح issue للإبلاغ عن مشاكل أو اقتراح ميزات جديدة
- إرسال pull request لإضافة ميزات أو إصلاح أخطاء
- تحسين خوارزميات التحليل
- إضافة المزيد من قواعد البيانات للكيانات
هذا المشروع مرخص تحت MIT License - راجع ملف LICENSE للتفاصيل.
تم تطوير هذا المشروع بواسطة أيمن الطيّب بن نجي (ayzem88)
للاستفسارات أو المساهمة، يمكنك التواصل معي عبر:
- البريد الإلكتروني: aymen.nji@gmail.com
- جميع النتائج محفوظة في ملفات txt
- يمكن تعديل إعدادات المحلل في الملفات الرئيسية
- تأكد من وجود ملف
stop_words.txtلكلمات الإيقاف - يمكن إضافة أسماء ودول في ملفات قواعد البيانات
- إضافة واجهة رسومية (GUI)
- دعم المزيد من صيغ الملفات
- تحسين خوارزميات استخراج الكيانات
- إضافة المزيد من مقاييس التحليل
- دعم التحليل متعدد اللغات
An advanced tool for comprehensive analysis of Arabic texts with multiple linguistic and statistical analysis capabilities.
- Clean texts from symbols and numbers
- Remove diacritics and vowels
- Remove empty lines and extra spaces
- Advanced processing for Arabic texts
- Extract all words and unique words
- Calculate word frequency
- Analyze word length
- Comprehensive word statistics
- Extract bigrams and trigrams
- Calculate n-gram frequency
- Syntactic collocation analysis with:
- Association measures (PMI, T-score, Log-likelihood)
- Structure strength classification
- Contextual analysis
- Names and proper nouns
- Countries and cities
- Organizations and institutions
- Dates and places
- LDA model for topic extraction
- File classification by topics
- Topic statistics
- Comprehensive interactive HTML report
- Charts and visual statistics
- Beautiful user interface
- Clone the repository:
git clone https://github.com/ayzem88/data-analyzer.git
cd data-analyzer- Requirements:
- Python 3.6 or later
- No external libraries needed (uses standard libraries only)
data-analyzer/
├── المدونة/ # Place txt files here
├── stop_words.txt # Stop words file
├── الأعلام والشخصيات.txt # Names database
├── الدول والمدن.txt # Countries database
├── المنظمات والمؤسسات.txt # Organizations database
└── || التشغيل هنا ||.py # Main run file
# Run basic analyzer
python "|| التشغيل هنا ||.py"
# Or comprehensive run (analyzer + interactive report)
python تشغيل_شامل.pyA نتائج_التحليل folder will be created containing all results.
data-analyzer/
├── المحلل_الرئيسي.py # Main analyzer
├── معالج_النصوص.py # Text processor
├── محلل_الكلمات.py # Word analyzer
├── محلل_المركبات.py # N-gram analyzer
├── مستخرج_الكيانات.py # Entity extractor
├── منشئ_التقرير_التفاعلي.py # Interactive report generator
├── تشغيل_شامل.py # Comprehensive run file
├── || التشغيل هنا ||.py # Basic run file
├── المدونة/ # Text files folder
├── نتائج_التحليل/ # Results folder
└── README.md # This file
المحلل_الرئيسي.py: Main analyzer that coordinates all operationsمعالج_النصوص.py: Text processing and cleaningمحلل_الكلمات.py: Single word analysisمحلل_المركبات.py: N-gram analysis (Bigrams/Trigrams)مستخرج_الكيانات.py: Named entity extractionمنشئ_التقرير_التفاعلي.py: Interactive report generation
We welcome contributions! You can contribute by:
- Opening an issue to report problems or suggest new features
- Submitting a pull request to add features or fix bugs
- Improving analysis algorithms
- Adding more entity databases
This project is licensed under MIT License - see the LICENSE file for details.
Developed by Ayman Al-Tayyib Ben Naji (ayzem88)
For inquiries or contributions, you can contact me via:
- Email: aymen.nji@gmail.com
- All results are saved in txt files
- Analyzer settings can be modified in main files
- Make sure
stop_words.txtexists for stop words - Names and countries can be added to database files
- Add graphical user interface (GUI)
- Support for more file formats
- Improve entity extraction algorithms
- Add more analysis metrics
- Support for multilingual analysis