Arabic Projects Ideas 3: Open Arabic Stemmer

Nowadays we have many great options to build your own search engines, either for your website, or for you own custom applications. to mention a few:

All of these search engine option works great for English language, and they have decent support for Arabic language thanks to Unicode and UTF-8, but unfortunately they still lack a the power of stemming that you will find in English language.

Stemming is the process for reducing inflected (or sometimes derived) words to their stem, base or root form – generally a written word form. The stem need not be identical to the morphological root of the word; it is usually sufficient that related words map to the same stem, even if this stem is not in itself a valid root.

http://en.wikipedia.org/wiki/Stemming

The idea is to build open stem engine for Arabic language, and port to different computer languages: C, C++, Java, C#, etc… so it can be easily used in all Arabic information retentival systems.

If you have an ideas to improve the initial idea please comment.

20 thoughts on “Arabic Projects Ideas 3: Open Arabic Stemmer”

  1. أعتقد أن مدينة الملك عبدالعزيز لديهم مشروع مماثل بالجافا لكن لا أعرف إن كان مفتوح المصدر أو لا..

    الفكرة جيدة وتستحق المتابعة 🙂

  2. الابحاث في هذا المجال لا تعد ولا تحصى، المشكلة انها لا تجد النور، ولا التطبيق الفعلي.

  3. Stemming is bit different than root extraction, e.g. with stemming when you search for “مسلمين” it will match “فالمسلمون” but it won’t match “مسلم” or “مسالم” which share the same root. This why stemming is more useful in my opinion.

  4. اللغة العربية حسب مافهمت اشتقاقية وليست لصقية وقائمة على الجذور وليست على السيقان مثل اللغة الانجليزية، حتى تصل لأن تكون “مسلم” “المسلمون” تعطي نفس النتائج يجب أن تحضر جذر كلمة مسلم وتبحث بواسطته في الاندكس الذي لديك

    لا أعرف إن كنت معك في نفس الفكرة التي تريدها أم لا لكن ما أعرفه أن اللغة العربية لاتحتوي على مفهوم الساق

  5. كلامك صحيح (اعتقد 🙂 ) لكن المقصود انك اذا كتبت كلمة “المسلمون في العصر العباسي”، لا تريد نتائج عن “مسلم عابس”، بمعنى آخر قد يكون البحث عن جميع الكلمات التي تتشارك بالجذر هو المطلوب لكنه نادر، وغالباً لا يعطي النتائج المرجوة.

    لكن الغالب لدى معظم الناس هو البحث عن كلمات تدل على نفس المعنى، بدون الرجوع الى الجذر (المسلمون = المسلمين = فمسلموا) كلها مشتقة من كلمة “مسلمون”.

  6. اعتقد أن بدأت أفهم ماتريد 🙂
    أنت تريد التخلص من الزوائد (السوابق واللواحق) وأعتقد أنها ليست بالمهمة الصعبة جدا خصوصا أن الزوائد التي تدخل على الكلمات العربية معروفة وأذكر أنها مجموعة في كلمة “سألتمونيها” أتمنى وصلت الصورة

    أحتاج لمزيد من البحث في الموضوع هل لديك مراجع على الويب حول حوسبة اللغة العربية؟

  7. بصراحة ليس لدي سوى جوجل، ولا اعتقد اني فاهم طريقة الحل الى الآن فربما ليست افضل طريقة، انا فاهم المشكلة بس 🙂

  8. على فكرة انا مشروعى بيتكلم عن كدة بردة وانا والحمد للة قدرت اوصل لجزر الكلمة واذا كانت مفرد ولا جمع واذا كانت مضارع او ماضى او امر واذا كانت مزكر او مؤنث وقدرت اضع الاثاث وبلغة بسيطة ذى ال visual basic بس المشكلة انى عاوز محرك للصوت العربى لو فى حد ممكن يفيدنى فى الموضوع دة او عاوز اى مساعدة فى حكاية العربى دى ايميلى اهه
    mady_aziz2000@yahoo.com

  9. Hello Rayed,

    A very respectable idea.

    We actually did some descent research on stemming of Arabic word as a part of our B.Sc. theses on Arabic information retrieval.
    Our results showed that we achieved the same clustering/retrieval quality achieved by renowned Arabic stemmers, but with much less stems which alleviates computationally-demanding indexing methods.

    If this project is to stand on its feet we will be glad to provide you with the algorithm and scientific support.

    Thumbs up 🙂

    Ammar

  10. السلام عليكم ورحمة الله وبركاته
    do you have any idea about these tools which is for stemming :
    1)Elixir
    2)Khodja
    I have to implement with it and write about it but I couldn’t find somthing ..

    Thanks

  11. Thank you forthe replay but no ,, the Teacher just told us these names maybe I should get some clarifications..

  12. انا طالب ماجستير علم حاسوب وهذه الفكرة هي جزء من النظام اللذي اقوم ببنائه اذا كانت لديك النية للتعاون الرجاء الرد

Leave a Reply

Your email address will not be published. Required fields are marked *