تكرار الحروف العربية

هذه المقالة يتيمة. ساعد بإضافة وصلة إليها في مقالة متعلقة بها
من ويكيبيديا، الموسوعة الحرة

تكرار الحروف العربية غالبًا ما تتم دراسة تكرار الحروف في النص لاستخدامها في تحليل الشفرات والتكرار بشكل خاص.

لا توجد لغة لها توزيع دقيق لتردد الحروف، حيث يكتب جميع الكتاب بشكل مختلف قليلاً. كقاعدة عامة، سيكون للنصوص بلغات مختلفة باستخدام النص العربي (مثل العربية والتركية العثمانية والفارسية والأردية) ترددات حروف مختلفة، وبشكل أكثر وضوحًا في حالة الحروف التي تستخدم فقط في بعض اللغات (مثل الحروف الفارسية پ وچ وگ غير مستخدمة للكتابة باللغة العربية).

تم ابتكار طرق ترميز الأحرف الأكثر تكرارًا مع أقصر الرموز بواسطة رموز التلغراف، وتستخدم في تقنيات ضغط البيانات الحديثة مثل تشفير هوفمان.

ما الذي يحسب في الكتابة العربية المدخلة؟[عدل]

الجدول (1): الحروف العربية التي يمكن إنتاجها باستخدام لوحة المفاتيح.
الجدول 1: الأبجدية العربية. الحروف من 1 إلى 28 هي الحروف الأساسية. الحروف 29 إلى 36 هي الحروف المعدلة.
الجدول 2: الأبجدية العربية، مع الحروف المعدلة مقطوعة على أشكالها الأولية.
توزيع تردد الحروف للحروف المحسوبة: يتم تصنيف بيانات المدرج التكراري على قيمة يونيكود
توزيع تردد الحروف للحروف المحسوبة: يتم تصنيف بيانات المدرج التكراري على التردد

تتكون الأبجدية العربية من 28 حرفًا أساسيًا، وهذه هي الأحرف من 1 إلى 28 الجدول رقم (1)، وتستخدم الأحرف الثمانية المعدلة المدرجة في المواضع من 29 إلى 36 في نفس الجدول. إذا تم دمج هذه الأشكال الثمانية المعدلة في القائمة الأولية بناءً على الشكل أو التشابه الصوتي، فستظهر النتيجة كما هو موضح في الجدول 2. للحصول على تحليل دقيق للتردد، يحصل كل من الـ 36 حرفًا من الجدول (1) على تواتر حسابه بشكل مستقل.

يعتبر ترتيب الحروف الأبجدية الموضحة في الجداول أكثر منطقية؛ مما يستخدمه معيار يونيكود.

الشكل 1: الأحرف العربية التي يمكن إنتاجها باستخدام لوحة مفاتيح الحروف العربية.

الجدول 1: الأبجدية العربية. الحروف من 1 إلى 28 هي الحروف الأساسية. الحروف 29 إلى 36 هي الحروف المعدلة.

الجدول 2: الأبجدية العربية، مع الحروف المعدلة مقطوعة على أشكالها الأولية.

توزيع تردد الحروف للحروف المحسوبة: يتم تصنيف بيانات المدرج التكراري على قيمة يونيكود.

توزيع تردد الحروف للحروف المحسوبة: يتم تصنيف بيانات المدرج التكراري على التردد

على الرغم من أن المجموعة الكاملة من الأحرف العربية تتضمن حوالي عشرة علامات التشكيل كما هو مبين في الشكل 1، إلا أن تحليل تردد الأحرف العربية معني فقط بحساب تكرار الحروف الأبجدية الموضحة في الجدول 2.

مصادر بأكثر من خمسة ملايين حرف[عدل]

يتم استخدام المصادر العربية الشهيرة التالية لتوليد كمية مقبولة من البيانات التي يتم إجراء إحصائيات التردد عليها.

  • المجلدات السبعة الأولى من سلسلة البداية والنهاية لابن كثير، من 2855 صفحة، تحتوي على 1096047 كلمة، تحتوي على 4326031 حرفا.
  • كتاب الرحيق المختوم[1] لـ المباركفوري، من 284 صفحة، تحتوي على 134662 كلمة، تحتوي على 553740 حرفا.
  • كتاب تحفة العروسين[2] للشوري، من 239 صفحة، تحتوي على 66550 كلمة، تحتوي على 242361 حرفًا.

مجتمعة، تبلغ هذه المصادر ما يصل إلى 3378 صفحة، فيها 1،297،259 كلمة و5،122،132 حرفًا.

توضح الرسوم البيانية التالية توزيع تردد الحروف للأحرف التي تم عدها؛ يوضح الشكل 2 بيانات الرسم البياني مرتبة على قيمة Unicode. يوضح الشكل 3 بيانات الرسم البياني مرتبة حسب التردد.

المراجع[عدل]

  1. ^ Almubarakfuri، Safiyyurrahman (2002). The Sealed Nectar. ISBN:978-1591440710. مؤرشف من الأصل في 2011-07-26. اطلع عليه بتاريخ 2011-01-24.
  2. ^ Ash-shuri، Majdi (c. 1900). Masterpiece of the Bride. مؤرشف من الأصل في 2021-02-14. اطلع عليه بتاريخ 2011-01-24.


وصلات خارجية[عدل]