احتمال مسبق

التوزيع الاحتمالي المسبق لكمية غير مؤكدة، غالبًا ما يسمى ببساطة السابق، هو التوزيع الاحتمالي المفترض قبل أخذ بعض الأدلة في الاعتبار. على سبيل المثال، يمكن أن يكون المسبق هو التوزيع الاحتمالي الذي يمثل النسب النسبية للناخبين الذين سيصوتون لسياسي معين في الانتخابات المقبلة. قد تكون الكمية المجهولة معلمة للنموذج أو متغيرًا كامنًا وليس متغيرًا يمكن ملاحظته.

في الإحصاءات البايزية، تنص قاعدة بايز على كيفية تحديث المعلومات السابقة للحصول على التوزيع الاحتمالي الخلفي، وهو التوزيع المشروط للكمية غير المؤكدة في ضوء بيانات جديدة. تاريخيًا، كان اختيار القساوسة المهتمين بالرياضيات في كثير من الأحيان مقيدًا بعائلة مترافقة ذات وظيفة احتمالية معينة، لأن ذلك قد يؤدي إلى خلفية سهلة المنال من نفس العائلة. ومع ذلك، فإن التوافر الواسع النطاق لطرق ماركوف مونت كارلو جعل هذا الأمر أقل إثارة للقلق.

هناك طرق عديدة لبناء التوزيع المسبق.^[1] في بعض الحالات، يمكن تحديد سلائف من المعلومات السابقة، مثل التجارب السابقة. يمكن أيضًا استنباط سابقة من التقييم الشخصي البحت لخبير ذي خبرة.^[2]^[3] عندما لا تتوفر معلومات، يمكن اعتماد سابقة غير معلوماتية على النحو الذي يبرره مبدأ اللامبالاة .^[4]^[5] في التطبيقات الحديثة، غالبًا ما يتم الاختيار على اساس الخصائص الميكانيكية لنظام ما، مثل التنظيم واختيار الميزات .^[6]^[7]^[8]

غالبًا ما تعتمد التوزيعات الأولية لمعلمات النموذج على معلمات خاصة بها. يمكن بدوره، التعبير عن عدم اليقين بشأن هذه المعلمات الفائقة على أنها توزيعات احتمالية فائقة الأولوية. على سبيل المثال، إذا استخدم أحد توزيع بيتا لنمذجة توزيع المعلمة p لتوزيع برنولي، فعندئذٍ:

p هي معلمة للنظام الأساسي (توزيع برنولي).
α و β هما معلمتان للتوزيع الأولي (توزيع بيتا)؛ وبالتالي هي "معلمات مفرطة".

مسبقات معلوماتية

تعبر المعلومات المسبقة عن معلومات محددة ومحددة حول متغير. ومن الأمثلة على ذلك التوزيع المسبق لدرجة الحرارة عند وقت الظهر في الغد. النهج المعقول هو جعل التوزيع الطبيعي السابق بقيمة متوقعة مساوية لدرجة حرارة الظهيرة اليوم، مع تباين يساوي التباين اليومي لدرجة حرارة الغلاف الجوي، أو توزيع درجة الحرارة لذلك اليوم من العام.

يحتوي هذا المثال على خاصية مشتركة مع العديد من الأقدمية، وهي أن الجزء التالي من مشكلة واحدة (درجة حرارة اليوم) يصبح السابق لمشكلة أخرى (درجة حرارة الغد)؛ الدليل الموجود مسبقًا والذي تم أخذه في الاعتبار بالفعل هو جزء من الدليل السابق، ومع تراكم المزيد من الأدلة، يتم تحديد الدليل اللاحق إلى حد كبير من خلال الدليل بدلاً من أي افتراض أصلي، بشرط أن يكون الافتراض الأصلي قد اعترف بإمكانية ماهية الدليل في الاقتراح. يرتبط المصطلحان "السابق" و"الخلفي" أو "اللاحق" عمومًا بمسند أو ملاحظة محددة.

سابقة قوية

المسبق القوي هو افتراض أو نظرية أو مفهوم أو فكرة سابقة والتي، بعد أخذ المعلومات الجديدة في الاعتبار، يتم تأسيس افتراض أو نظرية أو مفهوم أو فكرة حالية.^{[بحاجة لمصدر]} المسبق القوي هو نوع من المعلومات السابقة التي تهيمن فيها المعلومات الواردة في التوزيع السابق على المعلومات الواردة في البيانات التي يتم تحليلها. يجمع التحليل البايزي المعلومات الواردة في المعلومات السابقة مع تلك المستخرجة من البيانات لإنتاج التوزيع اللاحق الذي، في حالة "المسبق القوي"، لن يتغير كثيرًا عن التوزيع السابق.

مسبقات معلوماتية ضعيفة

تــٌعبر المعلومات المسبقة الضعيفة عن معلومات جزئية حول متغير ما، وتوجيه التحليل نحو الحلول التي تتماشى مع المعرفة الحالية دون تقييد النتائج بشكل مفرط ومنع التقديرات المتطرفة. ومن الأمثلة على ذلك، عند تعيين التوزيع المسبق لدرجة الحرارة عند الظهر غدًا في سانت لويس، استخدام التوزيع الطبيعي بمتوسط 50 درجة فهرنهايت وانحراف معياري 40 درجة، وهو ما يقيد درجة الحرارة بشكل فضفاض للغاية إلى النطاق ( بين 10 درجات و 90 درجة فهرنهايت ). مع احتمال ضئيل أن تكون أقل من -30 درجة أو أعلى من 130 درجة. الغرض من المعلومات المسبقة الضعيفة هو التنظيم، أي الحفاظ على الاستدلالات في نطاق معقول.

مسبقات غير معلوماتية

تعبر المسبقة غير المعلوماتية أو المسطحة أو المنتشرة عن معلومات غامضة أو عامة حول متغير.^[9] مصطلح "مسبق غير معلوماتي" هو تسمية خاطئة إلى حد ما. مثل هذه المسبقة يمكن أن تسمى أيضًا سابقة غير غنية بالمعلومات، أو سابقة موضوعية، أي أنها لم يتم استنباطها بشكل واقعي.

يمكن للمسبقين غير المعلوماتيين التعبير عن معلومات "موضوعية" مثل "المتغير إيجابي" أو "متغير أقل من بعض الحدود". أبسط وأقدم قاعدة لتحديد سابقة غير إعلامية هو مبدأ اللامبالاة، الذي يعين احتمالات متساوية لجميع الاحتمالات. في مشاكل تقدير المعلمات، يؤدي استخدام سابقة غير معلوماتية عادةً إلى نتائج لا تختلف كثيرًا عن التحليل الإحصائي التقليدي، حيث أن دالة الاحتمال غالبًا ما تنتج معلومات أكثر من السابقة غير المعلوماتية.

تم إجراء بعض المحاولات لإيجاد احتمالات مسبقة، أي توزيعات احتمالية بمعنى ما تتطلبها طبيعة حالة عدم اليقين؛ هذه موضوع جدل فلسفي، حيث ينقسم البايزيون تقريبًا إلى مدرستين: "البايزيون الموضوعيون"، الذين يعتقدون أن مثل هؤلاء الدارسون موجودون في العديد من المواقف المفيدة، و"البايزيون الذاتيون" الذين يعتقدون أنه في الممارسة العملية عادةً ما يمثل أحكامًا ذاتية للرأي لا يمكن تبريرها بشكل صارم (ويليامسون 2010). ولعل أقوى الحجج لصالح البايزية الموضوعية قدمها إدوين ت. جاينس، والتي استندت بشكل أساسي إلى عواقب التماثلات (عواقب التناظرات) وعلى مبدأ الإنتروبيا القصوى.

كمثال على بداهة مسبقة، ترجع إلى" جاينس" Jaynes (2003)، فقد فكر في موقف يعرف فيه المرء أن الكرة كانت مخبأة تحت واحد من ثلاثة أكواب، A أو B أو C، ولكن لا توجد معلومات أخرى متاحة حول موقعها. في هذه الحالة المسبقة المتساوية : ص ( A ) = ع ( ب ) = ص ( ج ) = 1/3 يبدو بديهيًا أنه الخيار المعقول الوحيد. وبشكل أكثر واقعية، يمكننا أن نرى أن المشكلة تظل كما هي إذا قمنا بتبديل المعلمات ("A" و"B" و"C") الخاصة بالأكواب. لذلك سيكون من الغريب اختيار مسبق يؤدي فيها تبديل التسميات إلى تغيير في توقعاتنا حول الكأس الذي سيتم العثور على الكرة تحته؛ والمسبق المتساوي السابق هو الوحيد الذي يحافظ على هذا الثبات (عدم التغير). إذا قبل المرء مبدأ الثبات هذا، فيمكن للمرء أن يرى أن الشكل السابق هو الصحيح منطقيًا الذي يسبق تمثيل هذه الحالة من المعرفة. تعتبر هذه المقدمة "موضوعية" بمعنى كونها الاختيار الصحيح لتمثيل حالة معينة من المعرفة، ولكنها ليست موضوعية بمعنى كونها سمة مستقلة عن المراقب العام: في الواقع، توجد الكرة تحت كوب معين. ومن المنطقي التحدث عن الاحتمالات في هذه الحالة فقط إذا كان هناك مراقب ذو معرفة محدودة بالنظام.^[10]

كمثال أكثر إثارة للجدل، نشر "جاينيز " حجة تعتمد على ثبات السابق في ظل تغيير المعلمات التي تشير إلى أن المسبق الذي يمثل عدم اليقين الكامل حول الاحتمال يجب أن يكون هالدين السابق p⁻¹ (1 − p )⁻¹ .^[11] المثال الذي قدمه جاينيس هو العثور على مادة كيميائية في المختبر والسؤال عما إذا كانت ستذوب في الماء في تجارب متكررة. الهالدين السابق ^[12] يعطي الوزن الأكبر إلى حد بعيد $p=0$ و $p=1$ مما يشير إلى أن العينة إما ستذوب في كل مرة أو لن تذوب أبدًا، باحتمال متساوٍ. ومع ذلك، إذا لاحظ أحد عينات المادة الكيميائية تذوب في تجربة واحدة ولا تذوب في تجربة أخرى، فسيتم تحديث هذا المسبق إلى التوزيع الموحد في الفاصل الزمني [0، 1]. يتم الحصول على ذلك من خلال تطبيق نظرية بايز على مجموعة البيانات التي تتكون من مشاهدة واحدة للذوبان وأخرى لعدم الذوبان، باستخدام ما ورد أعلاه. الهالدين السابق Haldane prior هو توزيع سابق غير صحيح (بمعنى أنه يحتوي على كتلة لا نهائية). ابتكر هارولد جيفريز طريقة منهجية لتصميم مقدمات غير معلوماتية، على سبيل المثال، جيفريز السابق p^−1/2 (1 − p )^−1/2 لمتغير برنولي العشوائي.

حيث p هي الإحتمال probability.

يمكن إنشاء المسبقيات التي تتناسب مع مقياس هار إذا كانت مساحة المعلمة X تحمل بنية مجموعة طبيعية مما يترك حالتنا المعرفية البايزية ثابتة.^[13] يمكن اعتبار ذلك بمثابة تعميم لمبدأ الثبات (الاستقرار) المستخدم لتبرير النمط الرسمي السابق على الكؤوس الثلاثة في المثال أعلاه. على سبيل المثال، في الفيزياء قد نتوقع أن تعطي التجربة نفس النتائج بغض النظر عن اختيارنا لأصل نظام الإحداثيات. يؤدي هذا إلى إنشاء بنية المجموعة لمجموعة الانتقال على X، والتي تحدد الاحتمال السابق باعتباره ثابت مسبق غير صحيح. وبالمثل، فإن بعض القياسات تكون ثابتة بشكل طبيعي عند اختيار مقياس عشوائي (على سبيل المثال، سواء تم استخدام السنتيمترات أو البوصات، يجب أن تكون النتائج المادية متساوية). في مثل هذه الحالة، مجموعة المقياس هي بنية المجموعة الطبيعية، والمسبق المقابل لــ X يتناسب مع 1/ x . من المهم في بعض الأحيان أن نستخدم مقياس هار الثابت لليسار أو لليمين الثابت. على سبيل المثال، قياسات هار الثابتة اليسرى واليمنى على المجموعة المتقاربة ليست متساوية. بيرغر (1985، ص. 413) يرى أن مقياس هار الصحيح (الثابت) هو الاختيار الصحيح.

هناك فكرة أخرى، يؤيدها إدوين تي جاينز، وهي استخدام مبدأ الإنتروبيا القصوى (MAXENT). الدافع هو أن إنتروبيا شانون للتوزيع الاحتمالي تقيس كمية المعلومات الموجودة في التوزيع. كلما زادت الإنتروبيا، قلّت المعلومات التي يوفرها التوزيع. وبالتالي، من خلال تعظيم الإنتروبيا على مجموعة مناسبة من التوزيعات الاحتمالية على X، يجد المرء التوزيع الأقل إفادة، بمعنى أنه يحتوي على أقل قدر من المعلومات المتوافقة مع القيود التي تحدد المجموعة. على سبيل المثال، الحد الأقصى للإنتروبيا السابقة في مساحة منفصلة، بشرط أن يتم تطبيع الاحتمال إلى 1 (بمعنى احتمال 100%)، هو السابق الذي يعين احتمالًا متساويًا لكل حالة. وفي الحالة المستمرة، يكون الحد الأقصى للإنتروبيا السابقة - مع العلم أن الكثافة طبيعية بمتوسط صفر ووحدة تباين هو التوزيع الطبيعي القياسي. يعمل مبدأ الحد الأدنى من الإنتروبيا المتقاطعة على تعميم MAXENT على حالة "تحديث" التوزيع المسبق عشوائي في ظل قيود مناسبة في حالة أقصى للإنتروبيا.

فكرة ذات صلة، مرجعية سابقة، تم تقديمها بواسطة خوسيه ميغيل برناردو. الفكرة هنا هي تعظيم انحراف كولباك-ليبلر المتوقع للتوزيع اللاحق بالنسبة إلى التوزيع السابق. يؤدي هذا إلى تعظيم المعلومات الخلفية المتوقعة حول X عندما تكون الكثافة السابقة للاحتمال p( x )؛ وبالتالي، إلى حد ما

تكون p ( x ) هي "الأقل معلوماتية" مسبق قبل X. يتم تعريف المرجع المسبق في الحد المقارب بعد المد، أي أن المرء يأخذ في الاعتبار حد المقدمات التي تم الحصول عليها بحيث يصل عدد نقاط البيانات إلى ما لا نهاية. في الحالة الحالية، يتم تحديد التباعد KL بين التوزيعات السابقة واللاحقة بواسطة المعادلة : $KL=\int p(t)\int p(x\mid t)\log {\frac {p(x\mid t)}{p(x)}}\,dx\,dt$

هنا تعني $t$ : هي إحصائية كافية لبعض المعلمات $x$ . التكامل الداخلي هو تباعد KL بين الجزء اللاحق $p(x\mid t)$ والمسبق $p(x)$ التوزيعات، والنتيجة هي المتوسط المرجح على جميع قيم $t$ . تقسيم اللوغاريتم إلى قسمين، وعكس ترتيب التكاملات في الجزء الثاني مع ملاحظة أن $\log \,[p(x)]$ لا يعتمد على عائدات $t$ :

$KL=\int p(t)\int p(x\mid t)\log[p(x\mid t)]\,dx\,dt\,-\,\int \log[p(x)]\,\int p(t)p(x\mid t)\,dt\,dx$

التكامل الداخلي في الجزء الثاني هو التكامل انتهى $t$ من كثافة المفاصل $p(x,t)$ . هذا هو التوزيع الهامشي $p(x)$ ، اذا لدينا $KL=\int p(t)\int p(x\mid t)\log[p(x\mid t)]\,dx\,dt\,-\,\int p(x)\log[p(x)]\,dx$

نستخدم الآن مفهوم الإنتروبيا والذي في حالة التوزيعات الاحتمالية - هو القيمة السلبية المتوقعة للوغاريتم الكتلة الاحتمالية أو لدالة الكثافة أو ${\textstyle H(x)=-\int p(x)\log[p(x)]\,dx.}$

استخدام هذا في المعادلة الأخيرة ينتج عنه: $KL=-\int p(t)H(x\mid t)\,dt+\,H(x)$

يعد هذا تباعدًا شبه KL ("شبه" بمعنى أن الجذر التربيعي لمعلومات فيشر قد يكون نواة التوزيع غير الصحيح). نظرًا لعلامة الطرح، نحتاج إلى تقليل ذلك من أجل تعظيم تباعد KL الذي بدأنا به. الحد الأدنى لقيمة المعادلة الأخيرة يحدث عندما لا يتباعد التوزيعان في وسيطة اللوغاريتم، سواء كانا غير صحيحين أم لا. ويحدث هذا بدوره عندما يتناسب التوزيع السابق مع الجذر التربيعي لمعلومات فيشر الخاصة بوظيفة الاحتمالية. ومن ثم، في حالة المعلمة الواحدة، يكون الأقدمون المرجعيون وأتباع جيفريز متطابقين، على الرغم من أن لدى جيفريز أساسًا منطقيًا مختلفًا تمامًا.

غالبًا ما تكون المقدمات المرجعية هي الهدف المسبق للاختيار في المسائل متعددة المتغيرات، حيث أن القواعد الأخرى (على سبيل المثال، قاعدة جيفريز ) قد تؤدي إلى سلوكيات إشكالية. ^{[ <span title="The text near this tag may need clarification or removal of jargon. (September 2015)">مطلوب التوضيح</span> هل يرتبط جيفريز السابق باختلاف KL؟ ]}

يمكن أيضًا استخلاص التوزيعات الموضوعية المسبقة من مبادئ أخرى، مثل المعلومات أو نظرية التشفير (انظر على سبيل المثال الحد الأدنى لطول الوصف ) أو الإحصائيات المتكررة (ما يسمى بمطابقة الاحتمالات السابقة ).^[14] تُستخدم مثل هذه الأساليب في نظرية سولومونوف للاستدلال الاستقرائي. لقد تم مؤخرًا إدخال بناء الكهنوت الموضوعي في المعلوماتية الحيوية، وخاصة الاستدلال في بيولوجيا أنظمة السرطان، حيث يكون حجم العينة محدودًا ويتوفر قدر كبير من المعرفة المسبقة. في هذه الطرق، إما معيار يعتمد على نظرية المعلومات، مثل تباعد KL أو دالة احتمالية السجل لمشكلات التعلم الخاضعة للإشراف الثنائي ^[15] ومشكلات نموذج الخليط.^[16]

ترتبط المشكلات الفلسفية المرتبطة بالمسبقين غير المعلوماتيين باختيار المقياس المتري أو باختيار مقياس مناسب آخر. لنفترض أننا نريد مسبق لسرعة الجري لعداء غير معروف لنا. يمكننا، على سبيل المثال، تحديد توزيع طبيعي سابق لسرعته باعتباره التوزيع المسبق، ولكن يمكننا بدلاً من ذلك تحديد توزيع طبيعي مسبق للزمن الذي يستغرقه لإكمال مسافة 100 متر، والذي يتناسب مع مقلوب التوزيع السابق الأول. هذه سابقات مختلفة تمامًا، لكن ليس من الواضح ما هو المفضل. يمكن لطريقة جاينز في تحويل المجموعات أن تجيب على هذا السؤال في بعض الحالات .^[17]

وبالمثل، إذا طُلب منا تقدير نسبة غير معروفة بين 0 و1، فقد نقول إن جميع النسب متساوية في الاحتمال، ونستخدم مسبق موحد. بدلًا من ذلك، قد نقول إن جميع رتب النسبة متساوية في الاحتمال، أي مٌسبق لوغاريتمي logarithmic prior، وهو النمط السابق على لوغاريتم التناسب. يحاول المسبق لدى Jeffreys حل هذه المشكلة عن طريق حساب مسبق تيبر عن نفس الاعتقاد بغض النظر عن المقياس المستخدم. إن "مسبق جيفريز " لنسبة غير معروفة p هو ص ^−1/2 (1 − p ) ^−1/2 ، والذي يختلف عن ما يتطلبه جاينز.

يتم استخدام الأسبقية المستندة إلى مفاهيم الاحتمالية الخوارزمية في الاستدلال الاستقرائي كأساس للاستقراء في التوزيعات العامة جدًا.

تتضمن المشكلات العملية المرتبطة بالمسبقين غير المعلوماتيين اشتراط أن يكون التوزيع اللاحق مناسبًا. إن المسبقات المعتادة غير الدقيقة عن المتغيرات المستمرة غير المحدودة غير مناسبة. لا ينبغي أن يكون هذا مشكلة إذا كان التوزيع اللاحق مناسبًا. هناك مسألة أخرى ذات أهمية وهي أنه إذا تم استخدام مسبقة غير معلوماتية بشكل روتيني، أي مع العديد من مجموعات البيانات المختلفة، فيجب أن تتمتع بخصائص متكررة جيدة. عادة لا يهتم بايزي بمثل هذه القضايا، لكنه قد يكون مهمًا في هذه الحالة. على سبيل المثال، قد يرغب المرء في أن تكون أي قاعدة قرار تعتمد على التوزيع اللاحق مقبولة بموجب دالة الخسارة المعتمدة. لسوء الحظ، غالبًا ما يكون من الصعب التحقق من المقبولية، على الرغم من أن بعض النتائج معروفة (على سبيل المثال، Berger and Strawderman 1996). وهذه القضية مهمة بشكل خاص مع نماذج بايز الهرمية. قد يعطي المسبقون المعتادون (على سبيل المثال، أسبقية جيفريز) قواعد قرار غير مقبولة تماما إذا تم استخدامهم في المستويات الأعلى في التسلسل الهرمي.

مسبقات غير لائقة

دع الأحداث $A_{1},A_{2},\ldots ,A_{n}$ أن تكون حصرية وشاملة. إذا تمت كتابة نظرية بايز بالطريقة التالية : $P(A_{i}\mid B)={\frac {P(B\mid A_{i})P(A_{i})}{\sum _{j}P(B\mid A_{j})P(A_{j})}}\,,$ فمن الواضح أنه سيتم الحصول على نفس النتيجة إذا تم ضرب جميع الاحتمالات السابقة P( A _i ) و P( A _j ) بثابت معين؛ وينطبق الشيء نفسه على المتغير العشوائي المستمر . إذا كان الجمع في المقام متقاربًا، فإن الاحتمالات الخلفية (اللاحقة) ستظل مجموعها (أو تتكامل) إلى 1، حتى لو لم تكن القيم السابقة متقاربة، وبالتالي قد تحتاج القيم السابقة فقط إلى التحديد بالتناسب الصحيح. وبأخذ هذه الفكرة أبعد من ذلك - في كثير من الحالات - قد لا يحتاج مجموع أو تكامل القيم السابقة إلى أن يكون محدودًا للحصول على إجابات معقولة للاحتمالات اللاحقة. في هذه الحالة، يُطلق على المسبق اسم " سابق غير مناسب" . ومع ذلك، لا يلزم أن يكون التوزيع اللاحق توزيعًا مناسبًا إذا كان التوزيع السابق غير مناسب.^[18] وهذا واضح من الحالة التي يكون فيها الحدث B مستقلاً عن كل الأحداث A_j .

يستخدم الإحصائيون في بعض الأحيان مسبقات غير لائقة باعتبارها مقدمات غير معلوماتية (مسبقات غير معلوماتية) .^[19] على سبيل المثال، إذا كانوا بحاجة إلى توزيع مسبق لمتوسط وتباين متغير عشوائي، فقد يفترضون p(m, v) ~ 1/v لـ (for v > 0) مما يشير إلى أن أي قيمة للمتوسط "محتملة بالتساوي" وأن قيمة التباين الإيجابي تصبح "أقل احتمالية" في نسبة عكسية إلى قيمتها. العديد من المؤلفين (ليندلي، 1973؛ دي جروت، 1937؛ كاس وفاسرمان، 1996)^{[بحاجة لمصدر]}</link> يحذر من خطر الإفراط في تفسير تلك المسبقات لأنهم ليسوا كثافات احتمالية. الأهمية الوحيدة لها موجودة في الخلفية المقابلة، طالما أنها محددة جيدًا لجميع المشاهدات .إن "مسبق هالدين " هالدين السابق هو مثال مضاد نموذجي. ^{[بحاجة لمصدر]}</link> )

على النقيض من ذلك، لا تحتاج دوال الاحتمال إلى التكامل، ودالة الاحتمال التي تكون موحدة 1 تتوافق مع غياب البيانات (جميع النماذج متساوية في الاحتمال، في حالة عدم وجود بيانات): قاعدة بايز تضرب الرقم السابق في الاحتمالية، و المنتج الفارغ هو مجرد احتمال ثابت 1. ومع ذلك، دون البدء بتوزيع احتمالي سابق، لا ينتهي الأمر بالحصول على توزيع احتمالي لاحق، وبالتالي لا يمكن دمج أو حساب القيم أو حساب الخسارة المتوقعة. انظر دالة الإمكان § Non-integrability للحصول على التفاصيل.

أمثلة

من أمثلة السوابق (مسبقات) غير اللائقة ما يلي:

التوزيع الموحد المتساوي خلال فترة لا نهائية (أي نصف خط أو الخط الحقيقي بأكمله).
Beta(0,0)، توزيع بيتا لـ α = 0، β = 0 (التوزيع الموحد على مقياس احتمالات السجل ).
المسبق اللوغاريتمي على القيم الإيجابية (التوزيع الموحد على مقياس السجل ).

يمكن أيضًا تفسير هذه الدالات، التي يتم تفسيرها على أنها توزيعات موحدة، على أنها دالة الاحتمالية في غياب البيانات، ولكنها ليست دالات مسبقة مناسبة.

الاحتمالية المسبقة في الميكانيكا الإحصائية

بينما في الإحصائيات البايزية يتم استخدام الاحتمال المسبق لتمثيل المعتقدات الأولية حول معلمة parameter غير مؤكدة، في الميكانيكا الإحصائية يتم استخدام الاحتمال المسبق لوصف الحالة الأولية للنظام.^[20] يتم تعريف النسخة الكلاسيكية على أنها نسبة عدد الأحداث الأولية (على سبيل المثال، عدد مرات رمي حجر النرد) إلى العدد الإجمالي للأحداث - ويتم النظر فيها بشكل استنتاجي بحت، أي دون أي تجربة. في حالة حجر النرد، إذا نظرنا إليه على الطاولة دون رميه، فسيتم تفسير كل حدث أولي بشكل استنتاجي ليكون له نفس الاحتمال - وبالتالي احتمال كل نتيجة لرمي وهمي للنرد (الكامل) أو ببساطة عن طريق العد عدد الوجوه هو 1/6. يظهر كل وجه من وجوه حجر النرد باحتمال متساوٍ، والاحتمال هو مقياس محدد لكل حدث أولي. وتختلف النتيجة إذا رمينا النرد عشرين مرة وسألنا كم مرة (من أصل 20) ظهر الرقم 6 على الوجه العلوي. في هذه الحالة، يأتي دور الوقت ولدينا نوع مختلف من الاحتمالات اعتمادًا على الوقت أو عدد مرات رمي حجر النرد. من ناحية أخرى، فإن الاحتمال المسبق (الأولي) لا يعتمد على الزمن، حيث يمكنك النظر إلى حجر النرد الموجود على الطاولة طالما شئت دون لمسه، وتستنتج أن احتمال ظهور الرقم 6 على الوجه العلوي هو 1/6.

وفي نظرية الكم الكاملة، يوجد قانون حفظ مماثل. في هذه الحالة، يتم استبدال منطقة فضاء الطور بمساحة فرعية من فضاء الحالات معبرًا عنها بمشغل الإسقاط $P$ ، وبدلاً من الاحتمال في مساحة الطور، لدينا كثافة الاحتمال $\Sigma :={\frac {P}{{\text{Tr}}(P)}},\;\;\;N={\text{Tr}}(P)=\mathrm {const.} ,$ حيث $N$ هي أبعاد الفضاء الفرعي. يتم التعبير عن قانون الانحفاظ في هذه الحالة من خلال وحدة المصفوفة S. وفي كلتا الحالتين، تفترض الاعتبارات وجود نظام مغلق معزول. هذا النظام المغلق المعزول هو نظام ذو (1) طاقة ثابتة $E$ و (2) عدد ثابت من الجزيئات $N$ في حالة التوازن(ج) . إذا نظر المرء في عدد كبير من النسخ المتماثلة لهذا النظام، فإنه يحصل على ما يسمى بالمجموعة القانونية الدقيقة . بالنسبة لهذا النظام، يفترض المرء في إحصائيات الكم "المسلمة الأساسية للاحتمالات المسبقة المتساوية لنظام معزول". وهذا يعني أن النظام المعزول في حالة التوازن يشغل كل حالة من حالاته التي يمكن الوصول إليها بنفس الاحتمال. وبالتالي فإن هذه الفرضية الأساسية تسمح لنا بمساواة الاحتمال المسبق بتحلل (اضمحلال) النظام، أي بعدد الحالات المختلفة التي لها نفس الطاقة.

مثال

يوضح المثال التالي الاحتمالية المسبقة (أو الترجيح المسبق) في (أ) الطريقة الكلاسيكية و(ب) ميكانيكا الكم.

Classical a priori probability
Consider the rotational energy E of a diatomic molecule with moment of inertia I in spherical polar coordinates $\theta ,\phi$ (this means $q$ above is here $\theta ,\phi$ ), i.e. $E={\frac {1}{2I}}\left(p_{\theta }^{2}+{\frac {p_{\phi }^{2}}{\sin ^{2}\theta }}\right).$ The $(p_{\theta },p_{\phi })$ -curve for constant E and $\theta$ is an ellipse of area $\oint dp_{\theta }dp_{\phi }=\pi {\sqrt {2IE}}{\sqrt {2IE}}\sin \theta =2\pi IE\sin \theta .$ By integrating over $\theta$ and $\phi$ the total volume of phase space covered for constant energy E is $\int _{0}^{\phi =2\pi }\int _{0}^{\theta =\pi }2I\pi E\sin \theta d\theta d\phi =8\pi ^{2}IE=\oint dp_{\theta }dp_{\phi }d\theta d\phi ,$ and hence the classical a priori weighting in the energy range $dE$ is

$\Omega \propto$ (phase space volume at $E+dE$ ) minus (phase space volume at $E$ ) is given by $8{\pi }^{2}IdE.$
Quantum a priori probability
Assuming that the number of quantum states in a range $\Delta q\Delta p$ for each direction of motion is given, per element, by a factor $\Delta q\Delta p/h$ , the number of states in the energy range dE is, as seen under (a) $8\pi ^{2}IdE/h^{2}$ for the rotating diatomic molecule. From wave mechanics it is known that the energy levels of a rotating diatomic molecule are given by $E_{n}={\frac {n(n+1)h^{2}}{8\pi ^{2}I}},$ each such level being (2n+1)-fold degenerate. By evaluating $dn/dE_{n}=1/(dE_{n}/dn)$ one obtains ${\frac {dn}{dE_{n}}}={\frac {8\pi ^{2}I}{(2n+1)h^{2}}},\;\;\;(2n+1)dn={\frac {8\pi ^{2}I}{h^{2}}}dE_{n}.$ Thus by comparison with $\Omega$ above, one finds that the approximate number of states in the range dE is given by the degeneracy, i.e. $\Sigma \propto (2n+1)dn.$ Thus the a priori weighting in the classical context (a) corresponds to the a priori weighting here in the quantal context (b). In the case of the one-dimensional simple harmonic oscillator of natural frequency $\nu$ one finds correspondingly: (a) $\Omega \propto dE/\nu$ , and (b) $\Sigma \propto dn$ (no degeneracy). Thus in quantum mechanics the a priori probability is effectively a measure of the degeneracy, i.e. the number of states having the same energy.
In the case of the hydrogen atom or Coulomb potential (where the evaluation of the phase space volume for constant energy is more complicated) one knows that the quantum mechanical degeneracy is $n^{2}$ with $E\propto 1/n^{2}$ . Thus in this case $\Sigma \propto n^{2}dn$ .

أنظر أيضًا

مغالطة المعدل الأساسي

المراجع

^ Robert، Christian (1994). "From Prior Information to Prior Distributions". The Bayesian Choice. New York: Springer. ص. 89–136. ISBN:0-387-94296-3.
^ Chaloner، Kathryn (1996). "Elicitation of Prior Distributions". في Berry، Donald A.؛ Stangl، Dalene (المحررون). Bayesian Biostatistics. New York: Marcel Dekker. ص. 141–156. ISBN:0-8247-9334-X.
^ Mikkola، Petrus؛ وآخرون (2023). "Prior Knowledge Elicitation: The Past, Present, and Future". Bayesian Analysis. Forthcoming. DOI:10.1214/23-BA1381. hdl:11336/183197. S2CID:244798734.
^ Zellner، Arnold (1971). "Prior Distributions to Represent 'Knowing Little'". An Introduction to Bayesian Inference in Econometrics. New York: John Wiley & Sons. ص. 41–53. ISBN:0-471-98165-6.
^ Price، Harold J.؛ Manson، Allison R. (2001). "Uninformative priors for Bayes' theorem". AIP Conf. Proc. ج. 617: 379–391. DOI:10.1063/1.1477060.
^ Piironen، Juho؛ Vehtari، Aki (2017). "Sparsity information and regularization in the horseshoe and other shrinkage priors". Electronic Journal of Statistics. ج. 11 ع. 2: 5018–5051. arXiv:1707.01694. DOI:10.1214/17-EJS1337SI.
^ Simpson، Daniel؛ وآخرون (2017). "Penalising Model Component Complexity: A Principled, Practical Approach to Constructing Priors". Statistical Science. ج. 32 ع. 1: 1–28. arXiv:1403.4630. DOI:10.1214/16-STS576. S2CID:88513041.
^ Fortuin، Vincent (2022). "Priors in Bayesian Deep Learning: A Review". International Statistical Review. ج. 90 ع. 3: 563–591. DOI:10.1111/insr.12502. hdl:20.500.11850/547969. S2CID:234681651.
^ Zellner، Arnold (1971). "Prior Distributions to Represent 'Knowing Little'". An Introduction to Bayesian Inference in Econometrics. New York: John Wiley & Sons. ص. 41–53. ISBN:0-471-98165-6.Zellner, Arnold (1971). "Prior Distributions to Represent 'Knowing Little'". An Introduction to Bayesian Inference in Econometrics. New York: John Wiley & Sons. pp. 41–53. ISBN 0-471-98165-6.
^ Florens، Jean-Pierre؛ Mouchart، Michael؛ Rolin، Jean-Marie (1990). "Invariance Arguments in Bayesian Statistics". Economic Decision-Making: Games, Econometrics and Optimisation. North-Holland. ص. 351–367. ISBN:0-444-88422-X.
^ Jaynes، Edwin T. (سبتمبر 1968). "Prior Probabilities" (PDF). IEEE Transactions on Systems Science and Cybernetics. ج. 4 ع. 3: 227–241. DOI:10.1109/TSSC.1968.300117. مؤرشف من الأصل (PDF) في 2024-04-21.
^ This prior was proposed by J.B.S. Haldane in "A note on inverse probability", Mathematical Proceedings of the Cambridge Philosophical Society 28, 55–61, 1932, دُوِي:10.1017/S0305004100010495. See also J. Haldane, "The precision of observed values of small frequencies", Biometrika, 35:297–300, 1948, دُوِي:10.2307/2332350, جايستور 2332350.
^ Jaynes، Edwin T. (سبتمبر 1968). "Prior Probabilities" (PDF). IEEE Transactions on Systems Science and Cybernetics. ج. 4 ع. 3: 227–241. DOI:10.1109/TSSC.1968.300117. مؤرشف من الأصل (PDF) في 2024-04-21.Jaynes, Edwin T. (Sep 1968). "Prior Probabilities" (PDF). IEEE Transactions on Systems Science and Cybernetics. 4 (3): 227–241. doi:10.1109/TSSC.1968.300117.
^ Datta، Gauri Sankar؛ Mukerjee، Rahul (2004). Probability Matching Priors: Higher Order Asymptotics. Springer. ISBN:978-0-387-20329-4.
^ Esfahani, M. S.; Dougherty, E. R. (2014). "Incorporation of Biological Pathway Knowledge in the Construction of Priors for Optimal Bayesian Classification - IEEE Journals & Magazine". IEEE/ACM Transactions on Computational Biology and Bioinformatics (بالإنجليزية الأمريكية). 11 (1): 202–18. DOI:10.1109/TCBB.2013.143. PMID:26355519. S2CID:10096507.
^ Boluki, Shahin; Esfahani, Mohammad Shahrokh; Qian, Xiaoning; Dougherty, Edward R (Dec 2017). "Incorporating biological prior knowledge for Bayesian learning via maximal knowledge-driven information priors". BMC Bioinformatics (بالإنجليزية). 18 (S14): 552. DOI:10.1186/s12859-017-1893-4. ISSN:1471-2105. PMC:5751802. PMID:29297278.
^ Jaynes (1968), pp. 17, see also Jaynes (2003), chapter 12. Note that chapter 12 is not available in the online preprint but can be previewed via Google Books.
^ Dawid، A. P.؛ Stone، M.؛ Zidek، J. V. (1973). "Marginalization Paradoxes in Bayesian and Structural Inference". Journal of the Royal Statistical Society. Series B (Methodological). ج. 35 ع. 2: 189–233. JSTOR:2984907.
^ Christensen، Ronald؛ Johnson، Wesley؛ Branscum، Adam؛ Hanson، Timothy E. (2010). Bayesian Ideas and Data Analysis : An Introduction for Scientists and Statisticians. Hoboken: CRC Press. ص. 69. ISBN:9781439894798.
^ Iba، Y. (1989). "Bayesian Statistics and Statistical Mechanics". في Takayama، H. (المحرر). Cooperative Dynamics in Complex Physical Systems. Springer Series in Synergetics. Berlin: Springer. ج. 43. ص. 235–236. DOI:10.1007/978-3-642-74554-6_60. ISBN:978-3-642-74556-0.

[1] Robert، Christian (1994). "From Prior Information to Prior Distributions". The Bayesian Choice. New York: Springer. ص. 89–136. ISBN:0-387-94296-3.

[2] Chaloner، Kathryn (1996). "Elicitation of Prior Distributions". في Berry، Donald A.؛ Stangl، Dalene (المحررون). Bayesian Biostatistics. New York: Marcel Dekker. ص. 141–156. ISBN:0-8247-9334-X.

[3] Mikkola، Petrus؛ وآخرون (2023). "Prior Knowledge Elicitation: The Past, Present, and Future". Bayesian Analysis. Forthcoming. DOI:10.1214/23-BA1381. hdl:11336/183197. S2CID:244798734.

[Zellner1971-4] Zellner، Arnold (1971). "Prior Distributions to Represent 'Knowing Little'". An Introduction to Bayesian Inference in Econometrics. New York: John Wiley & Sons. ص. 41–53. ISBN:0-471-98165-6.

[5] Price، Harold J.؛ Manson، Allison R. (2001). "Uninformative priors for Bayes' theorem". AIP Conf. Proc. ج. 617: 379–391. DOI:10.1063/1.1477060.

[6] Piironen، Juho؛ Vehtari، Aki (2017). "Sparsity information and regularization in the horseshoe and other shrinkage priors". Electronic Journal of Statistics. ج. 11 ع. 2: 5018–5051. arXiv:1707.01694. DOI:10.1214/17-EJS1337SI.

[7] Simpson، Daniel؛ وآخرون (2017). "Penalising Model Component Complexity: A Principled, Practical Approach to Constructing Priors". Statistical Science. ج. 32 ع. 1: 1–28. arXiv:1403.4630. DOI:10.1214/16-STS576. S2CID:88513041.

[8] Fortuin، Vincent (2022). "Priors in Bayesian Deep Learning: A Review". International Statistical Review. ج. 90 ع. 3: 563–591. DOI:10.1111/insr.12502. hdl:20.500.11850/547969. S2CID:234681651.

[مولد_تلقائيا1-9] Zellner، Arnold (1971). "Prior Distributions to Represent 'Knowing Little'". An Introduction to Bayesian Inference in Econometrics. New York: John Wiley & Sons. ص. 41–53. ISBN:0-471-98165-6.Zellner, Arnold (1971). "Prior Distributions to Represent 'Knowing Little'". An Introduction to Bayesian Inference in Econometrics. New York: John Wiley & Sons. pp. 41–53. ISBN 0-471-98165-6.

[10] Florens، Jean-Pierre؛ Mouchart، Michael؛ Rolin، Jean-Marie (1990). "Invariance Arguments in Bayesian Statistics". Economic Decision-Making: Games, Econometrics and Optimisation. North-Holland. ص. 351–367. ISBN:0-444-88422-X.

[Jaynes1968-11] Jaynes، Edwin T. (سبتمبر 1968). "Prior Probabilities" (PDF). IEEE Transactions on Systems Science and Cybernetics. ج. 4 ع. 3: 227–241. DOI:10.1109/TSSC.1968.300117. مؤرشف من الأصل (PDF) في 2024-04-21.

[12] This prior was proposed by J.B.S. Haldane in "A note on inverse probability", Mathematical Proceedings of the Cambridge Philosophical Society 28, 55–61, 1932, دُوِي:10.1017/S0305004100010495. See also J. Haldane, "The precision of observed values of small frequencies", Biometrika, 35:297–300, 1948, دُوِي:10.2307/2332350, جايستور 2332350.

[مولد_تلقائيا2-13] Jaynes، Edwin T. (سبتمبر 1968). "Prior Probabilities" (PDF). IEEE Transactions on Systems Science and Cybernetics. ج. 4 ع. 3: 227–241. DOI:10.1109/TSSC.1968.300117. مؤرشف من الأصل (PDF) في 2024-04-21.Jaynes, Edwin T. (Sep 1968). "Prior Probabilities" (PDF). IEEE Transactions on Systems Science and Cybernetics. 4 (3): 227–241. doi:10.1109/TSSC.1968.300117.

[14] Datta، Gauri Sankar؛ Mukerjee، Rahul (2004). Probability Matching Priors: Higher Order Asymptotics. Springer. ISBN:978-0-387-20329-4.

[15] Esfahani, M. S.; Dougherty, E. R. (2014). "Incorporation of Biological Pathway Knowledge in the Construction of Priors for Optimal Bayesian Classification - IEEE Journals & Magazine". IEEE/ACM Transactions on Computational Biology and Bioinformatics (بالإنجليزية الأمريكية). 11 (1): 202–18. DOI:10.1109/TCBB.2013.143. PMID:26355519. S2CID:10096507.

[16] Boluki, Shahin; Esfahani, Mohammad Shahrokh; Qian, Xiaoning; Dougherty, Edward R (Dec 2017). "Incorporating biological prior knowledge for Bayesian learning via maximal knowledge-driven information priors". BMC Bioinformatics (بالإنجليزية). 18 (S14): 552. DOI:10.1186/s12859-017-1893-4. ISSN:1471-2105. PMC:5751802. PMID:29297278.

[17] Jaynes (1968), pp. 17, see also Jaynes (2003), chapter 12. Note that chapter 12 is not available in the online preprint but can be previewed via Google Books.

[18] Dawid، A. P.؛ Stone، M.؛ Zidek، J. V. (1973). "Marginalization Paradoxes in Bayesian and Structural Inference". Journal of the Royal Statistical Society. Series B (Methodological). ج. 35 ع. 2: 189–233. JSTOR:2984907.

[19] Christensen، Ronald؛ Johnson، Wesley؛ Branscum، Adam؛ Hanson، Timothy E. (2010). Bayesian Ideas and Data Analysis : An Introduction for Scientists and Statisticians. Hoboken: CRC Press. ص. 69. ISBN:9781439894798.

[20] Iba، Y. (1989). "Bayesian Statistics and Statistical Mechanics". في Takayama، H. (المحرر). Cooperative Dynamics in Complex Physical Systems. Springer Series in Synergetics. Berlin: Springer. ج. 43. ص. 235–236. DOI:10.1007/978-3-642-74554-6_60. ISBN:978-3-642-74556-0.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

بحاجة لمصدر

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]