أخذ العينات العنقودية

في الإحصاء ، أخذ العينات العنقودية هو خطة أخذ العينات المستخدمة عندما تكون المجموعات المتجانسة بشكل متبادل ولكنها غير متجانسة داخليًا في مجتمع إحصائي . غالبًا ما يستخدم هذا النوع من الاستعيان في أبحاث التسويق . في خطة أخذ العينات هذه ، يتم تقسيم إجمالي السكان إلى مجموعات ويتم اختيار عينة عشوائية بسيطة من المجموعات. ثم يتم أخذ عينات من العناصر في كل مجموعة. إذا تم أخذ عينات من جميع العناصر في كل عنقود تم أخذ عينات منه ، فسيتم الإشارة إلى ذلك على أنه خطة أخذ العينات العنقودية "ذات المرحلة الواحدة". إذا تم تحديد عينة فرعية عشوائية بسيطة من العناصر داخل كل مجموعة من هذه المجموعات ، يُشار إلى ذلك باسم خطة أخذ العينات العنقودية "ذات المرحلتين". الدافع الشائع لأخذ العينات العنقودية هو تقليل العدد الإجمالي للمقابلات والتكاليف بالنظر إلى الدقة المطلوبة. بالنسبة لحجم عينة ثابت ، يكون الخطأ العشوائي المتوقع أصغر عندما يكون معظم التباين في المجتمع موجودًا داخليًا داخل المجموعات ، وليس بين المجموعات.

العناصر العنقودية[عدل]

يجب أن يكون السكان داخل الكتلة العنقودية غير متجانسين قدر الإمكان ، ولكن يجب أن يكون هناك تجانس بين المجموعات. يجب أن تكون كل مجموعة صغيرة تمثيلاً لمجموع السكان. يجب أن تكون المجموعات متنافية وشاملة بشكل جماعي. ثم يتم استخدام تقنية أخذ العينات العشوائية على أي مجموعات ذات صلة لاختيار المجموعات التي سيتم تضمينها في الدراسة. في أخذ العينات العنقودية على مرحلة واحدة ، يتم أخذ عينات من جميع العناصر من كل مجموعة من المجموعات المختارة. في أخذ العينات العنقودية على مرحلتين ، يتم تطبيق تقنية أخذ العينات العشوائية على العناصر من كل مجموعة من المجموعات المختارة.

يتمثل الاختلاف الرئيسي بين أخذ العينات العنقودية وأخذ العينات الطبقية في أنه في أخذ العينات العنقودية ، يتم التعامل مع الكتلة كوحدة أخذ العينات ، لذلك يتم أخذ العينات على مجموعة من المجموعات (على الأقل في المرحلة الأولى). في أخذ العينات الطبقية ، يتم أخذ العينات على عناصر داخل كل طبقة. في أخذ العينات الطبقية ، يتم أخذ عينة عشوائية من كل طبقة ، بينما في أخذ العينات العنقودية ، يتم أخذ عينات فقط المجموعات المختارة. الدافع الشائع لأخذ العينات العنقودية هو تقليل التكاليف عن طريق زيادة كفاءة أخذ العينات. هذا يتناقض مع أخذ العينات الطبقية حيث يكون الدافع هو زيادة الدقة.

هناك أيضًا أخذ عينات عنقودية متعددة المراحل ، حيث يتم أخذ مرحلتين على الأقل في اختيار العناصر من المجموعات.

عندما تكون العناقيد ذات أحجام مختلفة[عدل]

بدون تعديل المعلمة المقدرة ، يكون أخذ العينات العنقودية غير متحيز عندما تكون المجموعات بنفس الحجم تقريبًا. في هذه الحالة ، يتم حساب المعلمة من خلال دمج جميع المجموعات المختارة. عندما تكون المجموعات ذات أحجام مختلفة ، فهناك عدة خيارات:

تتمثل إحدى الطرق في أخذ عينات من المجموعات ثم مسح جميع العناصر في تلك المجموعة. طريقة أخرى هي طريقة من مرحلتين لأخذ عينات نسبة ثابتة من الوحدات (سواء كانت 5٪ أو 50٪ ، أو رقمًا آخر ، اعتمادًا على اعتبارات التكلفة) من داخل كل مجموعة من المجموعات المختارة. الاعتماد على العينة المأخوذة من هذه الخيارات سينتج عنه مقدر غير متحيز. ومع ذلك ، لم يعد حجم العينة ثابتًا مقدمًا. يؤدي هذا إلى معادلة أكثر تعقيدًا للخطأ المعياري للمقدر ، بالإضافة إلى المشكلات المتعلقة بصريات خطة الدراسة (نظرًا لأن تحليل الطاقة وتقديرات التكلفة تتعلق غالبًا بحجم عينة محدد).

الحل الثالث المحتمل هو استخدام الاحتمالية المتناسبة مع حجم أخذ العينات . في خطة أخذ العينات هذه ، يتناسب احتمال اختيار الكتلة مع حجمها ، بحيث يكون للكتلة الكبيرة احتمالية أكبر للاختيار من الكتلة الصغيرة. الميزة هنا هي أنه عند اختيار المجموعات باحتمالية تتناسب مع الحجم ، يجب إجراء نفس عدد المقابلات في كل مجموعة تم أخذ عينات منها بحيث يكون لكل وحدة تم أخذ عينات منها نفس احتمالية الاختيار.

تطبيقات أخذ العينات العنقودية[عدل]

مثال على أخذ العينات العنقودية هو أخذ العينات من المنطقة أو أخذ العينات العنقودية الجغرافية . كل مجموعة هي منطقة جغرافية. نظرًا لأن المسح السكاني المشتت جغرافيًا يمكن أن يكون مكلفًا للمسح ، يمكن تحقيق اقتصاد أكبر من أخذ العينات العشوائية البسيطة من خلال تجميع العديد من المستجيبين داخل منطقة محلية في مجموعة. عادة ما يكون من الضروري زيادة الحجم الإجمالي للعينة لتحقيق دقة مكافئة في المقدرين ، ولكن وفورات التكلفة قد تجعل هذه الزيادة في حجم العينة ممكنة.

ميزاته[عدل]

يمكن أن تكون أرخص من خطط أخذ العينات الأخرى - على سبيل المثال نفقات سفر وتكاليف إدارية أقل.
الجدوى: تأخذ خطة أخذ العينات هذه أعدادًا كبيرة من السكان في الاعتبار. نظرًا لأن هذه المجموعات كبيرة جدًا ، فإن نشر أي خطة أخرى لأخذ العينات سيكون مكلفًا للغاية.
الاقتصاد: يتم تقليل الشاغلين الرئيسيين العاديين للإنفاق ، أي السفر والإدراج ، إلى حد كبير في هذه الطريقة. على سبيل المثال: تجميع المعلومات البحثية حول كل أسرة في مدينة سيكون مكلفًا للغاية ، في حين أن تجميع المعلومات حول الكتل المختلفة في المدينة سيكون أكثر توفيرا حيث ، سيتم تقليل جهود السفر والإدراج بشكل كبير.
انخفاض التباين: في حالة نادرة لوجود ارتباط سلبي داخل الفصل بين الموضوعات داخل مجموعة ، فإن المقدرات الناتجة عن أخذ العينات العنقودية ستنتج تقديرات أكثر دقة من البيانات التي تم الحصول عليها من عينة عشوائية بسيطة (أي أن تأثير التصميم سيكون أصغر من 1). هذا ليس سيناريو مكان شائع.

عيوبه[عدل]

عند الخطأ بزيادة أخذ العينات ، والذي يمكن التعبير عنه من خلال تأثير التصميم: النسبة بين تباين المقدر المأخوذ من عينات الدراسة العنقودية والتباين في المُقدِّر الذي تم الحصول عليه من عينة من الأشخاص في دراسة موثوقة بشكل متساوٍ ومختارة عشوائيًا وغير مجمعة . ^[1] كلما كان الارتباط بين الصفوف أكبر بين الموضوعات داخل الكتلة ، كلما أصبح تأثير التصميم أسوأ (أي كلما كان أكبر من 1. مما يشير إلى زيادة أكبر متوقعة في تباين المقدر). بمعنى آخر ، كلما كان هناك عدم تجانس بين المجموعات والمزيد من التجانس بين الموضوعات داخل العنقود ، كلما أصبحت مقدراتنا أقل دقة. هذا لأنه في مثل هذه الحالات يكون من الأفضل لنا أخذ العينات بأكبر قدر ممكن من التجمعات ونقوم بعمل عينة صغيرة من الموضوعات من داخل كل مجموعة (أي أخذ العينات العنقودية على مرحلتين).
يعتبر أخذ العينات العنقودية أكثر تعقيدًا ويتطلب مزيدًا من الاهتمام بكيفية التخطيط وكيفية التحليل (على سبيل المثال: مراعاة أوزان الموضوعات أثناء تقدير المعلمات وفترات الثقة وما إلى ذلك. )

المزيد عن أخذ العينات العنقودية[عدل]

أخذ العينات العنقودية على مرحلتين[عدل]

يتم الحصول على العينات العنقودية ذات المرحلتين ، وهي حالة بسيطة لأخذ العينات متعدد المراحل ، عن طريق اختيار عينات عنقودية في المرحلة الأولى ثم اختيار عينة من العناصر من كل مجموعة عينات. ضع في اعتبارك عدد سكان من مجموعات N في المجموع. في المرحلة الأولى ، يتم اختيار مجموعات n باستخدام طريقة أخذ العينات العنقودية العادية. في المرحلة الثانية ، عادة ما يتم استخدام أخذ العينات العشوائية البسيطة . ^[2] يتم استخدامه بشكل منفصل في كل مجموعة ولا يكون بالضرورة عدد العناصر المختارة من مجموعات مختلفة متساوية. يجب تحديد العدد الإجمالي للمجموعات N وعدد الكتل المحددة n وعدد العناصر من المجموعات المختارة مسبقًا بواسطة مصمم الاستطلاع. يهدف أخذ العينات العنقودية من مرحلتين إلى تقليل تكاليف المسح وفي نفس الوقت التحكم في عدم اليقين المتعلق بتقديرات الفائدة. ^[3] يمكن استخدام هذه الطريقة في العلوم الصحية والاجتماعية. على سبيل المثال ، استخدم الباحثون العينة العنقودية المكونة من مرحلتين لتكوين عينة تمثيلية من السكان العراقيين لإجراء مسوحات الوفيات. ^[4] يمكن أن يكون أخذ العينات بهذه الطريقة أسرع وأكثر موثوقية من الطرق الأخرى ، وهذا هو سبب استخدام هذه الطريقة الآن بشكل متكرر.

الاستدلال عندما يكون عدد المجموعات صغيرًا[عدل]

يمكن أن تؤدي طرق أخذ العينات العنقودية إلى تحيز كبير عند العمل مع عدد صغير من المجموعات. على سبيل المثال ، قد يكون من الضروري التجميع على مستوى الولاية أو المدينة ، الوحدات التي قد تكون صغيرة وثابتة في العدد. غالبًا ما تستخدم طرق القياس الاقتصادي الجزئي لبيانات اللوحة لوحات قصيرة ، وهو ما يماثل وجود عدد قليل من الملاحظات لكل عنقود والعديد من العناقيد. يمكن النظر إلى مشكلة الكتلة الصغيرة على أنها مشكلة معلمة عرضية. ^[5] بينما يمكن تقدير النقاط بشكل معقول بدقة ، إذا كان عدد الملاحظات لكل عنقود مرتفعًا بدرجة كافية ، فنحن بحاجة إلى عدد المجموعات $G\rightarrow \infty$ للمقاربات لبدء العمل. إذا كان عدد المجموعات منخفضًا ، يمكن أن تكون مصفوفة التغاير المقدرة متحيزة للأسفل. ^[6]

تشكل الأعداد الصغيرة من المجموعات مخاطرة عندما يكون هناك ارتباط تسلسلي أو عندما يكون هناك ارتباط داخل الصف كما هو الحال في سياق مولتون. عند وجود عدد قليل من المجموعات ، فإننا نميل إلى التقليل من قيمة الارتباط التسلسلي عبر الملاحظات عند حدوث صدمة عشوائية ، أو الارتباط داخل الفصل في إعداد مولتون. ^[7] سلطت العديد من الدراسات الضوء على عواقب الارتباط التسلسلي وسلطت الضوء على مشكلة الكتلة الصغيرة. ^[8] ^[9]

أنظر أيضا[عدل]

أخذ العينات متعدد المراحل
أخذ العينات (الإحصائيات)
عينة عشوائية بسيطة
اخذ العينات الطبقية

مراجع[عدل]

^ Kerry and Bland (1998). Statistics notes: The intracluster correlation coefficient in cluster randomization. British Medical Journal, 316, 1455–1460. نسخة محفوظة 2022-10-14 على موقع واي باك مشين.
^ Ahmed، Saifuddin (2009). Methods in Sample Surveys (PDF). The Johns Hopkins University and Saifuddin Ahmed. مؤرشف من الأصل (PDF) في 2021-12-06.
^ Daniel Pfeffermann؛ C. Radhakrishna Rao (2009). Handbook of Statistics Vol.29A Sample Surveys: Theory, Methods and Infernece. Elsevier B.V. ISBN:978-0-444-53124-7. مؤرشف من الأصل في 2020-07-29.
^ LP Galway؛ Nathaniel Bell؛ Al S SAE؛ Amy Hagopian؛ Gilbert Burnham؛ Abraham Flaxman؛ Wiliam M Weiss؛ Julie Rajaratnam؛ Tim K Takaro (27 أبريل 2012). "A two-stage cluster sampling method using gridded population data, a GIS, and Google EarthTM imagery in a population-based mortality survey in Iraq". International Journal of Health Geographics. ج. 11: 12. DOI:10.1186/1476-072X-11-12. PMID:22540266. {{استشهاد بدورية محكمة}}: الوسيط غير المعروف |PMCID= تم تجاهله يقترح استخدام |pmc= (مساعدة)صيانة الاستشهاد: دوي مجاني غير معلم (link)
^ Cameron A. C. and P. K. Trivedi (2005): Microeconometrics: Methods and Applications. Cambridge University Press, New York.
^ Cameron, C. and D. L. Miller (2015): A Practitioner's Guide to Cluster-Robust Inference. Journal of Human Resources 50(2), pp. 317–372.
^ Angrist, J.D. and J.-S. Pischke (2009): Mostly Harmless Econometrics. An empiricist's companion. Princeton University Press, New Jersey.
^ Bertrand, M., E. Duflo and S. Mullainathan (2004): How Much Should We Trust Differences-in-Differences Estimates? Quarterly Journal of Economics 119(1), pp. 249–275.
^ Kezdi, G. (2004): Robust Standard Error Estimation in Fixed-Effect Panel Models. Hungarian Statistical Review 9, pp. 95–116.

[1] Kerry and Bland (1998). Statistics notes: The intracluster correlation coefficient in cluster randomization. British Medical Journal, 316, 1455–1460. نسخة محفوظة 2022-10-14 على موقع واي باك مشين.

[2] Ahmed، Saifuddin (2009). Methods in Sample Surveys (PDF). The Johns Hopkins University and Saifuddin Ahmed. مؤرشف من الأصل (PDF) في 2021-12-06.

[3] Daniel Pfeffermann؛ C. Radhakrishna Rao (2009). Handbook of Statistics Vol.29A Sample Surveys: Theory, Methods and Infernece. Elsevier B.V. ISBN:978-0-444-53124-7. مؤرشف من الأصل في 2020-07-29.

[4] LP Galway؛ Nathaniel Bell؛ Al S SAE؛ Amy Hagopian؛ Gilbert Burnham؛ Abraham Flaxman؛ Wiliam M Weiss؛ Julie Rajaratnam؛ Tim K Takaro (27 أبريل 2012). "A two-stage cluster sampling method using gridded population data, a GIS, and Google EarthTM imagery in a population-based mortality survey in Iraq". International Journal of Health Geographics. ج. 11: 12. DOI:10.1186/1476-072X-11-12. PMID:22540266. {{استشهاد بدورية محكمة}}: الوسيط غير المعروف |PMCID= تم تجاهله يقترح استخدام |pmc= (مساعدة)صيانة الاستشهاد: دوي مجاني غير معلم (link)

[5] Cameron A. C. and P. K. Trivedi (2005): Microeconometrics: Methods and Applications. Cambridge University Press, New York.

[CameronMiller-6] Cameron, C. and D. L. Miller (2015): A Practitioner's Guide to Cluster-Robust Inference. Journal of Human Resources 50(2), pp. 317–372.

[AngristPischke-7] Angrist, J.D. and J.-S. Pischke (2009): Mostly Harmless Econometrics. An empiricist's companion. Princeton University Press, New Jersey.

[8] Bertrand, M., E. Duflo and S. Mullainathan (2004): How Much Should We Trust Differences-in-Differences Estimates? Quarterly Journal of Economics 119(1), pp. 249–275.

[9] Kezdi, G. (2004): Robust Standard Error Estimation in Fixed-Effect Panel Models. Hungarian Statistical Review 9, pp. 95–116.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]