تحليل إثراء مجموعة الجينات

يعد تحليل إثراء مجموعة الجينات (تحليل الإثراء الوظيفي أيضًا) طريقة لتحديد فئات الجينات أو البروتينات التي يجري تمثيلها بشكل مفرط في مجموعة كبيرة من الجينات أو البروتينات، وقد يكون لها ارتباط بالأنماط الظاهرية للمرض. تستخدم هذه الطريقة مناهج إحصائية لتحديد مجموعات الجينات التي جرى إثرائها أو استنفاذها بشكل كبير. غالبًا ما تحدد نتائج تقنيات النسخ والبروتيوميات آلاف الجينات المستخدمة في التحليل.^[1]

غالبًا ما يرغب الباحثون الذين يجرون تجارب عالية الإنتاجية تنتج مجموعات من الجينات (على سبيل المثال، الجينات التي يُعبَّر عنها بشكل تفاضلي في ظل ظروف مختلفة) في استرداد ملف تعريف وظيفي لمجموعة الجينات هذه، من أجل فهم العمليات البيولوجية الأساسية بشكل أفضل. يمكن القيام بذلك عن طريق مقارنة مجموعة الجينات المدخلة بكل من الحاويات (المصطلحات) في علم الوجود الجيني - يمكن إجراء اختبار إحصائي لكل حاوية لمعرفة ما إذا جرى إثرائها من أجل جينات الإدخال.

خلفية

في الوقت الذي منح إكمال مشروع الجينوم البشري الباحثين كمية هائلة من البيانات الجديدة، فقد تركهم أيضًا مع مشكلة كيفية تفسيرها وتحليلها. من أجل البحث عن الجينات المرتبطة بالأمراض، استخدم الباحثون المصفوفات الدقيقة للحمض النووي الريبوزي منقوص الأوكسجين، والتي تقيس كمية التعبير الجيني في الخلايا المختلفة. سيجري الباحثون هذه المصفوفات الدقيقة على آلاف الجينات المختلفة، ومقارنة نتائج فئتين مختلفتين من الخلايا، على سبيل المثال. الخلايا الطبيعية مقابل الخلايا السرطانية. ومع ذلك، فإن طريقة المقارنة هذه ليست حساسة بما يكفي لاكتشاف الفروق الدقيقة بين التعبير عن الجينات الفردية، لأن الأمراض عادة ما تشمل مجموعات كاملة من الجينات. ترتبط الجينات المتعددة بمسار بيولوجي واحد، وبالتالي فإن التغيير الإضافي في التعبير داخل مجموعات الجينات هو الذي يؤدي إلى الاختلاف في تعبير النمط الظاهري. جرى تطوير تحليل إثراء مجموعة الجينات للتركيز على تغييرات التعبير في مجموعات من فئات الجينات المحددة مسبقًا. من خلال القيام بذلك، تحل هذه الطريقة مشكلة التغييرات الصغيرة غير القابلة للكشف في التعبير عن الجينات المفردة.^[2]

طرق تحليل إثراء مجموعة الجينات

يستخدم تحليل إثراء مجموعة الجينات مجموعات جينات مسبقة جرى تجميعها معًا من خلال مشاركتها في نفس المسار البيولوجي، أو عن طريق الموقع القريب على الكروموسوم. يمكن العثور على قاعدة بيانات لهذه المجموعات المحددة مسبقًا في قاعدة بيانات التوقيعات الجزيئية (MSigDB). في تحليل إثراء مجموعة الجينات، لا تزال المصفوفات الدقيقة للحمض النووي الريبوزي منقوص الأوكسجين، أو الآن RNA-Seq، تُجرى وتُقارن بين فئتين من الخلايا، ولكن بدلًا من التركيز على الجينات الفردية في قائمة طويلة، يجري التركيز على مجموعة الجينات. يحلل الباحثون ما إذا كانت غالبية الجينات في المجموعة تقع في أقصى حدود هذه القائمة: يتوافق الجزء العلوي والسفلي من القائمة مع أكبر الاختلافات في التعبير بين نوعي الخلايا. إذا كانت مجموعة الجينات تقع في الجزء العلوي (الإفراط في التعبير) أو القاع (أقل من التعبير)، فيُعتقد أنها مرتبطة بالاختلافات المظهرية.^[3]^[4]

في الطريقة التي يشار إليها عادةً باسم تحليل إثراء مجموعة الجينات القياسي، هناك ثلاث خطوات متضمنة في العملية التحليلية. يُلخَّص الخطوات العامة أدناه:^[1]^[2]

احسب درجة الإثراء التي تمثل مقدار زيادة تمثيل الجينات في المجموعة إما في أعلى أو أسفل القائمة. هذه النتيجة هي إحصائية تشبه اختبار كولموغوروف-سميرنوف.
قدّر الأهمية الإحصائية لدرجة الإثراء. إجراء هذا الحساب عن طريق اختبار التقليب القائم على النمط الظاهري من أجل إنتاج توزيع فارغ لدرجة الإثراء. تحدد القيمة P بالمقارنة مع التوزيع الفارغ.
حساب الأهمية بهذه الطريقة اختبارات لاعتماد مجموعة الجينات على العلامات التشخيصية / المظهرية.
اضبط اختبار الفرضيات المتعددة عند تحليل عدد كبير من مجموعات الجينات في وقت واحد. يجري تطبيع درجات الإثراء لكل مجموعة، ويُحسَب معدل الاكتشاف الخاطئ.

القيود والبدائل المقترحة لمعيار تحليل إثراء مجموعة الجينات

تحليل الإثراء المبسط

عندما اقترِح تحليل إثراء مجموعة الجينات لأول مرة عام 2003، أثيرت بعض المخاوف الفورية فيما يتعلق بمنهجيتها. أدت هذه الانتقادات إلى استخدام اختبار اختبار كولموغوروف-سميرنوف الموزون بالارتباط، ودرجة الإثراء القياسي، وحساب معدل الاكتشاف الخاطئ، وكلها العوامل التي تحدد معيار تحليل إثراء مجموعة الجينات حاليًا. ومع ذلك، فقد تم الآن انتقاد تحليل إثراء مجموعة الجينات لحقيقة أن توزيعها الفارغ غير ضروري، ومن الصعب للغاية حسابه، فضلًا عن حقيقة أن إحصائياتها المشابهة لاختبار كولموغوروف-سميرنوف ليست حساسة مثل الأصل. كبديل لذلك، اقترِحت الطريقة المعروفة باسم تحليل الإثراء المبسط. تفترض هذه الطريقة استقلالية الجينات وتستخدم نهجًا أبسط لحساب اختبار t. على أي حال، يُعتقد أن هذه الافتراضات هي في الواقع مبسطة للغاية، ولا يمكن تجاهل الارتباط الجيني.^[5]

إثراء مجموعة الجينات الطيفي

أحد القيود الأخرى على تحليل إثراء مجموعة الجينات هو أن النتائج تعتمد بشكل كبير على الخوارزمية التي تجمع الجينات، وعدد المجموعات التي يجري اختبارها. إثراء مجموعة الجينات الطيفي هو اختبار مقترح غير خاضع للرقابة. يدّعي مؤسسو الطريقة أنها طريقة أفضل لإيجاد ارتباطات بين مجموعات جينات MSigDB وبيانات المصفوفات الدقيقة. تشمل الخطوات العامة ما يلي:^[6]

حساب الارتباط بين المكونات الرئيسية ومجموعات الجينات.^[6]
استخدام طريقة Z الموزونة لحساب الارتباط بين مجموعات الجينات والبنية الطيفية للبيانات.^[6]

مراجع

^ ^ا ^ب Subramanian، Aravind؛ Tamayo، Pablo؛ Mootha، Vamsi K.؛ Mukherjee، Sayan؛ Ebert، Benjamin L.؛ Gillette، Michael A.؛ Paulovich، Amanda؛ Pomeroy، Scott L.؛ Golub، Todd R. (25 أكتوبر 2005). "Gene set enrichment analysis: A knowledge-based approach for interpreting genome-wide expression profiles". Proceedings of the National Academy of Sciences. ج. 102 ع. 43: 15545–15550. DOI:10.1073/pnas.0506580102. ISSN:0027-8424. PMC:1239896. PMID:16199517.
^ ^ا ^ب Mootha، Vamsi K.؛ وآخرون (2003). "PGC-1a-responsive genes involved in oxidative phosphorylation are coordinately downregulated in human diabetes". Nature Genetics. ج. 34 ع. 3: 267–273. DOI:10.1038/ng1180. PMID:12808457. S2CID:13940856.
^ Liberzon، Arthur؛ Birger، Chet؛ Thorvaldsdóttir، Helga؛ Ghandi، Mahmoud؛ Mesirov، Jill P.؛ Tamayo، Pablo (23 ديسمبر 2015). "The Molecular Signatures Database Hallmark Gene Set Collection". Cell Systems. ج. 1 ع. 6: 417–425. DOI:10.1016/j.cels.2015.12.004. ISSN:2405-4712. PMC:4707969. PMID:26771021.
^ "Molecular signature database (MSigDB) 3.0 (PDF Download Available)". ResearchGate (بالإنجليزية).
^ Tamayo، Pablo؛ Steinhardt، George؛ Liberzon، Arthur؛ Mesirov، Jill P. (1 فبراير 2016). "The limitations of simple gene set enrichment analysis assuming gene independence". Statistical Methods in Medical Research. ج. 25 ع. 1: 472–487. arXiv:1110.4128. DOI:10.1177/0962280212460441. ISSN:0962-2802. PMC:3758419. PMID:23070592.
^ ^ا ^ب ^ج Frost، H Robert؛ Li، Zhigang؛ Moore، Jason H (3 مارس 2015). "Spectral gene set enrichment (SGSE)". BMC Bioinformatics. ج. 16 ع. 1: 70. DOI:10.1186/s12859-015-0490-7. PMC:4365810. PMID:25879888.{{استشهاد بدورية محكمة}}: صيانة الاستشهاد: دوي مجاني غير معلم (link)

[:0-1] ا ^ب Subramanian، Aravind؛ Tamayo، Pablo؛ Mootha، Vamsi K.؛ Mukherjee، Sayan؛ Ebert، Benjamin L.؛ Gillette، Michael A.؛ Paulovich، Amanda؛ Pomeroy، Scott L.؛ Golub، Todd R. (25 أكتوبر 2005). "Gene set enrichment analysis: A knowledge-based approach for interpreting genome-wide expression profiles". Proceedings of the National Academy of Sciences. ج. 102 ع. 43: 15545–15550. DOI:10.1073/pnas.0506580102. ISSN:0027-8424. PMC:1239896. PMID:16199517.

[:1-2] ا ^ب Mootha، Vamsi K.؛ وآخرون (2003). "PGC-1a-responsive genes involved in oxidative phosphorylation are coordinately downregulated in human diabetes". Nature Genetics. ج. 34 ع. 3: 267–273. DOI:10.1038/ng1180. PMID:12808457. S2CID:13940856.

[3] Liberzon، Arthur؛ Birger، Chet؛ Thorvaldsdóttir، Helga؛ Ghandi، Mahmoud؛ Mesirov، Jill P.؛ Tamayo، Pablo (23 ديسمبر 2015). "The Molecular Signatures Database Hallmark Gene Set Collection". Cell Systems. ج. 1 ع. 6: 417–425. DOI:10.1016/j.cels.2015.12.004. ISSN:2405-4712. PMC:4707969. PMID:26771021.

[MSig-4] "Molecular signature database (MSigDB) 3.0 (PDF Download Available)". ResearchGate (بالإنجليزية).

[:2-5] Tamayo، Pablo؛ Steinhardt، George؛ Liberzon، Arthur؛ Mesirov، Jill P. (1 فبراير 2016). "The limitations of simple gene set enrichment analysis assuming gene independence". Statistical Methods in Medical Research. ج. 25 ع. 1: 472–487. arXiv:1110.4128. DOI:10.1177/0962280212460441. ISSN:0962-2802. PMC:3758419. PMID:23070592.

[:4-6] ا ^ب ^ج Frost، H Robert؛ Li، Zhigang؛ Moore، Jason H (3 مارس 2015). "Spectral gene set enrichment (SGSE)". BMC Bioinformatics. ج. 16 ع. 1: 70. DOI:10.1186/s12859-015-0490-7. PMC:4365810. PMID:25879888.{{استشهاد بدورية محكمة}}: صيانة الاستشهاد: دوي مجاني غير معلم (link)

[1]

[2]

[3]

[4]

[5]

[6]

ع ن ت معلوماتية حيوية
قواعد بيانات	Sequence databases: بنك الجين, European Nucleotide Archive and بنك اليابان لبيانات الحمض النووي Secondary databases: يونيبروت, database of protein sequences grouping together يونيبروت, يونيبروت and مصدر معلومات البروتين Other databases: بنك بيانات البروتينات, انسمبل and إنتربرو Specialised genomic databases: BOLD, قاعدة بيانات جينوم السكيري ^{[لغات أخرى]}‏, فلايباس ^{[لغات أخرى]}‏, VectorBase, قاعدة الدودة ^{[لغات أخرى]}‏, PHI-base, مورد معلومات أرابيدوبسيس ^{[لغات أخرى]}‏ and Zebrafish Information Network
البرمجيات	BLAST Bowtie كلوستال HMMER MUSCLE SAMtools TopHat
آخرى	Server: إكسباسي Ontology: علم الوجود الجيني
المؤسسات	معهد المعلوماتية الحيوية الأوروبي المركز الوطني لمعلومات التقانة الحيوية المعهد السويسري للمعلوماتية الحيوية المعهد الوطني لعلم الوراثة معهد برود Wellcome Trust Sanger Institute
List of biological databases Sequencing Sequence database تراصف تسلسلي نسالة جزيئية