نموذج لغوي كبير
جزء من سلسلة مقالات حول |
تعلم الآلة والتنقيب في البيانات |
---|
نموذجُ اللّغةِ الكبيرُ (LLM) هو نموذجٌ حسابيٌّ قادرٌ على توليدِ اللّغةِ أو مهامّ مُعالجةِ اللّغةِ الطّبيعيةِ الأخرى. بصفتها نماذجَ لُغوية، تكتسبُ نماذجُ اللّغةِ الكبيرةُ هذهِ القدراتِ من خلالِ تعلّمِ العلاقاتِ الإحصائيةِ من كمياتٍ هائلةٍ منَ النّصوصِ أثناءَ عمليةِ تدريبٍ ذاتيّةِ الإشرافِ وشبهِ مُراقبة .[1] وتستهلك هذه النماذج موارد حسابية كبيرة أثناء التدريب والتشغيل.[2]
حتى عام 2020 كان الضبط الدقيق أو الصقل هو الطريقة الوحيدة التي يمكن من خلالها تكييف النموذج ليكون قادرًا على إنجاز مهام محددة. ومع ذلك يمكن تصميم النماذج الأكبر حجمًا، مثل جي بي تي-3، لتحقيق نتائج مماثلة.[3] يُعتقد أنهم يكتسبون معرفة مضمنة حول بناء الجملة وعلم الدلالات و«علم الوجود» المتأصل في مجاميع اللغة البشرية، ولكن عدم الدقة والتحيزات الموجودة في مجاميع اللغة البشرية أيضًا.[4][5]
أكبرُ نماذجِ اللّغةِ الكبيرةِ وأكثرُها قدرةً، اعتبارًا من أغسطس 2024، هي شبكاتٌ عصبيةٌ اصطناعيةٌ مبنيةٌ بِبنيةٍ قائمةٍ على المُحوّلِ الخاصّ بِفكّ التشفيرِ فقط،[6] ممّا يُتيحُ مُعالجةً فعّالةً وتوليدَ بياناتِ نصيةٍ واسعةَ النّطاق. يُمكنُ ضبط أو صقل النماذجِ الحديثةِ لِمهامّ مُحدّدةٍ أو يُمكنُ توجيهُها بواسطةِ هندسةِ المُطالبات.[7] تكتسبُ هذهِ النماذجُ قوّةً تنبّؤيةً فيما يتعلّقُ بِالنّحوِ والدّلالاتِ وعلمِ الوجود [8] المُتأصّلِ في مجموعاتِ اللّغةِ البشرية، لكنّها ترثُ أيضًا عدمَ الدّقةِ والانحيازاتِ الموجودةِ في البياناتِ التي تمّ تدريبُها عليها.[9]
تاريخ
[عدل]قبل عام 2017، كان هناك عدد قليل من نماذج اللغة التي كانت كبيرةً مقارنةً بالقدرات المتاحة حينها. في التسعينيات، كانت نماذج محاذاة IBM رائدةً في النمذجة الإحصائية للغة. حقق نموذج n-gram المحسن في عام 2001، والذي تم تدريبه على 0.3 مليار كلمة، حيرةً متطورةً حينها.[10] في العقد الأول من القرن الحادي والعشرين، مع انتشار استخدام الإنترنت، أنشأ بعض الباحثين مجموعات بيانات لغة على نطاق الإنترنت ("الويب كجسم نصي" [11])، قاموا بتدريب نماذج اللغة الإحصائية عليها.[12][13] في عام 2009، في معظم مهام معالجة اللغة، سيطرت نماذج اللغة الإحصائية على نماذج اللغة الرمزية، حيث يمكنها استيعاب مجموعات بيانات كبيرة بشكل مفيد.[14]
بعد أن أصبحت الشبكات العصبية مهيمنةً في معالجة الصور حوالي عام 2012 [بحاجة لمصدر]، تم تطبيقها على نمذجة اللغة أيضًا. حولت جوجل خدمة الترجمة الخاصة بها إلى الترجمة الآلية العصبية في عام 2016. كما كان الحال قبل المحولات، تم ذلك بواسطة شبكات LSTM العميقة سيك تو سيك.
في مؤتمر مؤتمر نظم معالجة المعلومات العصبية عام 2017، قدم باحثو جوجل بنية المحولات في ورقتهم البحثية البارزة "الاهتمام هو كل ما تحتاجه". كان هدف هذه الورقة هو تحسين تقنية سيك تو سيك لعام 2014، [15] واستندت بشكل أساسي إلى آلية الاهتمام التي طورها باهدانو وآخرون في عام 2014.[16] في العام التالي في عام 2018، تم تقديم BERT.[17] على الرغم من أن المحول الأصلي يحتوي على كتل التشفير وفك التشفير، إلا أن BERT هو نموذج تشفير فقط.
على الرغم من أن جي بي تي-1 لفك التشفير فقط تم تقديمه في عام 2018، إلا أن جي بي تي-2 في عام 2019 هو الذي لفت الانتباه على نطاق واسع لأن أوبن أيه آي اعتبرته في البداية قويًا جدًا بحيث لا يمكن إصداره للجمهور، خوفًا من الاستخدام الضار.[18] ذهب جي بي تي-3 في عام 2020 إلى أبعد من ذلك، واعتبارًا من عام 2024، أصبح متاحًا فقط عبر واجهة برمجة التطبيقات دون عرض تنزيل النموذج لتنفيذه محليًا. لكن شات جي بي تي القائم على المتصفح والموجه للمستهلك في عام 2022 أثار خيال عامة الناس وتسبب في بعض الضجيج الإعلامي والضجيج عبر الإنترنت. تم الثناء على جي بي تي-4 لعام 2023 لدقته المتزايدة وقدراته متعددة الوسائط.[19] لم تكشف أوبن أيه آي عن البنية عالية المستوى وعدد معلمات جي بي تي-4.
كانت نماذج اللغة المتنافسة تحاول في معظمها مساواة سلسلة GPT، على الأقل من حيث عدد المعلمات.[20]
منذ عام 2022، اكتسبت النماذج المتاحة المصدر شعبيةً، وخاصةً في البداية نموذجي BLOOM ولاما، على الرغم من أن كلاهما لديه قيود على مجال الاستخدام. تتمتع نماذج Mistral 7B وميسترال وMixtral 8x7b، برخصة أباتشي أكثر تساهلًا. اعتبارًا من يونيو 2024، يعد النوع المحسن للتعليمات من نموذج "لاما 3" ذي 70 مليار معلمة هو أقوى نموذج لغو كبير مفتوح وفقًا لقائمة المتصدرين في LMSYS Chatbot Arena، حيث أنهأقوى من جي بي تي-3.5 ولكنه ليس بنفس قوة جي بي تي-4.[21]
تعتمد النماذج الأكبر حجمًا والأكثر كفاءة على بنية Transformer في 2024، بينما تعتمد بعض التطبيقات الحديثة على هياكل معمارية أخرى، مثل متغيرات الشبكة العصبية المتكررة ومامبا (نموذج مساحة الحالة).[22][23][24]
معالجة البيانات المُسبقة
[عدل]التجزئة
[عدل]ترميز زوج البايتات
[عدل]المشاكل
[عدل]تنظيف مجموعة البيانات
[عدل]البيانات الاصطناعية
[عدل]التدريب والبنية
[عدل]التعلّم المعزّز من ردود الفعل البشرية (RLHF)
[عدل]ضبط التعليمات
[عدل]خليط من الخبراء
[عدل]هندسة المطالبات وآلية الاهتمام ونافذة السياق
[عدل]البنية التحتية
[عدل]يتطلب تدريب النماذج الأكبر حجماً بنية تحتية ضخمة.[25][26][27]
تكلفة التدريب
[عدل]استخدام الأداة
[عدل]الوكالة
[عدل]الضغط
[عدل]الوسائط المتعددة
[عدل]الخصائص
[عدل]قوانين القياس
[عدل]القدرات الناشئة
[عدل]التفسير
[عدل]الفهم والذكاء
[عدل]التقييم
[عدل]الحيرة
[عدل]بتات لكل كلمة أو حرف أو رمز
[عدل]مجموعات بيانات ومعايير خاصة بالمهمة
[عدل]التقييمات المُصمّمة خصيصًا
[عدل]التأثير الأوسع
[عدل]الحفظ وحقوق النشر
[عدل]الأمن
[عدل]التحيّز الخوارزميّ
[عدل]التنميط
[عدل]التحيّز السياسيّ
[عدل]قائمة نماذج اللّغة الكبيرة
[عدل]بالنسبة لعمود تكلفة التدريب، 1 بيتافلوب في اليوم = 1 بيتافلوب/ثانية × يوم واحد = 8.64E19 فلوب. كما تتم كتابة تكلفة النموذج الأكبر فقط.
الاسم | الاسم بالإنجليزية | تاريخ الإطلاق [ا] | المطور | عدد المَعلمات (مليار) [ب] | حجم المجموعة | تكلفة التدريب (بيتافلوب-يوم) | الرخصة [ج] | ملاحظات |
---|---|---|---|---|---|---|---|---|
جي بي تي-1 | GPT-1 | يونيو 2018 | أوبن أيه آي | 0.117 | 1[28] | إم آي تي[29] | أول نموذج GPT، محول فك التشفير فقط. تدربت لمدة 30 يومًا على 8 وحدة رسوميات من نوع P600. | |
بيرت | BERT | أكتوبر 2018 | جوجل | [30] | 0.340[30] | 3.3 مليار كلمة[31] | 9أباتشي 2.0[32] | نموذج لغوي مبكر ومؤثر.[9] مُشفر فقط وبالتالي لم يتم بناؤه ليكون مُولِّدًا.[33] استغرق التدريب 4 أيام على 64 شريحة TPUv2.[34] |
تي 5 | T5 | أكتوبر 2019 | جوجل | 11[35] | 34 مليار رمز مميز[35] | أباتشي 2.0[36] | النموذج الأساسي للعديد من مشاريع جوجل، مثل Imagen.[37] | |
XLNet | يونيو 2019 | جوجل | [38] | 0.34033 مليار كلمة | أباتشي 2.0[39] | بديل لنموذج بيرت؛ مصمم للمشفر فقط. تم تدريبه على 512 شريحة TPU v3 لمدة 5.5 أيام.[40] | ||
جي بي تي-2 | GPT-2 | فبراير 2019 | أوبن أيه آي | [41] | 1.540 غيغا بايت[42] (~ 10 مليار رمز مميز)[43] | إم آي تي[45] | تم التدريب على 32 شريحة TPUv3 لمدة أسبوع واحد.[44] | |
جي بي تي-3 | GPT-3 | مايو 2020 | أوبن أيه آي | [46] | 175[43] | 300 مليار رمز مميزخاصة | تم توفير نسخة معدلة من GPT-3، تسمى GPT-3.5، للجمهور من خلال واجهة ويب تسمى شات جي بي تي في 2022.[48] | |
جي بي تي-نيو | GPT-Neo | مارس 2021 | EleutherAI [الإنجليزية] | [49] | 2.7825 جيجابت[50] | إم آي تي[51] | أول سلسلة من البدائل المجانية لـ جي بي تي-3 التي أصدرتها إليوثر أيه آي. تفوقت جي بي تي-نيو على نموذج جي بي تي-3 ذي الحجم المماثل في بعض المعايير، لكنها كانت أسوأ بكثير من جي بي تي-3 الأكبر.[51] | |
جي بي تي-جي | GPT-J | يونيو 2021 | إليوثر أيه آي | [52] | 6825 جيجابت[50] | أباتشي 2.0 | نموذج لغة على غرار جي بي تي-3 | |
Megatron-Turing NLG | [54] | أكتوبر 2021مايكروسوفت وإنفيديا | [55] | 530[55] | 338.6 مليار رمز مميزتقييد الوصول إلى شبكة الإنترنت | هندسة قياسية ولكن تم تدريبها على مجموعة الحوسبة الفائقة. | ||
Ernie 3.0 Titan | ديسمبر 2021 | بايدو | [56] | 2604 Tb | خاصة | نموذج لغة كبيرة صيني، يعتمد عليه بوت "إرني بوت". | ||
كلود[57] | Claude | ديسمبر 2021 | أنثروبيك | [58] | 52[58] | 400 مليار رمز مميزبيتا | تم ضبطه بدقة لتحقيق السلوك المرغوب في المحادثات.[59] | |
لام (نموذج لغة عامة) | GLaM | ديسمبر 2021 | جوجل | [60] | 1200[60] | 1.6 تريليون رمز مميزخاصة | نموذج مزيج من الخبراء متفرق، مما يجعل تدريبه أكثر تكلفة ولكن تشغيل الاستدلال أرخص مقارنةً بـ GPT-3. | |
Gopher | ديسمبر 2021 | ديب مايند | [61] | 280[62] | 300 مليار رمز مميزخاصة | تم تطويره لاحقًا إلى نموذج شينشيلا. | ||
لامدا (نموذج لغوي لتطبيقات الحوار) | LaMDA | يناير 2022 | جوجل | [64] | 1371.56 تريليون كلمة،[64] 168 مليار رمز مميز[62] | خاصة | متخصص في توليد الاستجابة في المحادثات. | |
جي بي تي-نيو إكس | GPT-NeoX | فبراير 2022 | إليوثر أيه آي | [66] | 20825 جيجابت[50] | أباتشي 2.0 | مبني على معمارية ميجاترون | |
Chinchilla | مارس 2022 | ديب مايند | [67] | 70[62][67] | 1.4 تريليون رمز مميزخاصة | نموذج ذو معلمات مخفضة تم تدريبه على المزيد من البيانات. يستخدم في روبوت Sparrow. غالبًا ما يتم الاستشهاد به لقانون التوسع العصبي الخاص به. | ||
بالم (نموذج مسارات اللغة) | PaLM | أبريل 2022 | جوجل | [68] | 540[67] | 768 مليار رمز مميزخاصة | تم التدريب لمدة 60 يومًا تقريبًا على 6000 شريحة TPU v4.[63] | |
OPT (Open Pretrained Transformer) | مايو 2022 | ميتا | [69] | 175[70] | 180 مليار رمز مميز310[53] | بحث غير تجاري[د] | معمارية GPT-3 مع بعض التعديلات من ميجاترون | |
YaLM 100B | يونيو 2022 | ياندكس | [71] | 1001.7 تيرابايت [71] | أباتشي 2.0 | نموذج إنجليزي-روسي يعتمد على Megatron-LM من مايكروسوفت. | ||
Minerva | يونيو 2022 | جوجل | [72] | 54038.5 مليار رمز مميز من صفحات الويب التي تمت تصفيتها للمحتوى الرياضي ومن الأوراق المقدمة إلى خادم arXiv للطبع المسبق [72] | خاصة | لحل "المسائل الرياضية والعلمية باستخدام التفكير خطوة بخطوة".[73] بناءً على نموذج PaLM، تم تدريبه بشكل أكبر على البيانات الرياضية والعلمية. | ||
بلوم | BLOOM | يوليو 2022 | تعاون كبير بقيادة هقينق فيس [الإنجليزية] | [74] | 175[75] | 350 مليار رمز مميز (1.6 تيرابايت)الذكاء الاصطناعي المسؤول | في الأساس GPT-3 ولكن تم تدريبه على مجموعة متعددة اللغات (30% من اللغة الإنجليزية باستثناء لغات البرمجة) | |
جالاكتيكا | Galactica | نوفمبر 2022 | ميتا | 120 | [76] | 106 مليار رمز مميزغير معروف | CC-BY-NC-4.0 | مدرب على النصوص العلمية والأساليب العلمية. |
اليكسا تي إم
(نموذج المعلم) |
AlexaTM | نوفمبر 2022 | [77] | 20[78] | 1.3 تريليونخاصة[79] | هندسة تسلسلية ثنائية الاتجاه | ||
Neuro-sama | ديسمبر 2022 | مستقل | غير معروف | غير معروف | ملكية خاصة | نموذج لغوي مصمم للبث المباشر على تويتش. | ||
لاما
نموذج لغة كبير ميتا أيه آي) |
LLaMA | فبراير 2023 | ميتا أيه آي [الإنجليزية] | [80] | 65[80] | 1.4 تريليون6300[81] | بحث غير تجاري[ه] | يحتوي Corpus على 20 لغة. "مُدرَّب أكثر" (مقارنة بقانون تحجيم شينشيلا) للحصول على أداء أفضل مع عدد أقل من المعلمات.[80] |
جي بي تي-4 | GPT-4 | مارس 2023 | أوبن أيه آي | غير معروف[و] (وفقا للشائعات: 1760)[83] | غير معروف | خاصة | متاح لمستخدمي شات جي بي تي بلس ويُستخدم في العديد من المنتجات. | |
Cerebras-GPT | مارس 2023 | Cerebras | [84] | 13أباتشي 2.0 | تم تدريبه باستخدام صيغة شينشيلا. | |||
فالكون | FALCON | مارس 2023 | معهد الابتكار التكنولوجي | [85] | 401 تريليون رمز مميز، من ريفايندويب (مجموعة نصوص ويب مفلترة)[86] بالإضافة إلى بعض "المجموعات النصية المنسقة".[87] | أباتشي 2.0[88] | ||
بلومبيرغ جي بي تي | BloombergGPT | مارس 2023 | بلومبيرغ إل بي | 50 | 363 مليار رمز. مجموعة بيانات تعتمد على مصادر بيانات بلومبرج، بالإضافة إلى 345 مليار رمز من مجموعات البيانات للأغراض العامة [89] | خاصة | تم تدريبه على البيانات المالية من مصادر خاصة، للمهام المالية. | |
PanGu-Σ | مارس 2023 | هواوي | 1085 | 329 مليار رمز مميز[90] | خاصة | |||
مساعد مفتوح | OpenAssistant[91] | مارس 2023 | لايون [الإنجليزية] | 17 | 1.5 تريليون رمز مميز | أباتشي 2.0 | تم تدريبه على البيانات المفتوحة المستمدة من الجمهور | |
جوراسيك-2 | Jurassic-2[92] | مارس 2023 | أيه 121 لابز [الإنجليزية] | غير معروف | غير معروف | خاصة | متعدد اللغات[93] | |
بالم 2 (نموذج مسارات اللغة 2) | PaLM2 | مايو 2023 | جوجل | [94] | 340[94] | 3.6 تريليون رمز مميزخاصة | كان يستخدم في روبوت الدردشة بارد.[95] | |
لاما 2 | LLaMA 2 | يوليو 2023 | ميتا أيه آي | [96] | 70[96] | 2 تريليون رمز مميز21000 | رخصة لاما 2 | 1.7 مليون ساعة A100.[97] |
كلود 2 | Claude2 | يوليو 2023 | أنثروبيك | غير معروف | غير معروف | خاصة | يُستخدم في برنامج الدردشة الآلي كلود.[98] | |
Granite 13b | يوليو 2023 | آي بي إم | غير معروف | غير معروف | خاصة | يُستخدم في آي بي إم واتسونكس.[99] | ||
Mistral 7B | سبتمبر 2023 | ميسترال | [100] | 7.3غير معروف | أباتشي 2.0 | |||
كلود 2.1 | Claude2.1 | نوفمبر 2023 | أنثروبيك | غير معروف | غير معروف | خاصة | يستخدم في برنامج الدردشة الآلي كلود. يحتوي على نافذة سياقية تحتوي على 200000 رمز، أو حوالي 500 صفحة.[101] | |
غروك-1[102] | Grok-1 | نوفمبر 2023 | إكس.أيه آي [الإنجليزية] | 314 | غير معروف | أباتشي 2.0 | يستخدم في روبوت الدردشة غروك. يحتوي غروك-1 على سياق يبلغ 8,192 رمزًا مميزًا ويمكنه الوصول إلى X (تويتر).[103] | |
جيميناي 1.0 | Gemini 1.0 | ديسمبر 2023 | ديب مايند | غير معروف | غير معروف | خاصة | نموذج متعدد الوسائط، يأتي بثلاثة أحجام. يُستخدم في روبوت الدردشة الذي يحمل نفس الاسم.[104] | |
Mixtral 8x7B | ديسمبر 2023 | ميسترال | 46.7 | غير معروف | أباتشي 2.0 | يتفوق على GPT-3.5 وLlama 2 70B في العديد من المعايير.[105] وهو نموذج مزيج من الخبراء، مع 12.9 مليار معلمة مفعلة لكل رمز مميز.[106] | ||
Mixtral 8x22B | أبريل 2024 | ميسترال | 141 | غير معروف | أباتشي 2.0 | [107] | ||
Phi-2 | ديسمبر 2023 | مايكروسوفت | 2.7 | 1.4 تريليون رمز مميز | إم آي تي | تم التدريب على بيانات حقيقية وصناعية "بجودة الكتب المدرسية"، لمدة 14 يومًا على 96 وحدة معالجة رسومية A100.[108] | ||
جيميناي 1.5 | Gemini 1.5 | فبراير 2024 | ديب مايند | غير معروف | غير معروف | خاصة | نموذج متعدد الوسائط، يعتمد على بنية مزيج من الخبراء (MoE). نافذة السياق فوق مليون رمز.[109] | |
جيما | Gemma | فبراير 2024 | ديب مايند | 7 | 6 تريليون رمز مميز | غير معروف | شروط استخدام جيما[110] | |
كلود 3 | Claude3 | مارس 2024 | أنثروبيك | غير معروف | غير معروف | غير معروف | ملكية خاصة | يتضمن ثلاثة نماذج، هايكو، وسونيت، وأوبوس.[111] |
نوفا | Nova | أكتوبر 2024 | روبيك أيه آي | غير معروف | غير معروف | غير معروف | ملكية خاصة | يتضمن ثلاثة نماذج، Nova-Instant، وNova-Air، وNova-Pro. |
DBRX | مارس 2024 | داتابريكس وموزيك إم إل | 136 | 12 تريليون رمز مميز | الترخيص النموذجي المفتوح داتا بريكس | تكلفة التدريب 10 مليون دولار أمريكي | ||
Fugaku-LLM | مايو 2024 | فوجيتسو، معهد طوكيو للتكنولوجيا | 13 | 380 مليار رمز مميز | أكبر نموذج تم تدريبه على الإطلاق على وحدة المعالجة المركزية فقط، على فوغاكو.[112] | |||
Phi-3 | أبريل 2024 | مايكروسوفت | 14[113] | 4.8 تريليون رمز مميز | إم آي تي | تسوقه مايكروسوفت باعتباره "نموذج لغة صغير".[114] | ||
Granite Code Models | مايو 2024 | آي بي إم | غير معروف | غير معروف | أباتشي 2.0 | |||
Qwen2 | يونيو 2024 | سحابة علي بابا | 72[115] | 3 تريليون رمز مميز | له أحجام متعددة، أصغرها هو 0.5B. | |||
Nemotron-4 | يونيو 2024 | إنفيديا | 340 | 9 تريليون رمز مميز | 200,000 | ترخيص إنفيديا النموذج المفتوح | تم تدريبه على 6144 وحدة معالجة رسومية H100 بين ديسمبر 2023 ومايو 2024.[116][117] | |
لاما 3.1 | LLaMA3.1 | يوليو 2024 | ميتا أيه آي | 405 | 15.6 تريليون رمز مميز | 440,000 | ترخيص لاما 3 | استغرق "الإصدار 405B" حوالي 31 مليون ساعة على "H100-80GB" عند 3.8E25 فلوب.[118][119] |
انظر أيضًا
[عدل]قراءة متعمقة
[عدل]- Jurafsky, Dan, Martin, James. H. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, 3rd Edition draft, 2023.
- Zhao، Wayne Xin؛ وآخرون (2023). "A Survey of Large Language Models". arXiv:2303.18223.
{{استشهاد بأرخايف}}
: الوسيط|arxiv=
مطلوب (مساعدة) - Kaddour، Jean؛ وآخرون (2023). "Challenges and Applications of Large Language Models". arXiv:2307.10169.
{{استشهاد بأرخايف}}
: الوسيط|arxiv=
مطلوب (مساعدة) - Yin, Shukang; Fu, Chaoyou; Zhao, Sirui; Li, Ke; Sun, Xing; Xu, Tong; Chen, Enhong (23 Jun 2023). "A Survey on Multimodal Large Language Models". arXiv.org (بالإنجليزية). Retrieved 2024-10-07.
- "AI Index Report 2024 – Artificial Intelligence Index". aiindex.stanford.edu. مؤرشف من الأصل في 2024-04-26. اطلع عليه بتاريخ 2024-05-05.
- Frank، Michael C. (27 يونيو 2023). "Baby steps in evaluating the capacities of large language models". Nature Reviews Psychology. ج. 2 ع. 8: 451–452. DOI:10.1038/s44159-023-00211-x. ISSN:2731-0574. S2CID:259713140. مؤرشف من الأصل في 2023-07-12. اطلع عليه بتاريخ 2023-07-02.
ملاحظات
[عدل]- ^ التاريخ الذي تم فيه إصدار الوثائق التي تصف بنية النموذج لأول مرة.
- ^ في كثير من الحالات، يصدر الباحثون أو يبلغون عن إصدارات متعددة من نموذج بأحجام مختلفة. في هذه الحالات، يتم سرد حجم النموذج الأكبر هنا.
- ^ ترخيص أوزان النموذج المدرب مسبقًا. في جميع الحالات تقريبًا، يكون كود التدريب نفسه مفتوح المصدر أو يمكن تكراره بسهولة.
- ^ النماذج الأصغر بما في ذلك 66B متاحة للجمهور، في حين أن نموذج 175B متاح عند الطلب.
- ^ كان نظام الترخيص والتوزيع الخاص بفيسبوك يقيد الوصول إلى البيانات للباحثين المعتمدين، لكن أوزان النماذج تسربت وأصبحت متاحة على نطاق واسع.
- ^ كما هو مذكور في التقرير الفني: "نظرًا للمشهد التنافسي والتأثيرات الأمنية للنماذج واسعة النطاق مثل GPT-4، لا يحتوي هذا التقرير على مزيد من التفاصيل حول الهندسة المعمارية (بما في ذلك حجم النموذج)، والأجهزة، وحوسبة التدريب، وبناء مجموعة البيانات، وطريقة التدريب ..."[82]
مراجع
[عدل]- ^ "Better Language Models and Their Implications". OpenAI. 14 فبراير 2019. مؤرشف من الأصل في 2020-12-19. اطلع عليه بتاريخ 2019-08-25.
- ^ "Better Language Models and Their Implications". OpenAI. 14 فبراير 2019. مؤرشف من الأصل في 2020-12-19. اطلع عليه بتاريخ 2019-08-25.
- ^ Brown، Tom B.؛ Mann، Benjamin؛ Ryder، Nick؛ Subbiah، Melanie؛ Kaplan، Jared؛ Dhariwal، Prafulla؛ Neelakantan، Arvind؛ Shyam، Pranav؛ Sastry، Girish (ديسمبر 2020). Larochelle، H.؛ Ranzato، M.؛ Hadsell، R.؛ Balcan، M.F.؛ Lin، H. (المحررون). "Language Models are Few-Shot Learners" (pdf). Advances in Neural Information Processing Systems. Curran Associates, Inc. ج. 33: 1877–1901. مؤرشف (PDF) من الأصل في 2023-11-17. اطلع عليه بتاريخ 2024-10-16.
- ^ Manning، Christopher D. (2022). "Human Language Understanding & Reasoning". Daedalus. ج. 151 ع. 2: 127–138. DOI:10.1162/daed_a_01905. S2CID:248377870. مؤرشف من الأصل في 2023-11-17. اطلع عليه بتاريخ 2024-10-16.
- ^ Bowman، Samuel R. (2023). "Eight Things to Know about Large Language Models". arXiv:2304.00612 [cs.CL].
- ^ Merritt, Rick (25 Mar 2022). "What Is a Transformer Model?". NVIDIA Blog (بالإنجليزية). Archived from the original on 2023-11-17. Retrieved 2023-07-25.
- ^ Brown، Tom B.؛ Mann، Benjamin؛ Ryder، Nick؛ Subbiah، Melanie؛ Kaplan، Jared؛ Dhariwal، Prafulla؛ Neelakantan، Arvind؛ Shyam، Pranav؛ Sastry، Girish؛ Askell، Amanda؛ Agarwal، Sandhini؛ Herbert-Voss، Ariel؛ Krueger، Gretchen؛ Henighan، Tom؛ Child، Rewon؛ Ramesh، Aditya؛ Ziegler، Daniel M.؛ Wu، Jeffrey؛ Winter، Clemens؛ Hesse، Christopher؛ Chen، Mark؛ Sigler، Eric؛ Litwin، Mateusz؛ Gray، Scott؛ Chess، Benjamin؛ Clark، Jack؛ Berner، Christopher؛ McCandlish، Sam؛ Radford، Alec؛ Sutskever، Ilya؛ Amodei، Dario (ديسمبر 2020). Larochelle، H.؛ Ranzato، M.؛ Hadsell، R.؛ Balcan، M.F.؛ Lin، H. (المحررون). "Language Models are Few-Shot Learners" (pdf). Advances in Neural Information Processing Systems. Curran Associates, Inc. ج. 33: 1877–1901. مؤرشف (PDF) من الأصل في 2023-11-17. اطلع عليه بتاريخ 2023-03-14.
- ^ Fathallah، Nadeen؛ Das، Arunav؛ De Giorgis، Stefano؛ Poltronieri، Andrea؛ Haase، Peter؛ Kovriguina، Liubov (26 مايو 2024). "NeOn-GPT: A Large Language Model-Powered Pipeline for Ontology Learning" (PDF). Extended Semantic Web Conference 2024. Hersonissos, Greece. مؤرشف من الأصل (pdf) في 2024-08-16. اطلع عليه بتاريخ 2024-10-07.
- ^ ا ب Manning، Christopher D. (2022). "Human Language Understanding & Reasoning". Daedalus. ج. 151 ع. 2: 127–138. DOI:10.1162/daed_a_01905. S2CID:248377870. مؤرشف من الأصل في 2023-11-17. اطلع عليه بتاريخ 2023-03-09.
- ^ Goodman، Joshua (09 أغسطس 2001)، A Bit of Progress in Language Modeling، arXiv:cs/0108005، Bibcode:2001cs........8005G
- ^ Kilgarriff، Adam؛ Grefenstette، Gregory (سبتمبر 2003). "Introduction to the Special Issue on the Web as Corpus". Computational Linguistics. ج. 29 ع. 3: 333–347. DOI:10.1162/089120103322711569. ISSN:0891-2017. مؤرشف من الأصل في 2024-06-16. اطلع عليه بتاريخ 2024-10-05.
- ^ Resnik، Philip؛ Smith، Noah A. (سبتمبر 2003). "The Web as a Parallel Corpus". Computational Linguistics. ج. 29 ع. 3: 349–380. DOI:10.1162/089120103322711578. ISSN:0891-2017. مؤرشف من الأصل في 2024-06-07. اطلع عليه بتاريخ 2024-06-07.
- ^ Banko، Michele؛ Brill، Eric (2001). "Scaling to very very large corpora for natural language disambiguation". Proceedings of the 39th Annual Meeting on Association for Computational Linguistics - ACL '01. Morristown, NJ, USA: Association for Computational Linguistics: 26–33. DOI:10.3115/1073012.1073017. مؤرشف من الأصل في 2024-09-22. اطلع عليه بتاريخ 2024-10-05.
- ^ Halevy، Alon؛ Norvig، Peter؛ Pereira، Fernando (مارس 2009). "The Unreasonable Effectiveness of Data". IEEE Intelligent Systems. ج. 24 ع. 2: 8–12. DOI:10.1109/MIS.2009.36. ISSN:1541-1672. مؤرشف من الأصل في 2024-10-04. اطلع عليه بتاريخ 2024-10-05.
- ^ Vaswani، Ashish؛ Shazeer، Noam؛ Parmar، Niki؛ Uszkoreit، Jakob؛ Jones، Llion؛ Gomez، Aidan N؛ Kaiser، Łukasz؛ Polosukhin، Illia (2017). "Attention is All you Need" (pdf). Advances in Neural Information Processing Systems. Curran Associates, Inc. ج. 30. مؤرشف (PDF) من الأصل في 2024-02-21. اطلع عليه بتاريخ 2024-01-21.
- ^ Bahdanau، Dzmitry؛ Cho، Kyunghyun؛ Bengio، Yoshua (2014). "Neural Machine Translation by Jointly Learning to Align and Translate". arXiv:1409.0473 [cs.CL].
- ^ Rogers، Anna؛ Kovaleva، Olga؛ Rumshisky، Anna (2020). "A Primer in BERTology: What We Know About How BERT Works". Transactions of the Association for Computational Linguistics. ج. 8: 842–866. arXiv:2002.12327. DOI:10.1162/tacl_a_00349. S2CID:211532403. مؤرشف من الأصل في 2022-04-03. اطلع عليه بتاريخ 2024-01-21.
- ^ Hern، Alex (14 فبراير 2019). "New AI fake text generator may be too dangerous to release, say creators". الغارديان. مؤرشف من الأصل في 2019-02-14. اطلع عليه بتاريخ 2024-01-20.
- ^ Heaven، Will (14 مارس 2023). "GPT-4 is bigger and better than ChatGPT—but OpenAI won't say why". MIT Technology Review. إم آي تي تكنولوجي ريفيو. مؤرشف من الأصل في 2023-03-17. اطلع عليه بتاريخ 2024-01-20.
- ^ "Parameters in notable artificial intelligence systems". ourworldindata.org. 30 نوفمبر 2023. مؤرشف من الأصل في 2024-10-06. اطلع عليه بتاريخ 2024-01-20.
- ^ "LMSYS Chatbot Arena Leaderboard". huggingface.co. مؤرشف من الأصل في 2024-06-10. اطلع عليه بتاريخ 2024-06-12.
- ^ Peng، Bo؛ وآخرون (2023). "RWKV: Reinventing RNNS for the Transformer Era". arXiv:2305.13048 [cs.CL].
{{استشهاد بأرخايف}}
: الوسيط|arxiv=
مطلوب (مساعدة) - ^ Merritt، Rick (25 مارس 2022). "What Is a Transformer Model?". NVIDIA Blog. مؤرشف من الأصل في 2023-11-17. اطلع عليه بتاريخ 2023-07-25.
- ^ Gu، Albert؛ Dao، Tri (01 ديسمبر 2023)، Mamba: Linear-Time Sequence Modeling with Selective State Spaces، arXiv:2312.00752
- ^ "From bare metal to a 70B model: infrastructure set-up and scripts". imbue.com (بالإنجليزية). Archived from the original on 2024-07-26. Retrieved 2024-07-24.
- ^ "metaseq/projects/OPT/chronicles at main · facebookresearch/metaseq". GitHub (بالإنجليزية). Archived from the original on 2024-01-24. Retrieved 2024-07-24.
- ^ Albrecht, Josh (23 Jul 2024). "State of the Art: Training >70B LLMs on 10,000 H100 clusters". www.latent.space (بالإنجليزية). Archived from the original on 2024-08-01. Retrieved 2024-07-24.
- ^ "Improving language understanding with unsupervised learning". openai.com. 11 يونيو 2018. مؤرشف من الأصل في 2023-03-18. اطلع عليه بتاريخ 2023-03-18.
- ^ "finetune-transformer-lm". GitHub. مؤرشف من الأصل في 2023-05-19. اطلع عليه بتاريخ 2024-01-02.
- ^ ا ب Devlin، Jacob؛ Chang، Ming-Wei؛ Lee، Kenton؛ Toutanova، Kristina (11 أكتوبر 2018). "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding". arXiv:1810.04805v2 [cs.CL].
{{استشهاد بأرخايف}}
: الوسيط|arxiv=
مطلوب (مساعدة) - ^ Prickett، Nicole Hemsoth (24 أغسطس 2021). "Cerebras Shifts Architecture To Meet Massive AI/ML Models". The Next Platform. مؤرشف من الأصل في 2023-06-20. اطلع عليه بتاريخ 2023-06-20.
- ^ "BERT". غيت هاب. 13 مارس 2023. مؤرشف من الأصل في 2021-01-13. اطلع عليه بتاريخ 2023-03-13 – عبر GitHub.
- ^ Patel، Ajay؛ Li، Bryan؛ Rasooli، Mohammad Sadegh؛ Constant، Noah؛ Raffel، Colin؛ Callison-Burch، Chris (2022). "Bidirectional Language Models Are Also Few-shot Learners". arXiv:2209.14500 [cs.LG].
{{استشهاد بأرخايف}}
: الوسيط|arxiv=
مطلوب (مساعدة) - ^ Devlin، Jacob؛ Chang، Ming-Wei؛ Lee، Kenton؛ Toutanova، Kristina (11 أكتوبر 2018). "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding". arXiv:1810.04805v2 [cs.CL].
{{استشهاد بأرخايف}}
: الوسيط|arxiv=
مطلوب (مساعدة) - ^ ا ب Raffel، Colin؛ Shazeer، Noam؛ Roberts، Adam؛ Lee، Katherine؛ Narang، Sharan؛ Matena، Michael؛ Zhou، Yanqi؛ Li، Wei؛ Liu، Peter J. (2020). "Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer". Journal of Machine Learning Research. ج. 21 ع. 140: 1–67. arXiv:1910.10683. ISSN:1533-7928. مؤرشف من الأصل في 2024-10-05. اطلع عليه بتاريخ 2024-10-07.
- ^ "google-research/text-to-text-transfer-transformer"، غيت هاب، Google Research، 02 أبريل 2024، مؤرشف من الأصل في 2024-03-29، اطلع عليه بتاريخ 2024-04-04
- ^ "Imagen: Text-to-Image Diffusion Models". imagen.research.google. مؤرشف من الأصل في 2024-03-27. اطلع عليه بتاريخ 2024-04-04.
- ^ "Pretrained models — transformers 2.0.0 documentation". huggingface.co. مؤرشف من الأصل في 2024-08-05. اطلع عليه بتاريخ 2024-08-05.
- ^ "xlnet". GitHub. مؤرشف من الأصل في 2024-01-02. اطلع عليه بتاريخ 2024-01-02.
- ^ Yang، Zhilin؛ Dai، Zihang؛ Yang، Yiming؛ Carbonell، Jaime؛ Salakhutdinov، Ruslan؛ Le، Quoc V. (2 يناير 2020). "XLNet: Generalized Autoregressive Pretraining for Language Understanding". arXiv:1906.08237 [cs.CL].
{{استشهاد بأرخايف}}
: الوسيط|arxiv=
مطلوب (مساعدة) - ^ "GPT-2: 1.5B Release". OpenAI (بالإنجليزية). 05 Nov 2019. Archived from the original on 2019-11-14. Retrieved 2019-11-14.
- ^ "Better language models and their implications". openai.com. مؤرشف من الأصل في 2023-03-16. اطلع عليه بتاريخ 2023-03-13.
- ^ ا ب "OpenAI's GPT-3 Language Model: A Technical Overview". lambdalabs.com. 3 يونيو 2020. مؤرشف من الأصل في 2023-03-27. اطلع عليه بتاريخ 2023-03-13.
- ^ ا ب "openai-community/gpt2-xl · Hugging Face". huggingface.co. مؤرشف من الأصل في 2024-07-24. اطلع عليه بتاريخ 2024-07-24.
- ^ "gpt-2". GitHub. مؤرشف من الأصل في 2023-03-11. اطلع عليه بتاريخ 2023-03-13.
- ^ Wiggers، Kyle (28 أبريل 2022). "The emerging types of language models and why they matter". TechCrunch. مؤرشف من الأصل في 2023-03-16. اطلع عليه بتاريخ 2023-03-09.
- ^ Table D.1 in Brown، Tom B.؛ Mann، Benjamin؛ Ryder، Nick؛ Subbiah، Melanie؛ Kaplan، Jared؛ Dhariwal، Prafulla؛ Neelakantan، Arvind؛ Shyam، Pranav؛ Sastry، Girish؛ Askell، Amanda؛ Agarwal، Sandhini؛ Herbert-Voss، Ariel؛ Krueger، Gretchen؛ Henighan، Tom؛ Child، Rewon؛ Ramesh، Aditya؛ Ziegler، Daniel M.؛ Wu، Jeffrey؛ Winter، Clemens؛ Hesse، Christopher؛ Chen، Mark؛ Sigler، Eric؛ Litwin، Mateusz؛ Gray، Scott؛ Chess، Benjamin؛ Clark، Jack؛ Berner، Christopher؛ McCandlish، Sam؛ Radford، Alec؛ Sutskever، Ilya؛ Amodei، Dario (28 مايو 2020). "Language Models are Few-Shot Learners". arXiv:2005.14165v4 [cs.CL].
{{استشهاد بأرخايف}}
: الوسيط|arxiv=
مطلوب (مساعدة) - ^ "ChatGPT: Optimizing Language Models for Dialogue". OpenAI. 30 نوفمبر 2022. مؤرشف من الأصل في 2022-11-30. اطلع عليه بتاريخ 2023-01-13.
- ^ "GPT Neo". غيت هاب. 15 مارس 2023. مؤرشف من الأصل في 2023-03-12. اطلع عليه بتاريخ 2023-03-12 – عبر GitHub.
- ^ ا ب ج Gao، Leo؛ Biderman، Stella؛ Black، Sid؛ Golding، Laurence؛ Hoppe، Travis؛ Foster، Charles؛ Phang، Jason؛ He، Horace؛ Thite، Anish؛ Nabeshima، Noa؛ Presser، Shawn؛ Leahy، Connor (31 ديسمبر 2020). "The Pile: An 800GB Dataset of Diverse Text for Language Modeling". arXiv:2101.00027 [cs.CL].
{{استشهاد بأرخايف}}
: الوسيط|arxiv=
مطلوب (مساعدة) - ^ ا ب Iyer، Abhishek (15 مايو 2021). "GPT-3's free alternative GPT-Neo is something to be excited about". VentureBeat. مؤرشف من الأصل في 2023-03-09. اطلع عليه بتاريخ 2023-03-13.
- ^ "GPT-J-6B: An Introduction to the Largest Open Source GPT Model | Forefront". www.forefront.ai. مؤرشف من الأصل في 2023-03-09. اطلع عليه بتاريخ 2023-02-28.
- ^ ا ب ج د Dey، Nolan؛ Gosal، Gurpreet؛ Zhiming؛ Chen؛ Khachane، Hemant؛ Marshall، William؛ Pathria، Ribhu؛ Tom، Marvin؛ Hestness، Joel (01 أبريل 2023). "Cerebras-GPT: Open Compute-Optimal Language Models Trained on the Cerebras Wafer-Scale Cluster". arXiv:2304.03208 [cs.LG].
{{استشهاد بأرخايف}}
: الوسيط|arxiv=
مطلوب (مساعدة) - ^ Alvi، Ali؛ Kharya، Paresh (11 أكتوبر 2021). "Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, the World's Largest and Most Powerful Generative Language Model". Microsoft Research. مؤرشف من الأصل في 2023-03-13. اطلع عليه بتاريخ 2023-03-13.
- ^ ا ب Smith، Shaden؛ Patwary، Mostofa؛ Norick، Brandon؛ LeGresley، Patrick؛ Rajbhandari، Samyam؛ Casper، Jared؛ Liu، Zhun؛ Prabhumoye، Shrimai؛ Zerveas، George؛ Korthikanti، Vijay؛ Zhang، Elton؛ Child، Rewon؛ Aminabadi، Reza Yazdani؛ Bernauer، Julie؛ Song، Xia (04 فبراير 2022). "Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, A Large-Scale Generative Language Model". arXiv:2201.11990 [cs.CL].
{{استشهاد بأرخايف}}
: الوسيط|arxiv=
مطلوب (مساعدة) - ^ Wang، Shuohuan؛ Sun، Yu؛ Xiang، Yang؛ Wu، Zhihua؛ Ding، Siyu؛ Gong، Weibao؛ Feng، Shikun؛ Shang، Junyuan؛ Zhao، Yanbin؛ Pang، Chao؛ Liu، Jiaxiang؛ Chen، Xuyi؛ Lu، Yuxiang؛ Liu، Weixin؛ Wang، Xi؛ Bai، Yangfan؛ Chen، Qiuliang؛ Zhao، Li؛ Li، Shiyong؛ Sun، Peng؛ Yu، Dianhai؛ Ma، Yanjun؛ Tian، Hao؛ Wu، Hua؛ Wu، Tian؛ Zeng، Wei؛ Li، Ge؛ Gao، Wen؛ Wang، Haifeng (23 ديسمبر 2021). "ERNIE 3.0 Titan: Exploring Larger-scale Knowledge Enhanced Pre-training for Language Understanding and Generation". arXiv:2112.12731 [cs.CL].
{{استشهاد بأرخايف}}
: الوسيط|arxiv=
مطلوب (مساعدة) - ^ "Product". Anthropic. مؤرشف من الأصل في 2023-03-16. اطلع عليه بتاريخ 2023-03-14.
- ^ ا ب Askell، Amanda؛ Bai، Yuntao؛ Chen، Anna؛ وآخرون (9 ديسمبر 2021). "A General Language Assistant as a Laboratory for Alignment". arXiv:2112.00861 [cs.CL].
{{استشهاد بأرخايف}}
: الوسيط|arxiv=
مطلوب (مساعدة) - ^ Bai، Yuntao؛ Kadavath، Saurav؛ Kundu، Sandipan؛ وآخرون (15 ديسمبر 2022). "Constitutional AI: Harmlessness from AI Feedback". arXiv:2212.08073 [cs.CL].
{{استشهاد بأرخايف}}
: الوسيط|arxiv=
مطلوب (مساعدة) - ^ ا ب ج Dai، Andrew M؛ Du، Nan (9 ديسمبر 2021). "More Efficient In-Context Learning with GLaM". ai.googleblog.com. مؤرشف من الأصل في 2023-03-12. اطلع عليه بتاريخ 2023-03-09.
- ^ "Language modelling at scale: Gopher, ethical considerations, and retrieval". www.deepmind.com. 8 ديسمبر 2021. مؤرشف من الأصل في 2023-03-20. اطلع عليه بتاريخ 2023-03-20.
- ^ ا ب ج Hoffmann، Jordan؛ Borgeaud، Sebastian؛ Mensch، Arthur؛ وآخرون (29 مارس 2022). "Training Compute-Optimal Large Language Models". arXiv:2203.15556 [cs.CL].
{{استشهاد بأرخايف}}
: الوسيط|arxiv=
مطلوب (مساعدة) - ^ ا ب ج د "PaLM: Scaling Language Modeling with Pathways" (PDF). مؤرشف من الأصل (pdf) في 2023-06-10. اطلع عليه بتاريخ 2024-10-07.
- ^ ا ب Cheng، Heng-Tze؛ Thoppilan، Romal (21 يناير 2022). "LaMDA: Towards Safe, Grounded, and High-Quality Dialog Models for Everything". ai.googleblog.com. مؤرشف من الأصل في 2022-03-25. اطلع عليه بتاريخ 2023-03-09.
- ^ Thoppilan، Romal؛ De Freitas، Daniel؛ Hall، Jamie؛ Shazeer، Noam؛ Kulshreshtha، Apoorv؛ Cheng، Heng-Tze؛ Jin، Alicia؛ Bos، Taylor؛ Baker، Leslie؛ Du، Yu؛ Li، YaGuang؛ Lee، Hongrae؛ Zheng، Huaixiu Steven؛ Ghafouri، Amin؛ Menegali، Marcelo (01 يناير 2022). "LaMDA: Language Models for Dialog Applications". arXiv:2201.08239 [cs.CL].
{{استشهاد بأرخايف}}
: الوسيط|arxiv=
مطلوب (مساعدة) - ^ Black، Sidney؛ Biderman، Stella؛ Hallahan، Eric؛ وآخرون (01 مايو 2022). "GPT-NeoX-20B: An Open-Source Autoregressive Language Model". Proceedings of BigScience Episode #5 – Workshop on Challenges & Perspectives in Creating Large Language Models. Transactions of the Association for Computational Linguistics. ج. Proceedings of BigScience Episode #5 – Workshop on Challenges & Perspectives in Creating Large Language Models. ص. 95–136. مؤرشف من الأصل في 2022-12-10. اطلع عليه بتاريخ 2022-12-19.
- ^ ا ب ج Hoffmann، Jordan؛ Borgeaud، Sebastian؛ Mensch، Arthur؛ Sifre، Laurent (12 أبريل 2022). "An empirical analysis of compute-optimal large language model training". Deepmind Blog. مؤرشف من الأصل في 2022-04-13. اطلع عليه بتاريخ 2023-03-09.
- ^ Narang, Sharan; Chowdhery, Aakanksha (4 Apr 2022). "Pathways Language Model (PaLM): Scaling to 540 Billion Parameters for Breakthrough Performance". ai.googleblog.com (بالإنجليزية). Archived from the original on 2022-04-04. Retrieved 2023-03-09.
- ^ Susan Zhang؛ Mona Diab؛ Luke Zettlemoyer. "Democratizing access to large-scale language models with OPT-175B". ai.facebook.com. مؤرشف من الأصل في 2023-03-12. اطلع عليه بتاريخ 2023-03-12.
- ^ Zhang، Susan؛ Roller، Stephen؛ Goyal، Naman؛ Artetxe، Mikel؛ Chen، Moya؛ Chen، Shuohui؛ Dewan، Christopher؛ Diab، Mona؛ Li، Xian؛ Lin، Xi Victoria؛ Mihaylov، Todor؛ Ott، Myle؛ Shleifer، Sam؛ Shuster، Kurt؛ Simig، Daniel؛ Koura، Punit Singh؛ Sridhar، Anjali؛ Wang، Tianlu؛ Zettlemoyer، Luke (21 يونيو 2022). "OPT: Open Pre-trained Transformer Language Models". arXiv:2205.01068 [cs.CL].
{{استشهاد بأرخايف}}
: الوسيط|arxiv=
مطلوب (مساعدة) - ^ ا ب Khrushchev، Mikhail؛ Vasilev، Ruslan؛ Petrov، Alexey؛ Zinov، Nikolay (22 يونيو 2022)، "YaLM 100B"، غيت هاب، مؤرشف من الأصل في 2023-06-16، اطلع عليه بتاريخ 2023-03-18
- ^ ا ب Lewkowycz، Aitor؛ Andreassen، Anders؛ Dohan، David؛ Dyer، Ethan؛ Michalewski، Henryk؛ Ramasesh، Vinay؛ Slone، Ambrose؛ Anil، Cem؛ Schlag، Imanol؛ Gutman-Solo، Theo؛ Wu، Yuhuai؛ Neyshabur، Behnam؛ Gur-Ari، Guy؛ Misra، Vedant (30 يونيو 2022). "Solving Quantitative Reasoning Problems with Language Models". arXiv:2206.14858 [cs.CL].
{{استشهاد بأرخايف}}
: الوسيط|arxiv=
مطلوب (مساعدة) - ^ "Minerva: Solving Quantitative Reasoning Problems with Language Models". ai.googleblog.com. 30 يونيو 2022. مؤرشف من الأصل في 2022-06-30. اطلع عليه بتاريخ 2023-03-20.
- ^ Ananthaswamy، Anil (8 مارس 2023). "In AI, is bigger always better?". Nature. ج. 615 ع. 7951: 202–205. Bibcode:2023Natur.615..202A. DOI:10.1038/d41586-023-00641-w. PMID:36890378. S2CID:257380916. مؤرشف من الأصل في 2023-03-16. اطلع عليه بتاريخ 2023-03-09.
- ^ "bigscience/bloom · Hugging Face". huggingface.co. مؤرشف من الأصل في 2023-04-12. اطلع عليه بتاريخ 2023-03-13.
- ^ Taylor، Ross؛ Kardas، Marcin؛ Cucurull، Guillem؛ Scialom، Thomas؛ Hartshorn، Anthony؛ Saravia، Elvis؛ Poulton، Andrew؛ Kerkez، Viktor؛ Stojnic، Robert (16 نوفمبر 2022). "Galactica: A Large Language Model for Science". arXiv:2211.09085 [cs.CL].
{{استشهاد بأرخايف}}
: الوسيط|arxiv=
مطلوب (مساعدة) - ^ "20B-parameter Alexa model sets new marks in few-shot learning". Amazon Science. 2 أغسطس 2022. مؤرشف من الأصل في 2023-03-15. اطلع عليه بتاريخ 2023-03-12.
- ^ Soltan، Saleh؛ Ananthakrishnan، Shankar؛ FitzGerald، Jack؛ وآخرون (3 أغسطس 2022). "AlexaTM 20B: Few-Shot Learning Using a Large-Scale Multilingual Seq2Seq Model". arXiv:2208.01448 [cs.CL].
{{استشهاد بأرخايف}}
: الوسيط|arxiv=
مطلوب (مساعدة) - ^ "AlexaTM 20B is now available in Amazon SageMaker JumpStart | AWS Machine Learning Blog". aws.amazon.com. 17 نوفمبر 2022. مؤرشف من الأصل في 2023-03-13. اطلع عليه بتاريخ 2023-03-13.
- ^ ا ب ج "Introducing LLaMA: A foundational, 65-billion-parameter large language model". Meta AI. 24 فبراير 2023. مؤرشف من الأصل في 2023-03-03. اطلع عليه بتاريخ 2023-03-09.
- ^ ا ب ج "The Falcon has landed in the Hugging Face ecosystem". huggingface.co. مؤرشف من الأصل في 2023-06-20. اطلع عليه بتاريخ 2023-06-20.
- ^ "GPT-4 Technical Report" (pdf). أوبن أيه آي. 2023. مؤرشف (PDF) من الأصل في 2023-03-14. اطلع عليه بتاريخ 2023-03-14.
- ^ Schreiner, Maximilian (11 Jul 2023). "GPT-4 architecture, datasets, costs and more leaked". THE DECODER (بالإنجليزية). Archived from the original on 2023-07-12. Retrieved 2024-07-26.
- ^ Dey، Nolan (28 مارس 2023). "Cerebras-GPT: A Family of Open, Compute-efficient, Large Language Models". Cerebras. مؤرشف من الأصل في 2023-03-28. اطلع عليه بتاريخ 2023-03-28.
- ^ "Abu Dhabi-based TII launches its own version of ChatGPT". tii.ae. مؤرشف من الأصل في 2023-04-03. اطلع عليه بتاريخ 2023-04-03.
- ^ Penedo، Guilherme؛ Malartic، Quentin؛ Hesslow، Daniel؛ Cojocaru، Ruxandra؛ Cappelli، Alessandro؛ Alobeidli، Hamza؛ Pannier، Baptiste؛ Almazrouei، Ebtesam؛ Launay، Julien (01 يونيو 2023). "The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora with Web Data, and Web Data Only". arXiv:2306.01116 [cs.CL].
{{استشهاد بأرخايف}}
: الوسيط|arxiv=
مطلوب (مساعدة) - ^ "tiiuae/falcon-40b · Hugging Face". huggingface.co. 09 يونيو 2023. مؤرشف من الأصل في 2023-06-02. اطلع عليه بتاريخ 2023-06-20.
- ^ "UAE's Falcon 40B, World's Top-Ranked AI Model from Technology Innovation Institute, is Now Royalty-Free". مؤرشف من الأصل في 2024-02-08. اطلع عليه بتاريخ 2024-10-07.
- ^ Wu، Shijie؛ Irsoy، Ozan؛ Lu، Steven؛ Dabravolski، Vadim؛ Dredze، Mark؛ Gehrmann، Sebastian؛ Kambadur، Prabhanjan؛ Rosenberg، David؛ Mann، Gideon (30 مارس 2023). "BloombergGPT: A Large Language Model for Finance". arXiv:2303.17564 [cs.LG].
{{استشهاد بأرخايف}}
: الوسيط|arxiv=
مطلوب (مساعدة) - ^ Ren، Xiaozhe؛ Zhou، Pingyi؛ Meng، Xinfan؛ Huang، Xinjing؛ Wang، Yadao؛ Wang، Weichao؛ Li، Pengfei؛ Zhang، Xiaoda؛ Podolskiy، Alexander؛ Arshinov، Grigory؛ Bout، Andrey؛ Piontkovskaya، Irina؛ Wei، Jiansheng؛ Jiang، Xin؛ Su، Teng؛ Liu، Qun؛ Yao، Jun (19 مارس 2023). "PanGu-Σ: Towards Trillion Parameter Language Model with Sparse Heterogeneous Computing". arXiv:2303.10845 [cs.CL].
{{استشهاد بأرخايف}}
: الوسيط|arxiv=
مطلوب (مساعدة) - ^ Köpf، Andreas؛ Kilcher، Yannic؛ von Rütte، Dimitri؛ Anagnostidis، Sotiris؛ Tam، Zhi-Rui؛ Stevens، Keith؛ Barhoum، Abdullah؛ Duc، Nguyen Minh؛ Stanley، Oliver؛ Nagyfi، Richárd؛ ES، Shahul؛ Suri، Sameer؛ Glushkov، David؛ Dantuluri، Arnav؛ Maguire، Andrew (14 أبريل 2023). "OpenAssistant Conversations – Democratizing Large Language Model Alignment". arXiv:2304.07327 [cs.CL].
{{استشهاد بأرخايف}}
: الوسيط|arxiv=
مطلوب (مساعدة) - ^ Wrobel، Sharon. "Tel Aviv startup rolls out new advanced AI language model to rival OpenAI". www.timesofisrael.com. مؤرشف من الأصل في 2023-07-24. اطلع عليه بتاريخ 2023-07-24.
- ^ Wiggers، Kyle (13 أبريل 2023). "With Bedrock, Amazon enters the generative AI race". TechCrunch. مؤرشف من الأصل في 2023-07-24. اطلع عليه بتاريخ 2023-07-24.
- ^ ا ب Elias، Jennifer (16 مايو 2023). "Google's newest A.I. model uses nearly five times more text data for training than its predecessor". سي إن بي سي. مؤرشف من الأصل في 2023-05-16. اطلع عليه بتاريخ 2023-05-18.
- ^ "Introducing PaLM 2". Google. 10 مايو 2023. مؤرشف من الأصل في 2023-05-18. اطلع عليه بتاريخ 2023-05-18.
- ^ ا ب "Introducing Llama 2: The Next Generation of Our Open Source Large Language Model". Meta AI. 2023. مؤرشف من الأصل في 2024-01-05. اطلع عليه بتاريخ 2023-07-19.
- ^ "llama/MODEL_CARD.md at main · meta-llama/llama". GitHub. مؤرشف من الأصل في 2024-05-28. اطلع عليه بتاريخ 2024-05-28.
- ^ "Claude 2". anthropic.com. مؤرشف من الأصل في 2023-12-15. اطلع عليه بتاريخ 2023-12-12.
- ^ Nirmal, Dinesh (07 Sep 2023). "Building AI for business: IBM's Granite foundation models". IBM Blog (بالإنجليزية). Archived from the original on 2024-07-22. Retrieved 2024-08-11.
- ^ "Announcing Mistral 7B". Mistral. 2023. مؤرشف من الأصل في 2024-01-06. اطلع عليه بتاريخ 2023-10-06.
- ^ "Introducing Claude 2.1". anthropic.com. مؤرشف من الأصل في 2023-12-15. اطلع عليه بتاريخ 2023-12-12.
- ^ "xai-org/grok-1"، غيت هاب، xai-org، 19 مارس 2024، مؤرشف من الأصل في 2024-05-28، اطلع عليه بتاريخ 2024-03-19
- ^ "Grok-1 model card". x.ai. مؤرشف من الأصل في 2023-11-05. اطلع عليه بتاريخ 2023-12-12.
- ^ "Gemini – Google DeepMind". deepmind.google. مؤرشف من الأصل في 2023-12-08. اطلع عليه بتاريخ 2023-12-12.
- ^ Franzen، Carl (11 ديسمبر 2023). "Mistral shocks AI community as latest open source model eclipses GPT-3.5 performance". VentureBeat. مؤرشف من الأصل في 2023-12-11. اطلع عليه بتاريخ 2023-12-12.
- ^ "Mixtral of experts". mistral.ai. 11 ديسمبر 2023. مؤرشف من الأصل في 2024-02-13. اطلع عليه بتاريخ 2023-12-12.
- ^ AI، Mistral (17 أبريل 2024). "Cheaper, Better, Faster, Stronger". mistral.ai. مؤرشف من الأصل في 2024-05-05. اطلع عليه بتاريخ 2024-05-05.
- ^ ا ب Hughes، Alyssa (12 ديسمبر 2023). "Phi-2: The surprising power of small language models". Microsoft Research. مؤرشف من الأصل في 2023-12-12. اطلع عليه بتاريخ 2023-12-13.
- ^ "Our next-generation model: Gemini 1.5". Google. 15 فبراير 2024. مؤرشف من الأصل في 2024-02-16. اطلع عليه بتاريخ 2024-02-16.
This means 1.5 Pro can process vast amounts of information in one go — including 1 hour of video, 11 hours of audio, codebases with over 30,000 lines of code or over 700,000 words. In our research, we've also successfully tested up to 10 million tokens.
- ^ "Gemma". مؤرشف من الأصل في 2024-02-21. اطلع عليه بتاريخ 2024-10-07 – عبر GitHub.
- ^ "Introducing the next generation of Claude". www.anthropic.com. مؤرشف من الأصل في 2024-03-04. اطلع عليه بتاريخ 2024-03-04.
- ^ "Fugaku-LLM/Fugaku-LLM-13B · Hugging Face". huggingface.co. مؤرشف من الأصل في 2024-05-17. اطلع عليه بتاريخ 2024-05-17.
- ^ "Phi-3". azure.microsoft.com. 23 أبريل 2024. مؤرشف من الأصل في 2024-04-27. اطلع عليه بتاريخ 2024-04-28.
- ^ "Phi-3 Model Documentation". huggingface.co. مؤرشف من الأصل في 2024-05-13. اطلع عليه بتاريخ 2024-04-28.
- ^ "Qwen2". غيت هاب. مؤرشف من الأصل في 2024-06-17. اطلع عليه بتاريخ 2024-06-17.
- ^ "nvidia/Nemotron-4-340B-Base · Hugging Face". huggingface.co. 14 يونيو 2024. مؤرشف من الأصل في 2024-06-15. اطلع عليه بتاريخ 2024-06-15.
- ^ "Nemotron-4 340B | Research". research.nvidia.com. مؤرشف من الأصل في 2024-06-15. اطلع عليه بتاريخ 2024-06-15.
- ^ ""The Llama 3 Herd of Models" (July 23, 2024) Llama Team, AI @ Meta". Meta AI. مؤرشف من الأصل في 2024-07-24. اطلع عليه بتاريخ 2024-10-07.
- ^ "llama-models/models/llama3_1/MODEL_CARD.md at main · meta-llama/llama-models". GitHub (بالإنجليزية). Archived from the original on 2024-07-23. Retrieved 2024-07-23.