بيانات اللغويات المفتوحة مرتبطة

في معالجة اللغة الطبيعية واللغويات والمجالات المشابهة، تصف بيانات اللغويات المفتوحة المرتبطة (LLOD) طريقة ومجتمعًا متعدد التخصصات معنيًا بإنشاء موارد اللغة ومشاركتها و (إعادة استخدامها) وفقًا لمبادئ البيانات المرتبطة.

تم تصميم سحابة البيانات اللغويات المفتوحة وتجري صيانتها من قبل مجموعة عمل اللغويات المفتوحة (OWLG) التابعة لمؤسسة المعرفة المفتوحة، ولكنها كانت نقطة مركزية للعديد من مجموعات مجتمع رابطة الشبكة العالمية، ومشاريع البحث، وجهود البنية التحتية منذ ذلك الحين.

التعريف والتطوير

توصف بيانات اللغويات المفتوحة المرتبطة بنشر البيانات الخاصة باللغويات ومعالجة اللغة الطبيعية باستخدام المبادئ التالية:^[1]

•يجب أن تكون البيانات مرخصة بشكل علني باستخدام التراخيص مثل تراخيص المشاع الإبداعي.

•يجب تحديد العناصر الموجودة في مجموعة البيانات بشكل فريد عن طريق معرف الموارد الموحد.

•يجب حل معرف الموارد الموحد، حتى يتمكن المستخدمون من الوصول إلى مزيد من المعلومات باستخدام متصفحات الويب.

•يجب أن يؤدي حل مورد LLOD إلى إرجاع النتائج باستخدام معايير الويب مثل إطار وصف المورد (RDF).

• يجب تضمين الروابط إلى الموارد الأخرى لمساعدة المستخدمين على اكتشاف موارد جديدة وتوفير الدلالات.

تم تحديد الفوائد الأساسية لـ LLOD على النحو التالي:^[2]

•التمثيل: الرسوم البيانية المرتبطة هي تنسيق تمثيل أكثر مرونة للبيانات اللغوية.

•إمكانية التشغيل البيني: يمكن دمج نماذج RDF الشائعة بسهولة.

•الاتحاد: يمكن دمج البيانات من مصادر متعددة بشكل بسيط.

•النظام البيئي: تتوفر أدوات RDF والبيانات المرتبطة على نطاق واسع بموجب تراخيص مفتوحة المصدر.

•التعبيرية: تساعد المفردات الموجودة في التعبير عن الموارد اللغوية.

•الدلالات: تعبر الروابط الشائعة عما تقصده.

•الديناميكية: يمكن تحسين بيانات الويب بشكل مستمر.

يقع مخطط سحابة بيانات اللغويات المفتوحة المرتبطة ضمن موقع linguistic-lod.org .^[3]

المجتمع

وقد تم تطوير مخطط سحابة بيانات اللغويات المفتوحة المرتبطة ويتم الاحتفاظ بها من قبل المجموعة المفتوحة اللغويات العمل (OWLG) من مؤسسة المعرفة المفتوحة (منذ 2014)، وهي مفتوحة ومتعددة التخصصات من الخبراء في الموارد اللغوية.

OWLG تنظم الفعاليات المجتمعية وتنسيقات LLOD ويسهل التواصل متعدد التخصصات فيما بين المساهمين LLOD والمستخدمين.

العديد من التركيز الأعمال والمجموعات رابطة الشبكة العالمية على الجوانب المتخصصة من LLOD:

•تعمل مجموعة (W3C Ontology-Lexica Community Group OntoLex) على تطوير وصيانة مواصفات القواميس التي يمكن قراءتها آليًا في سحابة LLOD.

•تجمع مجموعة W3C Best Practices for Multiling Linked Open Data Community Group)) معلومات حول أفضل الممارسات لإنتاج بيانات مفتوحة متعددة اللغات مرتبطة.^[4]

•تجمع رابطة الشبكة العالمية البيانات لمجموعة مجتمع تكنولوجيا اللغة حالات المستخدم ومتطلبات تطبيقات تكنولوجيا اللغة التي تستخدم البيانات المرتبطة.^[5]

يتم دفع تطوير LLOD إلى الأمام وتوثيقه في سلسلة من ورش العمل الدولية، والمنشورات ذات الصلة. وبطرق أخرى مثل:

•البيانات المرتبطة في اللغويات (LDL)، ورشة العمل العلمية السنوية، بدأت عام 2012.

•البيانات المفتوحة متعددة اللغات والمتصلة للشركات (MLODE)، اجتماع المجتمع نصف السنوي (2012 و2014).

التطبيقات

يتم تطبيق البيانات اللغويات المفتوحة المرتبطة لمعالجة عدد من مشاكل البحث العلمي:

•في جميع مجالات اللسانيات التطبيقية، وفقه اللغة الحاسوبي، ومعالجة اللغة الطبيعية، الشرح اللغوي والعلامات اللغوية تمثل عناصر أساسية للتحليل. ومع ذلك، يتم إعاقة التقدم في هذا المجال من خلال تحديات العمل المشترك، وأبرزها خلافات في المفردات وخطط الشرح المستخدمة لموارد وأدوات مختلفة. يؤدي استخدام البيانات المرتبطة لربط موارد اللغة والأنطولوجيا / مستودعات المصطلحات إلى تسهيل إعادة استخدام المفردات المشتركة وتفسيرها على أساس مشترك.

•في لغويات الجسم وعلم فقه اللغة الحسابي، يمثل التداخل المتداخل مشكلة سيئة السمعة لتنسيقات XML التقليدية. ومن ثم، فقد تم اقتراح نماذج البيانات القائمة على الرسم البياني منذ أواخر التسعينيات. يتم تمثيلها تقليديًا عن طريق ملفات XML متعددة ومترابطة (معادلة XML)، .^[6] والتي يتم دعمها بشكل ضعيف بواسطة تقنية XML الجاهزة.^[6] نمذجة مثل هذه التعليقات التوضيحية المعقدة مثل البيانات المرتبطة يمثل شكلاً معادلاً لغويًا لـ XML المواجهة، ^[7] ولكنه يلغي الحاجة إلى تقنية الأغراض الخاصة ، وبدلاً من ذلك ، يعتمد على النظام البيئي RDF الحالي.

•القضايا متعددة اللغات، بما في ذلك ربط الموارد المعجمية مثل وردنت كما تم تنفيذه في الفهرس البيني لجمعية وردنت العالمية وموارد غير متجانسة مثل وردنت وويكبيديا، كما تم في بابل نت. •توفير منتديات لتوحيد معلومات الموارد اللغوية. ترتبط البيانات المفتوحة اللغوية ارتباطًا وثيقًا بتطوير: •أفضل الممارسات لربط البيانات المعجمية على الويب. •أفضل الممارسات لإنشاء الشروحات التوضيحية على الويب. •أفضل الممارسات لنمذجة الموارد النصية ومشاركتها مع الترميز المتداخل.

المصادر

^ Open Linguistics Working Group. "Linguistic LOD". linguistic-lod.org. LIDER project. مؤرشف من الأصل في 2022-04-07. اطلع عليه بتاريخ 2016-05-24.
^ Chiarcos، Christian؛ McCrae، John؛ Cimiano، Philipp؛ Fellbaum، Christiane (2013). Towards open data for linguistics: Lexical Linked Data (PDF). Heidelberg: In: Alessandro Oltramari, Piek Vossen, Lu Qin, and Eduard Hovy (eds.), New Trends of Research in Ontologies and Lexical Resources. Springer. مؤرشف من الأصل (PDF) في 2022-01-19. اطلع عليه بتاريخ 2016-05-24.
^ "Linguistic Linked Open Data. Information about the current status of the growing cloud of linguistic linked open data". مؤرشف من الأصل في 2022-04-07. اطلع عليه بتاريخ 2019-12-10.
^ "Best Practices for Multilingual Linked Open Data Community Group". مؤرشف من الأصل في 2022-05-04. اطلع عليه بتاريخ 2019-12-09.
^ "Linked Data for Language Technology Community Group". مؤرشف من الأصل في 2022-05-03. اطلع عليه بتاريخ 2019-12-09.
^ ^ا ^ب Eckart، Richard (2008). Choosing an XML database for linguistically annotated corpora. SDV. Sprache und Datenverarbeitung 32.1/2008: International Journal for Language Data Processing, Workshop Datenbanktechnologien für hypermediale linguistische Anwendungen (KONVENS 2008), Universitätsverlag Rhein-Ruhr, Berlin, Sep 2008. ص. 7–22. مؤرشف من الأصل في 2018-11-21.
^ Chiarcos، Christian. "Interoperability of Corpora and Annotations (draft version)" (PDF). In: Christian Chiarcos, Sebastian Nordhoff, and Sebastian Hellmann (eds.) Linked Data in Linguistics. Representing and Connecting Language Data and Language Metadata, 2012. مؤرشف من الأصل (PDF) في 2017-05-10. اطلع عليه بتاريخ 2016-05-25.

[:1-1] Open Linguistics Working Group. "Linguistic LOD". linguistic-lod.org. LIDER project. مؤرشف من الأصل في 2022-04-07. اطلع عليه بتاريخ 2016-05-24.

[2] Chiarcos، Christian؛ McCrae، John؛ Cimiano، Philipp؛ Fellbaum، Christiane (2013). Towards open data for linguistics: Lexical Linked Data (PDF). Heidelberg: In: Alessandro Oltramari, Piek Vossen, Lu Qin, and Eduard Hovy (eds.), New Trends of Research in Ontologies and Lexical Resources. Springer. مؤرشف من الأصل (PDF) في 2022-01-19. اطلع عليه بتاريخ 2016-05-24.

[3] "Linguistic Linked Open Data. Information about the current status of the growing cloud of linguistic linked open data". مؤرشف من الأصل في 2022-04-07. اطلع عليه بتاريخ 2019-12-10.

[4] "Best Practices for Multilingual Linked Open Data Community Group". مؤرشف من الأصل في 2022-05-04. اطلع عليه بتاريخ 2019-12-09.

[5] "Linked Data for Language Technology Community Group". مؤرشف من الأصل في 2022-05-03. اطلع عليه بتاريخ 2019-12-09.

[مولد_تلقائيا1-6] ا ^ب Eckart، Richard (2008). Choosing an XML database for linguistically annotated corpora. SDV. Sprache und Datenverarbeitung 32.1/2008: International Journal for Language Data Processing, Workshop Datenbanktechnologien für hypermediale linguistische Anwendungen (KONVENS 2008), Universitätsverlag Rhein-Ruhr, Berlin, Sep 2008. ص. 7–22. مؤرشف من الأصل في 2018-11-21.

[7] Chiarcos، Christian. "Interoperability of Corpora and Annotations (draft version)" (PDF). In: Christian Chiarcos, Sebastian Nordhoff, and Sebastian Hellmann (eds.) Linked Data in Linguistics. Representing and Connecting Language Data and Language Metadata, 2012. مؤرشف من الأصل (PDF) في 2017-05-10. اطلع عليه بتاريخ 2016-05-25.

[1]

[2]

[3]

[4]

[5]

[6]

[7]