تنظيف البيانات
تنظيف البيانات[1] هو عملية إصلاح أو إزالة البيانات غير الصحيحة أو التالفة أو المنسقة بشكل غير صحيح أو المكررة أو غير المكتملة ضمن مجموعة البيانات. يمكن إجراء تنقية البيانات بشكل تفاعلي مع أدوات تبادل البيانات، أو كمعالجة مجمعة من خلال البرمجة النصية.[2]
عند استخدام البيانات، يتفق معظم الأشخاص على أن الرؤى والتحليلات الخاصة بك جيدة مثل البيانات التي تستخدمها. في الأساس، البيانات المهملة هي عبارة عن تحليل للقمامة، يعد تنظيف البيانات، الذي يشار إليه أيضًا باسم تنقية البيانات وتنقية البيانات، أحد أهم الخطوات لمؤسستك إذا كنت ترغب في إنشاء ثقافة حول اتخاذ قرارات جودة البيانات.[3]
عند الجمع بين مصادر بيانات متعددة، هناك العديد من الفرص لتكرار البيانات أو تسميتها بشكل خاطئ. إذا كانت البيانات غير صحيحة، فإن النتائج والخوارزميات لا يمكن الاعتماد عليها، على الرغم من أنها قد تبدو صحيحة. لا توجد طريقة واحدة مطلقة لوصف الخطوات الدقيقة في عملية تنظيف البيانات لأن العمليات ستختلف من مجموعة بيانات إلى مجموعة بيانات. ولكن من الأهمية بمكان إنشاء نموذج لعملية تنظيف البيانات الخاصة بك حتى تعرف أنك تقوم بذلك بالطريقة الصحيحة في كل مرة. بعد التطهير، يجب أن تكون مجموعة البيانات متسقة مع مجموعات البيانات المماثلة الأخرى في النظام. قد تكون حالات عدم الاتساق التي تم اكتشافها أو إزالتها ناتجة في الأصل عن أخطاء في إدخال المستخدم، أو تلف في الإرسال أو التخزين، أو بسبب تعريفات قاموس البيانات المختلفة لكيانات مماثلة في متاجر مختلفة. يختلف تنظيف البيانات عن التحقق من صحة البيانات في هذا التحقق من الصحة يعني دائمًا رفض البيانات من النظام عند الإدخال ويتم إجراؤها في وقت الإدخال، وليس على دفعات من البيانات.[4]
قد تتضمن العملية الفعلية لتنقية البيانات إزالة الأخطاء المطبعية أو التحقق من صحة القيم وتصحيحها مقابل قائمة معروفة من الكيانات. قد يكون التحقق من الصحة صارمًا (مثل رفض أي عنوان لا يحتوي على رمز بريدي صالح)، أو باستخدام مطابقة غامضة أو تقريبية للسلسلة (مثل تصحيح السجلات التي تتطابق جزئيًا مع السجلات الموجودة والمعروفة). ستعمل بعض حلول تنقية البيانات على تنظيف البيانات عن طريق التحقق المتقاطع مع مجموعة بيانات تم التحقق من صحتها. من الممارسات الشائعة لتطهير البيانات تحسين البيانات، حيث يتم جعل البيانات أكثر اكتمالاً عن طريق إضافة المعلومات ذات الصلة. على سبيل المثال، إلحاق العناوين بأي أرقام هواتف مرتبطة بهذا العنوان. قد يشمل تنقية البيانات أيضًا تنسيق (أو تطبيع) البيانات، وهي عملية تجميع البيانات من «تنسيقات الملفات المختلفة، واصطلاحات التسمية، والأعمدة»، وتحويلها إلى مجموعة بيانات واحدة متماسكة؛ مثال بسيط هو توسيع الاختصارات («st، rd، إلخ» إلى «street، road، إلى آخره»).[2]
ما الفرق بين تنظيف البيانات وتحويلها؟
تنظيف البيانات هو العملية التي تزيل البيانات التي لا تنتمي إلى مجموعة البيانات الخاصة بك. تحويل البيانات هو عملية تحويل البيانات من تنسيق أو بنية إلى أخرى. يمكن أيضًا الإشارة إلى عمليات التحويل على أنها مناوشة البيانات، أو إدارة البيانات، وتحويلها ورسم خرائط لها من نموذج بيانات «خام» إلى تنسيق آخر للتخزين والتحليل. تركز هذه المقالة على عمليات تنظيف تلك البيانات.[2]
كيف تنظف البيانات؟ [2]
بينما قد تختلف الأساليب المستخدمة لتنظيف البيانات وفقًا لأنواع البيانات التي تخزنها شركتك، يمكنك اتباع هذه الخطوات الأساسية لرسم إطار عمل لمؤسستك.
- إزالة الملاحظات المكررة أو غير ذات الصلة. قم بإزالة الملاحظات غير المرغوب فيها من مجموعة البيانات الخاصة بك، بما في ذلك الملاحظات المكررة أو الملاحظات غير ذات الصلة. ستحدث الملاحظات المكررة في أغلب الأحيان أثناء جمع البيانات. عندما تقوم بدمج مجموعات البيانات من أماكن متعددة، أو تتخلص من البيانات، أو تتلقى بيانات من عملاء أو أقسام متعددة، فهناك فرص لإنشاء بيانات مكررة. يعد إلغاء الازدواجية أحد أكبر المجالات التي يجب مراعاتها في هذه العملية. الملاحظات غير ذات الصلة هي عندما تلاحظ ملاحظات لا تتناسب مع المشكلة المحددة التي تحاول تحليلها. على سبيل المثال، إذا كنت ترغب في تحليل البيانات المتعلقة بالعملاء من جيل الألفية، لكن مجموعة البيانات الخاصة بك تتضمن الأجيال الأكبر سناً، يمكنك إزالة تلك الملاحظات غير ذات الصلة. يمكن أن يجعل هذا التحليل أكثر كفاءة ويقلل من تشتيت الانتباه عن هدفك الأساسي - بالإضافة إلى إنشاء مجموعة بيانات أكثر قابلية للإدارة وأكثر أداءً.
- إصلاح الأخطاء الهيكلية تحدث الأخطاء الهيكلية عندما تقوم بقياس البيانات أو نقلها وتلاحظ اصطلاحات تسمية غريبة أو أخطاء مطبعية أو أحرف كبيرة غير صحيحة. يمكن أن تؤدي هذه التناقضات إلى تصنيفات أو فئات غير صحيحة. على سبيل المثال، قد تجد كلاً من «لا ينطبق» و «غير قابل للتطبيق» يظهران، ولكن يجب تحليلهما على أنهما نفس الفئة.
- تصفية القيم المتطرفة غير المرغوب فيها في كثير من الأحيان، ستكون هناك ملاحظات لمرة واحدة حيث لا يبدو أنها تتناسب مع البيانات التي تقوم بتحليلها. إذا كان لديك سبب شرعي لإزالة استثناء، مثل إدخال بيانات غير لائق، فإن القيام بذلك سيساعد في أداء البيانات التي تعمل معها. ومع ذلك، في بعض الأحيان يكون مظهر الخارج هو الذي سيثبت النظرية التي تعمل عليها. تذكر: لا يعني وجود عنصر غريب أنه غير صحيح. هذه الخطوة ضرورية لتحديد صلاحية هذا الرقم. إذا ثبت أن أحد العناصر الخارجية غير ذي صلة بالتحليل أو كان خطأً، ففكر في إزالته.
- معالجة البيانات المفقودة لا يمكنك تجاهل البيانات المفقودة لأن العديد من الخوارزميات لن تقبل القيم المفقودة. هناك طريقتان للتعامل مع البيانات المفقودة. كلاهما ليس هو الأمثل، ولكن يمكن النظر في كليهما. كخيار أول، يمكنك إسقاط الملاحظات التي تحتوي على قيم مفقودة، لكن القيام بذلك سيؤدي إلى إسقاط المعلومات أو فقدها، لذا كن على دراية بهذا قبل إزالته. كخيار ثانٍ، يمكنك إدخال القيم المفقودة بناءً على الملاحظات الأخرى؛ مرة أخرى، هناك فرصة لفقد سلامة البيانات لأنك قد تعمل من الافتراضات وليس الملاحظات الفعلية. كخيار ثالث، يمكنك تغيير طريقة استخدام البيانات للتنقل الفعال بين القيم الخالية.
- التحقق من الصحة وضمان الجودة
فوائد تنظيف البيانات [2]
سيؤدي وجود بيانات نظيفة في النهاية إلى زيادة الإنتاجية الإجمالية والسماح بأعلى جودة للمعلومات في عملية اتخاذ القرار. الفوائد تشمل:
إزالة الأخطاء عند وجود مصادر متعددة للبيانات.
تحدث أخطاء أقل لعملاء أكثر سعادة وموظفين أقل إحباطًا.
القدرة على تعيين الوظائف المختلفة وما تهدف بياناتك إلى القيام به.
مراقبة الأخطاء وإعداد التقارير بشكل أفضل لمعرفة مصدر الأخطاء، مما يسهل إصلاح البيانات غير الصحيحة أو الفاسدة للتطبيقات المستقبلية.
سيؤدي استخدام أدوات تنظيف البيانات إلى زيادة كفاءة ممارسات الأعمال واتخاذ القرارات بشكل أسرع.
مراجع
[عدل]- ^ معجم البيانات والذكاء الاصطناعي (PDF) (بالعربية والإنجليزية)، الهيئة السعودية للبيانات والذكاء الاصطناعي، 2022، ص. 57، QID:Q111421033
- ^ ا ب ج د ه "Guide To Data Cleaning: Definition, Benefits, Components, And How To Clean Your Data". Tableau (بالإنجليزية الأمريكية). Archived from the original on 2021-01-29. Retrieved 2021-06-20.
- ^ Ralph M. Stair, Ralph M; George Reynolds, Cengage (March-6-2017). Fundamentals of Information Systems, 9th Edition (بانجليزي). Cengage Learning.
{{استشهاد بكتاب}}
: تحقق من التاريخ في:|تاريخ=
(help)صيانة الاستشهاد: لغة غير مدعومة (link) - ^ "تنظيف البيانات - المقصود به وأهميته وطرقه وإجراءاته". مركز البحوث والدراسات متعدد التخصصات. 22 نوفمبر 2018. مؤرشف من الأصل في 2021-06-24. اطلع عليه بتاريخ 2021-06-20.
وصلات خارجية
[عدل]- Computerworld: Data Scrubbing (February 10, 2003)
- Erhard Rahm, Hong Hai Do: Data Cleaning: Problems and Current Approaches