تغذية البيانات

 تغذية البيانات
 (Feeding the Data)

مرحلة تغذية البيانات ( Feeding the Data) هي المرحلة التأسيسية في تعلم الذكاء الاصطناعي وتكوين ٱلية عمله، يتم في هذه المرحلة تزويد النظام بما يشبه مكتبة داخلية هي عبارة عن كميات هائلة من المعلومات قد تكون نصوصا مكتوبة أو صور او مقاطع صوتية أو فيديو، ثم يبدأ النظام بالتعرف والتدريب عليها بعملية تشبه عملية تعلم الإنسان من خلال التعرف على ما حوله، و تسبق هذه العملية عمليات أخرى لتجهيز هذه البيانات

مراحل إعداد وتجهيز البيانات 

  تجميع البيانات (Data Collection) 

 يتم جمع البيانات الأولية من مصادر مختلفة وهناك طريقتين لجمع البيانات :

 التجميع اليدوي : عن طريق إدخال البيانات يدويا، مثل تسجيل بيانات المرضى في المستشفى.

  التجميع التلقائي : وهذا هو الأسلوب الأكثر شيوعا في الذكاء الاصطناعي، يتم استخدام برامج خاصة (مثل برامج الزحف على الويب) لجمع كميات هائلة من البيانات من مصادر مختلفة، كمواقع الإنترنت، ووسائل التواصل الاجتماعي، وأجهزة الاستشعار، بعد تجميع البيانات، يتم إعدادها وتنظيفها لتكون جاهزة لتدريب النظام، وهي عملية تعرف باسم معالجة البيانات المسبقة

 تنظيف البيانات (Data Cleaning) 

معالجة البيانات المفقودة و إزالة القيم الشاذة وتصحيح الأخطاء، مثل حذف الصفوف الفارغة، ملء القيم المفقودة بمتوسط القيم، أو تصحيح الأخطاء الإملائية، حيث ان البيانات غير النظيفة قد تؤدي إلى نتائج غير دقيقة للنموذج، لذلك تعتبر هذه الخطوة أساسية قبل أي تدريب.

 تنسيق البيانات (Data Formatting)

بعد تنظيف البيانات، تأتي مرحلة تنسيق البيانات، وهي تهدف إلى تحويل البيانات إلى شكل موحد ومتوافق مع متطلبات النموذج أو الخوارزمية التي ستتعلم منها. في هذه المرحلة، يتم التأكد من أن جميع القيم تستخدم نفس الصيغ والوحدات، مثل توحيد التواريخ إلى صيغة واحدة (YYYY-MM-DD) أو تحويل الأطوال إلى وحدة واحدة مثل السنتيمتر. كما يتم ترتيب الحقول والأعمدة بشكل مناسب، وتحويل النصوص أو الفئات إلى تمثيل رقمي قابل للمعالجة بواسطة النموذج، مثل ترميز الكلمات أو تصنيف الفئات، تساعد هذه العملية على ضمان قدرة النموذج على فهم البيانات ومعالجتها بشكل صحيح ودقيق، وتكمل مرحلة معالجة البيانات المسبقة لتصبح البيانات جاهزة لتدريب نظام الذكاء الاصطناعي.

  تحليل البيانات الاستكشافي (Exploratory Data Analysis - EDA) 

 يهدف إلى فهم طبيعة البيانات، اكتشاف الأنماط، التوزيعات، والارتباطات بين المتغيرات، مثل رسم مخطط التوزيع لقياس الطول، أو حساب العلاقة بين العمر والدخل.

 هندسة الميزات (Feature Engineering) 

تحويل البيانات الخام إلى ميزات قابلة للاستخدام من قبل النموذج، مثل استخراج العمر من تاريخ الميلاد، تحويل النصوص إلى أرقام، أو ترميز القيم الاسمية مثل الجنس (ذكر/أنثى) إلى رموز رقمية،هذه الخطوة تمكن النموذج من التعلم بشكل أفضل وتحسين قدرته على التنبؤ بدقة.

تعليقات

المشاركات الشائعة