قاعدة البيانات و مجموعة البيانات
مفهوم قاعدة البيانات ومجموعة البيانات
تعتبر قاعدة البيانات وقود الذكاء الاصطناعي وهي مجموعة منظمة من البيانات يتم تخزينها وإدارتها إلكترونيا، تشبه مكتبة رقمية ضخمة، حيث يتم ترتيب كل معلومة (سواء كانت نصا أو صورة أو صوتا) بطريقة معينة لتسهيل الوصول إليها واستخدامها، وفي سياق الذكاء الاصطناعي (AI)، لا يستخدم مصطلح (قاعدة البيانات) بنفس الطريقة التقليدية، بل يتم التركيز على مفاهيم أخرى أكثر تخصصا وشمولا، والمصطلح الأكاديمي المتعارف عليه في هذا المجال هو مجموعة البيانات أو مجموعة المعطيات (Dataset).
الفرق بين Dataset و Database
قاعدة البيانات (Database)
تستخدم لتنظيم وتخزين البيانات بطريقة محددة ومنظمة، مثل جداول البيانات التي تحتوي على صفوف وأعمدة.
مجموعة البيانات (Dataset)
هي مجموعة من البيانات المُخصصة لتدريب نموذج الذكاء الاصطناعي، يتم إعداد هذه المجموعات بشكل خاص لتكون مدخلات لآلية التعلم، وغالبا ما تكون على هيئة مصفوفات أو قوائم وليست بالضرورة في هيكل قاعدة بيانات تقليدية.
أنواع Datasets في الذكاء الاصطناعي
هناك أنواع مختلفة من مجموعات البيانات التي تستخدم في الذكاء الاصطناعي، وتشمل :
البيانات الموَسَمة (Labeled Data)
هي بيانات تحتوي على (وسم) أو (تسمية) أو (label) مثل صورة لقطة تم وسمها بأنها (قطة)، هذا النوع ضروري للتعلم تحت الإشراف (Supervised Learning).
البيانات غير الموسَمة(Unlabeled Data)
هي بيانات لا تحتوي على أي وسوم، مثل مجموعة صور لم تصنف، هذا النوع يستخدم في التعلم غير الخاضع للإشراف (Unsupervised Learning).
البيانات الضخمة (Big Data) : مصطلح يشير إلى كميات هائلة من البيانات التي لا يمكن معالجتها بالطرق التقليدية، وتعد جزءا أساسيا من تدريب نماذج الذكاء الاصطناعي الحديثة.
خصائص البيانات Data Characteristics
* الكمية (Quantity) : كلما زاد حجم البيانات التي يتلقاها النظام، زادت قدرته على التعرف على الأنماط المختلفة والدقيقة، كطفل يتعلم يشاهد عددا أكبر من القطط فيستطيع التعرف على أنواعها المختلفة.
* التنوع (Variety) : ليس الحجم وحده هو المهم، بل التنوع أيضا، يجب أن تكون البيانات شاملة لمختلف الاحتمالات، فلو تدرب نظام على صور قطط بيضاء فقط، فلن يكون قادرا على التعرف على القطط السوداء، لهذا السبب تعتمد نماذج الذكاء الاصطناعي الأكثر تطورا (مثل النماذج اللغوية الكبيرة) على البيانات الضخمة المتنوعة (Big Data) التي تقاس بالبيتابايت (Petabytes)، لضمان أن تكون الأوزان التي تتعلمها الشبكة دقيقة قدر الإمكان
تعليقات
إرسال تعليق