القائمة الرئيسية

الصفحات

Big Data أو البيانات الضخمة


سنتحدث في هذه التدوينة عن : ما التعريف الأساسي الأكثر استخدامًا للبيانات الضخمة؟ 
فيمَ تتمثل البيانات الضخمة؟ 
ماهي مصادر البيانات الضخمة؟ 
ماهي تقنيات البيانات الضخمة؟ 
مصادر ومراجع مهمه للبيانات الضخمة 
كورس في نظام Hadoop الخاص بالتعامل مع البيانات الضخمة

التعريف الأساسي الأكثر استخدامًا للبيانات الضخمة


التعريف الأساسي الأكثر استخدامًا للبيانات الضخمة يتكون من ثلاث V هي: 
  • الحجم Volume. 
  • السرعة Velocity. 
  • التنوع Varity. 
  1. الحجم (Volume): كميات كبيرة من البيانات، من مجموعات البيانات مع أحجام التيرابايت إلى زيتابايت.
  2. السرعة (Velocity): وكثيرًا ما تكون هناك كميات كبيرة من البيانات من المعاملات مع ارتفاع معدل التحديث مما أدى إلى تدفق البيانات القادمة بسرعة كبيرة، والوقت للعمل على أساس هذه البيانات قصير جدًا، فهناك تحوّل من معالجة دفعة إلى الوقت الحقيقي لتدفقها.
  3. التنوع (Varity): تأتي البيانات من مصادر بيانات مختلفة مثل بيانات المعاملات، والسجلات، والتطبيقات المختلفة والبيانات المنظمة كجدول قاعدة بيانات وبيانات شبه منظمة مثل بيانات XML، والبيانات غير المهيأة مثل النصوص، والصور، وتدفقات الفيديو، والبيانات الصوتية، وغيرها.
هناك تحول من البيانات المنظمة الوحيدة إلى بيانات أكثر تنظيمًا بشكل متزايد أو مزيج من الاثنين. ومن وجهة نظر شركة IBM فإن البيانات الضخمة لديها إلى جانب الخصائص الثلاث السابقة أعلاه خاصية رابعة أخرى المصداقية (Veracy): التي تشير إلى الدرجة التي يثق فيها القائد بالمعلومات المستخدمة.

فيمَ تتمثل البيانات الضخمة؟ 

  • بيانات الويب (Web Data) 
  • البيانات النصية (Text Data) 
  • بيانات الوقت والموقع (Time and Location Data) 
  • الشبكة الذكية وبيانات الاستشعار (Smart Grid and Sensor Data) ▪️بيانات الشبكة الاجتماعية (Social Network Data)

تتنوع مصادر البيانات الضخمة وتتعدد بين كل من: 

  1. المصادر الناشئة عن إدارة أحد البرامج: برنامَج حكومي أو غير حكومي كالسجلات الإلكترونية للمستفيدين وللناشرين وللموظفين، وللمكتبات المتعامل معها، ولزيارات المستفيدين…إلخ، وسجلات التأمين والسجلات المصرفية، والسجلات الطبية للمرضى مثلاً
  2. المصادر التجارية أو ذات الصلة بالمعاملات: البيانات الناشئة عن معاملات بين كيانين، على سبيل المثال معاملات البطاقات الائتمانية والمعاملات التي تجرى عن طريق الإنترنت بوسائل منها الأجهزة المحمولة.
  3. مصادر شبكات أجهزة الاستشعار: على سبيل المثال، التصوير بالأقمار الصناعية، وأجهزة استشعار الطرق، وأجهزة استشعار المناخ وتلوث الهواء. • مصادر أجهزة التتبع (GPS): مثلاً تتبع البيانات المستمدة من الهواتف المحمولة والنظام العالمي لتحديد المواقع.
  4. مصادر البيانات السلوكية: مثلاً، عدد مرات البحث على الإنترنت عن منتج أو خدمة ما أو أي نوع آخر من المعلومات، وعدد مرات مشاهدة إحدى الصفحات على الإنترنت. • مصادر البيانات المتعلقة بالآراء: على سبيل المثال، التعليقات والآراء على وسائط التواصل الاجتماعي كالفيسبوك وتويتر مثلاً.

تقنيات البيانات الضخمة 

أهم وأشهر هذه التقنيات: 
  • Hadoop
  • Map Reduce
  • HPCC
إلا أن Hadoop يعد من أشهر هذه الأدوات، وهو برنامَج أو منصة برمجية مفتوحة المصدر مكتوبة بلغة الجافا لتخزين ومعالجة البيانات الضخمة بشكل موزع مثل تخزين بيانات ضخمة على عدة أجهزة ومن ثم توزيع عملية المعالجة.
لتسريع نتيجة المعالجة، يقوم Hadoop بتنفيذ إطار برمجي software framework يدعى Map Reduce فالفكرة ببساطة أنه بدلاً من أن ترسل الأمر أو المهمة التي تريد إلى خادم واحد فإنك ترسلها إلى جميع الخوادم في نفس اللحظة وكل خادم يقوم بإعطائك ما لديه من بيانات ثم يتم عمل تجميع هذه البيانات وإعادتها لك كحزمة واحدة

تتكون الأدوات التي تتعامل مع البيانات الضخمة من ثلاث أجزاء رئيسية هي:

  •  أدوات التنقيب عن البيانات، 
  • أدوات التحليل، 
  • أدوات عرض وتصوير النتائج 

مراجع مهمه في علم البيانات


مصدرالمقالة ثريد علي تويتر للمهندس المبدع خالد ابو ابراهيم (من هنا).
https://sasapost.com/big-data-statistics-draw-way-future

تعليقات