Skip to content

26/04/14

استخدام البيانات الضخمة لأغراض التنمية.. حقائق وأرقام

Facts and Figs SPotlight.jpg
حقوق الصورة:Andrew McConnell / Panos

نقاط للقراءة السريعة

  • تنمو سريعًا سجلات البيانات الضخمة التي تسجل ’الزمان والمكان‘ لمكالمات الهواتف المحمولة
  • مُبشِّرة، لكنها تنطوي أيضًا على مخاطر؛ حتى البيانات مجهولة المصدر يمكن الوصول إلى مصادرها
  • حقل البيانات الضخمة وُجِد ليبقى، ولكنه لا يزال في المهد، كما هو حال ضوابطه الأخلاقية

أرسل إلى صديق

المعلومات التي تقدمها على هذه الصفحة لن تُستخدم لإرسال بريد إلكتروني غير مرغوب فيه، ولن تُباع لطرف ثالث. طالع سياسة الخصوصية.

ما هي البيانات الضخمة، وهل يمكنها تغيير سياسات التنمية؟ يجيل إيمانويل لوتوزيه النظر في هذا المجال الجديد.

خلال بضع سنوات، طال تأثير ’البيانات الضخمة‘ صناعات وأنشطة تبدأ من التسويق والدعاية، وصولاً إلى جمع المعلومات الاستخبارية وإنفاذ القانون، ما أسفر عن كثير من الإثارة والتشكيك. ويومًا بعد يوم تبدو صناعة السياسات وكأنها الحدود المقبلة للبيانات الضخمة. أتكون هذه الظاهرة –التي سماها الخبير أندرياس فايجند ’نفط جديد‘ ينبغي تكريره– نعمة أم نقمة على التنمية البشرية والتقدم الاجتماعي؟[1، 2]

من جانب، يصفها المتفائلون بأنها ثورة من شأنها أن تُغير –للأفضل عمومًا– ’كيفية معيشتنا، وتفكيرنا، وعملنا‘. وقد أعرب بعض مسؤولي البنك الدولي كذلك عن أملهم في تدارك ’مأساة أفريقيا الإحصائية‘ –وهي ندرة الإحصاءات الرسمية الموثوقة في بعض من أفقر الأماكن في العالم– جزئيًّا باستخدام البيانات الضخمة[3، 4] ولكن المتشككين والمنتقدين كانوا أكثر حذرًا، وكانت عدوانية بعضهم جليّة –في إشارتهم إلى البيانات الضخمة بأنها حيلة كبيرة، وضجة كبيرة، وخطر كبير، بالإضافة إلى ’أخ أكبر‘ –بالطبع– في أعقاب تسريبات إدوارد سنودن؛ وهو متعاقد سابق مع وكالة الأمن القومي الأمريكية.
 
شق طريق

لا تزال البيانات الضخمة -خاصة المطبقة على قضايا السياسات العامة والتنمية- في مهدها من الناحية الفكرية والتشغيلية. وكان جو هيلرشتاين –وهو عالِم متخصص في الكمبيوتر يعمل في جامعة كاليفورنيا، بيركلي، الولايات المتحدة الأمريكية– من أوائل من أشاروا في نوفمبر 2008 إلى دنو ’ثورة صناعية في البيانات‘، في حين تحدثت مجلة الإيكونوميست عن ’طوفان بيانات‘ في أوائل عام 2010.[5، 6] ولم يصبح مصطلح ’البيانات الضخمة‘ سائدًا إلا منذ بضع سنوات. وتُعَدُّ عمليات البحث على جوجل (انظر الشكل 1) أحد المقاييس التي تُظهِر هذا: حيث لم يتزايد عدد عمليات البحث التي تشمل المصطلح حتى المدة من 2011 إلى 2012. وفي هاتين السنتين، نُشرِت أربعة تقارير كبرى، من: مبادرة النبض العالمي للأمم المتحدة، والمنتدى الاقتصادي العالمي، ومعهد ماكينزي العالمي، ودانه بويد وكيت كراوفورد؛ وهما باحثتان في مايكروسوفت ومؤسسات أكاديمية أخرى.[7–10]
 

الشكل 1: عمليات البحث على جوجل عن ’البيانات الضخمة‘، نسبة إلى إجمالي عدد عمليات البحث على جوجل. (الأرقام لا تمثل الحجم الكامل لعمليات البحث؛ فهي موحدة ومبينة على مقياس من 0–100) اضغط هنا لمطالعة هذه البيانات في موقع جوجل.

وبطبيعة الحال، يمكن أن تكون الضجة حول البيانات الضخمة مجرد فقاعة، أو تهويل ليس إلا. وكما يشير بعض المراقبين، فإن التحليل الآلي لمجموعات بيانات ضخمة ليس بجديد. فما هو الجديد إذن؟
 
ما هي البيانات الضخمة؟

لا يوجد تعريف واحد متفق عليه للبيانات الضخمة. وفق أحد التعريفات، هي بيانات تولدت من خلال استخدامنا المتزايد للأجهزة الرقمية، والأدوات والمنصات المدعومة من شبكة الإنترنت في حياتنا اليومية. وفي أي لحظة معينة، يستخدم مئات الملايين من الأفراد في أنحاء العالم بعضًا من الهواتف المحمولة في العالم –البالغ عددها من سبعة مليارات إلى ثمانية مليارات هاتف– لإجراء مكالمات، أو لإرسال رسائل نصية أو بريد إلكتروني. وقد يحولون أموالاً، أو يشترون كتبًا، أو يبحثون في الإنترنت، أو يدفعون ثمن وجبة ببطاقة ائتمان، أو يحدِّثون الحالة على صفحاتهم في ’فيسبوك‘، أو يرسلون تغريدات، أو يرفعون ملفات فيديو على موقع ’يوتيوب‘، أو ينشرون تدوينات، وهلم جرا. كل هذه الأنشطة يترك أثرًا رقميًّا. وتُشكِّل هذه المعلومات الرقمية في مجموعها الجزء الأكبر من البيانات الضخمة. ومنذ عام 2012، يجري إنتاج أكثر من 1.2 زيتابايت من البيانات سنويًّا؛ 2110 بايت، أو ما يكفي لملء 80 مليار جهاز ’آي فون‘ سعة 16 جيجابايت (التي قد تُشكِّل على امتدادها أكثر من 100 دورة حول الأرض). (الجدول 1) بل إن حجم هذه البيانات في نمو سريع.[11] لذلك فإن الحجم، والسرعة، والتنوع هي ’الخصائص‘ الثلاث التي تميز البيانات الضخمة، وغالبًا ما يُضاف إليها القيمة التي يمكن استخراجها منها باعتبارها الخصيصة الرابعة.

الجدول 1 – تضخم البيانات

الوحدة الحجم ماذا تعني
بت (b) 1 أو 0 اختصار رقم ثنائي، على غرار الشفرة الثنائية (1 أو 0) التي تستخدمها أجهزة الكمبيوتر لتخزين بيانات تشمل النصوص والأرقام والصور والفيديو، إلخ، ومعالجتها.
بايت (B) 8 بت  معلومات كافية لإنشاء رقم أو حرف إنجليزي في لغة الكمبيوتر. وهي الوحدة الأساسية للحوسبة.
كيلو بايت (KB) 1000 بايت، أو 10 يأتي اسمها من كلمة ألف في اليونانية. وحجم صفحة واحدة من النص المكتوب هو 2 كيلوبايت.
ميجابايت (MB) 1000 كيلوبايت، أو 202 بايت يأتي اسمها من كلمة كبيرفي اليونانية. وحجم ملف بصيغة MP3 3 لأغنية عادية هو 4 ميجابايت تقريبًا. 
جيجا بايت (GB) 1000 ميجابايت، أو 302 بايت يأتي اسمها من كلمة عملاق في اليونانية. ويمكن ضغط فيلم مدته ساعتين في مساحة 1-2 جيجابايت. ويحتوي ملف نصي حجمه 1 جيجابايت على أكثر من مليار حرف، أو ما يقرب من 290 نسخة من الأعمال الكاملة لشكسبير.
تيرابايت (TB) 1000 جيجا بايت، أو 402 بايت يأتي اسمها من كلمة هولة في اليونانية. ويبلغ حجم جميع الكتب المفهرسة في مكتبة الكونجرس الأمريكية نحو 15 تيرابايت. ويبلغ حجم ملف نصي يحتوي جميع التغريدات المرسلة قبل نهاية عام 2013 نحو 18.5 تيرابايت. 
بيتابايت (PB) 1000 تيرابايت، أو 502 بايت تحلل وكالة الأمن القومي الأمريكية -كما يقال- 1.6٪ من حركة الإنترنت العالمية، أو نحو 30 بيتابايت، في اليوم الواحد. ويستغرق التشغيل المستمر لموسيقى حجمها 30 بيتابايت أكثر من 60 ألف سنة، أي ما يوازي الوقت الذي انقضى منذ أن غادر أول إنسان عاقل أفريقيا.
إكسابايت (EB) 1000 بيتابايت، أو 602 بايت يوازي 1 إكسابايت من البيانات سعة تخزين 33554432 جهاز آي فون 5، سعة 32 جيجابايت. وبحلول عام 2018، من المتوقع أن يبلغ الحجم الإجمالي لحركة بيانات المحمول الشهرية نحو نصف إكسابايت. وإذا تم تخزين هذا الحجم من البيانات على أجهزة آي فون 5 سعة 32 جيجابايت مكدسة واحد فوق الآخر، فسيفوق ارتفاع الكومة 283 ضعف ارتفاع مبنى إمبايرستيت.
زيتابايت (ZB) 1000 إكسابايت، أو 702 بايت أنتجت البشرية في عام 2013، وفق تقديرات، من 4-5 زيتابايت من البيانات، وهو ما يتجاوز كمية البيانات في 46 تريليون عدد مطبوع من مجلة الإيكونوميست. وإذا وُضعت صفحات هذه المجلات على الأرض، فسوف تغطي سطح اليابسة بالكامل.
يوتابايت ( YB)  1000 زيتابايت ، أو 802 بايت يمكن تخزين محتويات الشفرة الجينية لشخص واحد في أقل من 1.5 جيجابايت، وهذا يعني أن مساحة تخزين قدرها يوتابايت يمكن أن تحتوي على أكثر من 800 تريليون جينوم بشري، أو ما يقرب من 100 ألف ضعف سكان العالم بأسره.
     
تم تعيين الاختصارات بواسطة المكتب الدولي للأوزان والمقاييس.

المصدر: البيانات مقتبسة ومحدثة من مجلة الإيكونوميست؛ حيث أعدها إيمانويل لوتوزيه وجابرييل بيستر، باستخدام بيانات من شركة سيسكو، وصحيفة ’ديلي ميل‘، وموقع ’تويتر‘ (عبر quora.com)، وأرشيف مفوضية الأوراق المالية والبورصات (عبر expandedramblings.com)، وموقع Bitesizebio.com، وكتاب المجهول: البيانات الضخمة، عدسة على الثقافة الإنسانية (2013) بقلم إيريز إيدن وجان-بابتيست ميتشل.

ومهما يزد عدد سكان مجتمع ما عند حدوث فورة مفاجئة في الخصوبة، ويصبح في مجموعه أصغر سنًّا، وأكبر عددًا، فلن يواكب نسبة نمو البيانات الرقمية المنتجة مؤخرًا، بل هي أسرع؛ حيث أُنتج ما يصل إلى 90٪ من البيانات في العالم خلال عامين فقط (2010–2012)، وفقًا لأحد التقارير التي يكثر الاستشهاد بها.[12]
 
أنواع البيانات

تأتي البيانات الضخمة في أنواع شتى. أحد هذه الأنواع عبارة عن أجزاء صغيرة من بيانات ’صماء‘ –مثل الأرقام أو الحقائق– التي وصفها أليكس ’ساندي‘ بنتلاند –وهو أستاذ في معهد ماساتشوستس للتكنولوجيا، الولايات المتحدة الأمريكية– بأنها ”فتات الخبز الرقمية“.[13] ويقال إن هذه البيانات ’بنيوية‘ لأنها تشكل مجموعات من المتغيرات التي يمكن توصيفها، وتصنيفها، وتنظيمها بسهولة (في أعمدة وصفوف على سبيل المثال) بغرض التحليل المنهجي. ومن الأمثلة على ذلك سجلات تفاصيل المكالمات الهاتفية التي تجمعها شركات المحمول (الجدول 2). وسجلات تفاصيل المكالمات الهاتفية تُعدّ واصفات للبيانات (بيانات عن البيانات) تسجل استخدام المشتركين لهواتفهم المحمولة –بما في ذلك رمز تحقيق الهوية، وموقع برج الهاتف الذي حدد مسار المكالمة لكل من المتصل والمتلقي، كحد أدنى– ووقت المكالمة ومدتها. وتحفظ شركات الاتصالات الكبرى سجلات تفاصيل المكالمات الهاتفية يوميًّا.[14] (الشكل 2).

الجدول 2. البيانات الموجودة في سجل تفاصيل المكالمات الهاتفية

المتغير البيانات
هوية المتصل X76VG588RLPQ
موقع أقرب برج من المتصل 2°24' 22.14" , 35°49' 56.54
رقم هاتف متلقي المكالمة A81UTC93KK52A81UTC93KK52
موقع أقرب برج من متلقي المكالمة 3°26' 30.47", 31°12' 18:01"
وقت المكالمة 3013–11–07T15:15:00
مدة المكالمة 01:12:02
ملحوظة: لا يجري تحديد مكان سوى برج الاتصال لأسباب تتعلق بالخصوصية. المصدر: كتاب تمهيدي جديد حول استخدام بيانات شبكات الهاتف المحمول لأغراض التنمية. (مبادرة النبض العالمي للأمم المتحدة، 5 نوفمبر 2013)
 
وهناك نوع ثاني من البيانات الضخمة يشمل ملفات الفيديو، والمستندات، والتدوينات، وغيرها من محتوى وسائط الإعلام الاجتماعي. معظم هذه البيانات ’غير بنيوي‘؛ ولذلك يصبح تحليلها أصعب. وهي تختلف عن بيانات ’فتات الخبز‘ من حيث إنها تخضع لآراء مؤلفيها، وقد ترسم صورة خادعة لأنها غير موضوعية. على سبيل المثال، قد تكتب أنت تدوينة تذكر فيها مقاطعتك منتجًا معينًا، ولكن بيان بطاقة الائتمان الخاصة بك –استنادًا إلى المشتريات الفعلية– قد يكشف عن وجود اختيار مختلف.

ويُجمع نوع ثالث من البيانات الضخمة عن بعد بواسطة أجهزة استشعار رقمية، ويعكس تصرفات البشر. وقد تكون هذه الأجهزة ’عدادات ذكية‘ مثبّتة في المنازل لتسجيل استهلاك الكهرباء، أو صور الأقمار الاصطناعية التي يمكنها التقاط معلومات مادية –مثل الغطاء النباتي– كمؤشر على إزالة الغابات.[15]

لكن نظرة البعض إلى عالَم البيانات الضخمة أوسع من ذلك بكثير؛ فهي تشمل السجلات الإدارية، وبيانات عن الأسعار أو الطقس مثلاً، أو الكتب التي حُوّلت إلى الصيغة الرقمية في السابق، والتي قد تُشكِّل –عند النظر إليها مجتمعة– نوعًا رابعًا.

graph_global_mobil_data_new_fileminimizer_

الشكل 2. بيانات الأجهزة المحمولة في العالم لعام 2014 – نمو الحركة وتوقعاتها 
اضغط للتكبير

الخصائص المميزة

ولكن القسم الأكبر من البيانات الضخمة يمكن قراءته آليًّا، وينتجه البشر –وهم محوره في الوقت نفسه– في مزيج من الأنواع المذكورة أعلاه. لم تكن هذه البيانات متوفرة قبل 10 سنوات، أو قبل عصر ’فيسبوك‘، أو عصر الاستخدام المطرد للهاتف المحمول، وهي تنبع من تغيرات تكنولوجية ومجتمعية كبيرة.

العامل الرئيس المستجد على هذه البيانات الضخمة هو أن مصادرها إلكترونية، وينتهي بها المطاف في قواعد بيانات الغرض الأساسي منها ليس الاستدلال الإحصائي.[16] وبمعنى آخر، لم تُجمع هذه البيانات أو عيناتها بهدف استخلاص نتائج منها. وهذا أيضًا يجعل استغلال البيانات الضخمة صعبًا.

لذا، قد يكون وصف البيانات بالضخمة تسمية خطأ ومضللة؛ فالحجم ليس السمة المميزة لها. على سبيل المثال، قد لا يكون حجم ملف يحتوي جدول بيانات Excel لسجلات تفاصيل المكالمات الهاتفية كبيرًا، لكن قاعدة بيانات مؤشرات التنمية في البنك الدولي بأكملها تشغل ملفًا كبيرًا؛ ولكن الملف الأخير ينتج من عمليات خاضعة بالكامل للسيطرة، من بينها المسوح التي تجريها جهات رسمية. والفرق في المقام الأول هو نوعية البيانات؛ ويكمن في نوعية المعلومات المتضمنة في البيانات، وطريقة توليدها.

ويزيد جاري كينج –الأستاذ في جامعة هارفارد– الأمر صعوبة، فهو يرى أن ”مصطلح البيانات الضخمة لا يدور حول البيانات“.[17] إنه يتعلق ’بتحليلات‘ البيانات الضخمة، التي تشير بصفة عامة إلى إدخال تحسينات على القدرات الحاسوبية والتحليلية؛ مثل التعلم الآلي الإحصائي، والخوارزميات التي يمكنها البحث عن أنماط واتجاهات في كميات هائلة من البيانات المعقدة واكتشافها. وهذه هي السمة الثانية للبيانات الضخمة: الأدوات، والأساليب، والأجهزة، والبرمجيات المتاحة الآن لتحليل البيانات الرقمية.

وثمة خصيصة ثالثة مهمة للبيانات الضخمة لا يُتطرّق إليها في المعتاد، أنها أصبحت ’حركة‘.[18] وتجتذب هذه الحركة –بشكل متزايد– فِرقًا متعددة التخصصات من علماء الاجتماع والكمبيوتر، الذين ”لا يشغل أذهانهم سوى تحويل الفوضى إلى معنى“، وفق تعبير أندرياس فايجند، وهو عالِم متخصص في البيانات. وهذا يضع البيانات الضخمة في إطار حركة هدفها تضمين البيانات في عملية صنع القرار.[2] وقد جددت هذه التصريحات الاهتمام بآفاق وضع سياسات ’تعتمد على بيانات‘ أو ’تستند إلى أدلة‘ ووعودها، على الرغم من وجود آثار تقنية وتكنولوجية وتجارية وسياسية مترتبة على ذلك، ولا يمكن الاستهانة بها على أي حال.

إذن، كيف يمكن للبيانات الضخمة –وتوافر أنواع جديدة من البيانات، أو قدرات جديدة على تحليلها، بأهداف جديدة– أن تؤثر على المجتمعات؟ وما الذي يفسر الضجة التي تحيط بها؟

ينبع وعد البيانات الضخمة وبشارتها من جانبين: هناك مدد من البيانات أكثر من أي وقت مضى، وطلب معلومات أفضل، وأسرع، وأرخص. وبعبارة أخرى، هناك أسباب تدفع بنا في اتجاه البيانات الضخمة وتجذبنا إليها على حد سواء.
 
طلب البيانات

يشعر الناس بإحباط من الأدوات والنظم المتاحة حاليًّا لاتخاذ القرارات. وعلى سبيل المثال، أحد المؤشرات الجيدة لانتشار الفقر أو التخلف في منطقة معينة هو عدم وجود بيانات عن الفقر أو التنمية.[19]
وهناك بعض البلدان (معظمها حديث عهد بصراع) التي لم تحص تعداد السكان منذ أربعة عقود أو يزيد. لا أحد يعلم بالضبط عدد سكانها، أو تركيبتهم، أو توزيعهم. وعلى الرغم من وجود أرقام رسمية، فهي غالبًا ما تستند إلى بيانات غير مكتملة.[20] وتعني البيانات السيئة أيضًا أن إجمالي الناتج المحلي لبعض البلدان قد تزيد أرقامه الرسمية بين عشية وضحاها –بنسبة 40٪ في غانا عام 2010، أو 60٪ في نيجيريا عام 2014– عندما وُضعت أخيرًا في الاعتبار تغييرات في هياكل اقتصاداتها؛ مثل إنهاض قطاع التكنولوجيا.[21–22]

وقد تَصدَّر نقص البيانات الموثوقة هذا دعوة الأمم المتحدة الأخيرة إلى ’ثورة في البيانات‘. الأساس المنطقي هو أنه –في عصر البيانات الضخمة– ينبغي أن يتولى توجيه الاقتصادات صانعو سياسات يعتمدون على أدوات ملاحة ومؤشرات أفضل، تتيح لهم تصميم وتنفيذ سياسات وبرامج أكثر مرونة وأفضل استهدافًا. بل قيل إن هناك إمكانية أن تُحقق البيانات الضخمة طفرة في نُظُم الإحصاء الوطنية في المناطق التي تنقصها بيانات، مثلما تخطت بلدان فقيرة كثيرة مرحلة الهاتف الثابت ودخلت عصر الهاتف المحمول مباشرة.[4]
 
توفير معارف جديدة

ويسهم ’الجانب المتعلق بالمدد‘ للبيانات الضخمة أيضًا في إضفاء رونق على احتمال تحقيق قفزة للأمام. وهناك أدلة عملية أولية ومجموعة متزايدة من الأعمال حول قدرة البيانات الضخمة الجديدة على فهم جموع البشر والتأثير عليها، وكذلك بالنسبة للعمليات والإجراءات.

على سبيل المثال، جرى استخدام بيانات ضخمة لتعقُّب التضخم على الإنترنت، وتقدير التغيرات في الناتج المحلي الإجمالي آنيًّا تقريبًا، والتنبؤ بها، ومراقبة حركة المرور، بل وتفشي حمى الضنك.[23–26] وتتيح لنا مراقبة بيانات وسائط الإعلام الاجتماعي بهدف تحليل مشاعر الناس طرقًا جديدة لقياس الرفاهية، في حين يمكن استخدام بيانات البريد الإلكتروني وموقع ’تويتر‘ لدراسة الهجرة الداخلية والدولية. [25، 27] وثمة مؤلفات أكاديمية ثرية للغاية –آخذة في الزيادة– تستخدم سجلات تفاصيل المكالمات الهاتفية لدراسة أنماط الهجرة، والمستويات الاجتماعية والاقتصادية، وانتشار الملاريا، وغيرها من الأنماط.

وقد ركزت إرشادات تحليل البيانات الضخمة، التي نشرتها مبادرة النبض العالمي للأمم المتحدة، على أربعة مجالات: الاستجابة للكوارث، والصحة العامة، والفقر والمستويات الاجتماعية والاقتصادية، وتنقل البشر ووسائل النقل (انظر الإطار 1).[28]

الإطار 1: أمثلة على تحليل بيانات الهاتف المحمول، استنادًا إلى الكتاب التمهيدي لمبادرة النبض العالمي للأمم المتحدة وتقرير الكوارث في العالم  رلعام 2013
لقد استُخدِمت بيانات عن التحويلات المالية عبر المحمول في أعقاب زلزال عام 2008 في رواندا؛ لتحليل توقيت التبرعات للمجتمعات المحلية المتضررة، ومقدارها، والدافع وراءها، الأمر الذي كشف –بصورة لافتة للنظر– أن الأفراد الأكثر ثراءً فرصتهم أكبر في الاستفادة من التحويلات.[29] وقد استُخدِم تحليل سجلات تفاصيل المكالمات الهاتفية لدراسة انتشار الأمراض المعدية والسيطرة عليها في الأحياء الفقيرة بالمناطق الحضرية في كيبيرا، كينيا. وأحد العوائد المبشرة للغاية يتمثل في استخدام سجلات المكالمات الهاتفية للتنبؤ بالمستويات الاجتماعية الاقتصادية. وذلك يجري عن طريق إحلال المؤشرات القائمة على سجلات تفاصيل المكالمات الهاتفية (مثل متوسط أعداد المكالمات في منطقة ما)، ومطابقتها مع متغيرات اجتماعية واقتصادية معروفة (مثل مستويات الدخل)؛ لبناء نماذج إحصائية قادرة على ’التنبؤ‘ بأنماط واتجاهات معينة.
 
وفيما يتعلق بتنقل البشر ووسائل النقل، فقد ساعدت سجلات تفاصيل المكالمات الهاتفية من كوت ديفوار، التي أتاحتها شركة Orange تحت مظلة تحدي استغلال ’البيانات لأغراض التنمية‘، في نمذجة مسارات خطوط الحافلات في أبيدجان، وأوضحت أنه يمكن خفض وقت السفر بنسبة 10٪. ويَستخدِم هذا النوع من التحليل:
  • معلومات آنية عن حركة المرور. على سبيل المثال، تُوفِّر تنبيهات المرور من جوجل معلومات للمستهلكين حول مسار انتقالهم اليومي باستخدام مزيج من مصادر البيانات: بعضها عام (مثل جداول مواعيد الإنشاءات)، وبعضها خاص (مثل معلومات تَتَبُّع شركات الاتصالات للأجهزة الشخصية؛ من أجل حساب الوقت المستغرق للوصول إلى العمل)، ويجري توليد بعضها دون تدخُّل (على سبيل المثال، قد يشير إجراء مجموعة من المكالمات من موقع مماثل إلى ازدحام حركة المرور).
  • فهم أفضل لسلوكيات السفر. وهذا يتطلب مطابقة بيانات السفر المستخلصة من استخدام الهاتف المحمول مع بيانات اجتماعية اقتصادية أخرى؛ لتكشف لنا عن النمط المفضل في سلوكيات السفر (مقابل التفضيلات المعلنة، والمستمدة من المسوح). على سبيل المثال، استَخدَمت شركة قطارات East Coast في المملكة المتحدة بيانات من شركة Telefonica من أجل فهم أفضل لسلوك الزبائن في طريقهم من لندن إلى إدنبره.
المصادر:
 
كتاب تمهيدي جديد حول استخدام بيانات شبكات الهاتف المحمول لأغراض التنمية. (مبادرة النبض العالمي للأمم المتحدة، 5 نوفمبر 2013)، وتقرير الكوارث في العالم لسنة 2013.
 
التركيز على التكنولوجيا ومستقبل العمل الإنساني. (الاتحاد الدولي لجمعيات الصليب الأحمر والهلال الأحمر، 2013).

وفي الوقت نفسه، اقترح كُتَّاب شتى آخرون سبلاً لانتفاع التنمية بالبيانات الضخمة. وقد أدركت مبادرة النبض العالمي للأمم المتحدة استخدامات ’الإنذار المبكر‘ من مبدأ ’التوعية الآنية‘، أو ’الرصد الآني‘ لأثر سياسات معينة. وتُظهر بعض التطبيقات الأخرى الفرق بين استخدامها الموصوف (مثل عرض خريطة آنية)، والاستخدامات المعنية بالتنبؤ والتشخيص (انظر الجدول 3).[7، 30]


الجدول 3. الاستخدامات الفعلية والمحتملة للبيانات الضخمة لأغراض التنمية

التطبيقات التفسير الأمثلة التعليقات والمحاذير
تصنيف مبادرة النبض العالمي الأمم المتحدة
1. وصفي يمكن للبيانات الضخمة توثيق ما يحدث ونقله يشبه هذا التطبيق إلى حد كبير تطبيق التوعية الآنية، على الرغم من أن أهدافه أقل طموحًا. وأي معلومات مصورة (مخطط معلومات بياني)، بما في ذلك الخرائط التي تعالج كميات هائلة من البيانات، لتصيِّرها واضحةً للقارئ ومقروءةً بسهولة، تُعدُّ مثالاً للتطبيق الوصفي ينطوي وصف البيانات دائمًا على تبنّي خيارات وافتراضات –عن طبيعة البيانات وكيفية عرضها– ينبغي توضيحها وفهمها؛ فمن المعروف أن الرسوم البيانية والخرائط أيضًا قد تكون مضللة
2. تنبؤي يمكن للبيانات الضخمة أن تفسر ما يحتمل أن يحدث، بغض النظر عن السبب يشير أحد أنواع التنبؤ إلى ما قد يحدث لاحقًا– ويُعدُّ حفظ الأمن على أساس تنبؤي مثالاً على ذلك. ويشير نوع آخر إلى توقُّع الظروف السائدة من خلال البيانات الضخمة –كما في حالات التنبؤ بالمستويات الاجتماعية الاقتصادية باستخدام سجلات تفاصيل المكالمات الهاتفية في أمريكا اللاتينية وكوت ديفوار تنطبق عليها تعليقات تطبيقات الإنذار المبكر والتوعية الآنية المماثلة
3. إرشادي، أو تشخيصي قد تسلط البيانات الضخمة الضوء على أسباب حدوث الأشياء، وماذا يمكن عمله حيالها حتى الآن، ليس هناك أي أمثلة واضحة تقريبًا على هذا التطبيق في سياقات التنمية. ويُعَدُّ مثال بيانات سجلات تفاصيل المكالمات الهاتفية المستخدمة لإظهار إمكانية ’تحسين‘ خطوط الحافلات في أبيدجان هو الأقرب إلى حالة يمكن للتحليل فيها تحديد روابط سببية، وتشكيل سياسات تنطبق عليها معظم تعليقات تطبيق التعقيبات الآنية. وعلى وجه التحديد، يتطلب أي مثال على تنفيذ تطبيق تشخيصي وجود المقدرة على تحديد العلاقة السببية. ويعمل التطبيق الإرشادي بشكل أفضل من الناحية النظرية عندما تدعمه نظم وحلقات التعقيبات على تأثير أعمال السياسات
تصنيف بديل      
1. الإنذار المبكر إن الكشف المبكر عن الحالات الشاذة في كيفية استخدام السكان للأجهزة والخدمات الرقمية يمكن أن يتيح استجابة أسرع في أوقات الأزمات حفظ الأمن على أساس تنبؤي، استنادًا إلى فكرة أن تحليل البيانات التاريخية يمكن أن يكشف عن تركيبات معينة من العوامل المرتبطة بزيادة معدلات الأعمال الإجرامية في منطقة معينة؛ ويمكن استخدامه لتخصيص موارد الشرطة. ونظام اتجاهات الإنفلونزا من جوجل هو مثال آخر، حيث يتم تحليل عمليات البحث عن مصطلحات معينة (مصل سيلان الأنف، أو حكة العين)؛ للكشف عن بداية موسم الإنفلونزا – على الرغم من أن دقته محل خلاف يفترض هذا التطبيق إمكانية ملاحظة بعض الانتظام في السلوك البشري ونمذجتها. وتشمل التحديات الرئيسة للتنبؤ بالسياسات نزوع معظم أنظمة الكشف عن الخلل ونماذج التنبؤ إلى الإفراط في التنبؤ –أي أن يغلب عليها نتائج إيجابية زائفة
2. التوعية الآنية يمكن للبيانات الضخمة رسم تمثيل مفصل وحالي للواقع، من شأنه أن يمد التصميم بالمعلومات، ويفيد استهداف البرامج والسياسات وجد باحثون –باستخدام البيانات الصادرة عن شركة Orange درجة عالية من الارتباط بين الشبكات الاجتماعية وتوزيع اللغة في كوت ديفوار؛ مما يدل على أن هذه البيانات قد توفر معلومات حول الجماعات اللغوية في بلدان لا تتوافر عنها هذه البيانات يكمن رونق هذا التطبيق وحجته الأساسية في فكرة أن البيانات الضخمة قد تكون بديلة لبيانات سيئة أو نادرة. ولكن النماذج التي تُظهِر ارتباطًا كبيرًا بين المؤشرات المستندة إلى البيانات الضخمة وتلك التقليدية غالبًا ما تتطلب توافر المؤشرات التقليدية. ويعني تعبير الآنيةهنا استخدام بيانات رقمية عالية التواتر للحصول على صورة للواقع في أي وقت من الأوقات
3. التعقيبات الآنية تُمكِّن القدرة على رصد السكان آنيا من إدراك مواضع الخلل في السياسات والبرامج، وإجراء التعديلات اللازمة تستخدم الشركات الخاصة بالفعل تحليلات البيانات الضخمة. وعند استخدامها لأغراض التنمية، قد يشمل هذا التطبيق تحليل تأثير إجراءات سياسات معينة مثل سن قوانين مرور جديدة– آنيا على الرغم من رونقه، هناك عدد قليل (إن وُجِدَ) من الأمثلة الواقعية لهذا التطبيق. ما يشكل تحديًا عند التأكد من أن أي تغيير ملحوظ يمكن أن يُعزى إلى التدخل أو العلاج. ومع ذلك، قد تحتوي البيانات عالية التواتر أيضًا على تجارب طبيعية –مثل انخفاض مفاجئ في أسعار سلعة معينة على الإنترنت– والتي يمكن الاستعانة بها لاستنتاج العلاقة السببية

المصادر: إيمانويل لوتوزيه. استخدام البيانات الضخمة لأغراض التنمية: الفرص والتحديات. (مبادرة النبض العالمي للأمم المتحدة، 29 مايو 2012) روبرت كيركباتريك. إشارات الدخان الرقمية. (مبادرة النبض العالمي للأمم المتحدة، 21 أبريل 2011)
 
مخاطر وتحديات

 

 

تُجابَه وعود البيانات الضخمة بطبيعة الحال بتحذيرات من مخاطرها. وقد فُصِّلَت المخاطر، والتحديات، والأسئلة الصعبة بصفة أعم منذ عام 2011.[10]

لعل أشد المخاطر –والسبل الأكثر إلحاحًا للبحث والنقاش– هي الحقوق الفردية، والخصوصية، والهوية، والأمن. وبالإضافة إلى الانتهاك الواضح من قبل أنشطة المراقبة، وأوجه الخلاف بشأن قانونيتها وشرعيتها، ثمة تساؤلات هامة بشأن ’إخفاء هوية البيانات‘: ما الذي يعنيه ذلك؟ وما حدوده؟ وأظهرت دراسة لاستئجار الأفلام أن البيانات ’مجهولة المصدر‘ يمكن كذلك ’التعرف على مصدرها‘ وربطها بشخص معروف؛ عن طريق الربط بين مواعيد استئجار ثلاثة أفلام فقط ومواعيد المشاركات على منصة الأفلام على الإنترنت.[31] وقد وَجدت أبحاث أخرى أن سجلات تفاصيل المكالمات الهاتفية التي تسجل الموقع والوقت تتيح معرفة الأفراد الذين قاموا بها، حتى عند خلوها من أي معلومات شخصية. وفي هذه الحالة، كانت أربع نقاط مرجعية كافية –من الناحية النظرية– للتعرف على أفراد بعينهم من مجموعة بيانات كاملة بدقة نسبتها 95٪.[32]
 

ويشير النقاد أيضًا إلى المخاطر المرتبطة باتخاذ قرارات استنادًا إلى بيانات متحيزة، أو تحليلات مشكوك فيها (تسمى أحيانًا تهديدات للصلاحية الخارجية والداخلية). وإن كان صناع السياسات يعتقدون أن ’البيانات لا تكذب‘، يمكن أن تكون هذه المخاطر مثيرة للقلق للغاية. ويقدم لنا الإطار 2 بعض الأمثلة. 

 

إطار 2. البيانات الضخمة – مخاطر تتهدد استخلاص استنتاجات صحيحة

أحد التحديات الرئيسة في البيانات الضخمة هو أن من ينتجها من الناس يفعل ذلك بمحض إرادته، من خلال نشاطه. ويُعد هذا من الناحية التقنية ’اختيارًا متحيزًا‘، وهذا يعني أنه من المرجح أن يسفر تحليل هذه البيانات الضخمة عن نتيجة تختلف عن المسح (أو الاستطلاع) التقليدي، الذي سيسعى إلى عرض شريحة تمثيلية من السكان. وعلى سبيل المثال، من شأن محاولة الإجابة على سؤال ”هل الناس في البلد ’أ‘ يفضلون الأرز أم رقائق البطاطس؟“ –عن طريق استخراج البيانات من موقع ’تويتر‘– أن تكون متحيزة لصالح تفضيلات الشباب؛ لأنهم يشكلون أكثر مستخدمي ’تويتر‘. لذا قد تفتقر التحليلات التي تعتمد على البيانات الضخمة إلى ’الصلاحية الخارجية‘، على الرغم من أنه وارد أن يتفق أفراد مختلفون في كل النواحي تقريبًا في تفضيلاتهم، وأن يُبدوا سلوكيات متطابقة (قد يكون للشباب نفس تفضيلات الناس الأكبر سنًّا). ويتبدى خطر آخر في التحليلات المعيبة؛ أنها تفتقر إلى ’الصلاحية الداخلية‘. مثلاً، قد يُفسَّر انخفاض حاد في حجم سجلات تفاصيل المكالمات الهاتفية من منطقة معينة بناءً على أحداث ماضية؛ كالإعلان عن صراع يلوح في الأفق. ولكن السبب في الواقع قد يكون شيئًا مختلفًا، مثل تعطل برج الهاتف المحمول في المنطقة.

ومن المخاطر الأخرى أن تفرط التحليلات المستندة إلى بيانات ضخمة في التركيز على الارتباط والتنبؤ– على حساب السبب، أو التشخيص، أو الاستدلال، والتي بدونها تفقد السياسات بوصلتها كليًّا. وخير مثال على ذلك هو ’حفظ الأمن على أساس تنبؤي‘. ومنذ عام 2010 تقريبًا، تقوم قوات الشرطة وإنفاذ القانون في بعض مدن الولايات المتحدة والمملكة المتحدة بمعالجة بيانات؛ لتقييم احتمال زيادة الجريمة في بعض المناطق، متوقعةً الزيادة استنادًا إلى أنماط تاريخية. وترسل الشرطة قواتها وفقًا لذلك، وقد خفض هذا معدل الجريمة في معظم الحالات.[33] ومع ذلك، ما لم يكن سبب زيادة معدلات الجريمة معروفًا، لا يمكن وضع سياسات وقائية تُعالج الأسباب الجذرية أو العوامل المساهمة.[34]

وهناك خطر جسيم آخر لم يلق الاهتمام الذي يستحقه؛ وهو إمكانية أن تخلق البيانات الضخمة ’فجوة رقمية جديدة‘ قد تُسهم في توسيع الفجوات القائمة في الدخل والسلطة بشتى أنحاء العالم، بدلاً من تضييقها.[35] وترجع إحدى ’المفارقات الثلاث‘ التي تصحب البيانات الضخمة إلى أنها تتطلب قدرات تحليلية، ووصولاً إلى بيانات لا تمتلكها سوى نسبة ضئيلة من المؤسسات والشركات والأفراد، لذلك قد تُضعف ثورة البيانات المجتمعات والبلدان ذاتها التي تَعِدُ بخدمتها.[36] وسيصير من يملك معظم البيانات والقدرات في وضع مثالي لاستغلال البيانات الضخمة للتميز الاقتصادي، حتى لو زعموا استخدامها لإفادة الآخرين.

ويتمثل أحد التحديات الأساسية ذات الصلة في كيفية استخدام البيانات. وتفترض جميع المناقشات حول ’ثورة البيانات‘ أن ’البيانات مهمة‘، وأن البيانات السيئة يقع عليها جزء من مسؤولية وضع سياسات سيئة. ولكن التاريخ أثبت أن عدم توافر بيانات أو معلومات لعب دورًا هامشيًّا فقط –على مر التاريخ– في اتخاذ القرارات التي تؤدي إلى وضع سياسات سيئة، وبالتالي تحقيق نتائج سيئة. وفي الوقت نفسه، قد يُقوِّض المستقبل ’الحسابي‘ الأعمى العمليات نفسها التي تهدف للتأكد من أن الطريقة التي يتم بها تحول البيانات إلى قرارات تخضع لرقابة ديمقراطية.
 
مستقبل كبير

حيث يُستبعد تباطؤ النمو في إنتاج البيانات، فمن غير المرجح –كذلك– انفجار ’فقاعة البيانات الضخمة‘ في المستقبل القريب. وعلى العالَم أن يتوقع المزيد من الأبحاث والخلافات حول إمكانيات البيانات الضخمة وأخطارها على التنمية. ومن المرجح أن يُشكَّل مستقبل البيانات الضخمة من خلال ثلاثة فروع رئيسة، هي: البحث العلمي، والأطر القانونية والتقنية للاستخدام الأخلاقي للبيانات، وزيادة المطالب المجتمعية بتحمُّل قدر أكبر من المسؤولية.

وسوف تستمر الأبحاث في دراسة ما إذا كان من الممكن التخلص من قيود الحدود المنهجية والعلمية، في مجالين على الأخص: التوصل إلى استدلالات أقوى، وقياس تحيز العينة وتصحيحه.

وسوف يضع النقاش السياسي أطرًا ومعايير –قياسية، وقانونية، وتقنية– لجمع البيانات الضخمة، وتخزينها، وتبادلها. وتقع هذه التطورات تحت عنوان ’أخلاقيات البيانات الضخمة‘.[37، 38] وسوف يساعد التقدم التقني، مثلاً عن طريق إدخال ’ضوضاء‘ في قواعد البيانات لجعل إعادة تحديد الأفراد الممثلين فيها أصعب. غير أن اتباع نهج شامل لأخلاقيات البيانات الضخمة يمكن أن يشمل –في الوضع الأمثل– اعتبارات إنسانية أخرى؛ مثل الخصوصية، والمساواة، ومناصرة محو أمية البيانات.[39]

وهناك تأثير ثالث على مستقبل البيانات الضخمة، وهو كيفية تداخلها مع حركة البيانات ’المفتوحة‘ –والدوافع الاجتماعية الكامنة فيها– وتطورها جنبًا إلى جنب معها. ويشير مصطلح ’البيانات المفتوحة‘ إلى بيانات يمكن الوصول إليها بسهولة، ويمكن قراءتها آليًّا، والوصول إليها متاح مجانًا، أو بتكلفة لا تُذكر، مع وجود الحد الأدنى من القيود على استخدامها، وتحويلها، وتوزيعها. (انظر الشكل 3)[40]

open-data-600pxl_fileminimizer_

الشكل 3. العلاقة بين البيانات المفتوحة وأنواع أخرى من البيانات. المصدر: جيمس مانْيِكا وآخرون. البيانات المفتوحة: حرية الابتكار والأداء باستخدام معلومات قابلة للتعديل والتبديل (معهد ماكينزي العالمي، أكتوبر 2013) اضغط للتكبير

 
في المستقبل المنظور، سوف تصير حركتا البيانات الضخمة والبيانات المفتوحة ركيزتين أساسيتين في ’ثورة بيانات‘ أكبر. ويبزغ نجم كليهما على خلفية زيادة الطلب العام بانفتاح أكبر، وسرعة في اتخاذ القرار، وشفافية، وتحمل للمسؤولية عن البيانات والإجراءات العامة. أضف إلى ذلك أن مدلولها على الصعيد السياسي –الذي عادة ما يطويه النسيان– واضح. وعلى ذلك، ينبغي أن نصبو إلى ثورة بيانات ضخمة ’حقيقية‘ يمكن في إطارها استغلال تأثير البيانات في تغيير هياكل السلطة وعمليات صنع القرار، وليس لمجرد تكوين وجهات نظر.[41]

 

إيمانويل لوتوزيه باحث في مرحلة الدكتوراه في جامعة كاليفورنيا، بيركلي، وزميل في مبادرة هارفارد الإنسانية، وباحث زائر في معهد ماساتشوستس للتكنولوجيا، ومساعد لشؤون البحوث في معهد التنمية

لما وراء البحار. ويمكن التواصل معه على [email protected]، وفي ’تويتر‘ على @Data4Dev.
 

  هذا المقال جزء من ملف بعنوان البيانات الضخمة من أجل التنمية  منشور أيضا بالنسخة الدولية يمكنكم مطالعته عبر العنوان التالي:
big data for development factsand-figures

References

[1] Andreas Weigend
[2] The new data refineries: transforming big data into decisions. (Technology Services Industry Association blog, covering a talk by Andreas Weigend. 6 January 2014)
[3] Shanta Devarajan. Africa’s statistical tragedy. (World Bank blog, 6 October 2011)
[4] Marcelo Giugale. Fix Africa’s statistics. (The World Post 18 December 2012)
[5] Joseph Hellerstein. The commoditization of massive data analysis. (Blog on O’Reilly.com 19 November 2008)
[6] Data data everywhere. Kenneth Cukier interviewed for The Economist (25 February 2010)
[7] Emmanuel Letouzé. Big data for development: opportunities and challenges. (UN Global Pulse, May 2012)
[8] Big data, big impact: new possibilities for international development. (World Economic Forum, 2012)
[9]James Manyika and others. Big data: the next frontier for innovation, competition and productivity. (McKinsey Global Institute May 2011)
[10] Danah Boyd and Kate Crawford. Six provocations for Big Data. (A Decade in Internet Time: Symposium on the Dynamics of the Internet and Society, September 2011)
[11] The physical size of big data. Infographic by Domo. (14 May 2013)
[12] Christopher Frank. Improving decision making in the world of Big Data.  (Forbes, 25 March 2012)
[13] Reinventing society in the wake of Big Data. A Conversation with Alex (Sandy) Pentland (Edge, 30 August 2012)
[14] Eric Bouillet, and others. Processing 6 billion CDRs/day: from research to production (experience report) pp. 264-67 in Proceedings of the 6th ACM International Conference on Distributed Event-Based Systems (2012)
[15] Social impact through satellite remote sensing: visualising acute and chronic crises beyond the visible spectrum. (UN Global Pulse, 28 November 2011)
[16] Michael Horrigan. Big Data: a perspective from the BLS. Column written for AMSTATNEWS, the magazine of the American Statistical Association. (1 January 2013)
[17] Gary King. Big Data is not about the data! Presentation (Harvard University USA, 19 November 2013)
[18] Sanjeev Sardana Big Data: it's not a buzzword, it’s a movement (Forbes blog, 20 November 2013)
[19] Melamed C. Development data: how accurate are the figures? (The Guardian, 31 January 2014)
[20] 2010 World population and housing census programme. United Nations Statistics Division.
[21] Laura Gray. How to boost GDP stats by 60% (BBC News Magazine, 9 December 2012)
[22] Nigeria's economy will soon overtake South Africa's (The Economist, 21 January 2014)
[23] The billion prices project. Massachusetts Institute of Technology
[24] Measuring economic sentiment (The Economist, 18 July 2012)
[25] Piet Daas and Mark van der Loo, Big Data (and official statistics) Working paper prepared for the Meeting on the Management of Statistical Information Systems. (23-25 April 2013)
[26] Rebecca Tave Gluskin and others. Evaluation of Internet-Based Dengue Query Data: Google Dengue Trends. (PLOS Neglected Tropical Diseases, 27 February 2014)
[27] Emilio Zagheni and others. Inferring international and internal migration patterns from Twitter data. (World Wide Web Conference, April 7-11, 2014, Seoul, Korea)
[28] New primer on mobile phone network data for development. (UN Global Pulse, 5 November 2013)
[29] Joshua Blumenstock and others. Motives for mobile phone-based giving: evidence in the aftermath of natural disasters (30 December, 2013)
[30] Michael Wu. Big Data Reduction 3: from descriptive to prescriptive. (Science of Social blog, Lithium 10 April 2013)
[31] Arvind Narayanan and Vitaly Shmatikov Robust de-anonymization of large sparse datasets. Pages 111-125 in Proceedings of the 2008 IEEE Symposium on Security and Privacy (IEEE Computer Society Washington, DC, USA 2008)
[32] Yves-Alexandre de Montjoye and others. Unique in the Crowd: The privacy bounds of human mobility (Nature scientific reports 25 March 2013)
[33] Erica Goode. Sending the police before there’s a crime.  (The New York Times, 15 August 2011)
[34] It is getting easier to foresee wrongdoing and spot likely wrongdoers (The Economist, 18 July 2013)
[35] Kate Crawford. Think again: Big Data. Why the rise of machines isn’t all it’s cracked up to be. (Foreign Policy, 9 May 2013)  
[36] Neil M. Richards and Jonathan H. King. Three paradoxes of Big Data.  (Stanford Law Review, 3 September 2013)
[37] Neil M. Richards and Jonathan H. King. Big Data ethics. (Wake Forest Law Review, 23 January 2014)
[38] Neil M. Richards and Jonathan H. King. Gigabytes gone wild. (Aljazeera America, 2 March 2014)
[39] Rahul Bhargava. Toward a concept of popular data. (MIT Center for Civic Media, 18 November 2013)
[40] James Manyika and others. Open data: unlocking innovation and performance with liquid information (McKinsey Global Institute, October 2013) 
[41] Emmanuel Letouzé. The Big Data revolution should be about knowledge security (Post-2015.org, 1 April 2014)