معالجة وتحليل البيانات

مقدمة

لابد بعد جمع البيانات من معالجتها وتحليلها وفقا لمخطط تحقيق الهدف الذي تم تطويره أثناء رسم خطة البحث. هذا أمر ضروري لأي دراسة علمية للتأكد من أن لدينا جميع البيانات ذات الصلة لإجراء المقارنات والتحليلات المأمولة. المعالجة، من الناحية الفنية، تعني التحرير والترميز والتصنيف وتبويب البيانات التي تم جمعها بحيث تكون قابلة للتحليل. ويشير مصطلح التحليل إلى حساب بعض القياسات مع البحث عن أنماط للعلاقات القائمة بين مجموعات البيانات. وبالتالي، أثناء عملية التحليل، يجب أن تخضع العلاقات أو الاختلافات التي تدعم أو تتعارض مع الفرضيات الأصلية أو الجديدة لاختبارات الأهمية الإحصائية لتحديد ما مدى الصلاحية التي تشير بها البيانات إلى أي استنتاجات[1]. ولكن هناك أشخاص (Selltiz، Jahoda وغيرهما) لا يحبذون التمييز بين المعالجة والتحليل، فهم يروا أن تحليل البيانات بشكل عام ينطوي على عدد من العمليات وثيقة الصلة التي تتم لغرض تلخيص البيانات التي تم جمعها وتنظيمها بطريقة معينة للإجابة على أسئلة البحث. غير أننا نفضل التمييز بين المصطلحين هنا من أجل فهمهما بشكل أكثر وضوحا.

عمليات المعالجة

مع هذه المقدمة الموجزة بشأن مفاهيم المعالجة والتحليل، يمكننا المضي قدما الآن لشرح جميع عمليات المعالجة.

1. التحرير

تحرير البيانات هو عملية فحص البيانات الخام التي تم جمعها (وخاصة في المسوح والدراسات الاستقصائية) للكشف عن السهو والخطأ وتصحيحه عندما يكون ذلك ممكنا. وفي واقع الأمر، ينطوي التحرير على الفحص الدقيق للاستبيانات أو الجداول التي تم الانتهاء من تعبئتها، حيث يتم تحريرها للتأكد من أن البيانات صحيحة، وأنها تتفق مع الحقائق الأخرى التي تم جمعها، وأنها قد أُدخلت بشكل موحد، وأنها كاملة قدر الامكان، وأنه قد تم ترتيبها جيدا لتسهيل عملية الترميز والتبويب.

وفيما يتعلق بالنقطة أو المراحل التي ينبغي أن يتم عندها التحرير، فيمكن للمرء أن يتحدث عن التحرير الميداني والتحرير المركزي. يتضمن التحرير الميداني استعراض نماذج الإبلاغ من قبل المحقق لاستكمال (ترجمة أو إعادة كتابة) ما كتبه هذا الأخير بصيغة مختصرة أو بشكل غير واضح عند تسجيل استجابات المشاركين. يعتبر هذا النوع من التحرير ضروري لأنه قد يصعب على الآخرين فهم أنماط الكتابة الفردية في كثير من الأحيان. ينبغي أن يتم هذا النوع من التحرير في أقرب وقت ممكن بعد المقابلة، ويفضل في نفس اليوم أو في اليوم التالي. يجب أثناء القيام بالتحرير الميداني، على المحقق أن يمتنع ببساطة عن تصحيح أخطاء السهو عن طريق التخمين لما كان سيقوله المشارك لو طرح عليه السؤال.

يجب ان يتم التحرير المركزي بعد الانتهاء من تعبئة جميع النماذج أو الجداول الزمنية وإرجاعها. يجب أن يتم تحرير جميع النماذج  تحريرًا شاملًا من قبل محرر واحد في الدراسات الصغيرة أو فريق من المحررين في حالة الدراسات الواسعة. قد يقوم المحرر بتصحيح الأخطاء الواضحة مثل الإدخال في المكان الخطأ، تسجيل المدخلات بالأشهر بدلا تسجيلها بالأسابيع، وما شابه ذلك. في حالة وجود ردود مفقودة، يمكن للمحرر في بعض الأحيان تحديد الإجابة الصحيحة من خلال مراجعة المعلومات الأخرى في الجدول، أو إذا أمكن الاتصال بالمشارك للتوضيح. يجب على المحرر أن يلغي الجواب إذا كان غير مناسب وليس هناك أساس يمكن بواسطته تحديد الإجابة أو الاستجابة الصحيحة. في مثل هذه الحالة يُعتبر المحرر أنه ليس هناك استجابة. يجب إسقاط جميع الردود الخاطئة الواضحة جدا من النتائج النهائية، ولا سيما في سياق عمليات المسح الإلكتروني.

يجب على المحررين الانتباه إلى النقاط التالية أثناء أداءهم لعملهم:

(أ) يجب أن يكونوا على دراية بالتعليمات التي أعطيت للذين أجروا المقابلات والمبرمجون وكذلك إرشادات التحرير التي أعطيت لهم لهذا الغرض.

(ب) عند إلغاء إي إدخال لأي سبب، ينبغي عليهم مجرد رسم خط واحد عليه حتى يبقى مقروءا.

(ج) يجب عليهم استخدام لون مميز موحد عند  كتابة مدخالات (إن وجدت) على النموذج.

(د) يجب أن يبينوا جميع الأجوبة التي يقومون بتغييرها أو إدخالها بالحروف الأولى من اسمائهم.

(هـ) يجب أن توضع الاحرف الاولى من اسم المحرر وتاريخ التحرير على كل نموذج أو جدول مكتمل.

2. الترميز

يشير الترميز إلى عملية تعيين أرقام أو رموز أخرى للإجابات بحيث يمكن وضع الاستجابات في عدد محدود من الفئات أو التصنيفات. وينبغي أن تكون هذه التصنيفات مناسبة لمشكلة البحث قيد النظر. كما يجب أن تكون لها خاصية الشمولية (أي أنه يجب أن تكون هناك فئة لكل عنصر من البيانات)، ويجب كذلك أن تكون حصرية حتى يمكن وضع أي إجابة محددة في خلية واحدة فقط في مجموعة فئة معينة. القاعدة الأخرى التي ينبغي ملاحظتها هي أحادية الأبعاد (unidimensionality) التي تعني أن كل فئة يتم تعريفها بمفهوم واحد فقط.

يعتبر الترميز ضروري للتحليل الكفؤ، حيث يتم من خلاله تخفيض ردود عديدة إلى عدد قليل من التصنيفات التي تحتوي على المعلومات الهامة اللازمة للتحليل. ينبغي عادة أن تتخذ القرارات بشأن الترميز أثناء مرحلة تصميم الاستبيان. هذا يجعل من الممكن ترميز خيارات الاستبيان مسبقًا والذي بدوره أمر مفيد عند الجدولة بالحاسوب، حيث يمكّن المرء من تعبئة الجداول مباشرة من الاستبيانات الأصلية. ولكن في حالة الترميز اليدوي فربما يكون علينا استخدام طريقة قياسية معينة. احد هذه الطرق القياسية هو الترميز في الهامش بقلم ملون. تكمن الطريقة الأخرى في نسخ البيانات من الاستبيان إلى ورقة الترميز. وأيًا كانت الطريقة المعتمدة، فينبغي للمرء التأكد من إزالة أخطاء الترميز تماما أو على الأقل تخفيضها إلى أدنى حد ممكن.

3. التصنيف

معظم الدراسات البحثية تنتج كمية كبيرة من البيانات الخام التي يجب أن تخفض إلى مجموعات متجانسة إذا أردنا الوصول إلى علاقات ذات مغزى. هذا الواقع يتطلب تصنيف البيانات، وهي عملية ترتيب للبيانات في مجموعات أو فئات على أساس خصائصها المشتركة. يتم وضع البيانات التي لديها سمة مشتركة في فئة واحدة، وبهذه الطريقة يتم تقسيم البيانات بالكامل إلى عدد من المجموعات أو الفئات. يمكن أن يكون التصنيف واحدا من النوعين التاليين، وهذا يتوقف على طبيعة الظاهرة المعنية:

(أ) التصنيف حسب السمات: كما ذكرنا أعلاه، يتم تصنيف البيانات على أساس الخصائص المشتركة التي يمكن أن تكون إما وصفية (مثل التعليم، والجنس، والصدق، الخ) أو العددية (مثل الوزن والطول، والدخل، وما إلى ذلك). تشير الخصائص الوصفية إلى ظاهرة نوعية لا يمكن قياسها كميا. ولكن يمكن ملاحظة وجودها أو غيابها فقط في عنصر فردي ما. البيانات التي تم الحصول عليها بهذه الطريقة على أساس بعض السمات تعرف بإحصاءات السمات ويسمى تصنيفها التصنيف حسب السمات.

يمكن أن يكون هذا التصنيف تصنيف بسيط أو تصنيف متعدد. في التصنيف البسيط نأخذ في الاعتبار سمة واحدة فقط، ونقسم الكون إلى فئتين، فئة تتألف من العناصر التي تمتلك السمة المعينة وفئة أخرى تتكون من العناصر التي لا تمتلكها. ولكن في التصنيف المتعدد فنأخذ في الاعتبار اثنين أو أكثر من الصفات في وقت واحد، ونقوم بتقسيم تلك البيانات إلى عدد من التصنيفات (يعطى العدد الإجمالي لفئات الترتيب النهائي بواسطة N2، حيث n = عدد الصفات التي تم أخذها بعين الاعتبار)[2]. كلما تم تصنيف البيانات وفقا للسمات، يجب على الباحث التأكد من تعريف السمات بطريقة تضمن أن هناك أقل إمكانية لوجود أي شك أو غموض يتعلق بالسمات المعنية.

(ب) التصنيف وفقا لدرجات الفئة: خلافا للخصائص الوصفية، تشير الخصائص العددية إلى ظاهرة كمية يمكن قياسها من خلال بعض الوحدات الإحصائية. تُصنف البيانات المتعلقة بالدخل والإنتاج، والعمر، والوزن، وغيرها تحت هذه الفئة. وتعرف هذه البيانات بإحصائيات المتغيرات، وتصنف على أساس درجات الفئة. على سبيل المثال، الأشخاص الذين يتراوح دخلهم، مثلا، من 201 دينار إلى 400 دينار يمكن أن يشكلوا مجموعة واحدة، وأولئك الذين يتراوح دخلهم من 401 دينار إلى 600 دينار يمكن أن يشكلوا مجموعة أخرى، وهلم جرا. بهذه الطريقة يمكن تقسيم البيانات بأكملها إلى عدد من المجموعات أو الفئات أو ما تسمى عادة فترات الفئة. وبالتالي، فإن كل مجموعة من فترات الفئة، لديها حد أعلى، وأيضًا حد أدنى الذي يعرف بحد الفئة. الفرق بين حدود فئتين يعرف بحجم الفئة. قد تكون لدينا فئات بأحجام فئة متساوية أو غير متساوية. يعرف عدد العناصر التي تندرج في فئة معينة بتردد الفئة المعنية. جميع الفئات أو المجموعات، مع تردداتها الخاصة مجتمعة توضع في شكل جدول، وتوصف بأنها التوزيع التكراري للمجموعة أو بالتوزيع الترددي. عادة ما ينطوي التصنيف وفقا لفترات الفئة على ثلاثة مشاكل رئيسية نذكرها فيما يلي:

  • كم سيكون هناك من الفئات؟ ماذا ينبغي أن تكون أحجامها؟ لا يمكن أن تكون هناك إجابة محددة فيما يتعلق بعدد الفئات. هذا القرار حول عدد الفئات يعود إلى مهارة وخبرة الباحث. ومع ذلك، ينبغي أن يكون الهدف عرض البيانات بطريقة تجعلها تعطي معنى بالنسبة للمحلل. نموذجيا، قد يكون لدينا من 5 إلى 15 فئة. وفيما يتعلق بالجزء الثاني من السؤال، فيمكننا القول أنه ينبغي أن تكون فترات الفئة من أحجام متساوية قدر الإمكان، ولكن في بعض الحالات قد تؤدي الأحجام المتفاوتة إلى تصنيف أفضل. وبالتالي، فإن حكم الباحث الموضوعي يلعب دورا هاما في هذا الصدد. عادة ما يُفضل مضاعفات الأعداد 2 و 5 و 10 عند تحديد أحجام الفئة. يعتمد بعض الإحصائيين الصيغة التالية، التي اقترحها ستورجيس (H.A. Sturges)، لتحديد الحجم الفاصل للفئة:

i = R/(1 + 3.3 log N)

حيث أن

i = حجم الفئة الفاصل.

R = المدى (الفرق بين قيم أكبر عنصر وأصغر عنصر من بين العناصر المعنية)؛

N = عدد العناصر التي سيتم تجميعها معا.

وينبغي أيضا أن يوضع في الاعتبار أنه في حالة أن واحدًا أو اثنين أو عدد قليل جدا من العناصر لديه قيم عالية جدا أو منخفضة جدا، فيمكن للمرء استخدام ما يعرف بالفترات المفتوحة في التوزيع الترددي العام. ويمكن التعبير عن الفترات بمثل مدى أقل من 500  أو من 10001 فأكثر. عادة ما تكون هذه الفترات غير مرغوب فيها، ولكن لا يمكن تجنبها في كثير من الأحيان. يجب أن يظل الباحث دائما واعيا بهذه الحقيقة حين البت في قضية العدد الإجمالي لفترات الفئة التي ستُصنف البيانات وفقًا لها.

  • كيفية اختيار حدود الفئة

يجب على الباحث عند اختيار حدود الفئة أن يأخذ بعين الاعتبار معيار أن نقطة المنتصف (تستخرج عموما أولا عن طريق أخذ مجموع الحد الأعلى والحد الأدنى من الفئة ومن ثم تقسيم هذا المجموع على 2) لفترة الفئة والمتوسط الفعلي لعناصر فترة الفئة ينبغي أن تبقى قريبة من بعضها البعض قدر الإمكان. واتساقا مع ذلك، فإن حدود الفئة يجب أن تقع ضمن مضاعفات 2، 5، 10، 20، 100 وما شابهها من الأرقام الأخرى. ويمكن عموما أن يتم تحديد حدود الفئة بأي من الأشكال التالية:

فترات الفئة الحصرية: يتم إظهارها عادة على النحو التالي:

10-20

20-30

30-40

40-50

يجب قراءة الفترات المذكورة أعلاه كما يلي:

10 وتحت 20

20 وتحت 30

30 وتحت 40

40 وتحت 50

وهكذا، في الفترات من نوع الفئة الحصرية، فإن العناصر التي تساوي قيمها الحد الأعلى للفئة يتم تجميعها في الفئة الأعلى التالية. على سبيل المثال، يتم وضع العنصر الذي قيمته بالضبط هي 30 في فترة الفئة 30 – 40 وليس في الفترة 20 – 30. وببساطة، يمكننا أن نقول أنه في ظل فترات من نوع الفئة الحصرية، يتم استبعاد الحد الأعلى للفئة ويتم وضع العناصر التي تحمل قيم أقل من الحد الأعلى (ولكن ليس أقل من الحد الأدنى) في الفترة الفاصلة للفئة المعنية.

فترات الفئة الشاملة: يتم إظهارها عادة على النحو التالي:

11-20

21-30

31-40

41-50

في نوع فترات الفئة الشاملة يتم تضمين الحد الأعلى لفاصل الفئة أيضا في في فترة الفئة. وهكذا، فإن العنصر الذي قيمته 20 سيتم وضعه في الفترة 11-20 من الفئة. الحد الأعلى المعلن للفترة من 11-20 هو 20 ولكن الحد الحقيقي هو 20.99999 ، وعلى هذا النحو فإن الفترة 11 – 20 يعني حقا 11 وتحت 21.

عندما يحدث وتكون الظاهرة قيد الدراسة منفصلة (أي أنه يمكن قياسها وتحديدها فقط بالأعداد الصحيحة)، فينبغي أن نعتمد نوع التصنيف الشامل. ولكن عندما تكون الظاهرة مستمرة وقابلة للقياس بالكسور أيضًا، فسيمكننا استخدام فترات الفئة الحصرية.[3]

  • كيفية تحديد تكرار كل فئة

ويمكن أن يتم هذا إما عن طريق جداول الرصد أو عن طريق الوسائل الميكانيكية. في أسلوب جداول الرصد، يتم كتابة مجموعات الفئة على ورقة (تعرف باسم ورقة الرصد) ولكل عنصر نضع علامة (عادة خط عمودي صغير) على مجموعة الفئة التي تقع ضمنها. تكمن الممارسة المعتادة في أنه بعد كل أربع خطوط عمودية صغيرة في مجموعة الفئة، يكون الخط الخامس للعنصر الواقع في نفس المجموعة، خطًا أفقيًا يقطع الخطوط الأربعة العمودية، بحيث يكون الناتج ممثلًا لخمسة عناصر. كل هذا يسهل عملية فرز أو عد العناصر الموجودة في كل واحدة من مجموعات الفئة. قد تكون ورقة الرصد مشابهة للورقة الموضحة في الجدول التالي:

مثال لورقة رصد

بدلا من ذلك، يمكن تحديد ترددات الفئة، وخاصة في حالة البحوث والمسوحات الكبيرة، من خلال الوسائل الميكانيكية أي بمساعدة الآلات وهي، آلات الفرز المتوفرة لهذا الغرض. يتم تشغيل بعض الآلات يدويًا، بينما يعمل بعضها الآخر بالكهرباء. هناك الآلات يمكنها فرز البطاقات بسرعة تعادل 25000 بطاقة في الساعة. هذه الطريقة سريعة ولكنها مكلفة.

4. الجدولة

عندما يتم تجميع كتلة من البيانات، يصبح من الضروري للباحث ترتيبها في نوع نظام موجز ومنطقي، ويشار إلى هذا الإجراء بالجدولة. وهكذا، فإن الجدولة هي عملية تلخيص البيانات الخام وعرضها في شكل مدمج (أي في شكل جداول إحصائية) لمزيد من التحليل. وبمعنى أوسع، الجدولة هو الترتيب المنظم للبيانات في أعمدة وصفوف. وتعتبر الجدولة ضرورية للأسباب التالية.

1. تُحافظ على الفضاء وتقلل التوضيح والوصف إلى أدنى حد ممكن.

2. تُسهل عملية المقارنة.

3. تُسهل جمع العناصر والكشف عن الخطأ والسهو.

4. تُوفر أساسا لمختلف الحسابات الإحصائية.

ويمكن أن تتم الجدولة باليد أو بواسطة الأجهزة الميكانيكية أو الإلكترونية. ويتوقف الاختيار على حجم ونوع الدراسة، واعتبارات التكلفة، وضغوط الوقت وتوفر آلات الجدولة أو أجهزة الكمبيوتر. قد نستخدم الجدولة الميكانيكية أو الكمبيوتر في البحوث الكبيرة إذا كانت العوامل الأخرى مواتية وتوفرت المرافق الضرورية. وعادة ما يفضل الجدولة باليد في حالة البحوث والدراسات الصغيرة حيث يكون فيها عدد الاستبيانات صغير وتكون قصيرة نسبيا. ويمكن أن تتم الجدولة باستخدام الرصد المباشر، السرد والرصد أو بطريقة البطاقة والعد. عندما تكون هناك رموز بسيطة، فسيكون من الممكن الرصد مباشرة من الاستبيان، حيث يتم بموجب هذه الطريقة كتابة الرموز على ورقة الرصد، ولكل استجابة يتم وضع علامة على الرمز التي تقع ضمنه. عادة بعد كل أربع خطوط عمودية صغيرة على رمز معين، يشار للاستجابة الخامسة بخط أفقي يقطع الخطوط الأربعة العمودية. يسهل عد هذه المجموعات الخماسية، حيث يتم فرز البيانات لكل رمز بسهولة. في طريقة السرد، يمكن نسخ رموز الاستجابات إلى ورقة عمل كبيرة، وترك سطر لكل استبيان. بهذه الطريقة يمكن سرد عدد كبير من الاستبيانات على ورقة عمل واحدة. ثم بعد ذلك يتم احصاء كل سؤال. تعتبر طريقة بطاقات الفرز أكثر طريقة جدولة مرنة. في هذه الطريقة يتم تسجيل البيانات على بطاقات خاصة بحجم وشكل مناسب مع سلسلة من الثقوب. كل ثقب يعني رمز، وعندما يتم تكديس البطاقات، يمرر دبوس من خلال ثقب معين يمثل رمز معين. ثم يتم فصل هذه البطاقات وعدها. وبهذه الطريقة يمكن ايجاد ترددات الرموز المختلفة بتكرار هذا الإجراء. يمكننا كذلك استخدام الأجهزة الميكانيكية أو الكمبيوتر لغرض الجدولة، وذلك طبعًا إذا كنا نريد نتائج سريعة، وميزانيتنا تسمح باستخدامها ولدينا كمية كبيرة من الجدولة التي تتطلب عدد من الفواصل المتقاطعة.

ويمكن أيضا أن تصنف الجدولة على أنها جدولة بسيطة ومعقدة. النوع الأول من الجدولة يعطي معلومات عن واحد أو أكثر من مجموعات الأسئلة المستقلة، أما النوع الأخير من الجدولة فيبين تقسيم البيانات إلى اثنين أو أكثر من الفئات لإعطاء معلومات تتعلق بواحدة أو أكثر من مجموعات الأسئلة المتصلة ببعضها. تنتج الجدولة البسيطة عموما جداول في اتجاه واحد تقدم إجابات لأسئلة عن ميزة أو صفة واحدة من البيانات فقط. وفي مقابل ذلك، فإن الجدولة المعقدة عادة ما تؤدي إلى جداول باتجاهين (التي تعطي معلومات عن اثنين من الخصائص المترابطة للبيانات)، وجداول ثلاثية الاتجاه (التي تعطي معلومات عن ثلاث خصائص مترابطة للبيانات) أو الجداول ذات النظام الأعلى، المعروف أيضا باسم الجداول المتعددة، التي تقدم معلومات عن خصائص مترابطة عديدة للبيانات. تعتبر جداول الاتجاهين، والجداول الثلاثية أو الجداول المتعددة كلها أمثلة على ما يوصف أحيانا بأنه التبويب المجدول.

مبادئ الجدولة المقبولة عموما: هذه المبادئ للجدولة، ولا سيما بناء الجداول الإحصائية، يمكن إيجازها على النحو التالي:[4]

1. يجب أن يكون لكل جدول عنوان واضح ومختصر ومناسب وذلك لجعل الجدول واضح دون الرجوع إلى النص، كما ينبغي دائما أن يوضع هذا العنوان فوق جسم الجدول مباشرة.

2. ينبغي أن يعطى لكل جدول رقم متميز لتسهيل الرجوع إليه.

3. يجب أن تكون عناوين الأعمدة وعناوين الصفوف في الجدول واضحة وموجزة.

4. يجب دائما أن يتم بيان وحدات القياس تحت كل عنوان أو عنوان فرعي.

5. يجب وضع الحواشي التفسيرية المتعلقة بالجدول، إن وجدت، تحت الجدول مباشرة، جنبا إلى جنب مع الرموز المرجعية المستخدمة في الجدول.

6. ينبغي الإشارة إلى المصدر أو المصادر التي حصلنا منها على بيانات الجدول أسفل الجدول.

7. عادة يتم فصل الأعمدة عن بعضها البعض بخطوط تجعل الجدول جذاب وقابل للقراءة أكثر. دائمًا يتم رسم خطوط في أعلى وأسفل الجدول وتحت العناوين.

8. يجب أن تكون هناك خطوط سميكة لفصل بيانات فئة معينة عن بيانات فئة أخرى، أما الخطوط التي تفصل بين الأقسام الفرعية للفئات فيجب أن تكون خطوط رقيقة نسبيا.

9. يمكن ترقيم الأعمدة لتسهيل الرجوع إليها.

10. الأعمدة التي سيتم مقارنة بياناتها يجب أن تكون محاذية لبعضها. وبالمثل، يجب أيضا أن تبقى النسب و / أو المتوسطات قريبة من البيانات.

11. يعتبر من الأفضل عموما أن يتم تقريب الأرقام قبل جدولتها لأن ذلك سيقلل من التفاصيل غير الضرورية في الجدول نفسه.

12. من أجل التأكيد على الأهمية النسبية لفئات معينة، يمكن استخدام أنواع مختلفة من نوع الخطوط ، وتباعد المسافات والبدايات.

13. من المهم أن تكون جميع أرقام الأعمدة محاذية بشكل صحيح. يجب أن تتم محاذاة النقاط العشرية وعلامات (+) أو (-) بطريقة محكمة.

14. ينبغي تجنب الاختصارات إلى أقصى حد ممكن وينبغي ألا تستخدم علامات “كما سبق” في الجداول.

15. يجب أن توضع العناصر المختلفة والاستثنائية، إن وجدت، عادة في الصف الأخير من الجدول.

16. ينبغي أن يكون الجدول منطقي وواضح ودقيق وبسيط بقدر الإمكان. إذا حدث وكانت البيانات كبيرة جدا، فلا ينبغي أن تكون مزدحمة في جدول واحد لأن هذا من شأنه أن يجعل الجدول غير عملي وغير مريح.

17. ينبغي عادة أن يوضع مجموع الصفوف في العمود أقصى اليمين و يجب أن يوضع مجموع الأعمدة في الأسفل.

18. لتسهيل المقارنة، يمكن أن يكون ترتيب الفئات في الجدول زمني، جغرافي، أبجدي أو وفقا للحجم. وقبل كل شيء، يجب أن يتناسب الجدول مع احتياجات ومتطلبات البحث.

بعض مشاكل معالجة البيانات

يمكننا تناول المشكلتين التاليتين التي تواجهنا عند معالجة البيانات لأغراض التحليل:

(أ) المشكلة المتعلقة بردود أو استجابات “لا أعرف”:

أثناء معالجة البيانات، يجد الباحث في كثير من الأحيان بعض الردود (الاستجابات) التي يصعب التعامل معها. أحد فئات هذه الردود قد يكون رد “لا أعرف”. عندما يكون مجموع هذه الاستجابة صغير، فإن ذلك ليس له أهمية تذكر. ولكن عندما يكون كبير نسبيا، فإنه يصبح مثار قلق رئيسي حيث يكون السؤال الذي يطرح نفسه في هذه الحالة هو: هل السؤال الذي أثار رد “لا أ عرف” عديم الفائدة؟ يعتمد الجواب على نقطتين وهما، قد لا يعرف المشارك الجواب في الواقع، أو أنه ربما قد يفشل الباحث في الحصول على المعلومات المناسبة. في الحالة الأولى، يقال أن السؤال على ما يرام وتؤخذ استجابة “لا أعرف” كاستجابة مشروعة. ولكن في الحالة الثانية، قد يكون من المرجح أن استجابة “لا أعرف” هي نتيجة فشل في عملية الاستجواب.

كيف يتم التعامل مع ردود “لا أعرف” من قبل الباحثين؟ أفضل طريقة هي تصميم أفضل نوع من الأسئلة. كما أن العلاقة الجيدة للذين يجرون المقابلات مع المشاركين قد تؤدي إلى التقليل من ردود “لا أعرف”. ولكن ماذا عن ردود “لا أعرف”  التي قد حدثت بالفعل؟ أحد الطرق لمعالجة هذه المسألة هي تقدير حصة إجابات “لا أعرف”  من غيرها من البيانات في الاستبيان. والطريقة الأخرى هي الابقاء على ردود “لا أعرف”  كفئة منفصلة أثناء الجدولة حيث يمكن أن نعتبرها فئة رد منفصلة إذا كانت ردود “لا أعرف” مشروعة، وإلا فإنه ينبغي أن نترك للقارئ تكوين قراره الخاص. الطريقة الأخرى هي أن نفترض أن استجابات “لا أعرف”  تحدث بشكل عشوائي وعلى هذا النحو يمكننا توزيعها ضمن الإجابات الأخرى بالنسبة التي حدثت بها الأخيرة. وسيتم تحقيق نتائج مماثلة إذا تم استبعاد جميع ردود “لا أعرف”  من الجدولة وذلك أيضا بدون تضخيم العدد الفعلي للاستجابات الأخرى.

(ب) استخدام النسب المئوية: غالبا ما تستخدم النسب المئوية في عرض البيانات لأنها تبسط الأرقام، حيث تخفضها إلى مدى من 0 إلى 100. يتم تخفيض البيانات باستخدام النسب المئوية في النموذج القياسي بأساس يساوي 100 مما يسهل المقارنات النسبية. يجب أن تكون القواعد التالية في ذهن الباحثين عند استخدامهم للنسب المئوية:

1. يجب ألا يتم أخذ متوسط ​​اثنين أو أكثر من النسب ما لم يتم ترجيحها حسب حجم المجموعة التي اشتُقت منها.

2. ينبغي تجنب استخدام النسب الكبيرة جدا، لأنه يصعب فهم النسب الكبيرة وهي تميل إلى الخلط، ولذلك فهي تفسد الغرض نفسه الذي تستخدم له النسب المئوية.

3. تخفي النسب الأساس الذي تم حسابها منه. إن لم يؤخذ هذا في الاعتبار، فلا يمكننا قراءة الاختلافات الحقيقية بشكل صحيح.

4. لا يمكن أن يتجاوز انخفاض النسبة 100 في المائة، ولذلك، عند حساب النسبة المئوية للانخفاض، يجب دائما أخذ الرقم الأعلى كأساس.

5. يجب عموما أن تشتق النسب في اتجاه عامل السببية في حالة جداول البعدين، ولهذا الغرض يجب علينا تحديد العامل الأكثر أهمية من العاملين بأنه العامل السببي.

أنواع التحليل وعناصره

وكما ذكرنا سابقًا، فنحن نعني بالتحليل حساب بعض المؤشرات أو القياسات مع البحث عن أنماط العلاقة التي توجد بين مجموعات بيانات. يتضمن التحليل، وخاصة في حالة المسح أو البيانات التجريبية، تقدير قيم المعايير غير المعروفة لمجتمع الدراسة واختبار الفرضيات لاستنباط الاستنتاجات. ولذلك، قد يتم تصنيف التحليل إلى تحليل وصفي وتحليل استدلالي (وغالبا ما يعرف التحليل الاستدلالي بالتحليل الإحصائي). “التحليل الوصفي هو إلى حد كبير يمثل دراسة توزيع متغير واحد، حيث تقدم لنا هذه الدراسة لمحات عن الشركات ومجموعات العمل والأشخاص وغيرها من المواضيع على عدة خصائص مثل الحجم، التركيب، الكفاءة، والأفضليات، وما الى ذلك”[5]. قد يكون هذا النوع من التحليل متعلق بمتغير واحد (ويتم وصفه بأنه تحليل البعد الواحد)، أو يتعلق بمتغيرين (ويوصف بأنه تحليل ثنائي المتغير) أو متعلق بوجود أكثر من متغيرين (وفي هذه الحالة يوصف بأنه تحليل متعدد المتغيرات). في هذا السياق نستخرج القياسات المختلفة التي تظهر حجم وشكل التوزيع، وأيضًا دراسة قياس العلاقات بين اثنين أو أكثر من المتغيرات.

وقد نتحدث أيضًا على تحليل الارتباط  (Correlation Analysis) والتحليل السببي (Causal analysis). يدرس تحليل الارتباط التباين المشترك بين اثنين أو أكثر من المتغيرات لتحديد حجم الارتباط بين اثنين أو أكثر من المتغيرات. ويهتم التحليل السببي بدراسة كيفية تأثير أحد المتغيرات أو أكثر في التغييرات في متغير آخر. ومن ثم فهو دراسة للعلاقات الوظيفية القائمة بين اثنين أو أكثر من المتغيرات. يمكن أن نسمى هذا التحليل بتحليل الانحدار (Regression Analysis). يعتبر التحليل السببي أكثر أهمية نسبيا في الأبحاث التجريبية، في حين أن اهتمام معظم البحوث الاجتماعية والادارية يكمن في الفهم والسيطرة على العلاقات بين المتغيرات ثم بعد ذلك تحديد الأسباب في حد ذاتها ولذلك فإننا نعتبر هنا أن تحليل الارتباط أكثر أهمية نسبيا.

مع توافر تجهيزات الحاسوب في العصر الحديث أصبح هناك تطور سريع في التحليل متعدد المتغيرات الذي يمكن تعريفه بأنه “كل الأساليب الإحصائية التي تحلل في وقت واحد أكثر من اثنين من المتغيرات في عينة من الملاحظات”[6].

وعندما نقوم بالإشارة للتحليل متعدد المتغيرات، عادة ما يتم إجراء التحليلات التالية[7]:

(أ) تحليل الانحدار المتعدد (Multiple regression analysis): يتم اعتماد هذا التحليل عندما يكون لدى الباحث متغير تابع واحد الذي يفترض أنه وظيفة لأثنين أو أكثر من المتغيرات المستقلة. الهدف من هذا التحليل هو التنبؤ حول المتغير التابع بناءًا على تغايره مع جميع المتغيرات المستقلة المعنية.

(ب) تحليل التمايز المتعدد (Multiple discriminant analysis): يكون هذا التحليل مناسبًا عندما يكون لدى الباحث متغير تابع واحد لا يمكن قياسه، ولكن يمكن تصنيفه إلى مجموعتين أو أكثر على أساس سمة ما. الهدف من هذا التحليل هو للتنبؤ بإمكانية انتماء الكيان إلى مجموعة معينة بناءًا على عدة متغيرات توقعية.

(ج) التحليل المتعدد للتباين (Multivariate analysis of variance or multi-ANOVA): هذا التحليل هو امتداد لتحليل اتجاهي التباين (two-way ANOVA)، حيث يتم استخراج نسبة التباين بين المجموعة للتباين ضمن المجموعة وفقًا لمجموعة من المتغيرات.

(د) التحليل المعياري (Canonical analysis): يمكن استخدام هذا التحليل في حالة المتغيرات القابلة للقياس والغير قابلة للقياس لغرض التنبؤ في وقت واحد بمجموعة من المتغيرات التابعة من تباينها المشترك مع مجموعة من المتغيرات المستقلة.

ويهتم التحليل الاستدلالي (Inferential analysis) بمختلف اختبارات الأهمية لاختبار الفروض من أجل تحديد الصلاحية التي يمكن بها أن يقال أن البيانات تشير إلى بعض الاستنتاجات أو النتائج. كما أنها تهتم بتقدير قيم مجتمع الدراسة. وكذلك تتم مهمة التفسير أساسًا بناءًا على التحليل الاستدلالي (أي مهمة الاستدلال واستنباط الاستنتاجات).

الإحصاء في البحوث

دور الإحصاء في البحث هو كونها بمثابة أداة في تصميم البحوث وتحليل البيانات واستخلاص النتائج منها. معظم الدراسات البحثية تنتج كمية كبيرة من البيانات الخام التي يجب أن تخفض بشكل مناسب بحيث يمكن قرائتها بسهولة، ومن ثم يمكن استخدامها لمزيد من التحليل. ومن الواضح أنه لا يمكن لأي عامل في مجال البحث أن يتجاهل علم الإحصاء، على الرغم من انه قد لا يجد مناسبة لاستخدام كافة الأساليب الإحصائية بجميع تفاصيلها وتشعباتها. يحقق التصنيف والتبويب أو الجدولة، كما ذكرنا سابقًا، هذا الهدف إلى حد ما، ولكن علينا أن نذهب إلى أبعد من ذلك ونطور ونضع مؤشرات أو تدابير معينة لتلخيص البيانات التي تم جمعها وتصنيفها. وبعد ذلك فقط يمكننا اعتماد عملية التعميم من مجموعات صغيرة (أي عينات) إلى المجتمع. في الواقع، هناك مجالين رئيسيين للإحصاء وهما، الإحصاء الوصفي والإحصاء الاستدلالي. وتتعلق الإحصاء الوصفي بتطوير بعض المؤشرات من البيانات الخام، في حين أن الإحصاء الاستدلالي أو الاستنتاجي يهتم بعملية التعميم. وتعرف الإحصاء الاستدلالية أيضا بإحصاء أخذ العينات وهي تتعلق أساسا بنوعين رئيسيين من المشاكل: (أ) تقدير معايير المجتمع، و (ب) اختبار الفرضيات الإحصائية.

التدابير الإحصائية الهامة[8] التي تستخدم لتلخيص المسوح وبيانات البحوث هي:

(1) مقاييس النزعة المركزية أو المتوسطات الإحصائية؛ (2) مقاييس التشتت. (3) مقاييس عدم التماثل (الالتواء)؛ (4) مقاييس العلاقة. و (5) مقاييس أخرى[9].

من بين مقاييس النزعة المركزية، فإن أهم ثلاثة هي المتوسط ​​الحسابي (Mean) والوسيط (Median) والوسط (Mode).  وكذلك يتم استخدام الوسط الهندسي والوسط التوافقي في بعض الأحيان.

من بين مقاييس التشتت، التباين، وجذره التربيعي فإن الانحراف المعياري هو المقياس الأكثر استخداما. ويتم استخدام مقاييس أخرى أيضا مثل انحراف المتوسط، المدى، الخ. وبالنسبة لغرض المقارنة، ففي الغالب يتم استخدام معامل الانحراف المعياري أو معامل الاختلاف.

فيما يتعلق بمقاييس الإلتواء (skewness) والتفرطح (kurtosis)، فغالبا ما يتم استخدام المقياس الأول للالتواء على أساس المتوسط ​​والوسط أو على أساس المتوسط ​​والوسيط. وأحيانًا تستخدم أيضا مقاييس أخرى للالتواء ، على أساس الربعيات (quartiles) أو الطرق اللحظية. يستخدم التفرطح أيضا لقياس حدة قمة منحنى التوزيع التكراري.

من بين مقاييس العلاقات، فإن معامل كارل بيرسون للارتباط (Karl Pearson’s coefficient of correlation) هو المقياس الأكثراستخدامًا في حالة إحصاء المتغيرات، أما معامل يول للارتباط (Yule’s coefficient of association) فيتم استخدامه في حالة إحصاء السمات. وغالبا ما يتم استخدام معامل الارتباط المتعدد، ومعامل الارتباط الجزئي، وتحليل الانحدار، وغيرها من المقاييس الهامة من قبل الباحثين.

و قد تكون أرقام الفهرسة القياسية، وتحليل السلاسل الزمنية، ومعامل الطوارئ (coefficient of contingency)، وغيرها من المقاييس أيضًا من ضمن المقاييس التي يستخدمها الباحث، وهذا طبعًا يتوقف على طبيعة المشكلة قيد الدراسة.

الإحصاء الوصفي

الإحصاء الوصفية تصف البيانات ولا تستخلص استنتاجات حول البيانات. يتم تطبيق الإحصاء الوصفي عادة على كل متغير على حده. وهي تخبر الباحث بالنزعة المركزية للمتغير، التي تعني متوسط ​​درجة أحد المشاركين على مقياس دراسة معين. يمكن للباحث أيضا تحديد توزيع الدرجات على مقياس دراسة معين، أو المدى الذي تظهر فيه الدرجات. وأخيرا، يمكن استخدام الإحصاء الوصفي ليعرف الباحث التردد الذي تظهر به بعض الردود أو الدرجات على مقياس دراسة معين. على سبيل المثال، في دراسة تبحث في فعالية العدسات التصحيحية على الإنتاجية الاقتصادية، قد يلاحظ الباحث أن متوسط الدينارات أسبوعيا للشخص الذي قام بتصحيح الرؤية هو 500 دينار، أما متوسط الدينارات لشخص بدون تصحيح الرؤية هو 450 دينار. الباحث الجيد يعرف أن هذه ليست معلومات كافية لاستنتاج أن تصحيح الرؤية لديه تأثير على الإنتاجية الاقتصادية. الاحصاء الاستدلالي تعتبر ضرورية لاستخلاص استنتاجات من هذا النوع. قد يكون لدى الإحصاء الوصفي القدرة على أخبارالباحث أيضًا بأن توزيع الدخل الأسبوعي هو من 351- 640 دينار للعينة كلها، وأن المتوسط ​هو 445 دينار للعينة[10].

الارتباط

الارتباط هي احد أكثر الأنواع المستخدمة غالبا (وغالبا ما يساء استخدامها) من الإحصاء الوصفي. ولعل أفضل وصف له هو أنه “رقم واحد يصف درجة العلاقة بين متغيرين”[11]. إذا وجدنا أن متغيرين يميلان الى ان يكونا “مترابطين”، فذلك يعني أن درجة أحد المشاركين في أحدها تميل إلى الاختلاف مع درجته في الآخر. على سبيل المثال، يميل طول الاشخاص، ومقاس أحذيتهم إلى الارتباط بشكل إيجابي. وهذا غالبا ما يعني أنه إذا كان رجل معين طويل القامة، فمن المرجح أن يكون مقاس حذاءه كبير أيضًا. إذا كان قصيرًا، فمن المرجح أن يكون مقاس حذاءه صغير. يمكن أن يكون الترابط سلبيًا أيضا. على سبيل المثال، درجة الحرارة في الخارج بالدرجة المئوية يمكن أن ترتبط سلبيا مع عدد الشوكولاتة الساخنة التي تباع في مقهى محلي ما. وهذا يعني أنه كلما تنخفض درجة الحرارة، كلما تميل مبيعات الشوكولاتة الساخنة إلى الزيادة. على الرغم من أن العلاقة السببية قد تبدو ضمنية في هذه الحالة، من المهم أن نلاحظ على المستوى الإحصائي بأن الارتباط لا يعني السببية ضمنًا. الباحث الجيد يعرف أنه ليست هناك أي وسيلة للتقييم من الارتباط وحده بأن هناك علاقة سببية قائمة بين متغيرين. من أجل تأكيد أن “س تسبب ص”، ينبغي أن تكون هناك دراسة تجريبية، مع مجموعات ضابطة وإجراءات لأخذ العينات العشوائية. يعتبر تحديد العلاقة السببية شيء يصعب القيام به، ومن الأخطاء الشائعة تأكيد العلاقة بين السبب والنتيجة عندما لا تدعم منهجية الدراسة هذه المزاعم.

الاحصاء الاستدلالي

تسمح الإحصاء الاستدلالي للباحث بالبدء في استخلاص الاستنتاجات حول الفرضية بناءًا على البيانات التي تم جمعها. وهذا يعني أنه أثناء تطبيق الاحصاء الاستدلالي على البيانات، يصل الباحث إلى استنتاجات حول مجتمع الدراسة عموما. تسعى الاحصاء الاستدلالي للتعميم إلى ما وراء البيانات في الدراسة لإيجاد أنماط موجودة ظاهريا في مجتمع الدراسة المستهدفة.

الأهمية الإحصائية (أو الدلالة الإحصائية)

لا يستطيع الباحثون ببساطة أن يستنتجوا أن هناك فرقا بين مجموعتين في الدراسة المبنية جيدًا. يجب أن يكون هذا الاختلاف راجع إلى التلاعب في المتغير المستقل. مهما كان تصميم الباحث للدراسة جيدًا، هناك دائما درجة من الخطأ في النتائج. يمكن أن يكون هذا الخطأ بسبب الفروق الفردية داخل وبين المجموعات التجريبية، أو يمكن أن يكون الخطأ بسبب وجود اختلافات منهجية ضمن عينة الباحث. وبغض النظر عن مصدره، يعمل هذا الخطأ كنوع من “الضجيج” في البيانات، فهو يؤثر على درجات المشاركين في مقاييس الدراسة على الرغم من أنها ليست المتغير قيد الاهتمام. وتهدف الأهمية الإحصائية لتحديد احتمالية أن نتيجة الدراسة التي تمت ملاحظتها ترجع إلى تأثير المتغير المستقل وليس عن طريق الصدفة. وتكون النتيجة مهمة إحصائيا (ذات دلالة إحصائية) عند مستوى معين. على سبيل المثال، ربما تكون النتيجة مهمة إحصائيا عندما تكون ص أكبر من 0.05 (p<.05) تمثل “P”احتمال أن النتيجة كانت نتيجة للمصادفة، و0.05 تمثل احتمال 5٪ ان النتيجة كانت نتيجة للمصادفة. لذلك، فإن <0.05 يعني أن التحليل الإحصائي الاستدلالي أشار إلى أن النتائج المرصودة لها احتمال أكثر من 95٪ في كونها ناتجة عن تأثير المتغير المستقل. وتعتبر نسبة 5٪ هي المعيار عموما لمعظم الأبحاث العلمية. لاحظ أنه من المستحيل نظريا أن تكون دائما على يقين تماما بأن النتائج ليست نتيجة للمصادفة، لأن طبيعة العلم هي اثبات الخطأ، وليس الإثبات الغير قابل للتغيير[12].


[1] G.B. Giles, Marketing, p. 44.

[2]  فئات الترتيب النهائي هي تلك الفئات التي يتم تحديدها على أساس عدد السمات التي تم أخذها في الاعتبار.

[3]  تختلف الحدود المذكورة لفترات الفئة عن الحدود الحقيقية. ينبغي أن نستخدم الحدود الحقيقية أو الواقعية مع الأخذ في الاعتبار طبيعة الظاهرة المعنية

[4]  كل هذه النقاط تمثل صفات الجدول الجيد.

[5] C. William Emory, Business Research Methods, p. 356.

[6] Jagdish N. Sheth, “The Multivariate Revolution in Marketing Research”, Journal of Marketing, Vol. 35, No. 1(Jan. 1971), pp. 13–19.

[7]  لمزيد من المعلومات حول هذه الاختبارات يمكن للقراء الرجوع لكتب الإحصاء والنصوص القياسية حولها.

[8]  يمكن للمرء قراءة أي كتاب عن الطرق الاحصائية لمزيد من التفاصيل حول هذه المقاييس.

[9]  ربحي مصطفى عليان، و عثمان محمد غنيم، مناهج وأساليب البحث العلمي: النظرية والتطبيق، دار صفاء للنشر والتوزيع، عمان، 2000، ص159-162.

[10] Trochim, W. M. K.  “Descriptive Statistics” Research Methods Knowledge Base 2nd Edition.

[11]  المرجع السابق.

[12] Pelham, B. W.; Blanton, H. Conducting Research in Psychology: Measuring the Weight of Smoke, 3rd Edition.  Wadsworth Publishing.

المصدر: الفصل السابع من كتابي طرق البحث: مقدمة لطرق البحث وكيفية إعداد البحوث

الوسوم: