আগের অধ্যায়গুলোতে আমরা তো দারুণ একটা কাজ করে ফেলেছি, তাই না? গবেষণার জন্য কী জানতে চাই, কার কাছ থেকে জানব, কীভাবে তথ্য সংগ্রহ করব—সব ঠিকঠাক! মনে করুন, আপনি একজন গোয়েন্দার মতো, আর আপনার হাতে এখন অনেকগুলো ক্লু বা সূত্র জমা হয়েছে – প্রশ্নপত্র থেকে পাওয়া হাজার হাজার সংখ্যা, জরিপের রিপোর্ট, পরীক্ষা থেকে পাওয়া স্কোর ইত্যাদি। এই সংখ্যাগুলো হলো আপনার গবেষণার কাঁচামাল, অনেকটা পাজলের টুকরোর মতো। এখন এই এলোমেলো সংখ্যাগুলো দিয়ে কী করব? এখানেই আসে আমাদের আজকের কাজ – তথ্য বিশ্লেষণ (Data Analysis)।
তথ্য বিশ্লেষণ হলো আপনার জোগাড় করা সংখ্যা বা ডেটাগুলো থেকে মানে বের করা, সেগুলোকে গুছিয়ে একটা গল্প তৈরি করা, যাতে আপনার গবেষণা প্রশ্নের উত্তরটা বেরিয়ে আসে। আজ আমরা শিখব পরিমাণগত তথ্য বিশ্লেষণ নিয়ে। মানে, সংখ্যা নিয়ে কীভাবে খেলা করে আসল তথ্যটা বের করা যায়। এটা কিন্তু মোটেও কঠিন কোনো ম্যাজিক নয়, শুধু কিছু সহজ হিসাব আর নিয়ম জানা।
বর্ণনামূলক পরিসংখ্যান: সংখ্যাকে চেনাজানা
ধরুন, আপনি আপনার ক্লাসের ৫০ জন ছাত্রছাত্রীর অংকে পাওয়া নম্বর সংগ্রহ করলেন। এখন এই ৫০টা নম্বর তো শুধু একটা তালিকা। এই তালিকা দেখে কি আপনি এক নজরে বলতে পারবেন যে ক্লাসটা অংকে কেমন? বা বেশিরভাগ শিক্ষার্থী কেমন নম্বর পেয়েছে? পারবেন না। এখানেই কাজে আসে বর্ণনামূলক পরিসংখ্যান (Descriptive Statistics)।
এই পরিসংখ্যানের কাজ হলো আপনার সংগৃহীত সংখ্যাগুলোর মূল বৈশিষ্ট্যগুলো সহজভাবে তুলে ধরা, সেগুলোকে সংক্ষিপ্ত করে ফেলা এবং ছবি বা গ্রাফের মাধ্যমে এমনভাবে দেখানো যেন দেখলে এক নজরে বোঝা যায়। এটা হলো আপনার সংগৃহীত ডেটা পাজলগুলোকে প্রথমে একটু গুছিয়ে নেওয়া, কোনটা কোন ধরনের টুকরো, কত রঙের টুকরো আছে – এরকম একটা আইডিয়া নেওয়া।
বর্ণনামূলক পরিসংখ্যান ডেটাকে বোঝার জন্য কিছু সহজ মাপকাঠি ব্যবহার করে:
১. কেন্দ্রীয় প্রবণতা (Central Tendency):
ডেটার কেন্দ্রটা কোথায়? এটা দিয়ে আমরা ডেটার কেন্দ্র বা বেশিরভাগ ডেটা কোন নম্বরের কাছাকাছি আছে, সেটা বোঝার চেষ্টা করি। এটা অনেকটা গড়পরতা বা সাধারণ অবস্থা বোঝানোর মতো। এর তিনটা প্রধান উপায় আছে:
গড় (Mean): এটা হলো সবচেয়ে পরিচিত। আপনার সংগৃহীত সব সংখ্যাকে যোগ করে মোট সংখ্যার পরিমাণ দিয়ে ভাগ করলেই গড় পেয়ে যাবেন। উদাহরণ: আপনার ৫ জন বন্ধু পরীক্ষায় পেল ৭০, ৮০, ৮৫, ৯০, ৯৫ নম্বর। গড় হলো (৭০+৮০+৮৫+৯০+৯৫) = ৪২০। মোট বন্ধু ৫ জন, তাই গড় = ৪২০ / ৫ = ৮৪। মানে, এই বন্ধুদের গড় নম্বর হলো ৮৪।
মধ্যমা (Median): ডেটাগুলোকে ছোট থেকে বড় (বা বড় থেকে ছোট) সাজানোর পর ঠিক যে সংখ্যাটা মাঝখানে থাকে, সেটাই হলো মধ্যমা। যদি সংখ্যা জোড় হয়, তাহলে মাঝের দুটো সংখ্যার গড় হলো মধ্যমা। উপরের উদাহরণে (৭০, ৮০, ৮৫, ৯০, ৯৫), সাজানোই আছে। মাঝের সংখ্যাটা হলো ৮৫। তাই মধ্যমা হলো ৮৫। আরেকটা উদাহরণ: ৭০, ৮০, ৮০, ৯০, ১০০, ১১০। সাজালে মাঝের দুটো ৮০ আর ৯০। মধ্যমা হলো (৮০+৯০)/২ = ৮৫।
গরিষ্ঠ সংখ্যক (Mode): যে সংখ্যাটা আপনার ডেটা সেট-এ (সংগৃহীত তথ্যের দলে) সবচেয়ে বেশিবার এসেছে, সেটাই হলো গরিষ্ঠ সংখ্যক বা মোড। ধরুন, কিছু ছাত্রের ওজন হলো ৫০, ৫৫, ৫৫, ৬০, ৬৫ কেজি। এখানে ৫৫ দুইবার এসেছে, যা অন্য সংখ্যার চেয়ে বেশি। তাই মোড হলো ৫৫ কেজি।
২. বিচ্ছুরণ (Variability):
ডেটা কতটা ছড়ানো ছিটানো? কেন্দ্রীয় প্রবণতা দিয়ে আমরা ডেটার কেন্দ্রটা বুঝলাম। কিন্তু ডেটাগুলো কেন্দ্রের কাছাকাছি কতটা ঘন হয়ে আছে, নাকি অনেক দূরে দূরে ছড়ানো ছিটানো – সেটাও বোঝা জরুরি। এটা হলো ডেটার ছড়ানো ভাব বা বিচ্ছুরণ। দুটো প্রধান উপায় আছে এটা বোঝার:
পরিসর (Range): এটা হলো আপনার ডেটা সেটের সবচেয়ে বড় সংখ্যা থেকে সবচেয়ে ছোট সংখ্যা বাদ দিলে যা থাকে। এটা ডেটার মোট বিস্তার বোঝায়। উদাহরণ: সর্বনিম্ন নম্বর ২০, সর্বোচ্চ নম্বর ৮০। পরিসর = ৮০ - ২০ = ৬০।
মানক বিচ্যুতি (Standard Deviation - SD): এটা হলো গড় থেকে ডেটাগুলো গড়পড়তা কতটা দূরে ছড়ানো আছে, তার একটা হিসাব। যদি মানক বিচ্যুতি কম হয়, তার মানে ডেটাগুলো গড়ের কাছাকাছি জমাট বেঁধে আছে (বন্টন সুষম)। আর যদি মানক বিচ্যুতি বেশি হয়, তাহলে ডেটাগুলো গড় থেকে অনেক দূরে দূরে ছড়ানো ছিটানো আছে। এটা ডেটার ভেতরের পার্থক্যটা ভালো করে বোঝায়।
৩. বন্টন (Distribution):
ডেটাগুলো কেমন দেখতে? আপনার সংগৃহীত ডেটাগুলো কীভাবে ছড়ানো আছে, কোনটা বেশি কোনটা কম, সেটা দেখার জন্য আমরা ছবি বা গ্রাফ ব্যবহার করি। এটা হলো ডেটার বন্টন দেখা। হিস্টোগ্রাম (Histogram): এটা দিয়ে আমরা দেখি একটি নির্দিষ্ট রেঞ্জের মধ্যে কতগুলো ডেটা পড়েছে (এটাকে ফ্রিকোয়েন্সি বা গণসংখ্যা বলে)। যেমন, আপনি ৫০ জন শিক্ষার্থীর নম্বরগুলোকে ১০ নম্বরের গ্রুপে ভাগ করে দেখতে পারেন – ৬০-৭০ এর মধ্যে কতজন, ৭১-৮০ এর মধ্যে কতজন ইত্যাদি। হিস্টোগ্রাম একটা বার গ্রাফের মতো দেখতে হয়।
পাই চার্ট (Pie Chart): এটা দিয়ে আমরা ডেটার মোট অংশের মধ্যে কোনটার কত শতাংশ আছে, সেটা দেখাই। যেমন, একটি গ্রামের মানুষের পেশা দেখাচ্ছেন – ৪০% কৃষক, ৩০% শ্রমিক, ২০% ব্যবসায়ী, ১০% চাকরিজীবী। এটা দেখতে একটা গোলাকার পিঠার মতো, যেখানে বিভিন্ন অংশ বিভিন্ন শতাংশ দেখায়। বার চার্ট (Bar Chart): বিভিন্ন ক্যাটাগরির মধ্যে তুলনা করার জন্য এটা খুব উপযোগী। যেমন, ছেলে ও মেয়েদের গড় নম্বরের তুলনা।
আমাদের বাংলাদেশের উদাহরণ:
• কৃষি ডেটা: ধরুন আপনি একটি জেলার ১০০ জন কৃষকের কাছ থেকে তাদের গত মৌসুমের ধানের উৎপাদন (কেজি/একর) সংগ্রহ করলেন। বর্ণনামূলক পরিসংখ্যান ব্যবহার করে আপনি গড় উৎপাদন বের করতে পারেন, সবচেয়ে বেশি ফলন কে পেয়েছেন তা জানতে পারেন (পরিসর), বা গড় থেকে ফলন কতটা ছড়ানো ছিটানো আছে (মানক বিচ্যুতি) তা দেখতে পারেন। হিস্টোগ্রাম বানিয়ে দেখতে পারেন কতজন কৃষক একটি নির্দিষ্ট রেঞ্জের মধ্যে ফলন পেয়েছেন।
• স্বাস্থ্য ডেটা: ঢাকার ৫০০ জন মানুষের রক্তচাপ মেপে তার গড় রক্তচাপ কত, রক্তচাপের বিস্তার কত (পরিসর), বা গড় থেকে রক্তচাপ কতটা ভিন্ন ভিন্ন হচ্ছে (মানক বিচ্যুতি) – এগুলো বের করার জন্য বর্ণনামূলক পরিসংখ্যান ব্যবহার করা হয়।
অনুমানমূলক পরিসংখ্যান: নমুনা থেকে পুরো দলের কথা বলা
বর্ণনামূলক পরিসংখ্যান দিয়ে আমরা আমাদের হাতে থাকা ছোট নমুনা দলটার ডেটা সম্পর্কে একটা ভালো ধারণা পেলাম। কিন্তু আমাদের গবেষণা তো শুধু ঐ ছোট নমুনাটা নিয়ে নয়, বরং পুরো বড় দলটা (সমগ্রক) নিয়ে! এখন প্রশ্ন হলো, এই ছোট নমুনার ডেটা ব্যবহার করে আমরা পুরো বড় দলটা সম্পর্কে কীভাবে কিছু বলতে পারি? এখানেই আসে অনুমানমূলক পরিসংখ্যান (Inferential Statistics)।
এই পরিসংখ্যানের কাজ হলো আপনার ছোট নমুনার ডেটা বিশ্লেষণ করে তার উপর ভিত্তি করে পুরো বড় দলটা (সমগ্রক) সম্পর্কে স্মার্ট অনুমান বা ভবিষ্যদ্বাণী করা। অনেকটা এক চামচ তরকারি চেখে পুরো হাঁড়ির নুন ঠিক আছে কিনা অনুমান করার মতো। অনুমানমূলক পরিসংখ্যানের মাধ্যমে আমরা প্রমাণ করার চেষ্টা করি যে নমুনায় আমরা যে ফলাফল দেখেছি, সেটা কি শুধু ভাগ্যের ব্যাপার, নাকি পুরো দলটাতেই এমনটা সত্যি?
অনুমানমূলক পরিসংখ্যানের কিছু প্রধান ধারণা হলো:
১. হাইপোথিসিস টেস্টিং (Hypothesis Testing):
আমাদের অনুমান পরীক্ষা করা! হাইপোথিসিস টেস্টিং হলো পরিসংখ্যান ব্যবহার করে সেই অনুমানগুলোকে পরীক্ষা করা। এখানে সাধারণত আমরা দুটো অনুমান নিয়ে কাজ করি:
Null Hypothesis (H₀): শূন্য অনুমান: এই অনুমানটা বলে যে কোনো পার্থক্য নেই, কোনো সম্পর্ক নেই, বা আমাদের নতুন জিনিসটার (স্বাধীন চলক) কোনো প্রভাব নেই। যেমন: নতুন সারে ফসলের উৎপাদন বাড়েনি অথবা ছেলে ও মেয়েদের অংকের নম্বরে কোনো পার্থক্য নেই। এটা হলো 'যেমন ছিল তেমনই আছে' অবস্থা।
Alternative Hypothesis (H₁): বিকল্প অনুমান: এই অনুমানটা বলে যে পার্থক্য আছে, সম্পর্ক আছে, বা আমাদের নতুন জিনিসটার প্রভাব আছে। এটা হলো আমাদের আসল গবেষণা অনুমান। যেমন: নতুন সারে ফসলের উৎপাদন বেড়েছে অথবা ছেলে ও মেয়েদের অংকের নম্বরে পার্থক্য আছে। আমরা হাইপোথিসিস টেস্টিং করে প্রমাণ করার চেষ্টা করি যে শূন্য অনুমান (H₀)টা কি ভুল? যদি প্রমাণ করতে পারি যে H₀ ভুল, তাহলে আমরা বিকল্প অনুমান (H₁)টা গ্রহণ করি।
p-মান (p-value): ভাগ্যচক্রের সম্ভাবনা? হাইপোথিসিস টেস্টিংয়ের একটি খুব গুরুত্বপূর্ণ অংশ হলো p-value। এটা হলো একটি সংখ্যা যা বলে যে, যদি সত্যিই শূন্য অনুমান (H₀) সঠিক হতো (মানে কোনো পার্থক্য বা প্রভাব না থাকত), তবুও আপনার নমুনায় আপনি যে ফলাফল দেখেছেন, সেটা শুধু ভাগ্যের জোরে পাওয়ার সম্ভাবনা কতটুকু। সাধারণত, বিজ্ঞানীরা একটি সীমা ঠিক করে নেন, যাকে আলফা (alpha) বলা হয়, বেশিরভাগ ক্ষেত্রে এটা ০.০৫ (বা ৫%) ধরা হয়। যদি p-value ০.০৫ এর চেয়ে ছোট হয় (p < 0.05): এর মানে হলো, যদি সত্যি সত্যি H₀ ঠিক হতো (কোনো পার্থক্য না থাকত), তবুও আপনার এমন ফলাফল পাওয়ার সম্ভাবনা খুবই কম (৫% এর চেয়ে কম)। যেহেতু এমনটা হওয়ার সম্ভাবনা খুব কম, তাই আমরা ধরে নিই যে H₀ ভুল ছিল এবং সেটাকে বাতিল (Reject) করি। আর H₀ বাতিল করলে আমরা বিকল্প অনুমান (H₁) গ্রহণ করি। মানে, আমরা বলতে পারি যে সম্ভবত একটি আসল পার্থক্য বা প্রভাব বিদ্যমান। যদি p-value ০.০৫ এর চেয়ে বড় হয় (p > 0.05): এর মানে হলো, যদি সত্যি সত্যি H₀ ঠিক হতো, তবুও আপনার এমন ফলাফল পাওয়ার সম্ভাবনা যথেষ্ট বেশি (৫% এর চেয়ে বেশি)। তাই আমরা বলতে পারি না যে H₀ ভুল ছিল। সেক্ষেত্রে আমরা H₀ বাতিল করি না (Fail to Reject H₀)। মানে, আমরা প্রমাণ করতে পারলাম না যে একটি আসল পার্থক্য বা প্রভাব বিদ্যমান। সহজ কথায়, ছোট p-value মানে আপনার ফলাফলটা শুধু ভাগ্যের জোরে হয়নি, সম্ভবত একটি আসল কারণ আছে।
২. কনফিডেন্স ব্যবধান (Confidence Interval): পুরো দলের গড় কোথায় থাকতে পারে? অনুমানমূলক পরিসংখ্যান দিয়ে আমরা নমুনার গড় ব্যবহার করে পুরো বড় দলটার গড়ের একটি অনুমান করি। কিন্তু ঐ আসল গড়টা ঠিক কত, সেটা আমরা নিশ্চিতভাবে বলতে পারি না। আত্মবিশ্বাস ব্যবধান (Confidence Interval - CI) আমাদের বলে যে, একটি নির্দিষ্ট মাত্রার আত্মবিশ্বাসে (যেমন ৯৫% আত্মবিশ্বাস) পুরো বড় দলটার আসল গড়টা কোন সংখ্যার রেঞ্জের মধ্যে থাকার সম্ভাবনা বেশি। উদাহরণ: আপনার ১০০ জন কৃষকের নমুনা থেকে ধানের গড় উৎপাদন পেয়েছেন ৮৫ কেজি/একর। ৯৫% আত্মবিশ্বাস ব্যবধান বের করে দেখলেন সেটা ৮০-৯০ কেজি/একর। এর মানে হলো, আপনি ৯৫% নিশ্চিত যে পুরো জেলার সব কৃষকের ধানের আসল গড় উৎপাদন ৮০ কেজি থেকে ৯০ কেজির মধ্যে থাকবে।
হাইপোথিসিস টেস্টিং এবং আত্মবিশ্বাস ব্যবধান বের করার জন্য বিভিন্ন পরিসংখ্যানিক পরীক্ষা ব্যবহার করা হয়, যা নির্ভর করে আপনার ডেটার ধরন এবং আপনি কী ধরনের সম্পর্ক বা পার্থক্য পরীক্ষা করতে চান তার উপর:
• t-Test: দুটো গ্রুপের গড়ের তুলনা করার জন্য। যেমন, পুরুষ কৃষকদের গড় ধানের উৎপাদন কি মহিলা কৃষকদের চেয়ে বেশি? অথবা নতুন সার দেওয়া প্লটের গড় উৎপাদন কি পুরাতন সার দেওয়া প্লটের চেয়ে আলাদা?
• Chi-Square Test (কাই-স্কয়ার টেস্ট): দুটো ক্যাটাগরিক্যাল ডেটার মধ্যে সম্পর্ক আছে কিনা তা দেখার জন্য। ক্যাটাগরিক্যাল ডেটা মানে হলো ডেটাগুলোকে গ্রুপে ভাগ করা যায়, যেমন লিঙ্গ (পুরুষ/মহিলা), শিক্ষা স্তর (প্রাথমিক, মাধ্যমিক, উচ্চশিক্ষা), ভোটের পছন্দ (দল ক/দল খ/দল গ)। যেমন, একজন মানুষের শিক্ষা স্তর কি তার ভোটের পছন্দের উপর প্রভাব ফেলে?
• ANOVA (Analysis of Variance): তিন বা ততোধিক গ্রুপের গড়ের তুলনা করার জন্য। যেমন, তিনটি ভিন্ন ভিন্ন জাতের ধানের গড় উৎপাদন কি ভিন্ন ভিন্ন? অথবা চারটি ভিন্ন শিক্ষণ পদ্ধতি ব্যবহার করে শিক্ষার্থীদের পরীক্ষার গড় নম্বরে কি কোনো পার্থক্য দেখা যায়?
• রিগ্রেশন অ্যানালাইসিস (Regression Analysis): একটি বা একাধিক চলক অন্য একটি চলকের উপর কতটা এবং কীভাবে প্রভাব ফেলে তা বোঝার জন্য। যেমন, একজন শিক্ষার্থীর দৈনিক পড়াশোনার সময় কি তার পরীক্ষার নম্বরের উপর প্রভাব ফেলে? অথবা সারের পরিমাণ, বৃষ্টিপাত এবং মাটির গুণাগুণ একসাথে ধানের উৎপাদনকে কতটা প্রভাবিত করে?
আমাদের বাংলাদেশের উদাহরণ:
• কৃষি গবেষণা: ধরুন বিআরআরআই বিজ্ঞানীরা নতুন উদ্ভাবিত ব্রি ধান-১০০ জাতটি প্রচলিত ধানের চেয়ে বেশি উৎপাদন দেয় কিনা তা পরীক্ষা করছেন। তারা কিছু জমিতে ব্রি ধান-১০০ এবং কিছু জমিতে প্রচলিত ধান লাগিয়ে ফলন সংগ্রহ করলেন (নমুনা ডেটা)। এবার তারা t-Test ব্যবহার করে ব্রি ধান-ধান-১০০ এর গড় উৎপাদন প্রচলিত ধানের গড় উৎপাদনের চেয়ে পরিসংখ্যানিকগতভাবে তাৎপর্যপূর্ণভাবে বেশি কিনা তা পরীক্ষা করবেন।
o ফলাফল পেলেন p-value = ০.০১। যেহেতু ০.০৫ এর চেয়ে ছোট, তাই তারা H₀ (উৎপাদনে কোনো পার্থক্য নেই) বাতিল করবেন। তার মানে, তারা বলতে পারবেন যে নতুন ধানের উৎপাদন প্রচলিত ধানের চেয়ে পরিসংখ্যানিকগতভাবে বেশি। এই ফলাফল তারা পুরো এলাকার কৃষকদের জন্য প্রযোজ্য বলে অনুমান করতে পারবেন (তবে নমুনার আকার ও অন্যান্য বিষয় ঠিক থাকতে হবে)।
• জনস্বাস্থ্য গবেষণা: একটি জরিপ থেকে প্রাপ্ত ডেটা ব্যবহার করে গবেষকরা chi-square test করে দেখতে পারেন যে একটি নির্দিষ্ট রোগের প্রাদুর্ভাবের সাথে মানুষের আয় বা শিক্ষা স্তরের কোনো সম্পর্ক আছে কিনা।
সাধারণ ভুল:
• p-value ভুল ব্যাখ্যা করা: অনেকে মনে করেন p=০.০৪ মানে আমার ফলাফল ৯৬% সঠিক। এটা ভুল ধারণা। p-value শুধু H₀ সত্য হওয়ার সম্ভাবনা দেখায়। এটি আপনার গবেষণার সঠিকতা বা ভুল হওয়া সম্পর্কে সরাসরি কিছু বলে না। এটি শুধু হাইপোথিসিস টেস্টিংয়ের একটি অংশ।
• ছোট নমুনায় বড় দাবি করা: নমুনার আকার যদি খুব ছোট হয়, তাহলে আপনার ফলাফল শুধু সেই ছোট দলটার জন্যই প্রযোজ্য হতে পারে। ঐ ডেটা ব্যবহার করে পুরো বড় দলটা সম্পর্কে বড়সড় অনুমান করলে সেটা ভুল হতে পারে।
• সঠিক টেস্ট ব্যবহার না করা: আপনার ডেটার ধরন (সংখ্যা নাকি ক্যাটাগরি) এবং আপনি কী পরীক্ষা করতে চান (গড়ের তুলনা নাকি সম্পর্ক) সেই অনুযায়ী সঠিক পরিসংখ্যানিক টেস্ট ব্যবহার না করলে ফলাফল ভুল হবে।
এক্সেল ও SPSS ব্যবহার করে বিশ্লেষণ: সংখ্যার জাদুকরদের সহায়ক
এতক্ষণ আমরা যে হিসাব বা টেস্টগুলোর কথা বললাম, সেগুলো হাতে কলমে করা অনেক সময়সাপেক্ষ এবং কঠিন হতে পারে। এজন্য আমরা কম্পিউটার প্রোগ্রাম বা সফটওয়্যার ব্যবহার করি। এই প্রোগ্রামগুলো আমাদের হয়ে দ্রুত এবং নির্ভুলভাবে গণনা করে দেয়।
এক্সেলে বেসিক বিশ্লেষণ: Microsoft Excel একটি খুব সহজ এবং পরিচিত প্রোগ্রাম যা দিয়ে ছোটখাটো ডেটাসেটের জন্য প্রাথমিক পরিসংখ্যানিক বিশ্লেষণ করা যায়।
১. গড়, মধ্যমা, মানক বিচ্যুতি বের করা: আপনার ডেটা যদি A1 থেকে A10 সেলে থাকে, তাহলে আপনি খালি সেলে সহজ সূত্র লিখে বের করতে পারেন: গড়: =AVERAGE(A1:A10) মধ্যমা: =MEDIAN(A1:A10) মানক বিচ্যুতি: =STDEV.S(A1:A10) (এটা নমুনার মানক বিচ্যুতি বের করে)
২. হিস্টোগ্রাম তৈরি: এক্সেলের 'Insert' ট্যাবে চার্ট অপশনের মধ্যে হিস্টোগ্রাম বানানোর অপশন থাকে। আপনার ডেটা রেঞ্জ সিলেক্ট করে দিলেই এটা ডেটার ফ্রিকোয়েন্সি বা বন্টন দেখাবে।
৩. t-Test করা: এক্সেলের 'Data Analysis ToolPak' নামে একটা অপশন আছে যেটা আগে Enable করে নিতে হয় (File → Options → Add-ins)। এটা Enable করলে 'Data' ট্যাবে 'Data Analysis' অপশন পাবেন। সেখান থেকে আপনি t-Test সহ আরও কিছু টেস্ট করতে পারবেন। যেমন, দুটো কলামে দুটো গ্রুপের ডেটা রেখে 't-Test: Two-Sample Assuming Equal Variances' সিলেক্ট করে দিলেই ফলাফল পেয়ে যাবেন।
আমাদের বাংলাদেশের উদাহরণ: ধরুন, একজন কৃষি গবেষক ৫০ জন কৃষকের কাছ থেকে তাদের ব্যবহৃত সারের পরিমাণ (কেজি/একর) এবং ধানের ফলন (কেজি/একর) ডেটা সংগ্রহ করলেন। তিনি এক্সেলে এই ডেটা ইনপুট করে AVERAGE সূত্র দিয়ে সারের গড় ব্যবহার বা ধানের গড় উৎপাদন বের করতে পারেন। STDEV.S দিয়ে ডেটা কতটা ছড়ানো ছিটানো আছে তা দেখতে পারেন। হিস্টোগ্রাম বানিয়ে দেখতে পারেন বেশিরভাগ কৃষক কতটুকু সার ব্যবহার করেন।
SPSS এ উন্নত বিশ্লেষণ: SPSS (Statistical Package for the Social Sciences) হলো পরিসংখ্যানিক বিশ্লেষণের জন্য একটি শক্তিশালী প্রোগ্রাম, যা গবেষণার কাজে ব্যাপকভাবে ব্যবহৃত হয়। এটা এক্সেলের চেয়ে অনেক বেশি জটিল এবং উন্নত পরিসংখ্যানিক টেস্ট করতে পারে।
১. ডেটা ইনপুট: SPSS-এ ডেটা ঢোকানোর জন্য Variable View এবং Data View নামে দুটো অংশ থাকে। Variable View-তে আপনি আপনার ডেটা কলামগুলোর নাম (যেমন Age, Income, Exam Score) এবং ধরন (সংখ্যা, লেখা) ঠিক করে দেন। তারপর Data View-তে আসল ডেটা ইনপুট করেন।
২. বর্ণনামূলক পরিসংখ্যান: Analyze মেনুতে গিয়ে Descriptive Statistics অপশনে Frequencies বা Descriptives সিলেক্ট করে আপনি গড়, মধ্যমা, মোড, মানক বিচ্যুতি, পরিসর ইত্যাদি খুব সহজে বের করতে পারেন এবং সেগুলোর রিপোর্ট তৈরি করতে পারেন।
৩. t-Test করা: Analyze মেনুতে গিয়ে Compare Means অপশনে Independent-Samples T-Test সিলেক্ট করে আপনার গ্রুপ ভেরিয়েবল (যেমন লিঙ্গ) এবং টেস্ট ভেরিয়েবল (যেমন পরীক্ষার নম্বর) সিলেক্ট করে দিলেই ফলাফল এবং p-value পেয়ে যাবেন।
৪. রিগ্রেশন অ্যানালাইসিস: Analyze মেনুতে গিয়ে Regression অপশনে Linear সিলেক্ট করে আপনার ডিপেন্ডেন্ট ভেরিয়েবল (যেটার উপর প্রভাব দেখছেন, যেমন পরীক্ষার নম্বর) এবং ইন্ডিপেন্ডেন্ট ভেরিয়েবল (যেটা প্রভাব ফেলছে, যেমন পড়াশোনার সময়) সিলেক্ট করে দিলেই তাদের মধ্যে সম্পর্ক কতটা শক্তিশালী এবং পরিসংখ্যানিকগতভাবে তাৎপর্যপূর্ণ কিনা, তা জানতে পারবেন।
আমাদের বাংলাদেশের উদাহরণ: ধরুন, একজন শিক্ষা গবেষক ২০০ জন শিক্ষার্থীর কাছ থেকে তাদের প্রতিদিন পড়াশোনার গড় সময় এবং বার্ষিক পরীক্ষার গড় নম্বর ডেটা সংগ্রহ করলেন। তিনি SPSS এ ডেটা ইনপুট করে রিগ্রেশন অ্যানালাইসিস ব্যবহার করে দেখতে পারেন যে পড়াশোনার সময় কি আসলেই পরীক্ষার নম্বরের উপর প্রভাব ফেলে এবং কতটা প্রভাব ফেলে। অথবা তিনি শিক্ষার্থীদের লিঙ্গ অনুযায়ী ভাগ করে t-Test ব্যবহার করে দেখতে পারেন যে ছাত্র ও ছাত্রীদের গড় নম্বরে কি কোনো পার্থক্য আছে কিনা।
এক্সেল vs SPSS:
সহজভাবে বললে, এক্সেল হলো আপনার বেসিক হিসাবের জন্য একটি চমৎকার ক্যালকুলেটর, যা ছোটখাটো ডেটাসেট গুছানো এবং সহজ বিশ্লেষণ করার জন্য দারুণ। এটা শেখা এবং ব্যবহার করা খুব সহজ।
অন্যদিকে, SPSS হলো পরিসংখ্যানিক গবেষণার জন্য তৈরি একটি শক্তিশালী মেশিন। এটা বড় ডেটাসেট গুছানো, জটিল পরিসংখ্যানিক টেস্ট করা এবং বিস্তারিত রিপোর্ট তৈরি করার জন্য অনেক বেশি উপযোগী। এটা শিখতে একটু বেশি সময় লাগতে পারে, তবে বড় গবেষণার জন্য এটা অপরিহার্য। এক্সেল চার্ট ও গ্রাফ তৈরির জন্য সহজ, আর SPSS জটিল ডেটা বিশ্লেষণ এবং অটোমেটেড রিপোর্ট জেনারেশন ভালো করে।
পরিমাণগত বিশ্লেষণের সাধারণ ভুল ও সমাধান
সংখ্যা নিয়ে কাজ করার সময় কিছু ভুল হতে পারে যা আপনার ফলাফলকে ভুল পথে নিয়ে যেতে পারে। এই ভুলগুলো সম্পর্কে জানা থাকলে সেগুলোকে এড়িয়ে যাওয়া যায়।
১. আউটলিয়ার (Outlier) উপেক্ষা করা: আউটলিয়ার হলো ডেটা সেটে এমন একটি বা দুটি সংখ্যা যা বাকি ডেটাগুলো থেকে অনেক বেশি ভিন্ন। যেমন, ১০০ জন সাধারণ মানুষের আয়ের গড় বের করছেন, কিন্তু ঐ ১০০ জনের মধ্যে একজন হঠাৎ করে কোটিপতি। এই একজন কোটিপতির আয় যোগ করলে গড় আয় অনেক বেশি দেখাবে, যা বাকি ৯৯ জন মানুষের আসল চিত্র দেবে না। কেন এটা ভুল: আউটলিয়ার গড় বা অন্যান্য পরিসংখ্যানকে প্রভাবিত করে ফলাফলকে বিভ্রান্তিকর করে তুলতে পারে। কী করবেন: ডেটা বিশ্লেষণের আগে আউটলিয়ার চিহ্নিত করুন (গ্রাফ বা পরিসংখ্যানিক পদ্ধতিতে)। কেন আউটলিয়ার আছে তা বোঝার চেষ্টা করুন। যদি ভুল এন্ট্রি হয়, তাহলে ঠিক করুন। যদি আসল ডেটাই এমন হয়, তাহলে সেটা বিশ্লেষণ থেকে বাদ দেওয়ার কথা ভাবতে পারেন (কেন বাদ দিচ্ছেন তার যুক্তি সহ) অথবা গড় না ব্যবহার করে মধ্যমা (Median) ব্যবহার করুন, কারণ মধ্যমার উপর আউটলিয়ারের প্রভাব কম পড়ে।
২. ডেটার স্বাভাবিক বন্টন (Normal Distribution) পরীক্ষা না করা: অনেক পরিসংখ্যানিক পরীক্ষা (যেমন t-Test, ANOVA) ডেটার স্বাভাবিক বন্টনের উপর নির্ভর করে। মানে, ডেটাগুলো যদি বেল কার্ভের মতো ছড়ানো থাকে, তাহলেই এই টেস্টগুলো সঠিক ফলাফল দেয়। কেন এটা ভুল: ডেটা যদি স্বাভাবিকভাবে বণ্টিত না হয়, তাহলে t-Test বা ANOVA এর মতো প্যারামেট্রিক টেস্টগুলো ব্যবহার করলে আপনার p-value ভুল হতে পারে এবং আপনি ভুল সিদ্ধান্তে উপনীত হতে পারেন। কী করবেন: ডেটা বিশ্লেষণ শুরু করার আগে ডেটার স্বাভাবিক বন্টন পরীক্ষা করুন (যেমন হিস্টোগ্রাম দেখে বা Shapiro-Wilk টেস্ট করে)। যদি ডেটা স্বাভাবিকভাবে বণ্টিত না হয়, তাহলে ডেটাকে ট্রান্সফর্ম করার চেষ্টা করুন (যেমন লগ নিয়ে) অথবা নন-প্যারামেট্রিক টেস্ট ব্যবহার করুন (যেমন Mann-Whitney U test t-Test এর বিকল্প)।
৩. পরিমাপের একক (Unit) ভুল করা: যদি আপনার সংগৃহীত ডেটা ভিন্ন ভিন্ন পরিমাপের এককে থাকে (যেমন কিছু মানুষের ওজন কেজিতে আর কিছু পাউন্ডে) এবং আপনি সেগুলোকে একসাথে বিশ্লেষণ করেন, তাহলে ফলাফল ভুল হবে। কেন এটা ভুল: ভিন্ন ভিন্ন একক ডেটাগুলোকে অসামঞ্জস্যপূর্ণ করে তোলে। কী করবেন: ডেটা বিশ্লেষণ শুরু করার আগে সমস্ত ডেটাকে একটি নির্দিষ্ট এককে রূপান্তরিত করে নিন (যেমন সব ওজন কেজিতে নিয়ে আসুন)।
৪. কারণ ও সম্পর্ক গুলিয়ে ফেলা: পরিসংখ্যানিক বিশ্লেষণ আপনাকে চলকগুলোর মধ্যে সম্পর্ক দেখাতে পারে (যেমন, সারের পরিমাণ ও ফলনের মধ্যে সম্পর্ক আছে)। কিন্তু এর মানে এই নয় যে একটি চলকই অন্যটির একমাত্র কারণ (কারণ ও প্রভাব)। কেন এটা ভুল: সম্পর্ক দেখা মানেই কারণ ও প্রভাব প্রমাণ হওয়া নয়। অন্য অনেক চলকও ফলাফলকে প্রভাবিত করতে পারে। কী করবেন: পরিসংখ্যানিক সম্পর্ককে কারণ-প্রভাব হিসেবে ব্যাখ্যা করার সময় খুব সতর্ক থাকুন। আপনার গবেষণা নকশা যদি পরীক্ষণমূলক না হয় (যেখানে আপনি চলক নিয়ন্ত্রণ করেছেন), তাহলে শুধু সম্পর্ক হিসেবেই ফলাফলকে তুলে ধরুন। কনফাউন্ডিং ভেরিয়েবলগুলো (অন্যান্য চলক যা ফলাফলকে প্রভাবিত করতে পারে) মাথায় রাখুন এবং সেগুলোর প্রভাব নিয়ন্ত্রণ করার চেষ্টা করুন (যদি সম্ভব হয়)।
৫. শুধু p-value দেখে সিদ্ধান্ত নেওয়া: শুধু p-value দেখে হাইপোথিসিস টেস্টিংয়ের সিদ্ধান্ত নেওয়া উচিত নয়। ফলাফলের ব্যবহারিক তাৎপর্য (Practical Significance) আছে কিনা, সেটাও দেখতে হবে। খুব ছোট p-value মানে হয়তো পরিসংখ্যানিকগতভাবে একটি পার্থক্য আছে, কিন্তু সেই পার্থক্যটা বাস্তবে খুব সামান্য হতে পারে যা কোনো কাজে আসবে না। কেন এটা ভুল: একটি ছোটখাটো পার্থক্যও অনেক বড় নমুনায় পরিসংখ্যানিকগতভাবে তাৎপর্যপূর্ণ হতে পারে, কিন্তু বাস্তব জীবনে সেটার কোনো মূল্য নাও থাকতে পারে। কী করবেন: p-value এর পাশাপাশি ফলাফলের ব্যবহারিক গুরুত্ব বিবেচনা করুন। আত্মবিশ্বাস ব্যবধান (Confidence Interval) দেখুন, যা আপনাকে ফলাফলের পরিসর সম্পর্কে ধারণা দেবে। ফলাফলের বাস্তব দুনিয়ার প্রভাব কী হতে পারে, তা নিয়ে চিন্তা করুন।
পরিমাণগত তথ্য বিশ্লেষণ হলো আপনার সংগৃহীত সংখ্যাগুলো থেকে মানে বের করার প্রক্রিয়া, অনেকটা সংখ্যার জট খুলে আসল তথ্যটা বের করে আনার মতো। এই প্রক্রিয়ার দুটো প্রধান অংশ আছে: বর্ণনামূলক পরিসংখ্যান দিয়ে আমরা ডেটার মূল বৈশিষ্ট্যগুলো (যেমন গড়, ছড়ানো ভাব, বন্টন) সহজভাবে তুলে ধরি এবং ডেটাকে গুছিয়ে নেই। আর অনুমানমূলক পরিসংখ্যান দিয়ে আমরা আমাদের ছোট নমুনার ডেটা ব্যবহার করে পুরো বড় দলটা (সমগ্রক) সম্পর্কে অনুমান বা ভবিষ্যদ্বাণী করি এবং আমাদের গবেষণার অনুমানগুলো পরীক্ষা করি (হাইপোথিসিস টেস্টিং)।
সংখ্যাগুলো দ্রুত আর নির্ভুলভাবে বিশ্লেষণ করার জন্য আমরা কম্পিউটার প্রোগ্রাম ব্যবহার করি। এক্সেল হলো ছোটখাটো ডেটাসেট গুছানো এবং বেসিক হিসাবের জন্য সহজ একটি টুল। আর SPSS এর মতো প্রোগ্রামগুলো বড় ডেটাসেট এবং জটিল পরিসংখ্যানিক টেস্ট করার জন্য শক্তিশালী হাতিয়ার।
বাংলাদেশের প্রেক্ষাপটে কৃষি গবেষণায় ফসলের উৎপাদন হিসাব করা, স্বাস্থ্য গবেষণায় রোগের বিস্তার বা চিকিৎসার প্রভাব দেখা, শিক্ষা গবেষণায় শিক্ষার্থীদের ফলাফল বিশ্লেষণ করা—সবকিছুতেই পরিমাণগত তথ্য বিশ্লেষণের দরকার হয়। এই টুলসগুলো ব্যবহার করে আমরা ডেটা থেকে গুরুত্বপূর্ণ তথ্য বের করে আনি।
মনে রাখবেন, ডেটা বিশ্লেষণ করার সময় কিছু জিনিস সতর্কভাবে করতে হয়, যেমন আউটলিয়ার সামলানো, ডেটার বন্টন পরীক্ষা করা, সঠিক পরিসংখ্যানিক টেস্ট ব্যবহার করা, এবং ফলাফল ব্যাখ্যা করার সময় কারণ ও সম্পর্ক গুলিয়ে না ফেলা। ভুল পদ্ধতি বা ভুল ব্যাখ্যা আপনার পুরো গবেষণাকে ধ্বংস করে দিতে পারে।
তবে ভয় পাবেন না! একটু মনোযোগ দিয়ে শিখলেই আপনিও সংখ্যার জাদুকর হয়ে উঠতে পারবেন, আপনার সংগৃহীত ডেটা থেকে দারুণ সব তথ্য বের করে আনতে পারবেন এবং আপনার গবেষণার গল্পটা সবার সামনে সুন্দরভাবে তুলে ধরতে পারবেন। ডেটা বিশ্লেষণ হলো সেই গল্প বলার প্রস্তুতি!