Hypothesis Testing!

Hypothesis Testing!

আপনি একজন শিক্ষক। আপনি পরীক্ষার হলে গার্ড দিচ্ছেন।

এক্ষেত্রে আপনি ২ ধরনের ভুল করতে পারেন:

Type I Error: ছাত্র নকল করেনি, কিন্তু ভুলে শাস্তি দিয়ে দেন। (বড় ভুল — alpha)

Type II Error: ছাত্র নকল করেছে, কিন্তু ভুলে শাস্তি দেন না। (তুলনামূলক ছোট ভুল — beta)

দুটোই ভুল, কিন্তু নির্দোষকে শাস্তি দেওয়া আমাদের সবচেয়ে বড় ভুল। এই ভুল পুরোপুরি শূন্যে নামানো সম্ভব না — তাই আমরা একটা ‘সহনীয় সীমা’ ঠিক করি (সাধারণত ৫%)। আমরা ধরে নিই, ১০০ জন নির্দোষের মধ্যে সর্বোচ্চ ৫ জনকে ভুলে সন্দেহজনক হিসেবে চিহ্নিত করার ঝুঁকি আমরা নেব, এর বেশি না। অর্থাৎ, আপনি নিজেকে ৫% ভুল করার অনুমতি দিচ্ছেন।

এটাকেই পরিসংখ্যানের ভাষায় বলে Alpha (α = 0.05) বা Level of Significance.

এখন আপনি দেখলেন একজন ছাত্র বারবার পাশের জনের দিকে তাকাচ্ছে। আপনাকে সিদ্ধান্ত নিতে হবে — নকল করছে কিনা। (আপনি এখন বিচারকের আসনে।) আপনি সিদ্ধান্ত নিবেন এই Hypothesis Test করে।

আদালতে যেমন বিচারক শুরুতেই আসামিকে নির্দোষ ধরে নেন, আপনিও তাই করলেন। ২টা অনুমান (Hypothesis) করলেন:

H₀ (Null) = ছাত্র নকল করছে না। (আসামি নির্দোষ।)

H₁ (Alternative) = ছাত্র আসলেই নকল করছে। (আসামি দোষী।)

এখন উকিলের কাজ — প্রমাণ হাজির করা। পরিসংখ্যানে সেই প্রমাণটা হলো p-value। আমরা এখানে একটাই প্রশ্ন করি — "পরীক্ষার হলে নকল না করলেও, একজন নির্দোষ ছাত্রের পক্ষে ঠিক এরকম সন্দেহজনক আচরণ করার সম্ভাবনা কতটুকু?" এই সম্ভাবনাকেই বলে p-value।

ক্যালকুলেশন করে p-value পেলাম ০.০৩। উকিল বিচারকের সামনে প্রমাণ রাখলেন — নির্দোষ ছাত্ররাও পরীক্ষার হলে এরকম সন্দেহজনক আচরণ করে, তবে মাত্র ৩% ক্ষেত্রে। (অর্থাৎ ১০০ জন নির্দোষ ছাত্রকে যদি একই পরিস্থিতিতে রাখা হতো, তাদের মধ্যে মাত্র ৩ জন এরকম সন্দেহজনক আচরণ করত। বাকি ৯৭ জন একদম সাধারণভাবে পরীক্ষা দিত।)

এখন আপনি আপনার আগে থেকে ঠিক করা সীমার (৫%) সাথে এই প্রমাণের (৩%) তুলনা করবেন।

যেহেতু ৩%, আপনার ঠিক করা ৫% সীমার চেয়েও কম (৩ ≤ ৫), তার মানে হলো— একজন নির্দোষ ছাত্রের পক্ষে এমন আচরণ করা খুবই বিরল। ঘটনাটি এতই বিরল যে একে আর 'কাকতালীয়' বা 'স্বাভাবিক' বলে উড়িয়ে দেওয়া যাচ্ছে না। অর্থাৎ এটা কোন স্বাভাবিক ঘটনা না, সে কিছু একটা করছে। মানে, ছাত্রটি সম্ভবত নকল করছে।

যেহেতু নির্দোষ অবস্থায় এমন আচরণ করার সম্ভাবনা আপনার সহনীয় সীমার চেয়েও নিচে নেমে গেছে, তাই এই প্রমাণের ভিত্তিতে শাস্তি দেওয়ার সিদ্ধান্ত নেওয়া যায়। অর্থাৎ, আমরা যে শুরুতে ধরে নিয়েছিলাম- “ছাত্র নকল করছে না”, সেই Null Hypothesis আর টিকিয়ে রাখা যাচ্ছে না।  

চূড়ান্ত রায়: Null Hypothesis Rejected

এটাই Hypothesis Testing-এর সারকথা। আমরা কখনো ১০০% নিশ্চিত হই না। আমরা শুধু বলি — প্রমাণ এতটাই শক্তিশালী যে নির্দোষের অনুমান আর টিকিয়ে রাখা যাচ্ছে না।  তাই আমরা বলি না যে "নকল করেছে — প্রমাণিত।" এটাকে ঘুরিয়ে বলি — ‘নকল করছে না’ এই অনুমান আর টিকিয়ে রাখা যাচ্ছে না।

এই কারণেই আমরা বলি "Null Hypothesis Rejected", কখনো বলি না "Alternative Hypothesis Accepted"। অর্থাৎ পুরো বিষয়টাই প্রমাণের সাথে সম্পৃক্ত, Accept বা Reject এর সাথে না। (এটা সম্পর্কে আরও বিস্তারিত পোস্ট পূর্বে করা হয়েছিলো, চেক করতে পারেন।)

এবার চলুন উল্টো দিকটা দেখি

p-value বেশি হলে কী হতো?

ধরুন, সবকিছু আগের মতোই আছে। আপনার ভুলের সহনীয় সীমা বা Alpha (α) = ৫%।

H₀ = ছাত্র নির্দোষ।

H₁ = ছাত্র দোষী।

কিন্তু এবার উকিল যে প্রমাণ (p-value) নিয়ে আসলেন, তার হিসাব অন্যরকম।

ধরুন, এবার হিসাব করে p-value পাওয়া গেল ০.২৫ (বা ২৫%)।

এর মানে কী?

এর মানে হলো— পরীক্ষার হলে ১০০ জন নির্দোষ ছাত্রকে একই পরিস্থিতিতে রাখলে, তাদের মধ্যে ২৫ জনই ঠিক এরকম এদিক-ওদিক তাকানোর আচরণ করত। (হতে পারে ওই ঘরে ফ্যান নষ্ট বা বাইরে কোনো শব্দ হচ্ছে, তাই অনেকেই স্বাভাবিকভাবেই এদিক-ওদিক তাকাচ্ছে)।

এখন আপনি বিচারক হিসেবে তুলনা করুন:

আপনার আগে থেকে ঠিক করা ভুলের সীমা হলো ৫%।

আর প্রমাণ বলছে, নির্দোষ অবস্থায় এই আচরণ করার সম্ভাবনা ২৫%।

যেহেতু ২৫%, আপনার ঠিক করা ৫% সীমার চেয়ে অনেক বেশি (২৫ > ৫), তার মানে ঘটনাটি মোটেও বিরল নয়। একজন নির্দোষ ছাত্রের পক্ষে এমন আচরণ করা খুবই স্বাভাবিক ও সাধারণ একটি ব্যাপার।

আপনি যদি এখন এই প্রমাণের ভিত্তিতে ছাত্রটিকে শাস্তি দিয়ে দেন, তবে ভুলে একজন নির্দোষকে শাস্তি দেওয়ার (Type I Error) ঝুঁকি আপনার ঠিক করা সীমার (৫%) চেয়ে অনেক বেড়ে যাবে। আপনি আপনার নিজের তৈরি করা সীমার বাইরে গিয়ে ঝুঁকি নিতে পারেন না।

তাই, এই দুর্বল প্রমাণের ভিত্তিতে আপনি তাকে শাস্তি দিতে পারবেন না।

শুরুতে আপনি যে ধরে নিয়েছিলেন— “ছাত্রটি নকল করছে না” (Null Hypothesis), সেই অনুমানটি আপনাকে বাধ্য হয়ে বহাল রাখতে হবে। আপনি ছাত্রটিকে 'বেনিফিট অফ ডাউট' (Benefit of doubt) দিয়ে ছেড়ে দেবেন। 

চূড়ান্ত রায়: Null Hypothesis বাতিল করা গেল না (Failed to reject Null Hypothesis)।

গবেষণা ডাটা এনালাইসিসের ক্ষেত্রে পরিসংখ্যান নিয়ে অনেকেই ভয় পান কারণ তাদের বেসিক ক্লিয়ার থাকেনা এবং এগুলো খুব দুর্বোধ্য মনে হয়। বিগিনারদের এই ভয়টা দূর করে সহজে পরিসংখ্যানের কোর কনসেপ্টগুলো শিখানোর চেষ্টা করছি। ভুল ত্রুটি মার্জনীয়। 

إرسال تعليق

أحدث أقدم