Humayun Kabir Viral Video Originality Check: ভোটের মুখে আবারও বাংলা রাজনীতিতে স্টিং অপারেশনের ছায়া। ২০১৬-এর নারদা-র পর এবার ভাইরাল ভরতপুরের বিধায়ক হুমায়ুন কবীরের ‘গোপন’ ভিডিও। সত্যি কি তিনি ওই কথাগুলো বলেছেন, নাকি প্রযুক্তির সাহায্যে তৈরি করা হয়েছে এই ভিডিও? আধুনিক এআই টুল কী বলছে? জানুন নিউজ অফবিট-এর এক্সক্লুসিভ বিশ্লেষণে।
নিউজ অফবিট ডিজিটাল ডেস্ক: বাংলার রাজনীতিতে ভোটের ঠিক আগে ‘স্টিং অপারেশন’ বা গোপন ক্যামেরার ভিডিও ফাঁস হওয়া কোনো নতুন ঘটনা নয়। রাজনৈতিক ফায়দা তোলার জন্য, বিরোধী বা শাসকদলের অস্বস্তি বাড়াতে এই ব্রহ্মাস্ত্রের ব্যবহার আমরা আগেও দেখেছি। মনে পড়ে সেই ২০১৬ সালের কথা? ঠিক বিধানসভা নির্বাচনের আগে বিজেপি সদর দপ্তর থেকে প্রকাশ করা হয়েছিল নারদা স্টিং অপারেশনের ভিডিও। তোলপাড় হয়েছিল রাজ্য রাজনীতি। সেই ঘটনার ঠিক দশ বছর পর, ২০২৬-এর বিধানসভা নির্বাচনের মুখে দাঁড়িয়ে বাংলা ফের সরগরম আরও এক ‘স্টিং অপারেশন’ নিয়ে। এবার বিতর্কের কেন্দ্রে মুর্শিদাবাদের ভরতপুরের তৃণমূল বিধায়ক হুমায়ুন কবীর।
সম্প্রতি সোশ্যাল মিডিয়ায় দাবানলের মতো ছড়িয়ে পড়েছে হুমায়ুন কবীরের একটি ভিডিও। ভিডিওতে দেখা যাচ্ছে, তিনি একটি ঘরে বসে কারোর সাথে অত্যন্ত ঘরোয়া মেজাজে কিছু ‘গোপন’ বিষয় নিয়ে আলোচনা করছেন। কথোপকথনের বিষয়বস্তু এতটাই স্পর্শকাতর যে, তা শাসকদলের জন্য রীতিমতো অস্বস্তির কারণ হয়ে দাঁড়িয়েছে। কিন্তু, বর্তমান যুগ হলো কৃত্রিম বুদ্ধিমত্তা বা আর্টিফিশিয়াল ইন্টেলিজেন্স (AI)-এর যুগ। এখন ‘ডিপফেক’ (Deepfake) প্রযুক্তির সাহায্যে যে কারোর ভিডিও বা অডিও নিঁখুতভাবে জাল করা সম্ভব। তাই সাধারণ মানুষের মনে, এবং স্বাভাবিকভাবেই রাজনৈতিক মহলে, একটা বড় প্রশ্ন উঠেছে—এই ভিডিওটি কি আদৌ আসল, নাকি এআই দিয়ে তৈরি কোনো রাজনৈতিক চক্রান্ত?
এই বিতর্ক ঘিরে সামাজিক মাধ্যমে নানা দাবি সামনে আসতেই, ভিডিওটির প্রাথমিক সত্যতা যাচাই করার চেষ্টা করে নিউজ অফবিট ডিজিটাল ডেস্ক। আমরা বিভিন্ন আধুনিক AI-ভিত্তিক অ্যানালাইসিস টুলের সাহায্যে ভিডিওটির অডিও, ভিজ্যুয়াল প্যাটার্ন এবং সামগ্রিক উপস্থাপনাকে পর্যবেক্ষণ করেছি। এই টুলগুলির পর্যবেক্ষণে কী উঠে এসেছে, সেটাই আমরা তথ্যভিত্তিকভাবে তুলে ধরছি আপনাদের সামনে—
তবে একটি বিষয় স্পষ্ট করে জানিয়ে রাখা জরুরি, এই বিশ্লেষণ সম্পূর্ণরূপে AI টুলের প্রাথমিক পর্যায়ের রেসপন্সের উপর ভিত্তি করে তৈরি। News Offbeat Lab এই ভিডিওটির কোনো স্বতন্ত্র ফরেনসিক পরীক্ষা বা অফিশিয়াল টেকনিক্যাল ভেরিফিকেশন করেনি। তাই ভিডিওটির ১০০% চূড়ান্ত সত্যতা যাচাই করার দাবি আমরা করছি না। আমরা শুধুমাত্র আধুনিক AI টুলের সহায়তায় একটি প্রাথমিক বাস্তবতা যাচাই (preliminary verification) করার চেষ্টা করেছি মাত্র—যার উদ্দেশ্য পাঠকদের সামনে সম্ভাব্য বিশ্লেষণের একটি দৃষ্টিভঙ্গি তুলে ধরা।
Gemini-এর প্রাথমিক বিশ্লেষণে উঠে এসেছে নিচের কয়েকটি গুরুত্বপূর্ণ পর্যবেক্ষণ—
গলার স্বর এবং কথা বলার ধরণ (Voice and Tone): কথোপকথনের টোন একেবারেই স্বাভাবিক এবং সাবলীল। এখানে একটি গোপন বা ঘরোয়া আলোচনার পরিবেশ ফুটে উঠেছে। দুজন মানুষের কথোপকথনের মধ্যে যে স্বাভাবিক বিরতি, ভাঙা ভাঙা হিন্দি ও বাংলার ব্যবহার বা কথার মাঝে অন্যজনের সায় দেওয়া (ওভারল্যাপিং অডিও) থাকে, তা এখানে খুব স্পষ্ট। এআই জেনারেটেড অডিওতে সাধারণত এত নিখুঁত ইমোশন বা গলার স্বরের এমন স্বাভাবিক ওঠানামা থাকে না।
পেছনের দৃশ্য এবং ভিজ্যুয়াল (Background & Visuals): ভিডিওটির কনসেপ্ট হলো একটি ‘স্টিং অপারেশন’ বা গোপন ক্যামেরায় তোলা ফুটেজ। ফুটেজে দেখা যাচ্ছে হুমায়ুন কবীর একটি ঘরে বসে আছেন, পেছনের দেওয়ালের টেক্সচার, পাশে রাখা জলের বোতল এবং আলোর প্রতিফলন—সবকিছুই অত্যন্ত বাস্তব। ফ্যান ঘোরার কারণে দেওয়ালে আলোর বিক্ষিপ্ত প্রতিফলন এবং তার ঘূর্ণায়মান ছায়া একদম স্পষ্ট।
এআই বা ডিপফেক-এর চিহ্ন (AI/Deepfake Signs): ডিপফেক বা এআই জেনারেটেড ভিডিওর ক্ষেত্রে সাধারণত কিছু ত্রুটি চোখে পড়ে—যেমন চোখের পলক ফেলার অস্বাভাবিকতা, মুখের চারপাশে বা গলার কাছে আলোর অসামঞ্জস্যতা (glitch), অথবা হাত দিয়ে মুখ বা শরীর স্পর্শ করার সময় পিক্সেল নষ্ট হয়ে যাওয়া। কিন্তু এখানে হুমায়ুন কবীরের হাতের নড়াচড়া, জল খাওয়ার ভঙ্গি, মুখের অভিব্যক্তি এবং ঠোঁটের সিঙ্ক (Lip-sync) একদম নিখুঁত।
Claude-এর পর্যবেক্ষণ অনুযায়ী, ভিডিওটি নিয়ে কয়েকটি গুরুত্বপূর্ণ দিক সামনে এসেছে—
🖥️ প্রযুক্তিগত তথ্য (Technical Metadata)
| বিষয় | তথ্য |
|---|---|
| ভিডিও কোডেক | H.264 / AVC |
| রেজোলিউশন | ১২৮০ × ৭২০ (720p) |
| ফ্রেম রেট | ২৫ fps (স্থির) |
| বিট রেট | ২৪৬,০৫২ bps (Video) |
| মোট বিটরেট | ৩৮০,৩৩৯ bps |
| অডিও | AAC, ৪৪১০০ Hz, Stereo |
| এনকোডার ট্যাগ | Lavf62.12.100 (FFmpeg) |
| নির্মাতা ট্যাগ | ISO Media file produced by Google Inc. |
| ভিডিও দৈর্ঘ্য | ৪ মিনিট ১০ সেকেন্ড |
| ফাইল সাইজ | প্রায় ১২ MB |
🧪 ভিজ্যুয়াল বিশ্লেষণ
১. ভিডিও-ইন-ভিডিও (Screen Recording) কাঠামো: মূল ভিডিওটি আসলে একটি টেলিভিশন স্ক্রিনের রেকর্ডিং — ভেতরের ভিডিওটি একটি আলাদা ক্লিপ যেখানে “হুমায়ুন” কথা বলছেন।
২. ভেতরের ভিডিওর চরিত্র:
- ভিডিওতে CCTV বা হিডেন ক্যামেরা ফুটেজের মতো টাইমস্ট্যাম্প দেখা যাচ্ছে (যেমন: 2025/12/19 20:23:14)
- ব্যক্তির মুখের অভিব্যক্তি, হাতের নড়াচড়া এবং শরীরের ভাষা স্বাভাবিক মানবিক গতিবিধির সাথে সামঞ্জস্যপূর্ণ
- মুখ-ঠোঁটের নড়াচড়া এবং কথার মধ্যে কোনো অস্বাভাবিক বিচ্যুতি ধরা পড়েনি
- পটভূমির বস্তু (বোতলের ঢাকনা, দেয়ালের টাইলস) স্থির এবং সুনির্দিষ্ট — AI ভিডিওতে এগুলো সাধারণত বিকৃত হয়
৩. AI-জেনারেটেড ভিডিওর সাধারণ লক্ষণ পরীক্ষা:
| পরীক্ষার বিষয় | ফলাফল |
|---|---|
| আঙুলের গড়ন অস্বাভাবিক? | ❌ পাওয়া যায়নি |
| চুল/কাপড়ের কিনারা ঘোলা? | ❌ পাওয়া যায়নি |
| চোখের পলক অপ্রাকৃতিক? | ❌ পাওয়া যায়নি |
| পটভূমির বিকৃতি? | ❌ পাওয়া যায়নি |
| টেক্সট বা সংখ্যা বিকৃত? | ❌ টাইমস্ট্যাম্প স্পষ্ট ও সুসংগত |
| আলো-ছায়ার অসামঞ্জস্য? | ❌ পাওয়া যায়নি |
🔬 ফ্রেম এনকোডিং বিশ্লেষণ
ভিডিওর প্রথম ৩০টি ফ্রেমের বিশ্লেষণে দেখা গেছে:
- I-frame: ১টি, P-frame: ১০টি, B-frame: ১৯টি — এটি সাধারণ ক্যামেরায় ধারণ করা ভিডিওর স্বাভাবিক প্যাটার্ন
- AI-জেনারেটেড ভিডিও প্রায়ই অস্বাভাবিকভাবে বেশি I-frame তৈরি করে বা অনিয়মিত কী-ফ্রেম ব্যবধান দেখায় — এখানে তা নেই
- Film Grain মান: 0 — এটি ডিজিটাল ক্যামেরার রেকর্ডিংয়ের ক্ষেত্রে সাধারণ
⚠️ গুরুত্বপূর্ণ পর্যবেক্ষণ
ভিডিওটি বিশ্লেষণে যা স্পষ্ট হয়েছে:
১. মূল ক্লিপটি সম্ভবত একটি স্টিং অপারেশন বা লুকানো ক্যামেরায় ধারণ করা ফুটেজ, যা পরে তৃণমূল কংগ্রেস একটি প্রেস কনফারেন্সে মনিটরে উপস্থাপন করেছে।
২. কথোপকথনের বিষয়বস্তু (১,০০০ কোটি টাকার উল্লেখ, মসজিদ নিয়ে কথা, মোহন যাদব প্রসঙ্গ) রাজনৈতিক দিক থেকে গুরুত্বপূর্ণ ।
✅ সিদ্ধান্ত
প্রযুক্তিগত বিশ্লেষণের ভিত্তিতে বলা যায়: ভিডিওটি AI-নির্মিত নয়। ভিডিওটি একটি বাস্তব রেকর্ডিংয়ের ফুটেজ বলে প্রতীয়মান হয়। তবে ভিডিওর বিষয়বস্তুর সত্যতা — অর্থাৎ কথোপকথনটি সত্যিকারের কিনা, সম্পাদনা করা হয়েছে কিনা বা প্রসঙ্গ থেকে বিচ্ছিন্ন করা হয়েছে কিনা — তা নিশ্চিত করতে স্বাধীন ফরেনসিক অডিও-ভিডিও বিশেষজ্ঞের পর্যালোচনা প্রয়োজন।
বিশ্লেষণ পদ্ধতি: FFprobe metadata extraction, frame-level encoding analysis, visual frame inspection বিশ্লেষণকারী টুল: FFmpeg/FFprobe, Python frame analysis
ChatGPT-এর বিশ্লেষণ থেকে ভিডিওটি সম্পর্কে কিছু উল্লেখযোগ্য বিষয় উঠে এসেছে—
১. Frame continuity ও motion
ভিডিওতে subject-এর head movement, চোখের নড়াচড়া, body gesture—এগুলো continuous এবং physically consistent।
👉 Deepfake ভিডিওতে সাধারণত micro-jitter বা frame inconsistency দেখা যায় (বিশেষ করে মাথা ঘোরানোর সময়), এখানে সেটা স্পষ্টভাবে চোখে পড়ছে না।
🔍 ২. Facial অঞ্চলের artifact
মুখের চারপাশে (চোয়াল, গাল, নাকের পাশে) লক্ষ্য করলে:
- কোনো visible blending edge নেই
- skin tone abrupt change করছে না
- light reflection stable
👉 AI face swap হলে সাধারণত এই জায়গাগুলোতে distortion থাকে। এখানে সেটা minimal বা নেই।
🔍 ৩. Lip-sync analysis
লিপ মুভমেন্ট ও অডিও roughly match করছে।
তবে:
- audio একটু compressed
- articulation পুরো crystal clear না
👉 এটা hidden camera বা low-quality recording-এর কারণে হতে পারে,
👉 কিন্তু AI voice dubbing-এর strong mismatch এখানে নেই।
🔍 ৪. Lighting consistency
মুখ, background, shadow—সব জায়গায় lighting direction consistent।
👉 Deepfake হলে lighting mismatch (face vs background) অনেক সময় ধরা পড়ে।
এখানে lighting natural behaviour follow করছে।
🔍 ৫. Compression pattern
ভিডিওতে compression noise (blockiness, grain) uniformly distributed।
👉 AI-generated clip হলে অনেক সময় subject region ও background-এর compression আলাদা হয়।
এখানে সেই ধরনের separation নেই।
🔍 ৬. Editing pattern
ভিডিওটা cut-based (short clipped segments)—continuous raw না।
👉 এটা দুই ক্ষেত্রে হয়:
- genuine sting edit
- অথবা সন্দেহজনক clip masking
👉 এই পয়েন্টটা neutral, কিন্তু authenticity প্রমাণ করে না।

