হায়ারার্কিক্যাল বনাম পার্টিশনাল ক্লাস্টারিং
ক্লাস্টারিং হল ডেটা বিশ্লেষণ এবং অনুরূপ ডেটার গ্রুপে ভাগ করার জন্য একটি মেশিন লার্নিং কৌশল। এই গোষ্ঠী বা অনুরূপ ডেটার সেটগুলি ক্লাস্টার হিসাবে পরিচিত। ক্লাস্টার বিশ্লেষণ ক্লাস্টারিং অ্যালগরিদমগুলিকে দেখে যা স্বয়ংক্রিয়ভাবে ক্লাস্টারগুলি সনাক্ত করতে পারে। ক্লাস্টারিং অ্যালগরিদমের অনুরূপ দুটি শ্রেণি হল হায়ারার্কিক্যাল এবং পার্টিশনাল। শ্রেণিবদ্ধ ক্লাস্টারিং অ্যালগরিদমগুলি ডেটাকে ক্লাস্টারগুলির একটি শ্রেণিবিন্যাসে বিভক্ত করে। প্যারিশনাল অ্যালগরিদম ডেটা সেটকে পারস্পরিকভাবে বিচ্ছিন্ন পার্টিশনে ভাগ করে।
হায়ারার্কিক্যাল ক্লাস্টারিং কি?
হায়ারার্কিক্যাল ক্লাস্টারিং অ্যালগরিদমগুলি হয় ছোট ক্লাস্টারগুলিকে বৃহত্তরগুলিতে মার্জ করার বা বড় ক্লাস্টারগুলিকে ছোটগুলিতে ভাগ করার চক্রের পুনরাবৃত্তি করে৷যেভাবেই হোক, এটি ডেন্ডোগ্রাম নামক ক্লাস্টারগুলির একটি শ্রেণিবিন্যাস তৈরি করে। সমষ্টিগত ক্লাস্টারিং কৌশলটি ক্লাস্টারগুলিকে বৃহত্তরগুলিতে একীভূত করার নীচে-উপরের পদ্ধতি ব্যবহার করে, যখন বিভাজনকারী ক্লাস্টারিং কৌশলটি ছোটগুলিতে বিভক্ত করার উপরে-নিচের পদ্ধতি ব্যবহার করে। সাধারণত, লোভী পন্থা ব্যবহার করা হয় কোন বড়/ছোট ক্লাস্টারগুলিকে একত্রিত/বিভাজনের জন্য ব্যবহার করা হবে তা নির্ধারণ করতে। ইউক্লিডীয় দূরত্ব, ম্যানহাটনের দূরত্ব এবং কোসাইন সাদৃশ্য হল সাংখ্যিক ডেটার জন্য সাদৃশ্যের সর্বাধিক ব্যবহৃত কিছু মেট্রিক। অ-সংখ্যাসূচক ডেটার জন্য, হ্যামিং দূরত্বের মতো মেট্রিক্স ব্যবহার করা হয়। এটি লক্ষ্য করা গুরুত্বপূর্ণ যে প্রকৃত পর্যবেক্ষণ (উদাহরণ) শ্রেণিবদ্ধ ক্লাস্টারিংয়ের জন্য প্রয়োজন হয় না, কারণ কেবলমাত্র দূরত্বের ম্যাট্রিক্সই যথেষ্ট। ডেন্ডোগ্রাম হল ক্লাস্টারগুলির একটি চাক্ষুষ উপস্থাপনা, যা অত্যন্ত স্পষ্টভাবে শ্রেণিবিন্যাস প্রদর্শন করে। যে স্তরে ডেন্ডোগ্রাম কাটা হয়েছে তার উপর নির্ভর করে ব্যবহারকারী বিভিন্ন ক্লাস্টারিং পেতে পারেন।
পার্টিশনাল ক্লাস্টারিং কি?
পার্টিশনাল ক্লাস্টারিং অ্যালগরিদমগুলি বিভিন্ন পার্টিশন তৈরি করে এবং তারপর কিছু মানদণ্ড দ্বারা তাদের মূল্যায়ন করে।প্রতিটি উদাহরণ কে পারস্পরিকভাবে একচেটিয়া ক্লাস্টারগুলির মধ্যে ঠিক একটিতে স্থাপন করা হয় বলে এগুলিকে ননহাইরার্কিক্যাল হিসাবেও উল্লেখ করা হয়। যেহেতু ক্লাস্টারের একটি মাত্র সেট একটি সাধারণ পার্টিশনাল ক্লাস্টারিং অ্যালগরিদমের আউটপুট, ব্যবহারকারীকে কাঙ্খিত সংখ্যক ক্লাস্টার (সাধারণত কে বলা হয়) ইনপুট করতে হবে। সর্বাধিক ব্যবহৃত পার্টিশনাল ক্লাস্টারিং অ্যালগরিদমগুলির মধ্যে একটি হল k-মানে ক্লাস্টারিং অ্যালগরিদম। ব্যবহারকারীকে শুরু করার আগে ক্লাস্টারের সংখ্যা (k) প্রদান করতে হবে এবং অ্যালগরিদম প্রথমে k পার্টিশনের কেন্দ্রগুলি (বা সেন্ট্রোয়েড) শুরু করে। সংক্ষেপে, k-মানে ক্লাস্টারিং অ্যালগরিদম তারপরে বর্তমান কেন্দ্রগুলির উপর ভিত্তি করে সদস্যদের বরাদ্দ করে এবং বর্তমান সদস্যদের উপর ভিত্তি করে কেন্দ্রগুলি পুনঃনির্ধারণ করে। একটি নির্দিষ্ট ইন্ট্রা-ক্লাস্টার সাদৃশ্য উদ্দেশ্য ফাংশন এবং আন্তঃ-ক্লাস্টার অসমতা উদ্দেশ্য ফাংশন অপ্টিমাইজ করা না হওয়া পর্যন্ত এই দুটি ধাপ পুনরাবৃত্তি করা হয়। অতএব, বিভাজনীয় ক্লাস্টারিং অ্যালগরিদম থেকে মানের ফলাফল পাওয়ার ক্ষেত্রে কেন্দ্রগুলির সংবেদনশীল সূচনা একটি অত্যন্ত গুরুত্বপূর্ণ বিষয়৷
হায়ারার্কিক্যাল এবং পার্টিশনাল ক্লাস্টারিংয়ের মধ্যে পার্থক্য কী?
হায়ারার্কিক্যাল এবং পার্টিশনাল ক্লাস্টারিং-এর চলমান সময়, অনুমান, ইনপুট প্যারামিটার এবং ফলস্বরূপ ক্লাস্টারগুলির মধ্যে মূল পার্থক্য রয়েছে। সাধারণত, বিভাগীয় ক্লাস্টারিং শ্রেণীবদ্ধ ক্লাস্টারিংয়ের চেয়ে দ্রুত। শ্রেণিবদ্ধ ক্লাস্টারিংয়ের জন্য শুধুমাত্র একটি সাদৃশ্য পরিমাপ প্রয়োজন, যখন বিভাজনীয় ক্লাস্টারিংয়ের জন্য ক্লাস্টারের সংখ্যা এবং প্রাথমিক কেন্দ্রগুলির মতো শক্তিশালী অনুমান প্রয়োজন। হায়ারার্কিক্যাল ক্লাস্টারিংয়ের জন্য কোনো ইনপুট প্যারামিটারের প্রয়োজন হয় না, যখন পার্টিশনাল ক্লাস্টারিং অ্যালগরিদমগুলি চালানো শুরু করার জন্য ক্লাস্টারের সংখ্যা প্রয়োজন। হায়ারার্কিক্যাল ক্লাস্টারিং ক্লাস্টারগুলির অনেক বেশি অর্থপূর্ণ এবং বিষয়গত বিভাজন প্রদান করে কিন্তু বিভাজনীয় ক্লাস্টারিংয়ের ফলাফল ঠিক k ক্লাস্টারে পরিণত হয়। অনুক্রমিক ক্লাস্টারিং অ্যালগরিদমগুলি শ্রেণীবদ্ধ ডেটার জন্য আরও উপযুক্ত যতক্ষণ পর্যন্ত একটি মিল পরিমাপ সেই অনুযায়ী সংজ্ঞায়িত করা যেতে পারে৷