ডেটা মাইনিং পদ্ধতি। ক্লাস্টার বিশ্লেষণ হল অনুরূপ বৈশিষ্ট্য অনুযায়ী গ্রুপে বিভক্ত ডেটা অধ্যয়নের জন্য একটি অ্যালগরিদম।

তথ্য বিশ্লেষণ এবং স্বীকৃতির আধুনিক ব্যবহারিক পদ্ধতির ব্যবহার প্রযুক্তিগত এবং মানবিক ক্ষেত্রে, বিজ্ঞান এবং উত্পাদন, ব্যবসা এবং অর্থায়নে চাহিদা রয়েছে। এই বিবরণটি প্রধান অ্যালগরিদমিক সারমর্ম উপস্থাপন করে, যার বোধগম্যতা তথ্য বিশ্লেষণে স্বীকৃতি এবং শ্রেণিবিন্যাস পদ্ধতির আরও দক্ষ ব্যবহারের জন্য দরকারী।

1. স্বীকৃতির কাজ (একজন শিক্ষকের সাথে শ্রেণীবিভাগ) এবং এর সমাধানের জন্য ব্যবহারিক পদ্ধতির ক্ষেত্রে শিল্পের অবস্থা। তত্ত্বের বিকাশের প্রধান পর্যায় এবং স্বীকৃতির অনুশীলন: হিউরিস্টিক অ্যালগরিদম, স্বীকৃতি মডেল এবং মডেল অপ্টিমাইজেশান, মডেল সংশোধনের জন্য একটি বীজগণিত পদ্ধতি। প্রধান পন্থাগুলি বিচ্ছিন্ন পৃষ্ঠতল নির্মাণ, সম্ভাব্য ফাংশন, পরিসংখ্যানগত এবং নিউরাল নেটওয়ার্ক মডেল যা গাছের সমাধান করে এবং অন্যান্যগুলির উপর ভিত্তি করে।

রাশিয়ান একাডেমি অফ সায়েন্সেসের কম্পিউটিং সেন্টারে বিকশিত সমন্বিত-যৌক্তিক স্বীকৃতি পদ্ধতির প্রধান পদ্ধতি এবং অ্যালগরিদমগুলি (আংশিক অগ্রাধিকারের নীতির উপর ভিত্তি করে অনুমান বা অ্যালগরিদম গণনার মডেল)। A.A. ডরোডনিটসিন। এই মডেলগুলি মূল ডেটার বৈশিষ্ট্য বিবরণে গুরুত্বপূর্ণ আংশিক নজিরগুলি অনুসন্ধান করার ধারণার উপর ভিত্তি করে (বৈশিষ্ট্যের মানগুলির তথ্যমূলক টুকরো, বা প্রতিনিধি সেট)। বাস্তব বৈশিষ্ট্যের জন্য, তথ্যপূর্ণ অংশগুলির সর্বোত্তম আশেপাশের স্থানগুলি পাওয়া যায়। অন্য পরিভাষায়, এই আংশিক কেসগুলিকে বলা হয় জ্ঞান বা লজিক্যাল প্যাটার্ন যা মূল বৈশিষ্ট্যের মানগুলিকে একটি স্বীকৃত বা অনুমানযোগ্য মানের সাথে সম্পর্কিত করে। প্রাপ্ত জ্ঞান বস্তুর অধ্যয়ন করা ক্লাস (ছবি) সম্পর্কে গুরুত্বপূর্ণ তথ্য। এগুলি সরাসরি স্বীকৃতি বা পূর্বাভাসের সমস্যা সমাধানে ব্যবহৃত হয়, তারা এই ডেটাগুলিতে বিদ্যমান আন্তঃনির্ভরতার একটি চাক্ষুষ উপস্থাপনা দেয়, যা গবেষকদের কাছে স্বাধীন মূল্যের এবং বস্তু, পরিস্থিতির সঠিক মডেল তৈরির জন্য ভিত্তি হিসাবে কাজ করতে পারে। , অধ্যয়ন অধীন ঘটনা বা প্রক্রিয়া. প্রাপ্ত জ্ঞানের মূল অংশের উপর ভিত্তি করে, বৈশিষ্ট্য এবং বস্তুর গুরুত্বের মাত্রা (তথ্যপূর্ণতা), বৈশিষ্ট্যগুলির যৌক্তিক পারস্পরিক সম্পর্ক এবং বস্তুর শ্রেণিগুলির যৌক্তিক বিবরণের মতো দরকারী পরিমাণের মানগুলিও গণনা করা হয় এবং বৈশিষ্ট্য স্থানের সমস্যা। ন্যূনতমকরণ সমাধান করা হয়।

2. ক্লাস্টার বিশ্লেষণের প্রধান সমস্যা সমাধানের পদ্ধতি (একজন শিক্ষক ছাড়াই শ্রেণীবিভাগ) - বহুমাত্রিক ডেটার একটি প্রদত্ত নমুনায় বস্তুর (গুচ্ছ) গ্রুপিং খুঁজে বের করা। ক্লাস্টার বিশ্লেষণের সমস্যা সমাধানের প্রধান পদ্ধতির একটি সংক্ষিপ্ত পর্যালোচনা এবং যৌথ সমাধান সংশ্লেষণের জন্য কমিটির পদ্ধতির বর্ণনা দেওয়া হয়েছে।

3. ডেটা মাইনিং, স্বীকৃতি এবং পূর্বাভাস স্বীকৃতির জন্য সফ্টওয়্যার সিস্টেম। সিস্টেমের প্রয়োজনীয়তা সর্বজনীনতা এবং বুদ্ধিমত্তার ধারণার উপর ভিত্তি করে। সিস্টেমের সার্বজনীনতা কাজগুলির বিস্তৃত সম্ভাব্য পরিসরে এর প্রয়োগের সম্ভাবনা হিসাবে বোঝা যায় (মাত্রা, প্রকার, গুণমান এবং ডেটার গঠন, গণনা করা মানগুলির পরিপ্রেক্ষিতে)। বুদ্ধিমত্তা হল স্ব-টিউনিং উপাদানগুলির উপস্থিতি এবং একজন অদক্ষ ব্যবহারকারীর দ্বারা সফলভাবে স্বয়ংক্রিয়ভাবে সমস্যাগুলি সমাধান করার ক্ষমতা হিসাবে বোঝা যায়। স্বীকৃতি সিস্টেমের কাঠামোর মধ্যে, প্রোগ্রামগুলির একটি লাইব্রেরি তৈরি করা হয়েছে যা রৈখিক, সংমিশ্রণ-লজিক্যাল, পরিসংখ্যানগত, নিউরাল নেটওয়ার্ক, পূর্বাভাসের জন্য হাইব্রিড পদ্ধতি, নজির থেকে জ্ঞান শ্রেণীবিন্যাস এবং আহরণের পাশাপাশি সম্মিলিত পূর্বাভাস এবং শ্রেণিবিন্যাস পদ্ধতি প্রয়োগ করে।


1. অনুমানের গণনার উপর ভিত্তি করে স্বীকৃতি অ্যালগরিদম।স্বীকৃত বস্তুর সাথে রেফারেন্সের সাথে তুলনা করার ভিত্তিতে বিভিন্ন বৈশিষ্ট্যের সেট এবং ভোটিং পদ্ধতির ব্যবহারের ভিত্তিতে স্বীকৃতি দেওয়া হয়। সিদ্ধান্তের নিয়মের সর্বোত্তম পরামিতি এবং ভোট দেওয়ার পদ্ধতিটি স্বীকৃতি মডেলটিকে অপ্টিমাইজ করার সমস্যার সমাধান থেকে পাওয়া যায় - এই ধরনের পরামিতি মানগুলি নির্ধারিত হয় যার জন্য স্বীকৃতির যথার্থতা (প্রশিক্ষণ নমুনায় সঠিক উত্তরের সংখ্যা) সর্বাধিক .

2. ডেড-এন্ড পরীক্ষায় ভোট দেওয়ার জন্য অ্যালগরিদম।রেফারেন্সের সাথে স্বীকৃত বস্তুর তুলনা বৈশিষ্ট্যের বিভিন্ন "তথ্যমূলক" উপসেট অনুযায়ী করা হয়। মূল টেমপ্লেট টেবিলের বিভিন্ন র্যান্ডম সাব-টেবিলের ডেড-এন্ড টেস্ট (বা বাস্তব-মূল্যবান বৈশিষ্ট্যের জন্য ডেড-এন্ড টেস্টের অ্যানালগ) এই ধরনের বৈশিষ্ট্য সাবসিস্টেম হিসেবে ব্যবহার করা হয়।

প্রশিক্ষণের নমুনার উপর ভিত্তি করে, প্রতিটি শ্রেণীর যৌক্তিক নিদর্শনগুলির সেটগুলি গণনা করা হয় - বৈশিষ্ট্যগুলির সেট এবং তাদের মানগুলির ব্যবধান যা প্রতিটি শ্রেণীর বৈশিষ্ট্য। একটি নতুন বস্তু শনাক্ত করার সময়, স্বীকৃত বস্তুতে নির্বাহিত প্রতিটি শ্রেণীর লজিক্যাল প্যাটার্নের সংখ্যা গণনা করা হয়। প্রতিটি পৃথক "মৃত্যুদণ্ড" সংশ্লিষ্ট শ্রেণীর পক্ষে একটি "ভোট" হিসাবে গণনা করা হয়। বস্তুটি ক্লাসের অন্তর্গত, "ভোটের" স্বাভাবিক পরিমাণ যার জন্য সর্বাধিক। এই পদ্ধতিটি আপনাকে বৈশিষ্ট্যের ওজন, বৈশিষ্ট্যগুলির যৌক্তিক সম্পর্ক, ক্লাসের যৌক্তিক বিবরণ তৈরি করতে এবং ন্যূনতম বৈশিষ্ট্যের সাবস্পেসগুলি খুঁজে পেতে দেয়।

4. পরিসংখ্যানগত ওজনযুক্ত ভোটিংয়ের জন্য অ্যালগরিদম।

প্রশিক্ষণের নমুনার তথ্যের উপর ভিত্তি করে, ক্লাসের পরিসংখ্যানগতভাবে যুক্তিযুক্ত নমুনা পাওয়া যায়। নতুন বস্তু শনাক্ত করার সময়, প্রতিটি শ্রেণীর অন্তর্গত বস্তুর সম্ভাব্যতার একটি অনুমান গণনা করা হয়, যা "ভোট" এর ওজনযুক্ত সমষ্টি।

5. লিনিয়ার মেশিন।

বস্তুর প্রতিটি শ্রেণীর জন্য, কিছু লিনিয়ার ফাংশন পাওয়া যায়। স্বীকৃত বস্তুটি সেই শ্রেণীর অন্তর্গত যার ফাংশন প্রদত্ত বস্তুর সর্বোচ্চ মান নেয়। ক্লাসের সর্বোত্তম রৈখিক ফাংশনগুলি রৈখিক অসমতার সিস্টেমের সর্বাধিক যৌথ সাবসিস্টেম খুঁজে পাওয়ার সমস্যা সমাধানের ফলে পাওয়া যায়, যা প্রশিক্ষণের নমুনা থেকে গঠিত হয়। ফলস্বরূপ, একটি বিশেষ টুকরো টুকরো রৈখিক পৃষ্ঠ পাওয়া যায় যা প্রশিক্ষণের নমুনা উপাদানগুলির সর্বাধিক সংখ্যক সঠিকভাবে পৃথক করে।

6. ফিশারের রৈখিক বৈষম্যকারী।

ক্ল্যাসিকাল পরিসংখ্যান পদ্ধতি টুকরো টুকরো রৈখিক পৃষ্ঠতল বিভক্ত শ্রেণী নির্মাণের জন্য। ফিশারের রৈখিক বৈষম্যের প্রযোজ্যতার জন্য অনুকূল শর্তগুলি হল নিম্নলিখিত বিষয়গুলির পূর্ণতা: শ্রেণীগুলির রৈখিক বিভাজ্যতা, দ্বৈততা, শ্রেণীগুলির "সরল কাঠামো", সহভঙ্গি ম্যাট্রিক্সের অ-অবক্ষয়তা, বহিরাগতদের অনুপস্থিতি। ফিশারের রৈখিক বৈষম্যের তৈরি পরিবর্তন এটিকে "প্রতিকূল" ক্ষেত্রে সফলভাবে ব্যবহার করা সম্ভব করে তোলে।

7. k- নিকটতম প্রতিবেশীদের পদ্ধতি।

ক্লাসিক্যাল পরিসংখ্যান পদ্ধতি। একটি স্বীকৃত বস্তু সেই শ্রেণীর অন্তর্গত যা থেকে এটির সর্বাধিক সংখ্যক প্রতিবেশী রয়েছে। প্রশিক্ষণের নমুনা থেকে প্রতিবেশীদের সর্বোত্তম সংখ্যা এবং একটি অগ্রাধিকার শ্রেণী সম্ভাব্যতা অনুমান করা হয়।

8. ব্যাক প্রোপাগেশন সহ নিউরাল নেটওয়ার্ক রিকগনিশন মডেল

প্যাটার্ন শনাক্তকরণে একটি নিউরাল নেটওয়ার্ককে প্রশিক্ষণের জন্য সুপরিচিত পদ্ধতির একটি পরিবর্তন (ব্যাকপ্রোপগেশন পদ্ধতি) তৈরি করা হয়েছে। নিউরাল নেটওয়ার্কের বর্তমান পরামিতিগুলির মানের জন্য একটি মানদণ্ড হিসাবে, একটি হাইব্রিড মানদণ্ড ব্যবহার করা হয়, যা প্রয়োজনীয়গুলি থেকে আউটপুট সংকেতগুলির মানগুলির বর্গক্ষেত্র বিচ্যুতির যোগফল এবং সংখ্যা উভয়ই বিবেচনা করে প্রশিক্ষণ সেটে ভুল শ্রেণিবদ্ধকরণ।

9.ভেক্টর মেশিনকে সাপর্ট কর.

সমর্থন ভেক্টর ব্যবহার করে একটি নন-লিনিয়ার বিভাজক পৃষ্ঠ নির্মাণের একটি পদ্ধতি। নতুন ফিচার স্পেসে (রেক্টিফাইং স্পেস), একটি বিভাজক পৃষ্ঠ তৈরি করা হয়েছে যা লিনিয়ারের কাছাকাছি। এই পৃষ্ঠের নির্মাণ একটি চতুর্মুখী প্রোগ্রামিং সমস্যা সমাধানের জন্য হ্রাস করা হয়।

10. বিভিন্ন স্বীকৃতি অ্যালগরিদমের দল দ্বারা স্বীকৃতি সমস্যা সমাধানের জন্য অ্যালগরিদম।

স্বীকৃতি সমস্যা দুটি পর্যায়ে সমাধান করা হয়. প্রথমত, সিস্টেমের বিভিন্ন অ্যালগরিদম স্বাধীনভাবে প্রয়োগ করা হয়। এর পরে, বিশেষ পদ্ধতি ব্যবহার করে একটি স্বয়ংক্রিয়ভাবে সর্বোত্তম যৌথ সমাধান পাওয়া যায় - "সংশোধক"। সংশোধনমূলক পদ্ধতি হিসাবে বিভিন্ন পন্থা ব্যবহার করা হয়।

11. ক্লাস্টার বিশ্লেষণের পদ্ধতি (স্বয়ংক্রিয় শ্রেণীবিভাগ বা তত্ত্বাবধানহীন শিক্ষা)।

নিম্নলিখিত পরিচিত পদ্ধতি ব্যবহার করা হয়:

হায়ারার্কিক্যাল গ্রুপিং অ্যালগরিদম;

বর্গাকার বিচ্যুতির যোগফল ন্যূনতম করার মানদণ্ডের সাথে ক্লাস্টারিং;

k- মানে পদ্ধতি।

একটি প্রদত্ত এবং একটি অজানা সংখ্যক ক্লাসের জন্য শ্রেণীবিভাগ সমস্যা সমাধান করা সম্ভব।

12. শ্রেণীবিভাগ সমস্যার সমষ্টিগত সমাধান নির্মাণের জন্য অ্যালগরিদম।

শ্রেণীবিভাগ সমস্যা দুটি পর্যায়ে সমাধান করা হয়। প্রথমে একটি সেট আছে বিভিন্ন সমাধান(কভারিং বা পার্টিশন আকারে) সিস্টেমের বিভিন্ন অ্যালগরিদম ব্যবহার করে নির্দিষ্ট সংখ্যক ক্লাস সহ। এরপরে, একটি বিশেষ বিচ্ছিন্ন অপ্টিমাইজেশান সমস্যা সমাধানের ফলে সর্বোত্তম যৌথ শ্রেণীবিভাগ পাওয়া যায়।

হোম > লেকচার

বিষয় 7।শ্রেণীবিন্যাস বিশ্লেষণ

লেকচার নং 9

1. অনুসন্ধানমূলক তথ্য বিশ্লেষণ। পরিমাপের স্কেল

2. শ্রেণিবিন্যাস গাছ

3. বৈষম্যমূলক বিশ্লেষণ (প্রশিক্ষিত শ্রেণীবিভাগ)

4. ক্লাস্টার বিশ্লেষণ (প্রশিক্ষণ ছাড়াই শ্রেণীবিভাগ)

5. ক্যানোনিকাল পারস্পরিক সম্পর্ক

1. অনুসন্ধানমূলক তথ্য বিশ্লেষণ। পরিমাপের স্কেল

প্রচুর সংখ্যক ভেরিয়েবলের উপস্থিতিতে এবং সম্পর্ক এবং নিদর্শন সম্পর্কে তথ্যের অনুপস্থিতিতে, উপলব্ধ ডেটা বিশ্লেষণের প্রথম ধাপগুলির মধ্যে একটি হল তথাকথিত অনুসন্ধানমূলক ডেটা বিশ্লেষণ। একটি নিয়ম হিসাবে, অনুসন্ধানমূলক বিশ্লেষণ অনেকগুলি ভেরিয়েবলকে বিবেচনা করে এবং তুলনা করে এবং অনুসন্ধানের জন্য ভেরিয়েবলগুলির শ্রেণীবিভাগ এবং স্কেলিং করা হয়। ভেরিয়েবলগুলি কতটা ভালভাবে পরিমাপ করা যায়, বা অন্য কথায়, তাদের পরিমাপের স্কেল কতটা পরিমাপযোগ্য তথ্য প্রদান করে তার মধ্যে পার্থক্য রয়েছে। আরেকটি বিষয় যা তথ্যের পরিমাণ নির্ধারণ করে তা হল পরিমাপ করা হয় এমন স্কেলের ধরন। সাধারণত নিম্নলিখিত ধরনের পরিমাপ স্কেল ব্যবহার করা হয়: নামমাত্র, অর্ডিনাল, ব্যবধান এবং আপেক্ষিক। নামমাত্র ভেরিয়েবলশুধুমাত্র গুণগত শ্রেণীবিভাগের জন্য ব্যবহৃত। এর মানে হল যে এই ভেরিয়েবলগুলি শুধুমাত্র কিছু উল্লেখযোগ্যভাবে ভিন্ন শ্রেণীর অন্তর্গত পরিপ্রেক্ষিতে পরিমাপ করা যেতে পারে। নামমাত্র ভেরিয়েবলের একটি সাধারণ উদাহরণ হল প্রস্তুতকারক, পণ্যের ধরন, এর উপযুক্ততার চিহ্ন ইত্যাদি। প্রায়শই নামমাত্র ভেরিয়েবলকে শ্রেণীবদ্ধ বলা হয়। অর্ডিনাল ভেরিয়েবলঅবজেক্ট র্যাঙ্ক করার অনুমতি দেয়, যদি এটি নির্দেশিত হয় যে তাদের মধ্যে কোনটির গুণমান এই ভেরিয়েবল দ্বারা বৃহত্তর বা কম পরিমাণে প্রকাশ করা হয়েছে। যাইহোক, তারা একটি ভেরিয়েবলের মধ্যে একটি প্রদত্ত মানের কত বেশি বা কত কম তা বিচার করার অনুমতি দেয় না। একটি সাধারণ উদাহরণ হল পণ্যের সাজানো: সর্বোচ্চ, প্রথম, দ্বিতীয়, তৃতীয়। একই পণ্য গুণগতভাবে পৃথক, কিন্তু তাদের মধ্যে পার্থক্য 25% যে বলা অসম্ভব। শ্রেণীগত এবং অর্ডিনাল ভেরিয়েবলগুলি বিশেষভাবে সাধারণ যখন প্রশ্ন করা হয়, উদাহরণস্বরূপ, তাদের মধ্যে পার্থক্যগুলি পরিবর্তন এবং তুলনা করুন। একটি উদাহরণ - ডিগ্রীতে পরিমাপ করা তাপমাত্রা, একটি ব্যবধান স্কেল গঠন করে, যেহেতু এটি ইতিমধ্যেই সংখ্যাসূচক আকারে (40 ডিগ্রি 30 দ্বারা 10 এর বেশি) পরিবর্তনশীলগুলির পার্থক্য মূল্যায়ন করা সম্ভব। ব্যবধানের স্কেলটি সহজেই একটি অর্ডিনাল স্কেলে অনুবাদ করা যেতে পারে যদি আমরা বিভিন্ন শ্রেণীর সীমানা হিসাবে ভেরিয়েবলের কিছু মান নিই (উদাহরণস্বরূপ, এটি এক মাসের জন্য উষ্ণ বা গরম, ক্লাসগুলির মধ্যে সীমানাকে "উষ্ণ" হিসাবে গ্রহণ করি। এবং ভেরিয়েবলের মান "হট", কিন্তু তাদের বৈশিষ্ট্য হল একটি নির্দিষ্ট বিন্দু পরম শূন্যের উপস্থিতি। একটি নিয়ম হিসাবে, এগুলি ক্রমাগত চলক। 2. শ্রেণিবিন্যাস গাছ শ্রেণিবিন্যাস গাছ একটি পদ্ধতি যা এক বা একাধিক ভবিষ্যদ্বাণীকারী ভেরিয়েবলের সংশ্লিষ্ট মানের উপর নির্ভর করে একটি শ্রেণীগত নির্ভরশীল ভেরিয়েবলের এক বা অন্য শ্রেণীর পর্যবেক্ষণ বা বস্তুর অন্তর্গত ভবিষ্যদ্বাণী করতে দেয়। বিল্ডিং শ্রেণিবিন্যাস গাছ- অনুক্রমিক মুদ্রা বাছাই ডিভাইস এক. আসুন কয়েনগুলিকে একটি সরু শুট বরাবর রোল করি, যেখানে একটি এক-কোপেক মুদ্রার আকারের একটি স্লট কাটা হয়। যদি মুদ্রাটি স্লটে পড়ে, তবে এটি 1 কোপেক; অন্যথায়, এটি চুট বরাবর আরও গড়িয়ে যেতে থাকে এবং একটি দুই-কোপেক মুদ্রার জন্য একটি স্লটে হোঁচট খায়; যদি এটি সেখানে ব্যর্থ হয়, তবে এটি 2 কোপেক, যদি না হয় (যার মানে এটি 3 বা 5 কোপেক), এটি আরও রোল হবে এবং আরও অনেক কিছু। এইভাবে, আমরা একটি শ্রেণিবিন্যাস গাছ তৈরি করেছি। এই শ্রেণীবিন্যাস ট্রিতে বাস্তবায়িত সিদ্ধান্তের নিয়মটি মুষ্টিমেয় কয়েনের দক্ষ বাছাই করার অনুমতি দেয় এবং সাধারণত বিস্তৃত শ্রেণিবিন্যাসের সমস্যাগুলির জন্য প্রযোজ্য। শ্রেণীবিন্যাস গাছগুলি গ্রাফিকাল উপস্থাপনার জন্য আদর্শভাবে উপযুক্ত, এবং সেইজন্য তাদের থেকে প্রাপ্ত সিদ্ধান্তগুলি শুধুমাত্র সংখ্যাসূচক আকারে উপস্থাপন করার চেয়ে ব্যাখ্যা করা অনেক সহজ। অনুক্রমিক কাঠামো শ্রেণিবিন্যাস গাছ- নির্মাণ প্রক্রিয়া এক শ্রেণিবিন্যাস গাছচারটি প্রধান ধাপ নিয়ে গঠিত:

    পূর্বাভাসের নির্ভুলতার মানদণ্ড নির্বাচন

    শাখার ধরন নির্বাচন

    কখন শাখা বন্ধ করতে হবে তা নির্ধারণ করা

    "উপযুক্ত" গাছের আকার নির্ধারণ করা

পরিশেষে, শ্রেণীবিন্যাস গাছের সাথে বিশ্লেষণের লক্ষ্য হল সবচেয়ে সঠিক ভবিষ্যদ্বাণী করা। সবচেয়ে শ্রেণীবিভাগ.

3. বৈষম্যমূলক বিশ্লেষণ (প্রশিক্ষিত শ্রেণীবিভাগ)

পণ্যের পরামিতি বা বৈশিষ্ট্যগুলির অধ্যয়নের উপর ভিত্তি করে কোন শ্রেণী (গোষ্ঠী) এই বা সেই বস্তুকে (প্রক্রিয়া) বৈশিষ্ট্যযুক্ত করবে তা নির্ধারণ করতে বৈষম্যমূলক বিশ্লেষণ ব্যবহার করা হয় এবং কাজটি নির্ধারণ করা হয় কোন প্যারামিটারগুলি পার্থক্যে অবদান রাখে ( বৈষম্য) পৃথকভাবে গোষ্ঠীভুক্ত পণ্যগুলির মধ্যে (গ্রেড) যা সাধারণ জনসংখ্যা গঠন করে। এর পরে, এই পণ্যটি একটি নির্দিষ্ট গোষ্ঠীর অন্তর্গত কিনা সে বিষয়ে সিদ্ধান্ত নেওয়া হয়। অতএব, এই ধরনের পরিসংখ্যানগত বিশ্লেষণ হল মাল্টিভেরিয়েট এবং বৈষম্যমূলক বিশ্লেষণের মূল ধারণা হল কিছু প্যারামিটার (ভেরিয়েবল) এর মধ্য দিয়ে জনসংখ্যা আলাদা কিনা তা নির্ধারণ করা এবং তারপর তাদের ডোমেনের নতুন সদস্যদের জন্য ভবিষ্যদ্বাণী করতে এই ভেরিয়েবলটি ব্যবহার করা। একটি নির্দিষ্ট প্যারামিটারের মান (অথবা বরং এর গড় মান দ্বারা) বা শ্রেণীবিভাগ বৈশিষ্ট্য হিসাবে নেওয়া প্যারামিটারের সেটগুলির দ্বারা প্রতিটি অঞ্চল অন্যটির থেকে আলাদা। বৈষম্যের নিয়মটি অনুকূলতার একটি নির্দিষ্ট নীতি অনুসারে বেছে নেওয়া হয়, উদাহরণস্বরূপ, মিথ্যা শ্রেণীবিভাগের ন্যূনতম সম্ভাবনা। ব্যবহারিক গণনায়, পার্থক্য বৈশিষ্ট্য ভেক্টর থেকে সরে যায় লিনিয়ার ফাংশন(বৈষম্যমূলক ফাংশন), যা দুটি গোষ্ঠীর (শ্রেণী) জন্য একটি রৈখিক একাধিক রিগ্রেশন সমীকরণের আকার ধারণ করে, যেখানে গোষ্ঠীগুলির মধ্যে পার্থক্যের কোডেড লক্ষণগুলি নির্ভরশীল ভেরিয়েবল হিসাবে কাজ করে। যদি দুইটির বেশি গোষ্ঠী থাকে, তবে একাধিক বৈষম্যমূলক ফাংশন রচনা করা যেতে পারে। উদাহরণস্বরূপ, যখন তিনটি জনসংখ্যা থাকে, তখন এটি মূল্যায়ন করা সম্ভব: (1) - বৈষম্য বোধের বৈশিষ্ট্যটি বৈষম্যের বহুমুখী বিশ্লেষণের সাথে খুব মিল। যখন বৈষম্যমূলক ফাংশনগুলি পাওয়া যায়, তখন প্রশ্ন ওঠে যে তারা কতটা ভাল করতে পারে ভবিষ্যদ্বাণী, একটি নির্দিষ্ট নমুনা কোন জনসংখ্যার অন্তর্গত? এর জন্য, শ্রেণীবিন্যাস সূচক বা শ্রেণীবিভাগের ফাংশন নির্ধারণ করা হয় এবং পরবর্তী পর্যবেক্ষণ বা একটি নির্দিষ্ট নমুনা সেই গোষ্ঠীকে বরাদ্দ করা হয় যার জন্য শ্রেণীবিভাগের গোষ্ঠীর সর্বাধিক মূল্য রয়েছে। 4. ক্লাস্টার বিশ্লেষণ (প্রশিক্ষণ ছাড়াই শ্রেণীবিভাগ)ক্লাস্টার বিশ্লেষণ হল একটি পরিসংখ্যানগত পদ্ধতি যাতে বস্তুগুলিকে ক্লাস্টারে বিতরণ করার জন্য বিভিন্ন অ্যালগরিদমের একটি সেট অন্তর্ভুক্ত থাকে (ক্লাস্টার - গুচ্ছ, সঞ্চয়)। অবজেক্টগুলিকে H কে একটি পূর্ণসংখ্যা K ক্লাস্টারে বিভাজন করা, যাতে প্রতিটি বস্তু পার্টিশনের একটি এবং শুধুমাত্র একটি উপসেটের অন্তর্গত হয়। একই সময়ে, একই ক্লাস্টারের অন্তর্গত বস্তুগুলি অবশ্যই একই রকম হতে হবে এবং বিভিন্ন ক্লাস্টারের অন্তর্গত বস্তুগুলি অবশ্যই ভিন্নধর্মী হতে হবে। ক্লাস্টার বিশ্লেষণের সমস্যার সমাধান হল পার্টিশন যা সর্বোত্তমতার মানদণ্ডকে সন্তুষ্ট করে। এই মানদণ্ডটিকে উদ্দেশ্যমূলক ফাংশন বলা হয়, যা, উদাহরণস্বরূপ, গড় মান থেকে গ্রুপ অবজেক্টের বৈশিষ্ট্যগুলির বর্গক্ষেত্র বিচ্যুতির সমষ্টির সর্বনিম্ন হতে পারে।

মিনিট Σ(x i – x cf) 2

গোষ্ঠীতে বস্তুর সাদৃশ্য এবং ভিন্নতা একটি নির্দিষ্ট মান দ্বারা চিহ্নিত করা হবে, যা নাম পেয়েছে - দূরত্ব ফাংশন। বস্তুর মধ্যে দূরত্বের ফাংশন যত বেশি, সেগুলি তত বেশি ভিন্নধর্মী। এটা স্পষ্ট যে যদি এই ফাংশন একটি নির্দিষ্ট সীমা অতিক্রম করে, তাহলে বস্তুর সাথে সম্পর্কিত হওয়া উচিত বিভিন্ন গ্রুপ(গুচ্ছ)। ব্যবহৃত ক্লাস্টারিং অ্যালগরিদমের উপর নির্ভর করে, নিম্নলিখিত দূরত্ব ফাংশনগুলিকে আলাদা করা হয়েছে: - ইউক্লিডীয় মেট্রিক (Σx i – xj) 2) 1/2 ; - ম্যানহাটনের দূরত্ব Σ|x i – x j |; - চেবিশেভ দূরত্ব সর্বাধিক|x i – x j |, ইত্যাদি আলাদা ক্লাস্টার হিসাবে বিবেচিত হয়৷ আরও, অ্যালগরিদমের প্রতিটি ধাপে, দুটি নিকটতম ক্লাস্টার একত্রিত হয় এবং, গৃহীত দূরত্ব ফাংশনকে বিবেচনায় নিয়ে, সমস্ত দূরত্ব সূত্র অনুসারে পুনঃগণনা করা হয়। উদ্দেশ্য ফাংশন পৌঁছে গেলে, পুনরাবৃত্তি বন্ধ হয়। 5. ক্যানোনিকাল পারস্পরিক সম্পর্কক্লাসিক্যাল পারস্পরিক সম্পর্ক বিশ্লেষণ আপনাকে দুটি ভেরিয়েবলের মধ্যে পরিসংখ্যানগত সম্পর্ক খুঁজে পেতে দেয়, তথাকথিত দুটি ভেরিয়েবলের সেট ক্যানোনিকাল বিশ্লেষণের পদ্ধতি ব্যবহার করে। ক্যানোনিকাল বিশ্লেষণ, একটি র্যান্ডম ভেরিয়েবল এবং অন্যান্য অনেক র্যান্ডম ভেরিয়েবলের মধ্যে সম্পর্কের পরিমাপ হিসাবে একাধিক পারস্পরিক সম্পর্কের একটি সাধারণীকরণ, র্যান্ডম ভেরিয়েবলের সেটগুলির মধ্যে সম্পর্ক বিবেচনা করে। একই সময়ে, এটি প্রতিটি সেট থেকে সবচেয়ে বেশি সম্পর্কযুক্ত রৈখিক সংমিশ্রণের একটি ছোট সংখ্যা বিবেচনা করার মধ্যে সীমাবদ্ধ। ক্যানোনিকাল পারস্পরিক সম্পর্কের বিশ্লেষণ ক্যানোনিকাল রুট বা ক্যানোনিকাল ভেরিয়েবলের ব্যবহারের উপর ভিত্তি করে তৈরি করা হয়, যেগুলিকে "লুকানো" ভেরিয়েবল হিসাবে বিবেচনা করা হয় যা পর্যবেক্ষণ করা ঘটনাকে চিহ্নিত করে। ক্যানোনিকাল মূলের সংখ্যা ছোট সেটে চলকের সংখ্যার সমান। অনুশীলনে, ক্যানোনিকাল পারস্পরিক সম্পর্ক নির্ধারণ করার সময়, একটি পৃথক পারস্পরিক সম্পর্ক ম্যাট্রিক্স তৈরি করা হয়, যা স্ট্যান্ডার্ড পারস্পরিক সম্পর্ক ম্যাট্রিক্সের পণ্য যা দুটি পৃথক ভেরিয়েবলের মধ্যে নির্ভরতাকে চিহ্নিত করে। তারপরে, প্রাপ্ত ম্যাট্রিক্সের যতগুলি eigenvalue গণনা করা হয় কারণ সেখানে ক্যানোনিকাল মূল রয়েছে। যদি আমরা প্রাপ্ত eigenvalues ​​এর বর্গমূল নিই, তাহলে আমরা সংখ্যার একটি সেট পাই যা পারস্পরিক সম্পর্ক সহগ হিসাবে ব্যাখ্যা করা যেতে পারে। যেহেতু তারা ক্যানোনিকাল ভেরিয়েবল, তাই তাদের ক্যানোনিকাল পারস্পরিক সম্পর্কও বলা হয়। বৈষম্যমূলক, ক্লাস্টার এবং ক্যানোনিকাল বিশ্লেষণের কাজ বিশেষ পরিসংখ্যানগত প্যাকেজগুলি ব্যবহার করে মূল্যায়ন করা উচিত যা একটি কম্পিউটারে এই অ্যালগরিদমগুলি বাস্তবায়ন করে।

ক্লাস্টার বিশ্লেষণ হয়

শুভ দিন. এখানে যারা তাদের কাজের ভক্ত তাদের প্রতি আমার শ্রদ্ধা আছে।

ম্যাক্সিম, আমার বন্ধু, এই বিভাগের অন্তর্গত। ক্রমাগত পরিসংখ্যান নিয়ে কাজ করে, তাদের বিশ্লেষণ করে, প্রাসঙ্গিক প্রতিবেদন তৈরি করে।

গতকাল আমরা একসাথে দুপুরের খাবার খেয়েছিলাম, তাই প্রায় আধা ঘন্টা তিনি আমাকে ক্লাস্টার বিশ্লেষণ সম্পর্কে বলেছিলেন - এটি কী এবং কোন ক্ষেত্রে এর প্রয়োগ যুক্তিসঙ্গত এবং সমীচীন। আচ্ছা, আমার কি হবে?

আমার একটি ভাল মেমরি আছে, তাই আমি আপনাকে এই সমস্ত ডেটা সরবরাহ করব, যাইহোক, যা আমি ইতিমধ্যেই এর আসল এবং সবচেয়ে তথ্যপূর্ণ আকারে জানতাম।

ক্লাস্টার বিশ্লেষণ বস্তুর একটি সেটকে সমজাতীয় গোষ্ঠীতে (ক্লাস্টার বা শ্রেণী) ভাগ করার জন্য ডিজাইন করা হয়েছে। এটি মাল্টিভেরিয়েট ডেটা শ্রেণীবিভাগের একটি কাজ।

এখানে প্রায় 100টি আলাদা ক্লাস্টারিং অ্যালগরিদম রয়েছে, তবে সবচেয়ে বেশি ব্যবহৃত হয় হায়ারার্কিক্যাল ক্লাস্টার বিশ্লেষণ এবং কে-মানে ক্লাস্টারিং।

ক্লাস্টার বিশ্লেষণ কোথায় প্রয়োগ করা হয়? বিপণনে, এটি প্রতিযোগী এবং ভোক্তাদের বিভাজন।

ব্যবস্থাপনায়: অনুপ্রেরণার বিভিন্ন স্তরের গোষ্ঠীতে কর্মীদের বিভাজন, সরবরাহকারীদের শ্রেণীবিভাগ, অনুরূপ উত্পাদন পরিস্থিতি সনাক্তকরণ যেখানে বিবাহ ঘটে।

ওষুধে, লক্ষণ, রোগী, ওষুধের শ্রেণিবিন্যাস। সমাজবিজ্ঞানে, উত্তরদাতাদের সমজাতীয় গোষ্ঠীতে বিভাজন। প্রকৃতপক্ষে, ক্লাস্টার বিশ্লেষণ মানব জীবনের সমস্ত ক্ষেত্রে নিজেকে ভালভাবে প্রমাণ করেছে।

কবজ এই পদ্ধতি- এটি কাজ করে যখন সামান্য ডেটা থাকে এবং র্যান্ডম ভেরিয়েবলের বিতরণের স্বাভাবিকতার প্রয়োজনীয়তা এবং পরিসংখ্যান বিশ্লেষণের ক্লাসিক্যাল পদ্ধতির অন্যান্য প্রয়োজনীয়তা পূরণ না হয়।

আসুন কঠোর পরিভাষা অবলম্বন না করে ক্লাস্টার বিশ্লেষণের সারমর্ম ব্যাখ্যা করি:
ধরা যাক আপনি কর্মীদের একটি সমীক্ষা পরিচালনা করেছেন এবং আপনি কীভাবে আপনার কর্মীদের সবচেয়ে কার্যকরভাবে পরিচালনা করতে পারেন তা নির্ধারণ করতে চান।

অর্থাৎ, আপনি কর্মীদের দলে বিভক্ত করতে চান এবং তাদের প্রত্যেকের জন্য সবচেয়ে কার্যকর নিয়ন্ত্রণ লিভার নির্বাচন করতে চান। একই সময়ে, গ্রুপগুলির মধ্যে পার্থক্যগুলি সুস্পষ্ট হওয়া উচিত এবং গোষ্ঠীর মধ্যে, উত্তরদাতাদের যথাসম্ভব অনুরূপ হওয়া উচিত।

সমস্যা সমাধানের জন্য, শ্রেণীবিন্যাস ক্লাস্টার বিশ্লেষণ ব্যবহার করার প্রস্তাব করা হয়েছে।

ফলস্বরূপ, আমরা একটি গাছ পাব, যা দেখে আমাদের সিদ্ধান্ত নিতে হবে যে আমরা কতটি ক্লাস (গুচ্ছ) কর্মীদের ভাগ করতে চাই।

ধরুন আমরা কর্মীদের তিনটি দলে ভাগ করার সিদ্ধান্ত নিই, তারপর প্রতিটি ক্লাস্টারে পড়ে থাকা উত্তরদাতাদের অধ্যয়ন করার জন্য, আমরা নিম্নলিখিত বিষয়বস্তু সহ একটি ট্যাবলেট পাই:


উপরের টেবিলটি কীভাবে গঠিত হয় তা ব্যাখ্যা করা যাক। প্রথম কলামে ক্লাস্টারের সংখ্যা থাকে — যে গোষ্ঠীর ডেটা সারিতে প্রতিফলিত হয়।

উদাহরণস্বরূপ, প্রথম ক্লাস্টারটি 80% পুরুষ। প্রথম ক্লাস্টারের 90% 30 থেকে 50 বছর বয়সী বয়সের মধ্যে পড়ে এবং 12% উত্তরদাতারা বিশ্বাস করেন যে সুবিধাগুলি খুবই গুরুত্বপূর্ণ। ইত্যাদি।

আসুন প্রতিটি ক্লাস্টারের উত্তরদাতাদের প্রতিকৃতি তৈরি করার চেষ্টা করি:

  1. প্রথম দলটি বেশিরভাগই পুরুষ। মধ্যবয়সনেতৃত্বের পদে অধিষ্ঠিত। সামাজিক প্যাকেজ (MED, LGOTI, টাইম-ফ্রী সময়) তাদের আগ্রহী করে না। তারা নিয়োগকর্তার কাছ থেকে সাহায্যের চেয়ে ভাল বেতন পেতে পছন্দ করে।
  2. গ্রুপ দুই, বিপরীতে, সামাজিক প্যাকেজ পছন্দ করে। এটি প্রধানত "বয়স্ক" লোকেদের নিয়ে গঠিত যারা নিম্ন পদে অধিষ্ঠিত। বেতন অবশ্যই তাদের জন্য গুরুত্বপূর্ণ, তবে অন্যান্য অগ্রাধিকার রয়েছে।
  3. তৃতীয় দল হল "কনিষ্ঠ"। আগের দুটি থেকে ভিন্ন, শেখার এবং পেশাদার বৃদ্ধির সুযোগের প্রতি সুস্পষ্ট আগ্রহ রয়েছে। এই শ্রেণীর কর্মচারী আছে ভাল সুযোগশীঘ্রই প্রথম গ্রুপ পুনরায় পূরণ করুন.

এইভাবে, পরিচয় করিয়ে দেওয়ার জন্য একটি প্রচারণার পরিকল্পনা করছেন কার্যকর পদ্ধতিকর্মীদের ব্যবস্থাপনা, এটা স্পষ্ট যে আমাদের পরিস্থিতিতে দ্বিতীয় গোষ্ঠীর জন্য সামাজিক প্যাকেজকে ক্ষতির জন্য বাড়ানো সম্ভব, উদাহরণস্বরূপ, মজুরি।

যদি আমরা কোন বিশেষজ্ঞদের প্রশিক্ষণের জন্য প্রেরণ করা উচিত সে সম্পর্কে কথা বলি, তবে আমরা অবশ্যই তৃতীয় গ্রুপের দিকে মনোযোগ দেওয়ার পরামর্শ দিতে পারি।

সূত্র: http://www.nickart.spb.ru/analysis/cluster.php

ক্লাস্টার বিশ্লেষণের বৈশিষ্ট্য

একটি ক্লাস্টার হল একটি নির্দিষ্ট সময়ের মধ্যে একটি সম্পদের মূল্য যার সময় লেনদেন করা হয়েছিল। ক্রয় এবং বিক্রয়ের ফলের পরিমাণ ক্লাস্টারের মধ্যে একটি সংখ্যা দ্বারা নির্দেশিত হয়।

যেকোন টিএফের বারে, একটি নিয়ম হিসাবে, বেশ কয়েকটি ক্লাস্টার থাকে। এটি আপনাকে প্রতিটি মূল্য স্তরের জন্য প্রতিটি পৃথক বারে ক্রয়, বিক্রয় এবং তাদের ব্যালেন্সের পরিমাণ বিশদভাবে দেখতে দেয়।


একটি সম্পদের মূল্যের পরিবর্তন অনিবার্যভাবে অন্যান্য যন্ত্রগুলিতেও মূল্য আন্দোলনের একটি চেইনকে অন্তর্ভুক্ত করে।

মনোযোগ!

বেশিরভাগ ক্ষেত্রে, ট্রেন্ড মুভমেন্টের বোঝাপড়া ইতিমধ্যেই ঘটে যখন এটি দ্রুত বিকাশ করছে এবং প্রবণতা বরাবর বাজারে প্রবেশ করা একটি সংশোধনমূলক তরঙ্গের মধ্যে পড়ে।

সফল ট্রেডের জন্য, বর্তমান পরিস্থিতি বোঝা এবং ভবিষ্যতের দামের গতিবিধি অনুমান করতে সক্ষম হওয়া প্রয়োজন। ক্লাস্টার গ্রাফ বিশ্লেষণ করে এটা জানা যাবে।

ক্লাস্টার বিশ্লেষণের সাহায্যে, আপনি এমনকি ক্ষুদ্রতম মূল্য বারের ভিতরেও বাজারের অংশগ্রহণকারীদের কার্যকলাপ দেখতে পারেন। এটি হল সবচেয়ে সঠিক এবং বিস্তারিত বিশ্লেষণ, কারণ এটি প্রতিটি সম্পদের মূল্য স্তরের জন্য লেনদেনের পরিমাণের বিন্দু বন্টন দেখায়।

বাজারে বিক্রেতা এবং ক্রেতাদের স্বার্থের মধ্যে ক্রমাগত সংঘাত চলছে। এবং প্রতিটি ক্ষুদ্রতম মূল্য আন্দোলন (টিক) হল একটি সমঝোতার দিকে সরানো - মূল্য স্তর - যার মধ্যে এই মুহূর্তেউভয় পক্ষের জন্য উপযুক্ত।

তবে বাজারটি গতিশীল, বিক্রেতা এবং ক্রেতার সংখ্যা ক্রমাগত পরিবর্তন হচ্ছে। যদি এক সময়ে বাজারে বিক্রেতাদের আধিপত্য ছিল, তবে পরের মুহুর্তে, সম্ভবত, ক্রেতা থাকবে।

প্রতিবেশী মূল্য স্তরে সম্পন্ন লেনদেনের সংখ্যাও একই নয়। এবং এখনও, প্রথমত, বাজারের পরিস্থিতি লেনদেনের মোট পরিমাণে প্রতিফলিত হয় এবং শুধুমাত্র তারপর মূল্যের উপর।

আপনি যদি প্রভাবশালী বাজারের অংশগ্রহণকারীদের (বিক্রেতা বা ক্রেতাদের) ক্রিয়াকলাপ দেখেন তবে আপনি মূল্যের গতিবিধি নিজেই অনুমান করতে পারেন।

ক্লাস্টার বিশ্লেষণ সফলভাবে প্রয়োগ করতে, আপনাকে প্রথমে বুঝতে হবে ক্লাস্টার এবং ডেল্টা কী।


একটি ক্লাস্টারকে একটি মূল্য আন্দোলন বলা হয়, যা পরিচিত ভলিউমগুলির সাথে লেনদেন করা হয়েছে এমন স্তরে বিভক্ত। ডেল্টা প্রতিটি ক্লাস্টারে ঘটছে ক্রয় এবং বিক্রয়ের মধ্যে পার্থক্য দেখায়।

প্রতিটি ক্লাস্টার, বা ডেল্টার গ্রুপ, আপনাকে একটি নির্দিষ্ট সময়ে ক্রেতা বা বিক্রেতারা বাজারে আধিপত্য করছে কিনা তা নির্ধারণ করতে দেয়।

বিক্রয় এবং ক্রয়ের সমষ্টি দ্বারা মোট ডেল্টা গণনা করাই যথেষ্ট। যদি ডেল্টা নেতিবাচক হয়, তাহলে বাজারে অত্যধিক বিক্রি হয়, অপ্রয়োজনীয় বিক্রয় লেনদেন হয়। যখন ডেল্টা ইতিবাচক হয়, তখন বাজারে স্পষ্টতই ক্রেতাদের আধিপত্য থাকে।

ডেল্টা নিজেই একটি স্বাভাবিক বা সমালোচনামূলক মান নিতে পারে। ক্লাস্টারে স্বাভাবিক মানের উপরে ডেল্টা আয়তনের মান লাল রঙে হাইলাইট করা হয়েছে।

যদি ব-দ্বীপ মাঝারি হয়, তবে এটি বাজারে একটি সমতল অবস্থাকে চিহ্নিত করে। একটি সাধারণ ডেল্টা মান সহ, বাজারে একটি প্রবণতা আন্দোলন পরিলক্ষিত হয়, কিন্তু একটি সমালোচনামূলক মান সর্বদা একটি মূল্যের বিপরীতমুখী হয়।

CA এর সাথে ফরেক্স ট্রেডিং

পাওয়ার জন্য সর্বোচ্চ লাভআপনি একটি মাঝারি স্তর থেকে একটি স্বাভাবিক এক বদ্বীপের রূপান্তর নির্ধারণ করতে সক্ষম হতে হবে. প্রকৃতপক্ষে, এই ক্ষেত্রে, আপনি একটি ফ্ল্যাট থেকে একটি প্রবণতা আন্দোলনে রূপান্তরের একেবারে শুরুতে লক্ষ্য করতে পারেন এবং সর্বাধিক মুনাফা পেতে সক্ষম হতে পারেন।

আরও ভিজ্যুয়াল হল ক্লাস্টার চার্ট, যেখানে আপনি উল্লেখযোগ্য স্তরগুলি জমা এবং ভলিউমগুলির বিতরণ, সমর্থন এবং প্রতিরোধের স্তরগুলি তৈরি করতে পারেন৷ এটি ট্রেডারকে ট্রেডের সঠিক এন্ট্রি খুঁজে বের করতে দেয়।

ডেল্টা ব্যবহার করে, কেউ বাজারে বিক্রয় বা ক্রয়ের প্রাধান্য বিচার করতে পারে। ক্লাস্টার বিশ্লেষণ আপনাকে লেনদেন পর্যবেক্ষণ করতে এবং যেকোনো TF-এর বারের ভিতরে তাদের ভলিউম ট্র্যাক করতে দেয়।

উল্লেখযোগ্য সমর্থন বা প্রতিরোধের স্তরের কাছে যাওয়ার সময় এটি বিশেষভাবে গুরুত্বপূর্ণ। ক্লাস্টার বিচার বাজার বোঝার চাবিকাঠি।

সূত্র: http://orderflowtrading.ru/analitika-rynka/obemy/klasternyy-analiz/

ক্লাস্টার বিশ্লেষণ প্রয়োগের ক্ষেত্র এবং বৈশিষ্ট্য

ক্লাস্টার বিশ্লেষণ শব্দটি (প্রথম ট্রায়ন, 1939 দ্বারা প্রবর্তিত) আসলে বিভিন্ন শ্রেণিবিন্যাস অ্যালগরিদমের একটি সেট অন্তর্ভুক্ত করে।

অনেক ক্ষেত্রে গবেষকদের দ্বারা জিজ্ঞাসা করা একটি সাধারণ প্রশ্ন হল কীভাবে পর্যবেক্ষণ করা ডেটাকে ভিজ্যুয়াল কাঠামোতে সংগঠিত করা যায়, যেমন ট্যাক্সোনমি প্রসারিত করুন।

জীববিজ্ঞানে গৃহীত আধুনিক ব্যবস্থা অনুসারে, মানুষ প্রাইমেট, স্তন্যপায়ী, অ্যামনিওট, মেরুদণ্ড এবং প্রাণীদের অন্তর্গত।

মনে রাখবেন যে এই শ্রেণীবিভাগে, সমষ্টির স্তর যত বেশি হবে, সংশ্লিষ্ট শ্রেণীর সদস্যদের মধ্যে কম মিল।

স্তন্যপায়ী পরিবারের "দূরবর্তী" সদস্যদের (অর্থাৎ, কুকুর) থেকে মানুষের অন্যান্য প্রাইমেটদের (অর্থাৎ, বনমানুষ) সাথে বেশি মিল রয়েছে।

মনে রাখবেন যে পূর্ববর্তী আলোচনা ক্লাস্টারিং অ্যালগরিদমগুলিকে বোঝায়, তবে পরিসংখ্যানগত তাত্পর্যের জন্য পরীক্ষা সম্পর্কে কিছু উল্লেখ করে না।

আসলে, ক্লাস্টার বিশ্লেষণ "বস্তুগুলিকে ক্লাস্টারে বিতরণ করার" জন্য বিভিন্ন অ্যালগরিদমের একটি "সেট" হিসাবে একটি সাধারণ পরিসংখ্যান পদ্ধতি নয়।

একটি দৃষ্টিভঙ্গি রয়েছে যে, অন্যান্য অনেক পরিসংখ্যান পদ্ধতির বিপরীতে, ক্লাস্টার বিশ্লেষণ পদ্ধতিগুলি বেশিরভাগ ক্ষেত্রেই ব্যবহৃত হয় যখন আপনার কাছে ক্লাসগুলি সম্পর্কে কোনও অগ্রাধিকার অনুমান না থাকে, তবে এখনও অধ্যয়নের বর্ণনামূলক পর্যায়ে থাকে।

মনোযোগ!

এটা বোঝা উচিত যে ক্লাস্টার বিশ্লেষণ "সবচেয়ে সম্ভাব্য অর্থপূর্ণ সিদ্ধান্ত" নির্ধারণ করে।

অতএব, পরিসংখ্যানগত তাত্পর্যের জন্য পরীক্ষা এখানে সত্যিই প্রযোজ্য নয়, এমনকি এমন ক্ষেত্রেও যেখানে পি-স্তরগুলি পরিচিত (যেমন কে-মান পদ্ধতিতে, উদাহরণস্বরূপ)।

ক্লাস্টারিং কৌশলটি বিভিন্ন ক্ষেত্রে ব্যবহৃত হয়। হার্টিগান (1975) ক্লাস্টার বিশ্লেষণ পদ্ধতি দ্বারা প্রাপ্ত ফলাফল ধারণকারী অনেক প্রকাশিত গবেষণার একটি চমৎকার ওভারভিউ প্রদান করেছে।

উদাহরণস্বরূপ, ওষুধের ক্ষেত্রে, রোগের ক্লাস্টারিং, রোগের চিকিত্সা, বা রোগের লক্ষণগুলি ব্যাপকভাবে ব্যবহৃত শ্রেণীকরণের দিকে নিয়ে যায়।

সাইকিয়াট্রির ক্ষেত্রে, প্যারানইয়া, সিজোফ্রেনিয়া ইত্যাদির মতো লক্ষণ ক্লাস্টারগুলির সঠিক নির্ণয় সফল থেরাপির জন্য গুরুত্বপূর্ণ। প্রত্নতত্ত্বে, ক্লাস্টার বিশ্লেষণ ব্যবহার করে, গবেষকরা পাথরের সরঞ্জাম, অন্ত্যেষ্টিক্রিয়ার বস্তু ইত্যাদির শ্রেণীবিন্যাস স্থাপনের চেষ্টা করছেন।

ক্লাস্টার বিশ্লেষণের ব্যাপক প্রয়োগগুলি জানা যায় বিপণন গবেষণা. সাধারণভাবে, যখনই আরও প্রক্রিয়াকরণের জন্য উপযোগী গোষ্ঠীগুলিতে তথ্যের "পর্বত" শ্রেণীবদ্ধ করার প্রয়োজন হয়, ক্লাস্টার বিশ্লেষণ খুব দরকারী এবং কার্যকর হতে দেখা যায়।

ট্রি ক্লাস্টারিং

প্রাথমিক উদ্দেশ্য বিভাগের উদাহরণটি যোগদানের (বৃক্ষের ক্লাস্টারিং) অ্যালগরিদমের উদ্দেশ্য ব্যাখ্যা করে।

এই অ্যালগরিদমের উদ্দেশ্য হল বস্তুগুলিকে (উদাহরণস্বরূপ, প্রাণীদের) পর্যাপ্ত বড় ক্লাস্টারে একত্রিত করা বস্তুর মধ্যে কিছু সাদৃশ্য বা দূরত্ব ব্যবহার করে। এই ধরনের ক্লাস্টারিংয়ের একটি সাধারণ ফলাফল হল একটি শ্রেণিবদ্ধ গাছ।

একটি অনুভূমিক গাছের চিত্রটি বিবেচনা করুন। ডায়াগ্রামটি ক্লাসের প্রতিটি বস্তু দিয়ে শুরু হয় (ডায়াগ্রামের বাম দিকে)।

এখন কল্পনা করুন যে ধীরে ধীরে (খুব ছোট পদক্ষেপে) আপনি কোন বস্তুগুলি অনন্য এবং কোনটি নয় তার জন্য আপনার মানদণ্ডকে "দুর্বল" করেন।

অন্য কথায়, আপনি একটি ক্লাস্টারে দুই বা ততোধিক বস্তু একত্রিত করার সিদ্ধান্তের সাথে সম্পর্কিত থ্রেশহোল্ড কমিয়েছেন।

ফলস্বরূপ, আপনি আরও বেশি সংখ্যক বস্তুকে একত্রে লিঙ্ক করেন এবং ক্রমবর্ধমান বিভিন্ন উপাদানের আরও বেশি সংখ্যক ক্লাস্টারকে একত্রিত করেন (একত্রিত করেন)।

অবশেষে, শেষ ধাপে, সমস্ত বস্তু একসাথে একত্রিত হয়। এই চার্টগুলিতে, অনুভূমিক অক্ষগুলি পুলিং দূরত্বের প্রতিনিধিত্ব করে (উল্লম্ব ডেনড্রোগ্রামে, উল্লম্ব অক্ষগুলি পুলিং দূরত্বকে প্রতিনিধিত্ব করে)।

সুতরাং, গ্রাফের প্রতিটি নোডের জন্য (যেখানে একটি নতুন ক্লাস্টার তৈরি হয়), আপনি দূরত্বের পরিমাণ দেখতে পারেন যার জন্য সংশ্লিষ্ট উপাদানগুলি একটি নতুন একক ক্লাস্টারে লিঙ্ক করা হয়েছে।

যখন একে অপরের অনুরূপ বস্তুর ক্লাস্টারগুলির পরিপ্রেক্ষিতে ডেটাতে একটি পরিষ্কার "কাঠামো" থাকে, তখন এই কাঠামোটি বিভিন্ন শাখা দ্বারা অনুক্রমিক গাছে প্রতিফলিত হওয়ার সম্ভাবনা থাকে।

যোগদান পদ্ধতি দ্বারা সফল বিশ্লেষণের ফলস্বরূপ, ক্লাস্টার (শাখা) সনাক্ত করা এবং তাদের ব্যাখ্যা করা সম্ভব হয়।

মিলন বা ট্রি ক্লাস্টারিং পদ্ধতিটি বস্তুর মধ্যে পার্থক্য বা দূরত্বের ক্লাস্টার গঠনে ব্যবহৃত হয়। এই দূরত্বগুলিকে এক-মাত্রিক বা বহুমাত্রিক স্থানে সংজ্ঞায়িত করা যেতে পারে।

উদাহরণস্বরূপ, যদি আপনাকে একটি ক্যাফেতে খাবারের প্রকারগুলি ক্লাস্টার করতে হয় তবে আপনি এতে থাকা ক্যালোরির সংখ্যা, দাম, স্বাদের বিষয়গত মূল্যায়ন ইত্যাদি বিবেচনা করতে পারেন।

বহুমাত্রিক স্থানের বস্তুর মধ্যে দূরত্ব গণনা করার সবচেয়ে সরাসরি উপায় হল ইউক্লিডীয় দূরত্ব গণনা করা।

যদি আপনার একটি 2D বা 3D স্থান থাকে, তাহলে এই পরিমাপটি স্থানের বস্তুর মধ্যে প্রকৃত জ্যামিতিক দূরত্ব (যেমন বস্তুর মধ্যে দূরত্ব একটি টেপ পরিমাপ দ্বারা পরিমাপ করা হয়)।

যাইহোক, পুলিং অ্যালগরিদম তার জন্য "প্রদত্ত" দূরত্বগুলি বাস্তব বা অন্য কিছু উদ্ভূত দূরত্বের পরিমাপ কিনা তা নিয়ে "পয়সা" করে না, যা গবেষকের কাছে আরও অর্থবহ; এবং গবেষকদের জন্য চ্যালেঞ্জ হল নির্দিষ্ট অ্যাপ্লিকেশনের জন্য সঠিক পদ্ধতি নির্বাচন করা।

ইউক্লিডীয় দূরত্ব.এই দূরত্ব সবচেয়ে সাধারণ ধরনের বলে মনে হচ্ছে. এটি কেবলমাত্র বহুমাত্রিক স্থানের একটি জ্যামিতিক দূরত্ব এবং নিম্নরূপ গণনা করা হয়:

মনে রাখবেন যে ইউক্লিডীয় দূরত্ব (এবং এর বর্গ) মূল ডেটা থেকে গণনা করা হয়, প্রমিত ডেটা থেকে নয়।

এটি গণনা করার স্বাভাবিক উপায়, যার কিছু সুবিধা রয়েছে (উদাহরণস্বরূপ, বিশ্লেষণে একটি নতুন বস্তু প্রবর্তিত হলে দুটি বস্তুর মধ্যে দূরত্ব পরিবর্তিত হয় না, যা একটি বহিরাগত হতে পারে)।

মনোযোগ!

যাইহোক, দূরত্বগুলি যে অক্ষগুলি থেকে দূরত্ব গণনা করা হয় তার মধ্যে পার্থক্য দ্বারা ব্যাপকভাবে প্রভাবিত হতে পারে। উদাহরণস্বরূপ, যদি অক্ষগুলির একটিকে সেন্টিমিটারে পরিমাপ করা হয় এবং তারপরে আপনি এটিকে মিলিমিটারে রূপান্তর করেন (মানগুলিকে 10 দ্বারা গুণ করে), তাহলে স্থানাঙ্ক থেকে গণনা করা চূড়ান্ত ইউক্লিডীয় দূরত্ব (বা ইউক্লিডীয় দূরত্বের বর্গ) হবে নাটকীয়ভাবে পরিবর্তন, এবং, ফলস্বরূপ, ক্লাস্টার বিশ্লেষণের ফলাফলগুলি পূর্ববর্তীগুলির থেকে খুব আলাদা হতে পারে।

ইউক্লিডীয় দূরত্বের বর্গ।কখনও কখনও আপনি আরও দূরবর্তী বস্তুকে আরও ওজন দিতে স্ট্যান্ডার্ড ইউক্লিডীয় দূরত্ব বর্গ করতে চাইতে পারেন।

এই দূরত্বটি নিম্নরূপ গণনা করা হয়:

শহরের ব্লক দূরত্ব (ম্যানহাটন দূরত্ব)।এই দূরত্বটি হল স্থানাঙ্কগুলির উপর পার্থক্যের গড়।

বেশিরভাগ ক্ষেত্রে, দূরত্বের এই পরিমাপটি সাধারণ ইউক্লিড দূরত্বের মতো একই ফলাফলের দিকে নিয়ে যায়।

যাইহোক, মনে রাখবেন যে এই পরিমাপের জন্য পৃথক বৃহৎ পার্থক্য (আউটলার) এর প্রভাব হ্রাস পায় (কারণ তারা বর্গ করা হয় না)। ম্যানহাটনের দূরত্ব সূত্র ব্যবহার করে গণনা করা হয়:

চেবিশেভ দূরত্ব।এই দূরত্বটি কার্যকর হতে পারে যখন কেউ দুটি বস্তুকে "ভিন্ন" হিসাবে সংজ্ঞায়িত করতে চায় যদি তারা যেকোন একটি স্থানাঙ্কে (যেকোনো একটি মাত্রা) ভিন্ন হয়। চেবিশেভ দূরত্ব সূত্র দ্বারা গণনা করা হয়:

শক্তি দূরত্ব।কখনও কখনও এটি একটি মাত্রার সাথে সম্পর্কিত ওজন ক্রমান্বয়ে বৃদ্ধি বা হ্রাস করার জন্য আকাঙ্ক্ষিত হয় যার জন্য সংশ্লিষ্ট বস্তুগুলি খুব আলাদা।

এটি পাওয়ার-আইন দূরত্ব ব্যবহার করে অর্জন করা যেতে পারে। শক্তি দূরত্ব সূত্র দ্বারা গণনা করা হয়:

যেখানে r এবং p হল ব্যবহারকারী-সংজ্ঞায়িত পরামিতি। গণনার কয়েকটি উদাহরণ দেখাতে পারে কিভাবে এই পরিমাপ "কাজ করে"।

p প্যারামিটারটি পৃথক স্থানাঙ্কে পার্থক্যের ধীরে ধীরে ওজনের জন্য দায়ী, r প্যারামিটারটি বস্তুর মধ্যে বড় দূরত্বের প্রগতিশীল ওজনের জন্য দায়ী। যদি উভয় প্যারামিটার - r এবং p, দুটি সমান হয়, তবে এই দূরত্বটি ইউক্লিডীয় দূরত্বের সাথে মিলে যায়।

দ্বিমতের শতাংশ।এই পরিমাপ ব্যবহার করা হয় যখন ডেটা শ্রেণীবদ্ধ হয়। এই দূরত্ব সূত্র দ্বারা গণনা করা হয়:

সমিতি বা সমিতির নিয়ম

প্রথম ধাপে, যখন প্রতিটি বস্তু একটি পৃথক ক্লাস্টার হয়, তখন এই বস্তুর মধ্যে দূরত্ব নির্বাচিত পরিমাপ দ্বারা নির্ধারিত হয়।

যাইহোক, যখন বেশ কয়েকটি বস্তু একসাথে সংযুক্ত থাকে, তখন প্রশ্ন ওঠে, ক্লাস্টারগুলির মধ্যে দূরত্ব কীভাবে নির্ধারণ করা উচিত?

অন্য কথায়, দুটি ক্লাস্টারের জন্য আপনার একটি যোগদান বা লিঙ্ক নিয়ম প্রয়োজন। এখানে বিভিন্ন সম্ভাবনা রয়েছে: উদাহরণস্বরূপ, আপনি দুটি ক্লাস্টারকে একসাথে লিঙ্ক করতে পারেন যখন দুটি ক্লাস্টারের যেকোনো দুটি বস্তু সংশ্লিষ্ট লিঙ্ক দূরত্বের চেয়ে একে অপরের কাছাকাছি থাকে।

অন্য কথায়, আপনি ক্লাস্টারগুলির মধ্যে দূরত্ব নির্ধারণ করতে "নিকটতম প্রতিবেশী নিয়ম" ব্যবহার করেন; এই পদ্ধতিটিকে একক লিঙ্ক পদ্ধতি বলা হয়।

এই নিয়মটি "তন্তুযুক্ত" ক্লাস্টার তৈরি করে, যেমন ক্লাস্টারগুলি শুধুমাত্র পৃথক উপাদানগুলির দ্বারা "একত্রে সংযুক্ত" যা অন্যদের তুলনায় একে অপরের কাছাকাছি হতে পারে।

বিকল্পভাবে, আপনি ক্লাস্টারে প্রতিবেশীদের ব্যবহার করতে পারেন যা অন্য সমস্ত বৈশিষ্ট্য জোড়ার মধ্যে একে অপরের থেকে সবচেয়ে দূরে। এই পদ্ধতিটিকে ফুল লিঙ্ক পদ্ধতি বলা হয়।

এছাড়াও ক্লাস্টারে যোগদানের জন্য আরও অনেক পদ্ধতি রয়েছে, যেগুলি নিয়ে আলোচনা করা হয়েছে।

একক সংযোগ (নিকটতম প্রতিবেশী পদ্ধতি)। উপরে বর্ণিত হিসাবে, এই পদ্ধতিতে, দুটি ক্লাস্টারের মধ্যে দূরত্ব বিভিন্ন ক্লাস্টারে দুটি নিকটতম বস্তুর (নিকটতম প্রতিবেশী) মধ্যে দূরত্ব দ্বারা নির্ধারিত হয়।

এই নিয়মটি অবশ্যই, এক অর্থে, স্ট্রিং অবজেক্টগুলিকে একসাথে ক্লাস্টার তৈরি করতে হবে, এবং ফলস্বরূপ ক্লাস্টারগুলি দীর্ঘ "স্ট্রিং" দ্বারা উপস্থাপিত হবে।

সম্পূর্ণ সংযোগ (সবচেয়ে দূরবর্তী প্রতিবেশীদের পদ্ধতি)।এই পদ্ধতিতে, ক্লাস্টারগুলির মধ্যে দূরত্বগুলিকে বিভিন্ন ক্লাস্টারের যেকোনো দুটি বস্তুর মধ্যে সবচেয়ে বড় দূরত্ব হিসাবে সংজ্ঞায়িত করা হয় (অর্থাৎ "সবচেয়ে দূরবর্তী প্রতিবেশী")।

ওজনহীন পেয়ারওয়াইজ মানে।এই পদ্ধতিতে, দুটি ভিন্ন ক্লাস্টারের মধ্যে দূরত্বকে তাদের মধ্যে থাকা সমস্ত জোড়া বস্তুর মধ্যে গড় দূরত্ব হিসাবে গণনা করা হয়।

পদ্ধতিটি কার্যকর হয় যখন বস্তুগুলি আসলে বিভিন্ন "গ্রোভস" গঠন করে, তবে এটি বর্ধিত ("চেইন" টাইপ) ক্লাস্টারগুলির ক্ষেত্রে সমানভাবে ভাল কাজ করে।

উল্লেখ্য যে তাদের Sneath and Sokal (1973) বইয়ে সংক্ষেপে UPGMA এই পদ্ধতিটিকে গাণিতিক গড় ব্যবহার করে ওজনহীন জোড়া-গ্রুপ পদ্ধতি হিসেবে উল্লেখ করেছে।

ওয়েটেড পেয়ারওয়াইজ মানে।পদ্ধতিটি ওজনহীন পেয়ারওয়াইজ গড় পদ্ধতির সাথে অভিন্ন, ব্যতীত সংশ্লিষ্ট ক্লাস্টারের আকার (অর্থাৎ, তাদের মধ্যে থাকা বস্তুর সংখ্যা) গণনার একটি ওজনের ফ্যাক্টর হিসাবে ব্যবহৃত হয়।

অতএব, প্রস্তাবিত পদ্ধতিটি ব্যবহার করা উচিত (আগেরটির পরিবর্তে) যখন অসম ক্লাস্টার আকারগুলি ধরে নেওয়া হয়।

Sneath and Sokal (1973) সংক্ষিপ্ত রূপ WPGMA প্রবর্তন করে এই পদ্ধতিটিকে গাণিতিক গড় ব্যবহার করে ওজনযুক্ত জোড়া-গ্রুপ পদ্ধতি হিসাবে উল্লেখ করার জন্য।

ওজনহীন সেন্ট্রোয়েড পদ্ধতি। এই পদ্ধতিতে, দুটি ক্লাস্টারের মধ্যে দূরত্বকে তাদের মাধ্যাকর্ষণ কেন্দ্রের মধ্যে দূরত্ব হিসাবে সংজ্ঞায়িত করা হয়।

মনোযোগ!

Sneath and Sokal (1973) সংক্ষিপ্ত শব্দ UPGMC ব্যবহার করে এই পদ্ধতিটিকে সেন্ট্রোয়েড গড় ব্যবহার করে ওজনহীন জোড়া-গ্রুপ পদ্ধতি হিসাবে উল্লেখ করতে।

ওয়েটেড সেন্ট্রোয়েড পদ্ধতি (মাঝারি)। এই পদ্ধতিটি আগেরটির সাথে অভিন্ন, ব্যতীত যে ওজনগুলি গণনায় ব্যবহার করা হয় ক্লাস্টার আকারের (অর্থাৎ, তাদের মধ্যে থাকা বস্তুর সংখ্যা) মধ্যে পার্থক্য বিবেচনা করতে।

অতএব, যদি ক্লাস্টারের আকারে উল্লেখযোগ্য পার্থক্য থাকে (বা সন্দেহ হয়) তবে এই পদ্ধতিটি আগেরটির চেয়ে পছন্দনীয়।

Sneath and Sokal (1973) সংক্ষেপে WPGMC ব্যবহার করে এটিকে সেন্ট্রোয়েড গড় ব্যবহার করে ওজনযুক্ত জোড়া-গ্রুপ পদ্ধতি হিসেবে উল্লেখ করেছে।

ওয়ার্ড পদ্ধতি।এই পদ্ধতিটি অন্যান্য সমস্ত পদ্ধতি থেকে আলাদা কারণ এটি পদ্ধতি ব্যবহার করে বৈচিত্র্যের বিশ্লেষণক্লাস্টারগুলির মধ্যে দূরত্ব অনুমান করতে।

পদ্ধতিটি প্রতিটি ধাপে গঠিত হতে পারে এমন যেকোনো দুটি (অনুমানিক) ক্লাস্টারের জন্য বর্গক্ষেত্রের (SS) যোগফলকে ছোট করে।

বিস্তারিত ওয়ার্ডে পাওয়া যাবে (1963)। সাধারণভাবে, পদ্ধতিটি খুব কার্যকর বলে মনে হয়, তবে এটি ছোট ক্লাস্টার তৈরি করতে থাকে।

আগে এই পদ্ধতিটি "অবজেক্ট" এর পরিপ্রেক্ষিতে আলোচনা করা হয়েছিল যা ক্লাস্টার করা উচিত। অন্যান্য সমস্ত ধরণের বিশ্লেষণে, গবেষকের আগ্রহের প্রশ্নটি সাধারণত পর্যবেক্ষণ বা ভেরিয়েবলের পরিপ্রেক্ষিতে প্রকাশ করা হয়।

এটা দেখা যাচ্ছে যে ক্লাস্টারিং, উভয় পর্যবেক্ষণ এবং ভেরিয়েবল দ্বারা, বেশ আকর্ষণীয় ফলাফল হতে পারে।

উদাহরণস্বরূপ, কল্পনা করুন যে একজন চিকিৎসা গবেষক হৃদরোগে আক্রান্ত রোগীদের অবস্থার (পর্যবেক্ষণ) বিভিন্ন বৈশিষ্ট্যের (ভেরিয়েবল) তথ্য সংগ্রহ করছেন।

তদন্তকারী অনুরূপ উপসর্গ সহ রোগীদের ক্লাস্টার সনাক্ত করতে ক্লাস্টার পর্যবেক্ষণ (রোগীদের) করতে চান।

একই সময়ে, গবেষক একটি অনুরূপ শারীরিক অবস্থার সাথে যুক্ত ভেরিয়েবলের ক্লাস্টারগুলি সনাক্ত করতে ক্লাস্টার ভেরিয়েবলগুলি করতে ইচ্ছুক হতে পারেন।

ক্লাস্টার পর্যবেক্ষণ বা ভেরিয়েবল সম্পর্কে এই আলোচনার পরে, কেউ জিজ্ঞাসা করতে পারে, কেন উভয় দিকে ক্লাস্টার নয়?

ক্লাস্টার বিশ্লেষণ মডিউলে এটি করার জন্য একটি দক্ষ দ্বি-মুখী যোগদান পদ্ধতি রয়েছে।

যাইহোক, দ্বি-মুখী পুলিং ব্যবহার করা হয় (অপেক্ষাকৃতভাবে খুব কমই) এমন পরিস্থিতিতে যেখানে অর্থপূর্ণ ক্লাস্টার আবিষ্কারে একই সাথে পর্যবেক্ষণ এবং ভেরিয়েবল উভয়ই অবদান রাখবে বলে আশা করা হয়।

সুতরাং, পূর্ববর্তী উদাহরণে ফিরে আসা, আমরা অনুমান করতে পারি যে একজন চিকিৎসা গবেষককে রোগীদের ক্লাস্টার সনাক্ত করতে হবে যা শারীরিক অবস্থার বৈশিষ্ট্যগুলির নির্দিষ্ট ক্লাস্টারের সাথে মিল রয়েছে।

প্রাপ্ত ফলাফল ব্যাখ্যা করতে অসুবিধা এই সত্য থেকে উদ্ভূত হয় যে বিভিন্ন ক্লাস্টারের মধ্যে মিলগুলি ভেরিয়েবলের উপসেটের কিছু পার্থক্য থেকে (বা এর কারণ হতে পারে) হতে পারে।

অতএব, ফলস্বরূপ ক্লাস্টারগুলি সহজাতভাবে ভিন্নধর্মী। সম্ভবত এটি প্রথমে কিছুটা অস্পষ্ট মনে হয়; প্রকৃতপক্ষে, বর্ণিত অন্যান্য ক্লাস্টার বিশ্লেষণ পদ্ধতির তুলনায়, দ্বি-মুখী পুলিং সম্ভবত সবচেয়ে কম ব্যবহৃত পদ্ধতি।

যাইহোক, কিছু গবেষক বিশ্বাস করেন যে এটি অনুসন্ধানমূলক ডেটা বিশ্লেষণের জন্য একটি শক্তিশালী সরঞ্জাম সরবরাহ করে (আরো তথ্যের জন্য, এই পদ্ধতির হারটিগানের বর্ণনা দেখুন (হার্টিগান, 1975))।

K মানে পদ্ধতি

এই ক্লাস্টারিং পদ্ধতিটি ইউনিয়ন (ট্রি ক্লাস্টারিং) এবং টু-ওয়ে ইউনিয়নের মতো সমষ্টিগত পদ্ধতি থেকে উল্লেখযোগ্যভাবে পৃথক। ধরুন আপনার কাছে ইতিমধ্যেই ক্লাস্টারের সংখ্যা সম্পর্কে অনুমান রয়েছে (পর্যবেক্ষণ বা পরিবর্তনশীল দ্বারা)।

আপনি সিস্টেমটিকে ঠিক তিনটি ক্লাস্টার গঠন করতে বলতে পারেন যাতে তারা যতটা সম্ভব আলাদা হয়।

এটি ঠিক সেই ধরনের সমস্যা যা কে-মিন অ্যালগরিদম সমাধান করে। সাধারণভাবে, K-মান পদ্ধতিটি যথাসম্ভব দূরে ব্যবধানে ঠিক K স্বতন্ত্র ক্লাস্টার তৈরি করে।

শারীরিক অবস্থার উদাহরণে, একজন মেডিকেল গবেষক তাদের ক্লিনিকাল অভিজ্ঞতা থেকে একটি "কুবড়" থাকতে পারে যে তাদের রোগীরা সাধারণত তিনটি ভিন্ন বিভাগে পড়ে।

মনোযোগ!

যদি তাই হয়, তাহলে প্রতিটি ক্লাস্টারের জন্য ভৌত পরামিতিগুলির বিভিন্ন পরিমাপের উপায়গুলি তদন্তকারীর অনুমানের প্রতিনিধিত্ব করার একটি পরিমাণগত উপায় প্রদান করবে (যেমন, ক্লাস্টার 1-এর রোগীদের উচ্চ পরামিতি 1, একটি নিম্ন পরামিতি 2, ইত্যাদি)।

একটি গণনাগত দৃষ্টিকোণ থেকে, আপনি এই পদ্ধতিটিকে "বিপরীতভাবে" বৈচিত্র্যের বিশ্লেষণ হিসাবে ভাবতে পারেন। প্রোগ্রামটি এলোমেলোভাবে নির্বাচিত ক্লাস্টারগুলির সাথে শুরু হয় এবং তারপরে বস্তুর অন্তর্গত পরিবর্তন করে যাতে করে:

  1. ক্লাস্টারের মধ্যে পরিবর্তনশীলতা হ্রাস করুন,
  2. ক্লাস্টারগুলির মধ্যে পরিবর্তনশীলতা সর্বাধিক করুন।

এই পদ্ধতিটি ভিন্নতা (ANOVA) এর বিপরীত বিশ্লেষণের অনুরূপ যে ANOVA-তে তাৎপর্য পরীক্ষাটি অনুমান পরীক্ষা করার জন্য গ্রুপের মধ্যে-গোষ্ঠী বনাম অন্তর্গত পরিবর্তনশীলতার তুলনা করে যে গ্রুপ মানে একে অপরের থেকে আলাদা।

K- মানে ক্লাস্টারিং-এ, প্রোগ্রামটি বস্তুগুলিকে (অর্থাৎ, পর্যবেক্ষণ) এক দল (গুচ্ছ) থেকে অন্য দলে স্থানান্তরিত করে যাতে বৈচিত্র্যের বিশ্লেষণ (ANOVA) করার সময় সবচেয়ে উল্লেখযোগ্য ফলাফল পাওয়া যায়।

সাধারণত, একবার K- মানে ক্লাস্টার বিশ্লেষণের ফলাফল পাওয়া গেলে, ক্লাস্টারগুলি একে অপরের থেকে কীভাবে আলাদা তা মূল্যায়ন করতে প্রতিটি মাত্রার জন্য প্রতিটি ক্লাস্টারের জন্য উপায়গুলি গণনা করতে পারে।

আদর্শভাবে, বিশ্লেষণে ব্যবহৃত পরিমাপের বেশিরভাগের জন্য, যদি সব না হয়, আপনার জন্য খুব আলাদা উপায় পাওয়া উচিত।

সূত্র: http://www.biometrica.tomsk.ru/textbook/modules/stcluan.html

তাদের বৈশিষ্ট্য অনুযায়ী বস্তুর শ্রেণীবিভাগ

ক্লাস্টার বিশ্লেষণ (ক্লাস্টার বিশ্লেষণ) - বস্তুর বৈশিষ্ট্য অনুসারে শ্রেণীবদ্ধ করার জন্য বহুমাত্রিক পরিসংখ্যান পদ্ধতির একটি সেট, বস্তুর সামগ্রিকতাকে একজাতীয় গোষ্ঠীতে বিভক্ত করে যা সংজ্ঞায়িত মানদণ্ডের পরিপ্রেক্ষিতে কাছাকাছি থাকে, একটি নির্দিষ্ট গোষ্ঠীর বস্তু নির্বাচন করে।

একটি ক্লাস্টার হল বস্তুর একটি গ্রুপ যা বস্তুর মধ্যে মিল বা পার্থক্যের প্রদত্ত পরিমাপের ভিত্তিতে ক্লাস্টার বিশ্লেষণের ফলে চিহ্নিত করা হয়।

বস্তু হল অধ্যয়নের নির্দিষ্ট বিষয় যা শ্রেণীবদ্ধ করা প্রয়োজন। শ্রেণীবিভাগের বস্তুগুলি, একটি নিয়ম হিসাবে, পর্যবেক্ষণ। উদাহরণস্বরূপ, পণ্য, দেশ বা অঞ্চল, পণ্য ইত্যাদির ভোক্তা।

যদিও ভেরিয়েবল দ্বারা ক্লাস্টার বিশ্লেষণ করা সম্ভব। বহুমাত্রিক ক্লাস্টার বিশ্লেষণে বস্তুর শ্রেণিবিন্যাস একই সাথে বিভিন্ন মানদণ্ড অনুসারে ঘটে।

ক্লাস্টার বিশ্লেষণের পদ্ধতির উপর নির্ভর করে এগুলি পরিমাণগত এবং শ্রেণীগত ভেরিয়েবল উভয়ই হতে পারে। তাই, মূল উদ্দেশ্যক্লাস্টার বিশ্লেষণ - নমুনায় অনুরূপ বস্তুর গ্রুপ খুঁজে বের করা।

ক্লাস্টার বিশ্লেষণের বহুমাত্রিক পরিসংখ্যান পদ্ধতির সেটকে শ্রেণিবিন্যাস পদ্ধতি (সমষ্টিগত এবং বিভাজক) এবং অ-হায়ারার্কিক্যাল (কে-মানে পদ্ধতি, দ্বি-পর্যায় ক্লাস্টার বিশ্লেষণ) ভাগ করা যেতে পারে।

যাইহোক, পদ্ধতির কোন সাধারণত গৃহীত শ্রেণীবিভাগ নেই, এবং কখনও কখনও ক্লাস্টার বিশ্লেষণ পদ্ধতির মধ্যে সিদ্ধান্ত গাছ, নিউরাল নেটওয়ার্ক, বৈষম্যমূলক বিশ্লেষণ এবং লজিস্টিক রিগ্রেশন নির্মাণের পদ্ধতি অন্তর্ভুক্ত থাকে।

ক্লাস্টার বিশ্লেষণের সুযোগ, এর বহুমুখীতার কারণে, খুব বিস্তৃত। ক্লাস্টার বিশ্লেষণ অর্থনীতি, বিপণন, প্রত্নতত্ত্ব, ঔষধ, মনোবিজ্ঞান, রসায়ন, জীববিদ্যা, পাবলিক প্রশাসন, ফিলোলজি, নৃবিজ্ঞান, সমাজবিজ্ঞান এবং অন্যান্য ক্ষেত্র।

এখানে ক্লাস্টার বিশ্লেষণ প্রয়োগের কিছু উদাহরণ রয়েছে:

  • ঔষধ - রোগের শ্রেণীবিভাগ, তাদের উপসর্গ, চিকিত্সার পদ্ধতি, রোগীর গোষ্ঠীর শ্রেণীবিভাগ;
  • বিপণন - কোম্পানির পণ্য লাইন অপ্টিমাইজ করার কাজ, পণ্য বা ভোক্তাদের গ্রুপ দ্বারা বাজারকে বিভক্ত করা, একটি সম্ভাব্য ভোক্তা সনাক্তকরণ;
  • সমাজবিজ্ঞান - উত্তরদাতাদের সমজাতীয় গোষ্ঠীতে বিভাজন;
  • মনোচিকিৎসা - সফল থেরাপির জন্য লক্ষণ গোষ্ঠীর সঠিক নির্ণয় অত্যন্ত গুরুত্বপূর্ণ;
  • জীববিদ্যা - গ্রুপ দ্বারা জীবের শ্রেণীবিভাগ;
  • অর্থনীতি - বিনিয়োগের আকর্ষণ দ্বারা রাশিয়ান ফেডারেশনের বিষয়গুলির শ্রেণীবিভাগ।

সূত্র: http://www.statmethods.ru/konsalting/statistics-methody/121-klasternyj-analyz.html

ক্লাস্টার বিশ্লেষণ সম্পর্কে সাধারণ তথ্য

ক্লাস্টার বিশ্লেষণে বিভিন্ন শ্রেণিবিন্যাস অ্যালগরিদমের একটি সেট অন্তর্ভুক্ত থাকে। অনেক ক্ষেত্রে গবেষকদের দ্বারা জিজ্ঞাসিত একটি সাধারণ প্রশ্ন হল কীভাবে পর্যবেক্ষণ করা ডেটা ভিজ্যুয়াল স্ট্রাকচারে সংগঠিত করা যায়।

উদাহরণস্বরূপ, জীববিজ্ঞানীদের লক্ষ্য প্রাণীদের মধ্যে ভাঙা বিভিন্ন ধরনেরঅর্থপূর্ণভাবে তাদের মধ্যে পার্থক্য বর্ণনা করতে।

ক্লাস্টার বিশ্লেষণের কাজ হল বস্তুর প্রাথমিক সেটকে অনুরূপ, কাছাকাছি বস্তুর গ্রুপে ভাগ করা। এই দলগুলোকে ক্লাস্টার বলা হয়।

অন্য কথায়, ক্লাস্টার বিশ্লেষণ হল বস্তুর বৈশিষ্ট্য অনুসারে শ্রেণীবদ্ধ করার অন্যতম উপায়। এটা বাঞ্ছনীয় যে শ্রেণীবিভাগের ফলাফলের একটি অর্থপূর্ণ ব্যাখ্যা আছে।

ক্লাস্টার বিশ্লেষণ পদ্ধতি দ্বারা প্রাপ্ত ফলাফল বিভিন্ন ক্ষেত্রে ব্যবহৃত হয়। বিপণনে, এটি প্রতিযোগী এবং ভোক্তাদের বিভাজন।

সাইকিয়াট্রিতে, প্যারানইয়া, সিজোফ্রেনিয়া ইত্যাদি উপসর্গগুলির সঠিক নির্ণয় সফল থেরাপির জন্য অত্যন্ত গুরুত্বপূর্ণ।

ব্যবস্থাপনায়, সরবরাহকারীদের শ্রেণীবিভাগ গুরুত্বপূর্ণ, অনুরূপ উৎপাদন পরিস্থিতির সনাক্তকরণ যেখানে বিবাহ ঘটে। সমাজবিজ্ঞানে, উত্তরদাতাদের সমজাতীয় গোষ্ঠীতে বিভাজন। পোর্টফোলিও বিনিয়োগে, গ্রুপ করা গুরুত্বপূর্ণ সিকিউরিটিজলাভের প্রবণতার সাদৃশ্য দ্বারা, স্টক মার্কেট সম্পর্কে প্রাপ্ত তথ্যের উপর ভিত্তি করে, একটি সর্বোত্তম বিনিয়োগ পোর্টফোলিও যা একটি নির্দিষ্ট মাত্রার ঝুঁকির জন্য বিনিয়োগ থেকে সর্বাধিক মুনাফা অর্জনের অনুমতি দেয়।

সাধারণভাবে, যখনই এই ধরনের প্রচুর পরিমাণে তথ্য শ্রেণীবদ্ধ করা এবং পরবর্তী প্রক্রিয়াকরণের জন্য উপযোগী আকারে উপস্থাপন করার প্রয়োজন হয়, তখন ক্লাস্টার বিশ্লেষণ খুব দরকারী এবং কার্যকর হতে দেখা যায়।

ক্লাস্টার বিশ্লেষণ মোটামুটি বিপুল পরিমাণ তথ্য বিবেচনা করে এবং আর্থ-সামাজিক তথ্যের বৃহৎ অ্যারেকে কম্প্রেস করে, সেগুলোকে কম্প্যাক্ট এবং ভিজ্যুয়াল করে তোলে।

মনোযোগ!

ক্লাস্টার বিশ্লেষণ সময় সিরিজের বৈশিষ্ট্যের সেটের ক্ষেত্রে অত্যন্ত গুরুত্বপূর্ণ অর্থনৈতিক উন্নয়ন(উদাহরণস্বরূপ, সাধারণ অর্থনৈতিক এবং পণ্য সংযোগ)।

এখানে পিরিয়ডগুলিকে একক করা সম্ভব যখন সংশ্লিষ্ট সূচকগুলির মানগুলি বেশ কাছাকাছি ছিল, সেইসাথে সময় সিরিজের গোষ্ঠীগুলি নির্ধারণ করা, যার গতিশীলতা সবচেয়ে বেশি একই রকম।

আর্থ-সামাজিক পূর্বাভাসের সমস্যাগুলিতে, ক্লাস্টার বিশ্লেষণকে অন্যান্য পরিমাণগত পদ্ধতির সাথে একত্রিত করা খুব প্রতিশ্রুতিবদ্ধ (উদাহরণস্বরূপ, রিগ্রেশন বিশ্লেষণের সাথে)।

সুবিধাগুলি এবং অসুবিধাগুলি

ক্লাস্টার বিশ্লেষণ যেকোন বস্তুর একটি উদ্দেশ্যমূলক শ্রেণীবিভাগের জন্য অনুমতি দেয় যা বেশ কয়েকটি বৈশিষ্ট্য দ্বারা চিহ্নিত করা হয়। এটি থেকে প্রাপ্ত করার জন্য বেশ কয়েকটি সুবিধা রয়েছে:

  1. ফলস্বরূপ ক্লাস্টারগুলিকে ব্যাখ্যা করা যেতে পারে, অর্থাৎ, আসলে কী ধরনের গোষ্ঠী বিদ্যমান তা বর্ণনা করা।
  2. পৃথক ক্লাস্টার culled করা যেতে পারে. এটি এমন ক্ষেত্রে দরকারী যেখানে ডেটা সেটের সময় নির্দিষ্ট ত্রুটিগুলি করা হয়েছিল, যার ফলস্বরূপ পৃথক বস্তুর জন্য সূচকগুলির মানগুলি তীব্রভাবে বিচ্যুত হয়। ক্লাস্টার বিশ্লেষণ প্রয়োগ করার সময়, এই জাতীয় বস্তুগুলি একটি পৃথক ক্লাস্টারে পড়ে।
  3. আরও বিশ্লেষণের জন্য, শুধুমাত্র সেই ক্লাস্টারগুলিকে বেছে নেওয়া যেতে পারে যেগুলির আগ্রহের বৈশিষ্ট্য রয়েছে৷

অন্য যেকোনো পদ্ধতির মতো, ক্লাস্টার বিশ্লেষণের কিছু অসুবিধা এবং সীমাবদ্ধতা রয়েছে। বিশেষ করে, কম্পোজিশন এবং ক্লাস্টারের সংখ্যা নির্বাচিত পার্টিশনের মানদণ্ডের উপর নির্ভর করে।

প্রাথমিক ডেটা অ্যারেটিকে আরও কমপ্যাক্ট আকারে হ্রাস করার সময়, কিছু বিকৃতি ঘটতে পারে এবং ক্লাস্টার প্যারামিটারের সাধারণীকৃত মানগুলির বৈশিষ্ট্য দ্বারা প্রতিস্থাপনের কারণে পৃথক বস্তুর স্বতন্ত্র বৈশিষ্ট্যগুলিও হারিয়ে যেতে পারে।

পদ্ধতি

বর্তমানে, শতাধিক বিভিন্ন ক্লাস্টারিং অ্যালগরিদম পরিচিত। তাদের বৈচিত্র্য শুধুমাত্র বিভিন্ন গণনা পদ্ধতি দ্বারা নয়, ক্লাস্টারিংয়ের অন্তর্নিহিত বিভিন্ন ধারণা দ্বারাও ব্যাখ্যা করা হয়।

Statistica প্যাকেজ নিম্নলিখিত ক্লাস্টারিং পদ্ধতি প্রয়োগ করে।

  • শ্রেণিবিন্যাস অ্যালগরিদম - গাছের ক্লাস্টারিং। অনুক্রমিক ক্লাস্টারিংয়ের ধারণার উপর ভিত্তি করে শ্রেণিবদ্ধ অ্যালগরিদম। প্রাথমিক ধাপে, প্রতিটি বস্তুকে একটি পৃথক ক্লাস্টার হিসাবে বিবেচনা করা হয়। পরবর্তী ধাপে, একে অপরের নিকটতম কয়েকটি ক্লাস্টার একটি পৃথক ক্লাস্টারে একত্রিত হবে।
  • K- মানে পদ্ধতি। এই পদ্ধতি সবচেয়ে বেশি ব্যবহৃত হয়। এটি ক্লাস্টার বিশ্লেষণের তথাকথিত রেফারেন্স পদ্ধতির গ্রুপের অন্তর্গত। ক্লাস্টার K সংখ্যা ব্যবহারকারী দ্বারা সেট করা হয়.
  • দ্বিমুখী সমিতি। এই পদ্ধতিটি ব্যবহার করার সময়, ভেরিয়েবল (কলাম) এবং পর্যবেক্ষণের ফলাফল (সারি) উভয়ের মাধ্যমে ক্লাস্টারিং একই সাথে সঞ্চালিত হয়।

দ্বি-মুখী যোগদান পদ্ধতিটি সঞ্চালিত হয় যখন এটি আশা করা যায় যে ভেরিয়েবল এবং পর্যবেক্ষণে একযোগে ক্লাস্টারিং অর্থপূর্ণ ফলাফল প্রদান করবে।

পদ্ধতির ফলাফল হল ভেরিয়েবল এবং ক্ষেত্রে বর্ণনামূলক পরিসংখ্যান, সেইসাথে একটি দ্বি-মাত্রিক রঙের চার্ট যার উপর ডেটা মানগুলি রঙ-কোড করা হয়।

রঙের বন্টন দ্বারা, আপনি একজাতীয় গোষ্ঠীগুলির একটি ধারণা পেতে পারেন।

ভেরিয়েবলের স্বাভাবিকীকরণ

ক্লাস্টারে অবজেক্টের প্রাথমিক সেটের বিভাজন বস্তুর মধ্যে দূরত্বের গণনা এবং বস্তুর পছন্দের সাথে জড়িত, যার মধ্যে দূরত্বটি সম্ভাব্য সবথেকে ছোট।

সবচেয়ে বেশি ব্যবহৃত ইউক্লিডীয় (জ্যামিতিক) দূরত্ব আমাদের সবার কাছে পরিচিত। এই মেট্রিকটি মহাকাশে বস্তুর নৈকট্য সম্পর্কে স্বজ্ঞাত ধারণার সাথে মিলে যায় (যেন বস্তুর মধ্যে দূরত্ব একটি টেপ পরিমাপ দিয়ে পরিমাপ করা হয়)।

কিন্তু একটি প্রদত্ত মেট্রিকের জন্য, বস্তুর মধ্যে দূরত্ব স্কেল (পরিমাপের একক) পরিবর্তন দ্বারা দৃঢ়ভাবে প্রভাবিত হতে পারে। উদাহরণস্বরূপ, যদি একটি বৈশিষ্ট্য মিলিমিটারে পরিমাপ করা হয়, এবং তারপরে এর মান সেন্টিমিটারে রূপান্তরিত হয়, তবে বস্তুর মধ্যে ইউক্লিডীয় দূরত্ব নাটকীয়ভাবে পরিবর্তিত হবে। এটি এই সত্যের দিকে পরিচালিত করবে যে ক্লাস্টার বিশ্লেষণের ফলাফলগুলি পূর্ববর্তীগুলির থেকে উল্লেখযোগ্যভাবে পৃথক হতে পারে।

যদি ভেরিয়েবলগুলি পরিমাপের বিভিন্ন এককে পরিমাপ করা হয়, তবে তাদের প্রাথমিক স্বাভাবিককরণের প্রয়োজন হয়, অর্থাৎ, প্রাথমিক ডেটার রূপান্তর, যা তাদের মাত্রাহীন পরিমাণে রূপান্তর করে।

স্বাভাবিককরণ মূল স্থানের জ্যামিতিকে দৃঢ়ভাবে বিকৃত করে, যা ক্লাস্টারিংয়ের ফলাফল পরিবর্তন করতে পারে

পরিসংখ্যান প্যাকেজে, যেকোনো ভেরিয়েবল x সূত্র অনুযায়ী স্বাভাবিক করা হয়:

এটি করার জন্য, ভেরিয়েবল নামের উপর ডান-ক্লিক করুন এবং যে মেনুটি খুলবে সেখান থেকে কমান্ডের ক্রম নির্বাচন করুন: Fill/Standardize Block/Standardize Columns. নর্মালাইজড ভেরিয়েবলের মান শূন্যের সমান হয়ে যাবে এবং ভ্যারিয়েন্সগুলো একের সমান হয়ে যাবে।

পরিসংখ্যানে K- মানে পদ্ধতি

K-অর্থ পদ্ধতিটি একে অপরের থেকে যতটা সম্ভব বড় দূরত্বে অবস্থিত বিভিন্ন ক্লাস্টারের একটি নির্দিষ্ট সংখ্যা K-এ বস্তুর একটি সেটকে বিভক্ত করে।

সাধারণত, একবার K- মানে ক্লাস্টার বিশ্লেষণের ফলাফল পাওয়া গেলে, ক্লাস্টারগুলি একে অপরের থেকে কীভাবে আলাদা তা মূল্যায়ন করতে প্রতিটি মাত্রার জন্য প্রতিটি ক্লাস্টারের গড় গণনা করতে পারে।

আদর্শভাবে, বিশ্লেষণে ব্যবহৃত বেশিরভাগ পরিমাপের জন্য আপনার খুব আলাদা উপায় পাওয়া উচিত।

প্রতিটি মাত্রার জন্য প্রাপ্ত F- পরিসংখ্যান মানগুলি ক্লাস্টারগুলির মধ্যে সংশ্লিষ্ট মাত্রা কতটা ভালভাবে বৈষম্য করে তার আরেকটি সূচক।

একটি উদাহরণ হিসাবে, কর্মজীবনের মানের সূচকগুলির সাথে সন্তুষ্টির বিষয়ে একটি এন্টারপ্রাইজের 17 জন কর্মচারীর একটি সমীক্ষার ফলাফল বিবেচনা করুন। টেবিলটিতে দশ-পয়েন্ট স্কেলে প্রশ্নাবলীর প্রশ্নের উত্তর রয়েছে (1 হল সর্বনিম্ন স্কোর, 10 সর্বাধিক)।

পরিবর্তনশীল নামগুলি নিম্নলিখিত প্রশ্নের উত্তরগুলির সাথে মিলে যায়:

  1. এসএলটি - ব্যক্তিগত লক্ষ্য এবং সংস্থার লক্ষ্যগুলির সংমিশ্রণ;
  2. OSO - মজুরিতে ন্যায্যতার অনুভূতি;
  3. TBD - বাড়ির আঞ্চলিক নৈকট্য;
  4. PEW - অর্থনৈতিক মঙ্গল বোধ;
  5. সিআর - কর্মজীবন বৃদ্ধি;
  6. ZhSR - কাজ পরিবর্তন করার ইচ্ছা;
  7. OSB হল সামাজিক কল্যাণের অনুভূতি।

এই ডেটা ব্যবহার করে, কর্মীদের দলে বিভক্ত করা এবং তাদের প্রত্যেকের জন্য সবচেয়ে কার্যকর নিয়ন্ত্রণ লিভার নির্বাচন করা প্রয়োজন।

একই সময়ে, গ্রুপগুলির মধ্যে পার্থক্যগুলি সুস্পষ্ট হওয়া উচিত এবং গোষ্ঠীর মধ্যে, উত্তরদাতাদের যথাসম্ভব অনুরূপ হওয়া উচিত।

আজ অবধি, বেশিরভাগ সমাজতাত্ত্বিক সমীক্ষা শুধুমাত্র একটি শতাংশ ভোট দেয়: ইতিবাচক উত্তরগুলির প্রধান সংখ্যা বা যারা অসন্তুষ্ট তাদের শতাংশ বিবেচনা করা হয়, তবে এই সমস্যাটি পদ্ধতিগতভাবে বিবেচনা করা হয় না।

প্রায়শই, জরিপ পরিস্থিতির প্রবণতা দেখায় না। কিছু ক্ষেত্রে, "পক্ষে" বা "বিরুদ্ধে" এমন লোকের সংখ্যা গণনা করা প্রয়োজন নয়, তবে দূরত্ব বা সাদৃশ্যের পরিমাপ, অর্থাৎ, একই বিষয়ে চিন্তা করে এমন লোকেদের গোষ্ঠী নির্ধারণ করার জন্য।

ক্লাস্টার বিশ্লেষণ পদ্ধতিগুলি সমীক্ষার তথ্যের ভিত্তিতে, বৈশিষ্ট্যগুলির কিছু সত্যিই বিদ্যমান সম্পর্ক সনাক্ত করতে এবং এই ভিত্তিতে তাদের টাইপোলজি তৈরি করতে ব্যবহার করা যেতে পারে।

মনোযোগ!

ক্লাস্টার বিশ্লেষণ পদ্ধতির সাথে কাজ করার সময় একজন সমাজবিজ্ঞানীর কোনো অগ্রাধিকার অনুমানের উপস্থিতি একটি প্রয়োজনীয় শর্ত নয়।

পরিসংখ্যান প্রোগ্রামে, ক্লাস্টার বিশ্লেষণ নিম্নরূপ সঞ্চালিত হয়।

ক্লাস্টারের সংখ্যা নির্বাচন করার সময়, নিম্নলিখিত দ্বারা পরিচালিত হন: ক্লাস্টারের সংখ্যা, যদি সম্ভব হয়, খুব বেশি হওয়া উচিত নয়।

প্রদত্ত ক্লাস্টারের বস্তুগুলি যে দূরত্বে যুক্ত হয়েছিল, যদি সম্ভব হয়, অন্য কিছু এই ক্লাস্টারে যুক্ত হওয়া দূরত্ব থেকে অনেক কম হওয়া উচিত।

ক্লাস্টারের সংখ্যা নির্বাচন করার সময়, প্রায়শই একই সময়ে বেশ কয়েকটি সঠিক সমাধান থাকে।

আমরা আগ্রহী, উদাহরণস্বরূপ, প্রশ্নাবলীর প্রশ্নের উত্তরগুলি কীভাবে সাধারণ কর্মচারী এবং এন্টারপ্রাইজের ব্যবস্থাপনার সাথে সম্পর্কযুক্ত। অতএব, আমরা K=2 নির্বাচন করি। আরও বিভাজন করার জন্য, আপনি ক্লাস্টারের সংখ্যা বাড়াতে পারেন।

  1. ক্লাস্টার কেন্দ্রগুলির মধ্যে সর্বাধিক দূরত্ব সহ পর্যবেক্ষণ নির্বাচন করুন;
  2. দূরত্ব বাছাই এবং নিয়মিত বিরতিতে পর্যবেক্ষণ নির্বাচন করুন (ডিফল্ট সেটিং);
  3. প্রথম পর্যবেক্ষণ কেন্দ্রগুলি নিন এবং বাকি বস্তুগুলিকে তাদের সাথে সংযুক্ত করুন।

বিকল্প 1 আমাদের উদ্দেশ্যে উপযুক্ত।

অনেক ক্লাস্টারিং অ্যালগরিদম প্রায়ই এমন একটি কাঠামো "চাপিয়ে দেয়" যা ডেটার অন্তর্নিহিত নয় এবং গবেষককে বিভ্রান্ত করে। অতএব, বেশ কয়েকটি ক্লাস্টার বিশ্লেষণ অ্যালগরিদম প্রয়োগ করা এবং এর উপর ভিত্তি করে সিদ্ধান্তগুলি আঁকতে অত্যন্ত প্রয়োজনীয় সামগ্রিক মূল্যায়নঅ্যালগরিদম ফলাফল

বিশ্লেষণের ফলাফল প্রদর্শিত ডায়ালগ বক্সে দেখা যেতে পারে:

আপনি যদি গ্রাফ অফ মানে ট্যাব নির্বাচন করেন, ক্লাস্টার কেন্দ্রগুলির স্থানাঙ্কগুলির একটি গ্রাফ প্লট করা হবে:


এই গ্রাফের প্রতিটি ভাঙা লাইন ক্লাস্টারগুলির একটির সাথে মিলে যায়। গ্রাফের অনুভূমিক অক্ষের প্রতিটি বিভাগ বিশ্লেষণে অন্তর্ভুক্ত ভেরিয়েবলগুলির একটির সাথে মিলে যায়।

উল্লম্ব অক্ষ প্রতিটি ক্লাস্টারে অন্তর্ভুক্ত বস্তুর জন্য ভেরিয়েবলের গড় মানের সাথে মিলে যায়।

এটি লক্ষ করা যেতে পারে যে প্রায় সমস্ত বিষয়ে পরিষেবা ক্যারিয়ারের প্রতি মানুষের দুটি গ্রুপের মনোভাবের মধ্যে উল্লেখযোগ্য পার্থক্য রয়েছে। শুধুমাত্র একটি ইস্যুতে সম্পূর্ণ ঐক্যবদ্ধতা রয়েছে - সামাজিক কল্যাণের অর্থে (OSB), বা বরং, এর অভাব (10 এর মধ্যে 2.5 পয়েন্ট)।

এটা অনুমান করা যেতে পারে যে ক্লাস্টার 1 কর্মীদের প্রতিনিধিত্ব করে এবং ক্লাস্টার 2 ব্যবস্থাপনাকে প্রতিনিধিত্ব করে। ম্যানেজাররা ক্যারিয়ার ডেভেলপমেন্ট (CR), ব্যক্তিগত লক্ষ্য এবং সাংগঠনিক লক্ষ্য (SOLs) এর সমন্বয়ে বেশি সন্তুষ্ট।

তাদের অর্থনৈতিক মঙ্গল (SEW) এবং বেতন ইক্যুইটি (SWA) এর উচ্চতর অনুভূতি রয়েছে।

তারা শ্রমিকদের তুলনায় বাড়ির নৈকট্য সম্পর্কে কম উদ্বিগ্ন, সম্ভবত কম পরিবহন সমস্যার কারণে। এছাড়াও, পরিচালকদের চাকরি পরিবর্তন করার ইচ্ছা কম থাকে (JSR)।

কর্মীদের দুটি বিভাগে বিভক্ত হওয়া সত্ত্বেও, তারা বেশিরভাগ প্রশ্নের তুলনামূলকভাবে একই উত্তর দেয়। অন্য কথায়, যদি কিছু কর্মচারীদের সাধারণ গোষ্ঠীর সাথে মানানসই না হয়, তবে এটি সিনিয়র ম্যানেজমেন্টের জন্য উপযুক্ত নয় এবং এর বিপরীতে।

গ্রাফগুলির সমন্বয় আমাদের এই উপসংহারে পৌঁছাতে দেয় যে এক গোষ্ঠীর মঙ্গল অন্য গোষ্ঠীর মঙ্গলের মধ্যে প্রতিফলিত হয়।

ক্লাস্টার 1 বাড়ির আঞ্চলিক নৈকট্য নিয়ে সন্তুষ্ট নয়। এই গ্রুপটি মূলত শহরের বিভিন্ন প্রান্ত থেকে এন্টারপ্রাইজে আসা শ্রমিকদের প্রধান অংশ।

অতএব, এন্টারপ্রাইজের কর্মচারীদের জন্য আবাসন নির্মাণে লাভের অংশ বরাদ্দ করার জন্য শীর্ষ ব্যবস্থাপনাকে অফার করা সম্ভব।

একটি পরিষেবা কর্মজীবনের মানুষের দুটি গ্রুপের মনোভাবের মধ্যে উল্লেখযোগ্য পার্থক্য দেখা যায়। যে কর্মচারীরা কর্মজীবনের বৃদ্ধিতে সন্তুষ্ট, যাদের ব্যক্তিগত লক্ষ্য এবং সংস্থার লক্ষ্যগুলির উচ্চ কাকতালীয়তা রয়েছে, তাদের চাকরি পরিবর্তন করার ইচ্ছা নেই এবং তাদের কাজের ফলাফল নিয়ে সন্তুষ্টি বোধ করেন।

বিপরীতভাবে, যে কর্মচারীরা চাকরি পরিবর্তন করতে চায় এবং তাদের কাজের ফলাফল নিয়ে অসন্তুষ্ট তারা উপরের সূচকগুলির সাথে সন্তুষ্ট নয়। শীর্ষ ব্যবস্থাপনা উচিত বিশেষ মনোযোগবর্তমান পরিস্থিতিতে।

প্রতিটি অ্যাট্রিবিউটের জন্য বৈচিত্র্যের বিশ্লেষণের ফলাফলগুলি পরিবর্তনের বিশ্লেষণ বোতাম টিপে প্রদর্শিত হয়।

ক্লাস্টার কেন্দ্র (SS এর মধ্যে) থেকে বস্তুর বিচ্যুতির বর্গক্ষেত্রের যোগফল এবং ক্লাস্টার কেন্দ্রগুলির মধ্যে বিচ্যুতির বর্গক্ষেত্রের যোগফল (SS এর মধ্যে), F- পরিসংখ্যানের মান এবং p তাৎপর্য স্তরগুলি প্রদর্শিত হয়।

মনোযোগ!

আমাদের উদাহরণের জন্য, দুটি ভেরিয়েবলের তাৎপর্যের মাত্রা বেশ বড়, যা অল্প সংখ্যক পর্যবেক্ষণ দ্বারা ব্যাখ্যা করা হয়েছে। অধ্যয়নের সম্পূর্ণ সংস্করণে, যা কাজের মধ্যে পাওয়া যায়, ক্লাস্টার কেন্দ্রগুলির জন্য উপায়গুলির সমতা সম্পর্কে অনুমানগুলি 0.01 এর কম তাত্পর্য স্তরে প্রত্যাখ্যান করা হয়।

শ্রেণীবিভাগ এবং দূরত্ব সংরক্ষণ করুন বোতামটি প্রতিটি ক্লাস্টারে অন্তর্ভুক্ত বস্তুর সংখ্যা এবং প্রতিটি ক্লাস্টারের কেন্দ্রে বস্তুর দূরত্ব প্রদর্শন করে।

টেবিলটি কেস নম্বরগুলি (CASE_NO) দেখায় যা CLUSTER সংখ্যা সহ ক্লাস্টারগুলি তৈরি করে এবং প্রতিটি ক্লাস্টারের কেন্দ্র থেকে দূরত্ব (DISTANCE)।

ক্লাস্টারগুলির অন্তর্গত বস্তু সম্পর্কে তথ্য একটি ফাইলে লেখা যেতে পারে এবং আরও বিশ্লেষণে ব্যবহার করা যেতে পারে। AT এই উদাহরণপ্রশ্নাবলীর সাথে প্রাপ্ত ফলাফলের তুলনা দেখায় যে ক্লাস্টার 1 প্রধানত সাধারণ কর্মী এবং ক্লাস্টার 2 - ম্যানেজারদের নিয়ে গঠিত।

এইভাবে, এটি দেখা যায় যে সমীক্ষার ফলাফলগুলি প্রক্রিয়া করার সময়, ক্লাস্টার বিশ্লেষণ একটি শক্তিশালী পদ্ধতি হিসাবে পরিণত হয়েছিল যা গড় হিস্টোগ্রাম তৈরি করে বা বিভিন্ন সূচকের সাথে সন্তুষ্টদের শতাংশ গণনা করে এমন সিদ্ধান্তে পৌঁছানো যায় না। কাজের জীবনের মান।

ট্রি ক্লাস্টারিং হল একটি শ্রেণীবদ্ধ অ্যালগরিদমের একটি উদাহরণ, যার নীতি হল ক্রমানুসারে প্রথমে নিকটতম এবং তারপর একে অপরের থেকে আরও বেশি দূরবর্তী উপাদানগুলিকে একটি ক্লাস্টারে পরিণত করা।

এই অ্যালগরিদমগুলির বেশিরভাগই মিল (দূরত্ব) এর ম্যাট্রিক্স থেকে শুরু হয় এবং প্রতিটি পৃথক উপাদান প্রথমে একটি পৃথক ক্লাস্টার হিসাবে বিবেচিত হয়।

ক্লাস্টার বিশ্লেষণ মডিউল লোড করার পরে এবং জয়েনিং (ট্রি ক্লাস্টারিং) নির্বাচন করার পরে, আপনি ক্লাস্টারিং প্যারামিটার এন্ট্রি উইন্ডোতে নিম্নলিখিত পরামিতিগুলি পরিবর্তন করতে পারেন:

  • প্রাথমিক তথ্য (ইনপুট)। এগুলি অধ্যয়ন করা ডেটার ম্যাট্রিক্স (Raw data) এবং দূরত্বের ম্যাট্রিক্স (দূরত্ব ম্যাট্রিক্স) আকারে হতে পারে।
  • ক্লাস্টারিং (ক্লাস্টার) পর্যবেক্ষণ (কেস (কাঁচা)) বা ভেরিয়েবল (ভেরিয়েবল (কলাম)), বস্তুর অবস্থা বর্ণনা করে।
  • দূরত্বের পরিমাপ। এখানে আপনি নিম্নলিখিত ব্যবস্থাগুলি নির্বাচন করতে পারেন: ইউক্লিডীয় দূরত্ব, বর্গাকার ইউক্লিডীয় দূরত্ব, সিটি-ব্লক (ম্যানহাটান) দূরত্ব, চেবিচেভ দূরত্ব মেট্রিক, পাওয়ার ...), অসম্মতির শতাংশ (শতাংশ মতানৈক্য)।
  • ক্লাস্টারিং পদ্ধতি (একত্রিতকরণ (সংযোগ) নিয়ম)। নিম্নলিখিত বিকল্পগুলি এখানে সম্ভব: একক সংযোগ, সম্পূর্ণ লিঙ্কেজ, ওজনহীন জোড়া-গ্রুপ গড়, ওজনহীন জোড়া-গ্রুপ গড় ), ওজনহীন জোড়া-গ্রুপ সেন্ট্রোয়েড, ওয়েটেড পেয়ার-গ্রুপ সেন্ট্রোয়েড (মিডিয়ান), ওয়ার্ডের পদ্ধতি।

ক্লাস্টারিংয়ের ফলস্বরূপ, একটি অনুভূমিক বা উল্লম্ব ডেনড্রোগ্রাম তৈরি করা হয় - একটি গ্রাফ যার উপর বস্তু এবং ক্লাস্টারগুলির মধ্যে দূরত্ব নির্ধারণ করা হয় যখন তারা ক্রমিকভাবে একত্রিত হয়।

গ্রাফের গাছের গঠন আপনাকে নির্বাচিত থ্রেশহোল্ডের উপর নির্ভর করে ক্লাস্টারগুলি সংজ্ঞায়িত করতে দেয় - ক্লাস্টারগুলির মধ্যে একটি প্রদত্ত দূরত্ব।

উপরন্তু, মূল বস্তুর মধ্যে দূরত্বের ম্যাট্রিক্স (দূরত্ব ম্যাট্রিক্স) প্রদর্শিত হয়; প্রতিটি উৎস বস্তুর জন্য গড় এবং আদর্শ বিচ্যুতি (ডিস্টিপ্টিভ পরিসংখ্যান)।

বিবেচিত উদাহরণের জন্য, আমরা ডিফল্ট সেটিংস সহ ভেরিয়েবলগুলির একটি ক্লাস্টার বিশ্লেষণ করব। ফলস্বরূপ ডেনড্রোগ্রাম চিত্রটিতে দেখানো হয়েছে।


ডেনড্রোগ্রামের উল্লম্ব অক্ষ বস্তুর মধ্যে এবং বস্তু এবং ক্লাস্টারগুলির মধ্যে দূরত্ব প্লট করে। সুতরাং, SEB এবং OSD ভেরিয়েবলের মধ্যে দূরত্ব পাঁচটির সমান। প্রথম ধাপে এই ভেরিয়েবলগুলিকে একটি ক্লাস্টারে একত্রিত করা হয়।

ডেনড্রোগ্রামের অনুভূমিক অংশগুলি একটি প্রদত্ত ক্লাস্টারিং ধাপের জন্য নির্বাচিত প্রান্তিক দূরত্বের সাথে সম্পর্কিত স্তরে আঁকা হয়।

এটি গ্রাফ থেকে দেখা যায় যে "চাকরি পরিবর্তন করার ইচ্ছা" (JSR) প্রশ্নটি একটি পৃথক ক্লাস্টার গঠন করে। সাধারণভাবে, যে কোনও জায়গায় ডাম্প করার ইচ্ছা সবাইকে সমানভাবে পরিদর্শন করে। আরও, একটি পৃথক ক্লাস্টার হল বাড়ির আঞ্চলিক নৈকট্যের প্রশ্ন (LHB)৷

গুরুত্বের দিক থেকে, এটি দ্বিতীয় স্থানে রয়েছে, যা কে-মান পদ্ধতি ব্যবহার করে গবেষণার ফলাফল অনুসারে তৈরি আবাসন নির্মাণের প্রয়োজনীয়তা সম্পর্কে উপসংহার নিশ্চিত করে।

অর্থনৈতিক সুস্থতার অনুভূতি (PEW) এবং পে ইক্যুইটি (PWA) একত্রিত হয় - এটি অর্থনৈতিক সমস্যাগুলির একটি ব্লক। ক্যারিয়ারের অগ্রগতি (CR) এবং ব্যক্তিগত লক্ষ্য এবং সংস্থার লক্ষ্য (COL) এর সমন্বয়ও মিলিত হয়।

অন্যান্য ক্লাস্টারিং পদ্ধতি, সেইসাথে অন্যান্য ধরণের দূরত্বের পছন্দ, ডেনড্রোগ্রামে উল্লেখযোগ্য পরিবর্তন ঘটায় না।

ফলাফল:

  1. ক্লাস্টার বিশ্লেষণ হ'ল যে কোনও বিষয়ের ক্ষেত্রে অনুসন্ধানমূলক ডেটা বিশ্লেষণ এবং পরিসংখ্যানগত গবেষণার জন্য একটি শক্তিশালী হাতিয়ার।
  2. স্ট্যাটিসটিকা প্রোগ্রাম ক্লাস্টার বিশ্লেষণের উভয় শ্রেণিবিন্যাস এবং কাঠামোগত পদ্ধতি প্রয়োগ করে। এই পরিসংখ্যানগত প্যাকেজের সুবিধাগুলি তাদের গ্রাফিকাল ক্ষমতার কারণে। অধ্যয়ন করা ভেরিয়েবলের স্পেসে প্রাপ্ত ক্লাস্টারগুলির দ্বি-মাত্রিক এবং ত্রি-মাত্রিক গ্রাফিকাল উপস্থাপনা প্রদান করা হয়, সেইসাথে বস্তুগুলিকে গোষ্ঠীবদ্ধ করার জন্য শ্রেণিবদ্ধ পদ্ধতির ফলাফল।
  3. বেশ কয়েকটি ক্লাস্টার বিশ্লেষণ অ্যালগরিদম প্রয়োগ করা এবং অ্যালগরিদমগুলির ফলাফলগুলির একটি সাধারণ মূল্যায়নের উপর ভিত্তি করে সিদ্ধান্তগুলি আঁকতে হবে।
  4. ক্লাস্টার বিশ্লেষণ সফল বলে বিবেচিত হতে পারে যদি এটি বিভিন্ন উপায়ে সঞ্চালিত হয়, ফলাফল তুলনা করা হয় এবং পাওয়া যায় সাধারণ নিদর্শন, এবং ক্লাস্টারিং পদ্ধতি নির্বিশেষে স্থিতিশীল ক্লাস্টার পাওয়া যায়।
  5. ক্লাস্টার বিশ্লেষণ আপনাকে সমস্যার পরিস্থিতি সনাক্ত করতে এবং সেগুলি সমাধানের উপায়গুলিকে রূপরেখা করতে দেয়। অতএব, নন-প্যারামেট্রিক পরিসংখ্যানের এই পদ্ধতিটিকে সিস্টেম বিশ্লেষণের একটি অবিচ্ছেদ্য অংশ হিসাবে বিবেচনা করা যেতে পারে।

গত বছর, অ্যাভিটো বেশ কয়েকটি প্রতিযোগিতার আয়োজন করেছিল। সহ - গাড়ির ব্র্যান্ডগুলিকে স্বীকৃতি দেওয়ার জন্য একটি প্রতিযোগিতা, যার বিজয়ী, ইভজেনি নিজিবিটস্কি একটি প্রশিক্ষণ সেশনে তার সিদ্ধান্তের কথা বলেছিলেন।


সমস্যা প্রণয়ন. গাড়ির ছবি থেকে, আপনাকে মেক এবং মডেল নির্ধারণ করতে হবে। মেট্রিক ছিল ভবিষ্যদ্বাণীর যথার্থতা, অর্থাৎ সঠিক উত্তরের অনুপাত। নমুনাটি তিনটি অংশ নিয়ে গঠিত: প্রথম অংশটি প্রাথমিকভাবে প্রশিক্ষণের জন্য উপলব্ধ ছিল, দ্বিতীয়টি পরে দেওয়া হয়েছিল, এবং তৃতীয়টি চূড়ান্ত ভবিষ্যদ্বাণী দেখানোর জন্য প্রয়োজনীয় ছিল।


কম্পিউটিং সংস্থান. আমি হোম কম্পিউটার ব্যবহার করি যা আমার ঘরকে সর্বদা উষ্ণ রাখে এবং কর্মক্ষেত্রে সার্ভার সরবরাহ করে।

মডেল ওভারভিউ. যেহেতু আমাদের কাজ হল স্বীকৃতি দেওয়া, আমরা প্রথমেই যা করতে চাই তা হল সুপরিচিত ইমেজনেটে ​​চিত্র শ্রেণীবিভাগের গুণমান স্তরের অগ্রগতির সুবিধা নেওয়া। আপনি জানেন যে, আধুনিক স্থাপত্যগুলি একজন ব্যক্তির তুলনায় এমনকি উচ্চ মানের অর্জন করা সম্ভব করে তোলে। অতএব, আমি সাম্প্রতিক নিবন্ধগুলি পর্যালোচনা করে শুরু করেছি এবং ImageNet-এর উপর ভিত্তি করে আর্কিটেকচার, বাস্তবায়ন এবং গুণাবলীর একটি সারাংশ সারণী একত্রিত করেছি।


নোট করুন যে নাই ভাল জিনিসআর্কিটেকচারে অর্জিত এবং

ফাইন-টিউনিং নেটওয়ার্ক. স্ক্র্যাচ থেকে একটি গভীর নিউরাল নেটওয়ার্ককে প্রশিক্ষণ দেওয়া একটি বরং সময়সাপেক্ষ কাজ, এবং উপরন্তু, ফলাফলের ক্ষেত্রে এটি সবসময় কার্যকর হয় না। অতএব, নেটওয়ার্কগুলিকে পুনরায় প্রশিক্ষণ দেওয়ার কৌশলটি প্রায়শই ব্যবহৃত হয়: ইমেজনেটে ​​ইতিমধ্যে প্রশিক্ষিত একটি নেটওয়ার্ক নেওয়া হয়, শেষ স্তরটি প্রয়োজনীয় সংখ্যক ক্লাস সহ একটি স্তর দিয়ে প্রতিস্থাপিত হয় এবং তারপরে নেটওয়ার্কটি কম শেখার হারের সাথে টিউন করা হয়, তবে ইতিমধ্যে চালু রয়েছে। প্রতিযোগিতা থেকে তথ্য। এই স্কিমটি আপনাকে দ্রুত এবং উচ্চ মানের সাথে নেটওয়ার্ক প্রশিক্ষণের অনুমতি দেয়।

GoogLeNet পুনরায় প্রশিক্ষণের প্রথম পদ্ধতিটি বৈধকরণের সময় প্রায় 92% নির্ভুলতা দেখিয়েছিল।

ফসলের পূর্বাভাস. একটি পরীক্ষা নমুনা উপর ভবিষ্যদ্বাণী করার জন্য একটি নিউরাল নেটওয়ার্ক ব্যবহার করে, আপনি গুণমান উন্নত করতে পারেন। এটি করার জন্য, একটি উপযুক্ত আকারের টুকরা কেটে নিন বিভিন্ন জায়গায়আসল চিত্র, এবং তারপর ফলাফল গড়। একটি 1x10 ক্রপ মানে চিত্রটির কেন্দ্রটি নেওয়া হয়েছে, চারটি কোণে, এবং তারপরে সবকিছু একই, তবে অনুভূমিকভাবে প্রতিফলিত হয়। আপনি দেখতে পাচ্ছেন, গুণমান বৃদ্ধি পায়, তবে পূর্বাভাসের সময় বৃদ্ধি পায়।

ফলাফলের বৈধতা. নমুনার দ্বিতীয় অংশটি উপস্থিত হওয়ার পরে, আমি নমুনাটিকে কয়েকটি অংশে বিভক্ত করেছি। এই পার্টিশনে আরও সমস্ত ফলাফল দেখানো হয়েছে।

ResNet-34 টর্চ. আপনি আর্কিটেকচারের লেখকদের তৈরি সংগ্রহস্থল ব্যবহার করতে পারেন, তবে পছন্দসই বিন্যাসে পরীক্ষায় ভবিষ্যদ্বাণী পেতে, আপনাকে কিছু স্ক্রিপ্ট ঠিক করতে হবে। উপরন্তু, আপনি ডাম্প দ্বারা উচ্চ মেমরি খরচ সমস্যা সমাধান করতে হবে। বৈধতা নির্ভুলতা প্রায় 95%।


ইনসেপশন-v3 টেনসরফ্লো. এখানেও, একটি রেডিমেড ইমপ্লিমেন্টেশন ব্যবহার করা হয়েছিল, কিন্তু ইমেজ প্রিপ্রসেসিং পরিবর্তন করা হয়েছিল, এবং ব্যাচ জেনারেশনের সময় ইমেজ ক্রপ করাও সীমিত ছিল। ফলাফল প্রায় 96% নির্ভুলতা।


মডেলের সমাহার. ফলস্বরূপ, আমরা দুটি ResNet মডেল এবং দুটি Inception-v3 মডেল পেয়েছি। মডেল মেশানো দ্বারা কি বৈধতা গুণমান পাওয়া যেতে পারে? জ্যামিতিক গড় ব্যবহার করে ক্লাসের সম্ভাবনাগুলি গড় করা হয়েছিল। ওজন (ইন এই ক্ষেত্রে- ডিগ্রী) একটি বিলম্বিত নমুনাতে নির্বাচিত হয়েছিল।


ফলাফল. GTX 980-এ ResNet প্রশিক্ষণ 60 ঘন্টা এবং TitanX-এ Inception-v3 48 ঘন্টা সময় নেয়। প্রতিযোগিতা চলাকালীন, আমরা নতুন আর্কিটেকচারের সাথে নতুন কাঠামো চেষ্টা করতে পেরেছি।


ব্যাংক গ্রাহকদের শ্রেণীবদ্ধ করার কাজ

Kaggle লিঙ্ক.

স্ট্যানিস্লাভ সেমিওনভ বলেছেন যে কীভাবে তিনি এবং কাগলের শীর্ষস্থানীয় অন্যান্য সদস্যরা একটি বড় ব্যাঙ্কের গ্রাহকদের কাছ থেকে অর্ডার শ্রেণীবদ্ধ করার প্রতিযোগিতায় একটি পুরষ্কার জিতেছিলেন - BNP পারিবাস৷


সমস্যা প্রণয়ন. বীমা দাবির অস্পষ্ট তথ্য থেকে অনুমান করা দরকার যে দাবিটি অতিরিক্ত ম্যানুয়াল চেক ছাড়াই অনুমোদিত হতে পারে কিনা। একটি ব্যাঙ্কের জন্য, এটি অ্যাপ্লিকেশনগুলির প্রক্রিয়াকরণকে স্বয়ংক্রিয় করার প্রক্রিয়া, এবং ডেটা বিশ্লেষকদের জন্য, এটি কেবল বাইনারি শ্রেণিবিন্যাসের উপর মেশিন লার্নিংয়ের একটি কাজ। প্রায় 230 হাজার বস্তু এবং 130 টি বৈশিষ্ট্য রয়েছে। মেট্রিক হল LogLoss. এটা লক্ষণীয় যে বিজয়ী দল ডেটার পাঠোদ্ধার করেছে, যা তাদের প্রতিযোগিতায় জয়ী হতে সাহায্য করেছে।

বৈশিষ্ট্য কৃত্রিম গোলমাল পরিত্রাণ পাওয়া. প্রথম ধাপ হল ডাটা দেখা। সঙ্গে সঙ্গে কিছু জিনিস মাথায় আসে। প্রথমত, সমস্ত বৈশিষ্ট্য 0 থেকে 20 পর্যন্ত মান নেয়। দ্বিতীয়ত, আপনি যদি কোনও বৈশিষ্ট্যের বিতরণের দিকে তাকান তবে আপনি নিম্নলিখিত চিত্রটি দেখতে পাবেন:

তা কেন? আসল বিষয়টি হ'ল বেনামী এবং শোরগোল ডেটার পর্যায়ে, সমস্ত মানগুলিতে এলোমেলো শব্দ যোগ করা হয়েছিল এবং তারপরে 0 থেকে 20 পর্যন্ত একটি সেগমেন্ট দ্বারা স্কেলিং করা হয়েছিল৷ বিপরীত রূপান্তরটি দুটি ধাপে সম্পাদিত হয়েছিল: প্রথমত, মানগুলি একটি নির্দিষ্ট দশমিক স্থানে বৃত্তাকার ছিল, এবং তারপর হর। বিভক্ত হওয়ার সময় গাছটি এখনও থ্রেশহোল্ড বাছাই করলে কি এটির প্রয়োজন ছিল? হ্যাঁ, বিপরীত রূপান্তরের পরে, ভেরিয়েবলের পার্থক্যগুলি আরও অর্থবোধক হতে শুরু করে এবং শ্রেণীগত ভেরিয়েবলের জন্য, এক-হট কোডিং পরিচালনা করা সম্ভব হয়।

রৈখিক নির্ভরশীল বৈশিষ্ট্য অপসারণ. আমরা আরও লক্ষ্য করেছি যে কিছু লক্ষণ অন্যের যোগফল। এটা স্পষ্ট যে তাদের প্রয়োজন নেই। বৈশিষ্ট্যগুলির উপসেটগুলি নির্ধারণের জন্য নেওয়া হয়েছিল। এই ধরনের উপসেটগুলিতে, অন্য কিছু পরিবর্তনশীল ভবিষ্যদ্বাণী করার জন্য একটি রিগ্রেশন তৈরি করা হয়েছিল। এবং যদি ভবিষ্যদ্বাণী করা মানগুলি সত্যগুলির কাছাকাছি ছিল (এটি কৃত্রিম শব্দ বিবেচনা করা উচিত), তবে বৈশিষ্ট্যটি সরানো যেতে পারে। কিন্তু দলটি এটি নিয়ে মাথা ঘামায়নি এবং ফিল্টার করা বৈশিষ্ট্যগুলির একটি প্রস্তুত সেট ব্যবহার করেছে। সেটটি অন্য কেউ প্রস্তুত করেছিল। কাগলের বৈশিষ্ট্যগুলির মধ্যে একটি হল একটি ফোরাম এবং সর্বজনীন সমাধানের উপস্থিতি, যার মাধ্যমে অংশগ্রহণকারীরা তাদের ফলাফলগুলি ভাগ করে নেয়।

কিভাবে বুঝবেন কি ব্যবহার করবেন?একটি ছোট হ্যাক আছে. ধরা যাক আপনি জানেন যে একটি পুরানো প্রতিযোগিতায় কেউ এমন কিছু কৌশল ব্যবহার করেছিল যা তাদের উচ্চ স্থান পেতে সাহায্য করেছিল (ফোরামে তারা সাধারণত লেখে সংক্ষিপ্ত সমাধান) যদি বর্তমান প্রতিযোগিতায় এই অংশগ্রহণকারী আবার নেতাদের মধ্যে থাকে, সম্ভবত একই কৌশল এখানেও কাজ করবে।

শ্রেণীগত ভেরিয়েবলের কোডিং. এটি আকর্ষণীয় ছিল যে একটি নির্দিষ্ট ভেরিয়েবল V22 এর প্রচুর সংখ্যক মান রয়েছে, তবে একই সময়ে, যদি আমরা একটি নির্দিষ্ট মানের জন্য একটি সাবস্যাম্পল নিই, তবে অন্যান্য ভেরিয়েবলের স্তরের সংখ্যা (ভিন্ন মান) উল্লেখযোগ্যভাবে হ্রাস পায়। টার্গেট ভেরিয়েবলের সাথেও একটি ভাল সম্পর্ক রয়েছে। কি করা যেতে পারে? সবচেয়ে সহজ সমাধান হল V22 এর প্রতিটি মানের জন্য একটি পৃথক মডেল তৈরি করা, তবে এটি গাছের প্রথম বিভাজনে ভেরিয়েবলের সমস্ত মানের উপর বিভক্ত করার মতই।

প্রাপ্ত তথ্য ব্যবহার করার আরেকটি উপায় আছে - লক্ষ্য পরিবর্তনশীলের গড় মান দ্বারা কোডিং। অন্য কথায়, একটি শ্রেণীগত পরিবর্তনশীলের প্রতিটি মান বস্তুর লক্ষ্যের গড় মান দ্বারা প্রতিস্থাপিত হয় যেখানে এই বৈশিষ্ট্যটি একই মান নেয়। সম্পূর্ণ প্রশিক্ষণ সেটের জন্য সরাসরি এই জাতীয় এনকোডিং করা অসম্ভব: প্রক্রিয়াটিতে, আমরা বৈশিষ্ট্যগুলির মধ্যে লক্ষ্য পরিবর্তনশীল সম্পর্কে অন্তর্নিহিত তথ্য প্রবর্তন করব। আমরা এমন তথ্য সম্পর্কে কথা বলছি যা প্রায় কোনও মডেল সনাক্ত করা নিশ্চিত।

অতএব, এই ধরনের পরিসংখ্যান ভাঁজ দ্বারা গণনা করা হয়। এখানে একটি উদাহরণ:

ধরা যাক যে ডেটা তিনটি ভাগে বিভক্ত। প্রশিক্ষণ নমুনার প্রতিটি ভাঁজের জন্য, আমরা অন্য দুটি ভাঁজের জন্য একটি নতুন বৈশিষ্ট্য গণনা করব, এবং পরীক্ষার নমুনার জন্য, পুরো প্রশিক্ষণ সেটের জন্য। তারপর লক্ষ্য পরিবর্তনশীল সম্পর্কে তথ্য এত স্পষ্টভাবে নমুনায় অন্তর্ভুক্ত করা হবে না এবং মডেলটি প্রাপ্ত জ্ঞান ব্যবহার করতে সক্ষম হবে।

অন্য কিছু নিয়ে কি সমস্যা হবে? হ্যাঁ - বিরল বিভাগ এবং ক্রস-বৈধকরণ সহ।

বিরল বিভাগ. ধরা যাক একটি নির্দিষ্ট বিভাগ মাত্র কয়েকবার ঘটে এবং সংশ্লিষ্ট বস্তুগুলি ক্লাস 0-এর অন্তর্গত। তাহলে লক্ষ্য ভেরিয়েবলের গড় মানও শূন্য হবে। যাইহোক, একটি সম্পূর্ণ ভিন্ন পরিস্থিতি একটি পরীক্ষার নমুনায় দেখা দিতে পারে। সিদ্ধান্ত হল মসৃণ গড় (বা মসৃণ সম্ভাবনা), যা নিম্নলিখিত সূত্র ব্যবহার করে গণনা করা হয়:

এখানে গ্লোবাল গড় হল সমগ্র নমুনার উপর লক্ষ্য ভেরিয়েবলের গড় মান, nrows হল শ্রেণীগত ভেরিয়েবলের একটি নির্দিষ্ট মান কতবার ঘটে, আলফা হল রেগুলারাইজেশন প্যারামিটার (উদাহরণস্বরূপ, 10)। এখন, যদি একটি মান খুব কমই ঘটে, তাহলে বিশ্বব্যাপী গড়কে আরও ওজন দেওয়া হবে, এবং যদি এটি ঘন ঘন ঘটে, তাহলে ফলাফল প্রাথমিক বিভাগের গড়ের কাছাকাছি হবে। যাইহোক, এই সূত্রটি আপনাকে একটি শ্রেণীগত পরিবর্তনশীলের পূর্বে অজানা মানগুলি প্রক্রিয়া করতে দেয়।

ক্রস বৈধতা. ধরা যাক আমরা অন্যান্য ভাঁজের জন্য শ্রেণীগত ভেরিয়েবলের জন্য সমস্ত মসৃণ উপায় গণনা করেছি। আমরা কি স্ট্যান্ডার্ড কে-ফোল্ড ক্রস-ভ্যালিডেশন দ্বারা মডেলের গুণমান মূল্যায়ন করতে পারি? না. এর একটি উদাহরণ তাকান.

উদাহরণস্বরূপ, আমরা তৃতীয় ভাঁজে মডেলটি মূল্যায়ন করতে চাই। আমরা মডেলটিকে প্রথম দুটি ভাঁজে প্রশিক্ষণ দিই, তবে তাদের লক্ষ্য ভেরিয়েবলের গড় মান সহ একটি নতুন চলক রয়েছে, যা আমরা ইতিমধ্যে গণনা করার জন্য তৃতীয় পরীক্ষা ভাঁজ ব্যবহার করেছি। এটি আমাদের ফলাফলগুলিকে সঠিকভাবে মূল্যায়ন করার অনুমতি দেয় না, তবে যে সমস্যাটি দেখা দিয়েছে তা ভাঁজের মধ্যে ভাঁজগুলিতে পরিসংখ্যান গণনা করে সমাধান করা হয়। আসুন আবার উদাহরণটি দেখি:

আমরা এখনও তৃতীয় ভাঁজে মডেলটি মূল্যায়ন করতে চাই। আসুন প্রথম দুটি ভাঁজকে (আমাদের মূল্যায়নের প্রশিক্ষণ নমুনা) আরও কিছু তিনটি ভাঁজে ভাগ করি, সেগুলির মধ্যে আমরা ইতিমধ্যে বিশ্লেষণ করা পরিস্থিতি অনুসারে একটি নতুন বৈশিষ্ট্য গণনা করব এবং তৃতীয় ভাঁজের জন্য (এটি আমাদের মূল্যায়নের পরীক্ষার নমুনা) আমরা প্রথম দুটি ভাঁজ একসাথে গণনা করব। তারপর মডেল প্রশিক্ষণের সময় তৃতীয় ভাঁজ থেকে কোন তথ্য ব্যবহার করা হবে না, এবং অনুমান সৎ হবে. যে প্রতিযোগিতায় আমরা আলোচনা করছি, শুধুমাত্র এই ধরনের ক্রস-ভ্যালিডেশনই মডেলের গুণমানকে সঠিকভাবে মূল্যায়ন করার অনুমতি দেয়। অবশ্যই, ভাঁজগুলির "বাহ্যিক" এবং "অভ্যন্তরীণ" সংখ্যা যেকোনো হতে পারে।

বৈশিষ্ট্য বিল্ডিং. আমরা লক্ষ্য ভেরিয়েবলের ইতিমধ্যে উল্লিখিত মসৃণ গড়গুলিই নয়, প্রমাণের ওজনও ব্যবহার করেছি। এটি প্রায় একই, কিন্তু লগারিদমিক রূপান্তর সহ। উপরন্তু, কোনো স্বাভাবিককরণ ছাড়াই একটি গোষ্ঠীতে ইতিবাচক এবং নেতিবাচক শ্রেণীর বস্তুর সংখ্যার পার্থক্যের মতো বৈশিষ্ট্যগুলি কার্যকর বলে প্রমাণিত হয়েছে। এখানে অন্তর্দৃষ্টি নিম্নলিখিত: স্কেল ক্লাসে আত্মবিশ্বাসের ডিগ্রী দেখায়, কিন্তু পরিমাণগত বৈশিষ্ট্যগুলির সাথে কী করবেন? সর্বোপরি, যদি সেগুলি একইভাবে প্রক্রিয়া করা হয়, তবে সমস্ত মান বিশ্বব্যাপী গড় দ্বারা নিয়মিতকরণের সাথে "জমাটবদ্ধ" থাকে। একটি বিকল্প হল মানগুলিকে বিনগুলিতে বিভক্ত করা, যা তারপরে পৃথক বিভাগ হিসাবে বিবেচিত হয়। আরেকটি উপায় হল একই টার্গেটের সাথে একই বৈশিষ্ট্যের উপর কিছু ধরণের লিনিয়ার মডেল তৈরি করা। মোট, 80টি ফিল্টার করা থেকে প্রায় দুই হাজার লক্ষণ পাওয়া গেছে।

স্ট্যাকিং এবং মিশ্রন. বেশিরভাগ প্রতিযোগিতার মতো, মডেল স্টেকিং সমাধানের একটি গুরুত্বপূর্ণ অংশ। সংক্ষেপে, স্ট্যাকিংয়ের সারমর্ম হল যে আমরা একটি মডেলের ভবিষ্যদ্বাণীগুলিকে একটি বৈশিষ্ট্য হিসাবে অন্য মডেলের কাছে প্রেরণ করি। যাইহোক, আবার একবার অতিরিক্ত প্রশিক্ষণ না করা গুরুত্বপূর্ণ। আসুন শুধু একটি উদাহরণ নেওয়া যাক:


আলেকজান্ডার ডায়াকোনভের ব্লগ থেকে নেওয়া

উদাহরণস্বরূপ, আমরা স্টেকিং পর্যায়ে আমাদের নমুনাকে তিনটি ভাঁজে বিভক্ত করার সিদ্ধান্ত নিয়েছি। পরিসংখ্যান গণনার অনুরূপ, আমাদের অবশ্যই মডেলটিকে দুটি ভাঁজে প্রশিক্ষণ দিতে হবে এবং অবশিষ্ট ভাঁজের জন্য পূর্বাভাসিত মান যোগ করতে হবে। একটি পরীক্ষার নমুনার জন্য, আপনি প্রতিটি জোড়া ভাঁজ থেকে মডেলের ভবিষ্যদ্বাণী গড় করতে পারেন। স্ট্যাকিংয়ের প্রতিটি স্তর হল বিদ্যমান ডেটাসেটের উপর ভিত্তি করে মডেলের নতুন বৈশিষ্ট্য-ভবিষ্যদ্বাণীগুলির একটি গ্রুপ যুক্ত করার প্রক্রিয়া।

প্রথম স্তরে, দলটির 200-250টি ভিন্ন মডেল ছিল, দ্বিতীয়টিতে - অন্য 20-30টি, তৃতীয়টিতে - আরও কয়েকটি। ফলাফল মিশ্রিত হয়, যে, বিভিন্ন মডেলের ভবিষ্যদ্বাণী মিশ্রিত করা। বিভিন্ন অ্যালগরিদম ব্যবহার করা হয়েছিল: বিভিন্ন প্যারামিটার সহ গ্রেডিয়েন্ট বুস্টিং, এলোমেলো বন, নিউরাল নেটওয়ার্ক। মূল ধারণা- বিভিন্ন পরামিতি সহ সর্বাধিক বৈচিত্র্যময় মডেলগুলি প্রয়োগ করুন, এমনকি যদি তারা সর্বোচ্চ মানের না দেয়।

দলবদ্ধভাবে সম্পাদিত কর্ম. সাধারণত, অংশগ্রহণকারীরা প্রতিযোগিতা শেষ হওয়ার আগে দলে একত্রিত হয়, যখন প্রত্যেকের ইতিমধ্যে তাদের নিজস্ব অর্জন থাকে। আমরা প্রথম থেকেই অন্যান্য ক্যাগলারের সাথে দলবদ্ধ হয়েছি। প্রতিটি দলের সদস্যের ভাগ করা ক্লাউডে একটি ফোল্ডার ছিল যেখানে ডেটাসেট এবং স্ক্রিপ্টগুলি রাখা হয়েছিল। সাধারণ ক্রস-ভ্যালিডেশন পদ্ধতিটি আগেই অনুমোদিত হয়েছিল যাতে একে অপরের সাথে তুলনা করা যায়। ভূমিকাগুলি নিম্নরূপ বিতরণ করা হয়েছিল: আমি নতুন বৈশিষ্ট্য নিয়ে এসেছি, দ্বিতীয় অংশগ্রহণকারী মডেল তৈরি করেছে, তৃতীয়টি সেগুলি বেছে নিয়েছে এবং চতুর্থটি পুরো প্রক্রিয়াটি পরিচালনা করেছে।

ক্ষমতা কোথায় পাব. ল্যাপটপ ব্যবহার করার সময় প্রচুর সংখ্যক হাইপোথিসিস পরীক্ষা করা, মাল্টি-লেভেল স্ট্যাকিং তৈরি করা এবং ট্রেনিং মডেলগুলি অনেক বেশি সময় নিতে পারে। অতএব, অনেক অংশগ্রহণকারীর সাথে কম্পিউটিং সার্ভার ব্যবহার করে বৃহৎ পরিমাণনিউক্লিয়াস এবং র্যান্ডম অ্যাক্সেস মেমরি. আমি সাধারণত AWS সার্ভার ব্যবহার করি, এবং আমার দলের সদস্যরা অলস থাকা অবস্থায় প্রতিযোগিতার জন্য কাজের জায়গায় মেশিন ব্যবহার করছে বলে মনে হয়।

আয়োজক সংস্থার সাথে যোগাযোগ. প্রতিযোগিতায় সফল পারফরম্যান্সের পরে, কোম্পানির সাথে যোগাযোগ একটি যৌথ সম্মেলন কল আকারে সঞ্চালিত হয়। অংশগ্রহণকারীরা তাদের সিদ্ধান্ত সম্পর্কে কথা বলেন এবং প্রশ্নের উত্তর দেন। বিএনপিতে, মাল্টি-লেভেল স্টেকিংয়ে লোকেরা বিস্মিত হয়নি, তবে তারা আগ্রহী ছিল, অবশ্যই, বৈশিষ্ট্য নির্মাণ, দলগত কাজ, ফলাফলের বৈধতা - তাদের নিজস্ব সিস্টেমের উন্নতিতে তাদের জন্য দরকারী হতে পারে এমন সবকিছু।

আমার কি ডেটাসেট ডিক্রিপ্ট করতে হবে?. বিজয়ী দল ডেটাতে একটি বৈশিষ্ট্য লক্ষ্য করেছে। কিছু বৈশিষ্ট্য অনুপস্থিত মান আছে, এবং কিছু নেই. অর্থাৎ কিছু বৈশিষ্ট্য নির্দিষ্ট মানুষের উপর নির্ভর করে না। উপরন্তু, 360 অনন্য মান প্রাপ্ত করা হয়েছে. এটা ধরে নেওয়া যৌক্তিক যে আমরা কিছু সময় চিহ্নের কথা বলছি। দেখা গেল যে আমরা যদি এই জাতীয় দুটি লক্ষণের মধ্যে পার্থক্য নিই এবং এটির দ্বারা পুরো নমুনাটি বাছাই করি, তবে প্রথমে প্রায়শই শূন্য থাকবে এবং তারপরে এক। বিজয়ীরা ঠিক এটাই করেছে।

আমাদের দল তৃতীয় স্থান অধিকার করেছে। এতে অংশ নেয় প্রায় তিন হাজার দল।

বিজ্ঞাপন বিভাগ স্বীকৃতি টাস্ক

DataRing লিঙ্ক.

এটি আরেকটি প্রতিযোগিতা "Avito"। এটি বেশ কয়েকটি পর্যায়ে সংঘটিত হয়েছিল, যার মধ্যে প্রথমটি (পাশাপাশি তৃতীয়টিও) আর্থার কুজিন জিতেছিলেন।


সমস্যা প্রণয়ন. বিজ্ঞাপন থেকে ফটো অনুযায়ী, আপনি বিভাগ নির্ধারণ করতে হবে. প্রতিটি বিজ্ঞাপন এক থেকে পাঁচটি ছবি পর্যন্ত মিলেছে। মেট্রিকটি অনুক্রমের বিভিন্ন স্তরে বিভাগের কাকতালীয়তা বিবেচনা করে - সাধারণ থেকে সংকীর্ণ পর্যন্ত (শেষ স্তরে 194টি বিভাগ রয়েছে)। মোট, প্রশিক্ষণের নমুনায় প্রায় এক মিলিয়ন ছবি ছিল, যা ইমেজনেটের আকারের কাছাকাছি।


স্বীকৃতি অসুবিধা. দেখে মনে হচ্ছে আপনাকে কেবল একটি গাড়ি থেকে একটি টিভি এবং জুতা থেকে একটি গাড়িকে আলাদা করতে শিখতে হবে। তবে, উদাহরণস্বরূপ, একটি বিভাগ রয়েছে "ব্রিটিশ বিড়াল", এবং "অন্যান্য বিড়াল" রয়েছে এবং তাদের মধ্যে খুব অনুরূপ চিত্র রয়েছে - যদিও আপনি এখনও তাদের একে অপরের থেকে আলাদা করতে পারেন। টায়ার, rims এবং চাকার সম্পর্কে কি? এখানে একজন ব্যক্তি এটি করতে পারে না। এই অসুবিধাগুলি সমস্ত অংশগ্রহণকারীদের ফলাফলের একটি নির্দিষ্ট সীমার উপস্থিতির কারণ।


সম্পদ এবং কাঠামো. আমার কাছে শক্তিশালী ভিডিও কার্ড সহ তিনটি কম্পিউটার ছিল: মস্কো ইনস্টিটিউট অফ ফিজিক্স অ্যান্ড টেকনোলজির ল্যাবরেটরি দ্বারা সরবরাহ করা একটি বাড়িতে, এবং কর্মক্ষেত্রে একটি কম্পিউটার। অতএব, একই সময়ে বেশ কয়েকটি নেটওয়ার্ককে প্রশিক্ষণ দেওয়া সম্ভব ছিল (এবং ছিল)। MXNet-কে নিউরাল নেটওয়ার্ক প্রশিক্ষণের প্রধান কাঠামো হিসাবে বেছে নেওয়া হয়েছিল, যারা সুপরিচিত XGBoost লিখেছিলেন সেই একই ছেলেদের দ্বারা তৈরি। এই একা তাদের নতুন পণ্য বিশ্বাস একটি কারণ ছিল. MXNet-এর সুবিধা হল যে আদর্শ বৃদ্ধি সহ একটি দক্ষ পুনরাবৃত্তিকারী বাক্সের বাইরে উপলব্ধ, যা বেশিরভাগ কাজের জন্য যথেষ্ট।


নেটওয়ার্ক আর্কিটেকচার. অতীতের একটি প্রতিযোগিতায় অংশগ্রহণের অভিজ্ঞতা থেকে দেখা গেছে যে ইনসেপশন সিরিজের আর্কিটেকচারগুলো সবচেয়ে ভালো মানের দেখায়। আমি তাদের এখানে ব্যবহার করেছি. এটি GoogLeNet-এ যোগ করা হয়েছে কারণ এটি মডেলের প্রশিক্ষণের গতি বাড়িয়েছে। আমরা মডেল চিড়িয়াখানা মডেল লাইব্রেরি থেকে Inception-v3 এবং Inception BN আর্কিটেকচারগুলিও ব্যবহার করেছি, যা শেষ সম্পূর্ণভাবে সংযুক্ত স্তরের আগে একটি ড্রপআউট যোগ করেছে৷ প্রযুক্তিগত সমস্যার কারণে, স্টোকাস্টিক গ্রেডিয়েন্ট ডিসেন্ট ব্যবহার করে নেটওয়ার্ককে প্রশিক্ষণ দেওয়া সম্ভব হয়নি, তাই অ্যাডামকে অপ্টিমাইজার হিসেবে ব্যবহার করা হয়েছিল।



তথ্য বৃদ্ধি. নেটওয়ার্কের গুণমান উন্নত করতে, পরিবর্ধন ব্যবহার করা হয়েছিল - ডেটার বৈচিত্র্য বাড়ানোর জন্য নমুনায় বিকৃত ছবি যোগ করা। ছবির এলোমেলো ক্রপিং, প্রতিফলন, একটি ছোট কোণ দ্বারা ঘূর্ণন, আকৃতির অনুপাত পরিবর্তন এবং স্থানান্তরের মতো রূপান্তরগুলি জড়িত ছিল।

নির্ভুলতা এবং শেখার গতি. প্রথমে আমি নমুনাটিকে তিনটি ভাগে ভাগ করেছিলাম, কিন্তু তারপরে আমি মডেলগুলি মিশ্রিত করার জন্য একটি বৈধতা পদক্ষেপ পরিত্যাগ করেছি। অতএব, পরে নমুনার দ্বিতীয় অংশটি প্রশিক্ষণ সেটে যোগ করা হয়েছিল, যা নেটওয়ার্কগুলির গুণমানকে উন্নত করেছে। উপরন্তু, GoogLeNet মূলত টাইটান ব্ল্যাক-এ প্রশিক্ষিত ছিল, যেটির মেমরি টাইটান X-এর তুলনায় অর্ধেক। তাই এই নেটওয়ার্কটিকে একটি বড় ব্যাচের আকারের সাথে পুনরায় প্রশিক্ষণ দেওয়া হয়েছিল, এবং এর যথার্থতা বৃদ্ধি পেয়েছে। আপনি যদি নেটওয়ার্কগুলির প্রশিক্ষণের সময়টি দেখেন তবে আমরা উপসংহারে আসতে পারি যে সীমিত সময়ের শর্তে এটি ইনসেপশন-ভি 3 ব্যবহার করার মতো নয়, যেহেতু প্রশিক্ষণটি অন্য দুটি আর্কিটেকচারের সাথে অনেক দ্রুত। কারণ হল পরামিতির সংখ্যা। দ্রুততম শিক্ষার্থী ইনসেপশন বিএন।

বিল্ডিং পূর্বাভাস.

গাড়ির ব্র্যান্ডগুলির সাথে প্রতিযোগিতায় ইউজিনের মতো, আর্থার ফসলের ভবিষ্যদ্বাণী ব্যবহার করেছিলেন - তবে 10টি বিভাগে নয়, 24টিতে। বিভাগগুলি ছিল কোণ, তাদের প্রতিফলন, কেন্দ্র, কেন্দ্রীয় অংশগুলির বাঁক এবং আরও দশটি এলোমেলো।

আপনি যদি প্রতিটি যুগের পরে নেটওয়ার্কের অবস্থা সংরক্ষণ করেন, ফলাফলটি শুধুমাত্র চূড়ান্ত নেটওয়ার্ক নয়, অনেকগুলি ভিন্ন মডেল। প্রতিযোগিতার শেষ হওয়া পর্যন্ত বাকি সময় দেওয়া, আমি 11টি মডেল-যুগের ভবিষ্যদ্বাণী ব্যবহার করতে পারি - যেহেতু নেটওয়ার্ক ব্যবহার করে ভবিষ্যদ্বাণী তৈরি করতেও অনেক সময় লাগে। এই সমস্ত ভবিষ্যদ্বাণীগুলি নিম্নলিখিত স্কিম অনুসারে গড় করা হয়েছিল: প্রথমে, শস্য গোষ্ঠীর মধ্যে গাণিতিক গড় ব্যবহার করে, তারপর বৈধতা সেটে নির্বাচিত ওজন সহ জ্যামিতিক গড় ব্যবহার করে। এই তিনটি গ্রুপ মিশ্রিত হয়, তারপর আমরা সমস্ত epochs জন্য অপারেশন পুনরাবৃত্তি। শেষে, একটি বিজ্ঞাপনের সমস্ত চিত্রের শ্রেণী সম্ভাব্যতা ওজন ছাড়াই জ্যামিতিক গড় ব্যবহার করে গড় করা হয়।


ফলাফল. বৈধতা পর্বের সময় ওজন ফিট করার সময়, একটি প্রতিযোগিতার মেট্রিক ব্যবহার করা হয়েছিল কারণ এটি স্বাভাবিক নির্ভুলতার সাথে ভালভাবে সম্পর্কিত ছিল না। চিত্রের বিভিন্ন ক্ষেত্রে ভবিষ্যদ্বাণী একটি একক ভবিষ্যদ্বাণীর তুলনায় গুণমানের মাত্র একটি ছোট অংশ দেয়, তবে এই বৃদ্ধির কারণে এটি সর্বোত্তম ফলাফল দেখানো সম্ভব। প্রতিযোগিতার শেষে, দেখা গেল যে প্রথম তিনটি স্থানের ফলাফলে হাজারতম পার্থক্য রয়েছে। উদাহরণস্বরূপ, ঝেনিয়া নিজিবিটস্কির একমাত্র মডেল ছিল যা আমার মডেলগুলির সংমিশ্রণ থেকে কিছুটা নিকৃষ্ট ছিল।


স্ক্র্যাচ থেকে শেখা বনাম ফাইন-টিউনিং. প্রতিযোগিতা শেষ হওয়ার পরে, এটি প্রমাণিত হয়েছিল যে বড় নমুনার আকার থাকা সত্ত্বেও, এটি স্ক্র্যাচ থেকে নয়, একটি প্রাক-প্রশিক্ষিত নেটওয়ার্কের সাহায্যে নেটওয়ার্ককে প্রশিক্ষণ দেওয়ার মতো ছিল। এই পদ্ধতিটি আরও ভাল ফলাফল দেখায়।

শক্তিবৃদ্ধি শেখার সমস্যা

ব্ল্যাক বক্স চ্যালেঞ্জ, যা সম্পর্কে, সাধারণ "কাগল" এর মতো ছিল না। আসল বিষয়টি হল সমাধানের জন্য কিছু "পরীক্ষা" নমুনা চিহ্নিত করা যথেষ্ট ছিল না। "এজেন্ট" কোডটি প্রোগ্রাম এবং সিস্টেমে লোড করার প্রয়োজন ছিল, যা অংশগ্রহণকারীর কাছে অজানা পরিবেশে স্থাপন করা হয়েছিল এবং এতে স্বাধীনভাবে সিদ্ধান্ত নেওয়া হয়েছিল। এই ধরনের কাজগুলি শক্তিবৃদ্ধি শেখার ক্ষেত্রের অন্তর্গত।

5ভিশন থেকে মিখাইল পাভলভ সমাধানের পদ্ধতির কথা বলেছেন। প্রতিযোগিতায় দ্বিতীয় স্থান অধিকার করেন।


সমস্যা প্রণয়ন. অজানা নিয়ম সহ একটি পরিবেশের জন্য, একটি "এজেন্ট" লিখতে হবে যা নির্দিষ্ট পরিবেশের সাথে যোগাযোগ করবে। পরিকল্পিতভাবে, এটি এমন এক ধরণের মস্তিষ্ক যা ব্ল্যাক বক্স থেকে রাষ্ট্র এবং পুরষ্কার সম্পর্কে তথ্য পায়, ক্রিয়া সম্পর্কে সিদ্ধান্ত নেয় এবং তারপরে একটি নতুন অবস্থা এবং কর্মের জন্য একটি পুরষ্কার পায়। খেলা চলাকালীন একের পর এক ক্রিয়া পুনরাবৃত্তি হয়। বর্তমান অবস্থা 36 সংখ্যার ভেক্টর দ্বারা বর্ণিত হয়েছে। এজেন্ট চারটি পদক্ষেপ নিতে পারে। লক্ষ্য হল পুরো গেমের জন্য পুরষ্কারের পরিমাণ সর্বাধিক করা।


পরিবেশগত বিশ্লেষণ. পরিবেশের অবস্থার ভেরিয়েবলের বন্টনের গবেষণায় দেখা গেছে যে প্রথম 35টি উপাদান নির্বাচিত কর্মের উপর নির্ভর করে না এবং শুধুমাত্র 36তম উপাদান এটির উপর নির্ভর করে পরিবর্তিত হয়। একই সময়ে, বিভিন্ন কর্ম ভিন্নভাবে প্রভাবিত করেছে: কিছু বৃদ্ধি বা হ্রাস পেয়েছে, কিছু পরিবর্তন হয়নি। কিন্তু এটা বলা যাবে না যে সমগ্র পরিবেশ একটি উপাদানের উপর নির্ভর করে: এতে কিছু লুকানো ভেরিয়েবল থাকতে পারে। এছাড়াও, পরীক্ষায় দেখা গেছে যে আপনি যদি একটি সারিতে 100 টির বেশি অভিন্ন ক্রিয়া সম্পাদন করেন, তাহলে পুরস্কার নেতিবাচক হয়ে যায়। তাই "শুধুমাত্র একটি ক্রিয়া করুন" এর মতো কৌশলগুলি অবিলম্বে দূরে চলে গেছে। প্রতিযোগিতায় অংশগ্রহণকারীদের মধ্যে কেউ কেউ লক্ষ্য করেছেন যে পুরস্কারটি একই 36তম উপাদানের সমানুপাতিক। ফোরামে পরামর্শ দেওয়া হয়েছে যে ব্ল্যাক বক্স নকল করে আর্থিক বাজার, যেখানে পোর্টফোলিও হল 36 তম উপাদান, এবং ক্রিয়াগুলি ক্রয়, বিক্রয় এবং কিছুই করার সিদ্ধান্ত নিচ্ছে। এই বিকল্পগুলি পোর্টফোলিওতে পরিবর্তনের সাথে সম্পর্কযুক্ত ছিল এবং একটি কর্মের অর্থ স্পষ্ট ছিল না।


প্রশ্ন-শিক্ষা. অংশগ্রহণের সময়, মূল লক্ষ্য ছিল বিভিন্ন শক্তিবৃদ্ধি শেখার কৌশল চেষ্টা করা। সবচেয়ে সহজ এবং সবচেয়ে বিখ্যাত পদ্ধতিগুলির মধ্যে একটি হল কিউ-লার্নিং। এর সারমর্ম হল একটি Q ফাংশন তৈরি করার প্রয়াসে যা রাষ্ট্র এবং নির্বাচিত কর্মের উপর নির্ভর করে। Q মূল্যায়ন করে যে একটি নির্দিষ্ট অবস্থায় একটি নির্দিষ্ট ক্রিয়া বেছে নেওয়া কতটা "ভাল"। "ভাল" ধারণার মধ্যে সেই পুরষ্কার অন্তর্ভুক্ত রয়েছে যা আমরা কেবল এখনই নয়, ভবিষ্যতেও পাব। এই ফাংশন পুনরাবৃত্তিমূলকভাবে প্রশিক্ষিত হয়. প্রতিটি পুনরাবৃত্তির সময়, আমরা এখন প্রাপ্ত পুরষ্কারকে বিবেচনায় রেখে গেমের পরবর্তী ধাপে ফাংশনটিকে নিজের কাছাকাছি নিয়ে আসার চেষ্টা করি। আপনি আরো পড়তে পারেন. কিউ-লার্নিং ব্যবহারে সম্পূর্ণরূপে পর্যবেক্ষণযোগ্য মার্কভ প্রক্রিয়াগুলির সাথে কাজ করা জড়িত (অন্য কথায়, বর্তমান অবস্থায় পরিবেশ থেকে সমস্ত তথ্য থাকা উচিত)। আয়োজকদের মতে পরিবেশ এই প্রয়োজনীয়তা পূরণ করেনি তা সত্ত্বেও, কিউ-লার্নিং বেশ সফলভাবে প্রয়োগ করা যেতে পারে।

ব্ল্যাক বক্সে অভিযোজন. অভিজ্ঞতাগতভাবে, এটি পাওয়া গেছে যে এন-স্টেপ কিউ-লার্নিং পরিবেশের জন্য সর্বোত্তম উপযুক্ত ছিল, যেখানে পুরষ্কারটি একটি শেষ ক্রিয়াকলাপের জন্য নয়, বরং পরবর্তী এন কর্মের জন্য ব্যবহার করা হয়েছিল। পরিবেশ আপনাকে বর্তমান অবস্থা সংরক্ষণ করতে এবং এটিতে ফিরে যাওয়ার অনুমতি দিয়েছে, যা একটি নমুনা সংগ্রহ করা সহজ করে তুলেছে - আপনি প্রতিটি ক্রিয়া একটি রাজ্য থেকে সম্পাদন করার চেষ্টা করতে পারেন, শুধুমাত্র একটি নয়। প্রশিক্ষণের একেবারে শুরুতে, যখন কিউ-ফাংশন এখনও ক্রিয়াগুলি মূল্যায়ন করতে সক্ষম হয়নি, তখন কৌশলটি "কর্ম সম্পাদন 3" ব্যবহার করা হয়েছিল। এটি অনুমান করা হয়েছিল যে এটি কিছু পরিবর্তন করেনি এবং গোলমাল ছাড়াই ডেটার উপর প্রশিক্ষণ শুরু করা সম্ভব।

শিক্ষার পদ্ধতি. প্রশিক্ষণটি এভাবে চলেছিল: বর্তমান নীতি (এজেন্টের কৌশল) সহ, আমরা পুরো পর্বটি খেলি, একটি নমুনা সংগ্রহ করি, তারপর প্রাপ্ত নমুনাটি ব্যবহার করে, আমরা কিউ-ফাংশন আপডেট করি, এবং তাই - ক্রমটি একটি নির্দিষ্ট সময়ের জন্য পুনরাবৃত্তি হয় যুগের সংখ্যা। খেলা চলাকালীন কিউ-ফাংশন আপডেট করার চেয়ে ফলাফলগুলি ভাল ছিল। অন্যান্য পদ্ধতি - রিপ্লে মেমরি কৌশল (প্রশিক্ষণের জন্য একটি সাধারণ ডেটা ব্যাঙ্ক সহ, যেখানে নতুন গেমের পর্বগুলি প্রবেশ করানো হয়) এবং অ্যাসিঙ্ক্রোনাসভাবে খেলা বেশ কয়েকটি এজেন্টের একযোগে প্রশিক্ষণ - এছাড়াও কম কার্যকর হতে দেখা গেছে।

মডেল. সমাধানটি তিনটি রিগ্রেশন ব্যবহার করেছে (প্রতিটি ক্রিয়া প্রতি একবার) এবং দুটি নিউরাল নেটওয়ার্ক। কিছু দ্বিঘাত বৈশিষ্ট্য এবং মিথস্ক্রিয়া যোগ করা হয়েছে। চূড়ান্ত মডেলটি সমান ওজন সহ পাঁচটি মডেলের (পাঁচটি কিউ-ফাংশন) মিশ্রণ। এছাড়াও, অনলাইন পুনঃপ্রশিক্ষণ ব্যবহার করা হয়েছিল: পরীক্ষার প্রক্রিয়ায়, পুরানো রিগ্রেশনের ওজনগুলি পরীক্ষার সেটে প্রাপ্ত নতুন ওজনের সাথে মিশ্রিত হয়েছিল। এটি শুধুমাত্র রিগ্রেশনের জন্য করা হয়েছিল, যেহেতু তাদের সমাধানগুলি বিশ্লেষণাত্মকভাবে লেখা এবং মোটামুটি দ্রুত পুনঃগণনা করা যেতে পারে।


অন্যান্য ধারণা. স্বাভাবিকভাবেই, সমস্ত ধারণা চূড়ান্ত ফলাফলের উন্নতি করে না। উদাহরণস্বরূপ, পুরষ্কার ছাড় দেওয়া (যখন আমরা মোট পুরষ্কার সর্বাধিক করি না, তবে প্রতিটি পরবর্তী পদক্ষেপকে কম দরকারী বিবেচনা করি), গভীর নেটওয়ার্ক, দ্বৈত আর্কিটেকচার (রাষ্ট্রের উপযোগিতা এবং প্রতিটি ক্রিয়া আলাদাভাবে মূল্যায়ন সহ) বৃদ্ধি দেয়নি ফলাফলে প্রযুক্তিগত সমস্যার কারণে, পুনরাবৃত্ত নেটওয়ার্কগুলি প্রয়োগ করা সম্ভব হয়নি - যদিও, অন্যান্য মডেলগুলির সাথে একত্রিত হয়ে, তারা কিছু সুবিধা প্রদান করতে পারে।


ফলাফল. দল 5ভিশন দ্বিতীয় স্থান দখল করেছে, তবে "ব্রোঞ্জ" এর মালিকদের কাছ থেকে খুব কম ব্যবধানে।


সুতরাং, কেন একটি তথ্য বিশ্লেষণ প্রতিযোগিতা লিখুন?

  • পুরস্কার। বেশিরভাগ প্রতিযোগিতায় সফল পারফরম্যান্সকে নগদ পুরস্কার বা অন্যান্য মূল্যবান উপহার দিয়ে পুরস্কৃত করা হয়। সাত বছরে কাগলের উপর সাত মিলিয়ন ডলারের বেশি র্যাফেল করা হয়েছে।
  • কর্মজীবন। মাঝে মাঝে পুরস্কার।
  • একটি অভিজ্ঞতা. এই, অবশ্যই, সবচেয়ে গুরুত্বপূর্ণ জিনিস. আপনি একটি নতুন এলাকা অন্বেষণ করতে পারেন এবং এমন সমস্যাগুলি সমাধান করতে শুরু করতে পারেন যা আপনি আগে সম্মুখীন হননি৷

বর্তমানে, মেশিন লার্নিং প্রশিক্ষণ সেশন প্রতি দ্বিতীয় সপ্তাহে শনিবার অনুষ্ঠিত হয়। ভেন্যুটি ইয়ানডেক্সের মস্কো অফিস, অতিথিদের স্ট্যান্ডার্ড সংখ্যা (অতিথি প্লাস ইয়ানডেক্সয়েড) 60-80 জন। প্রশিক্ষণের প্রধান বৈশিষ্ট্য হল তাদের প্রাসঙ্গিকতা: প্রতিবার প্রতিযোগিতাটি সাজানো হয়, যা এক বা দুই সপ্তাহ আগে শেষ হয়েছিল। এটি সবকিছু সঠিকভাবে পরিকল্পনা করা কঠিন করে তোলে, তবে প্রতিযোগিতাটি এখনও স্মৃতিতে তাজা এবং অনেক লোক হলটিতে জড়ো হয় যারা এটিতে তাদের হাত চেষ্টা করেছে। প্রশিক্ষণটি এমিল কায়ুমভ দ্বারা তত্ত্বাবধান করা হয়, যিনি এই পোস্টটি লিখতে সাহায্য করেছিলেন।

উপরন্তু, আরেকটি বিন্যাস আছে: সমাধান, যেখানে নবজাতক বিশেষজ্ঞরা যৌথভাবে বিদ্যমান প্রতিযোগিতায় অংশগ্রহণ করে। কোন প্রশিক্ষণ না থাকলে সেই শনিবারে সিদ্ধান্ত নেওয়া হয়। যে কেউ উভয় ধরনের অনুষ্ঠানে আসতে পারেন, ঘোষণাগুলি গ্রুপে প্রকাশ করা হয়