Cluster-analys

Ma'lumotlarni klasterlash va klaster tahlili nima?

Ma'lumotlarni klasterlash deganda ma'lumotlarni ularning atributlari yoki xususiyatlariga ko'ra kichik klasterlarga guruhlash tushuniladi. Klaster tahlili tibbiy tasvirlash, anomaliyalarni aniqlash miya va boshqalar kabi turli xil ilovalarda qo'llaniladi.

Klaster tahlili - bu ko'p o'zgaruvchan ma'lumotlarni yig'ish usuli bo'lib, uning maqsadi ob'ektlarni (masalan, mahsulotlar, respondentlar yoki boshqa ob'ektlar) foydalanuvchi tomonidan tanlangan xususiyatlar yoki atributlar to'plami asosida guruhlashdir. Bu ma'lumotlarni qazib olishning asosiy va eng muhim bosqichi va statistik ma'lumotlarni tahlil qilishning umumiy usuli bo'lib, u data compression, machine learning, pattern recognition, ma'lumotlarni qidirish va boshqalar kabi ko'plab sohalarda qo'llaniladi.

Klasterlar yuqori ichki bir xillik va yuqori tashqi homogeneity namoyon etishi kerak.

Nima degani bu?

Geometrik tarzda chizilganda, klasterlar ichidagi ob'ektlar bir-biriga juda yaqin bo'lishi kerak va klasterlar bir-biridan uzoqda bo'ladi.

Klasterlash algoritmlarining turlari

Quyida eng mashhur klasterlash algoritmlari keltirilgan:

1.Affinity Propagation

2.Hierarchical Agglomerative Clustering

3.BIRCH

4.DBSCAN

5.K-Means

6.Mini-Batch K-Means

7.Mean Shift

8.OPTICS

9.Spectral Clustering

10.Mixture of Gaussians

Ushbu maqolada biz ular orasida eng mashhurlarini ko'rib chiqamiz: K-Means Clustering.

Hierarchical klaster tahlili

Bu usulda birinchi navbatda klaster tuziladi va keyin bitta klaster hosil qilish uchun boshqa klasterga (eng o'xshash va eng yaqin) qo'shiladi. Bu jarayon barcha fanlar bitta klasterga kirguncha takrorlanadi. Ushbu maxsus usul aglomerativ usul sifatida tanilgan . Aglomerativ klasterlash yakka ob'ektlardan boshlanadi va ularni klasterlarga guruhlashni boshlaydi.

Centroid asosidagi klasterlash

Klasterlashning ushbu turida klasterlar berilgan ma'lumotlar to'plamining bir qismi bo'lishi yoki bo'lmasligi mumkin bo'lgan markaziy ob'ekt tomonidan ifodalanadi. Ushbu usulda K-Means klasterlash usuli qo'llaniladi, bu erda k - klaster markazlari va ob'ektlar eng yaqin klaster markazlariga biriktirilgan.

Distribution-based klasterlash

Bu taqsimlanish modallariga asoslangan statistik ma'lumotlar bilan chambarchas bog'liq bo'lgan klasterlash modelining bir turi. Xuddi shu taqsimotga tegishli ob'ektlar bitta klasterga joylashtiriladi. Klasterlashning bu turi atributlar orasidagi korrelyatsiya va bog'liqlik kabi ob'ektlarning ba'zi murakkab xususiyatlarini qamrab olishi mumkin.

K-means klasterlash algoritmi

Ushbu turdagi algoritmda ma'lumotlar ma'lumotlarni "K ajratilgan klasterlar" ga ajratadi yoki ajratadi.Ma'lumotlaringizga ko'ra klasterlar sonini (K) tanlashingiz kerak. Klaster markazlari yoki markazlar har bir klasterni ifodalaydi.

Algoritm qanday ishlaydi:

1-qadam: Avvalo, klaster markazlarini yoki klasterlar sonini tanlang.

2-qadam : Evklid masofasini hisoblab, har bir nuqtani eng yaqin klaster markaziga topshiring.

3-qadam : Klaster markazlari ushbu klasterga tayinlangan nuqtalarning o'rtacha qiymatiga qarab optimallashtiriladi.

4-qadam : Klaster markazlari ko'p harakat qilmayotganini yoki kichik masofani bosib o'tmasligini ko'rganimizdan so'ng, K-vositalari klasteri birlashgan deb ishonch bilan aytishimiz mumkin. Keling, Python-da K-means klasterlashni qanday amalga oshirishni ko'rib chiqaylik. Biz K-Means algoritmini amalga oshirish uchun mashhur Iris ma'lumotlar to'plamidan foydalandik.

CSV faylini import qilamiz va dataframe yaratamiz.

K Means klasterini yaratish vaqti keldi. Ishni osonlashtirish uchun biz matplotlib moduli yordamida syujet yaratamiz.

K-means klasteri mustahkam algoritm bo'lsa-da, u mahalliy optimal minimumda yaqinlashmasligi mumkin.

Abubakr0000 / Cluster-analys