مرور کلی روشهای آماری
1- تجزیه به مؤلفههای اصلی Principal Component Analysis
هدف اكثر روشهای آماری چند متغیره، خلاصه كردن صفات است به نحوی كه بتوان كمیتهای افراد را از یکدیگر متمایز كرد. این روش ابتدا توسط کارل پیرسون در سال 1901 ابداع شد و در سال 1938 توسط هتلینگ روش محاسباتی آن ابداع گردید. در تجزیه به مؤلفههای اصلی، اولین مولفه بیشترین تغییرات را در بر میگیرد و بعد از آن بیشترین واریانس مربوط به مولفه دوم است و آخرین مولفه كمترین واریانس را دارد. از این روش بیشتر برای گروهبندی ارقام و ژنوتیپها استفاده میشود و در حقیقت به عنوان مكمل تجزیه كلاستر است.
تجزیه به مؤلفههای اصلی معمولا قبل از تجزیه كلاستر انجام میشود تا اهمیت نسبی متغیرهایی كه در كلاستر نقش دارند مشخص شود. از تجزیه به مؤلفههای اصلی جهت کاهش حجم متغیرهای اولیه، توصیف و تشریح تنوع کل موجود در یک جامعه، تفسیر بهتر روابط و تعیین سهم صفات در تنوع کل استفاده میشود.
2- تجزیه خوشهای (کلاستر) Cluster Analysis
برای گروهبندی افراد براساس دادههای کمی و کیفی میباشد و در مورد افرادی بکار میرود که گروهبندی اولیه در مورد آن افراد برای صفات اندازهگیری شده وجود نداشته باشد ایدهآلترین نتیجه از این تجزیه و تحلیل وقتی بدست میآید که واریانس داخل گروهها حداقل و واریانس بین گروهها حداکثر باشد. در اصلاح گیاهان علوفه ای، موفقیت در گزینش بستگی به تنوع یا ایجاد نوتركیبی ژنتیكی و هتروزیس دارد. گزارش شده است كه افزایش فاصله ژنتیكی بین ژنوتیپهای یك گونه، احتمال هتروزیس را در برنامههای تلاقی افزایش میدهد. گروهبندی ژنوتیپها براساس فاصله ژنتیكی وقتی دریك برنامه اصلاحی موثر است كه بطور همزمان چندین صفت مورد بررسی قرار گیرند به همین جهت تعیین الگوی تنوع ژنتیكی، گروهبندی ژنوتیپها و تعیین فاصله ژنتیكی بین آنها با استفاده از تجزیه خوشهای انجام میگیرد. در اصلاح نباتات موقعی که میخواهیم از بانک ژن برای تلاقی استفاده کنیم ژنو تیپهای که از هم بیشترین فاصله را دارند استفاده میکنیم که این فاصله بین ژنوتیپها بر اساس تجزیه کلاستر تعیین میشود. تجزیه خوشهای نه تنها در پیدا کردن گروههای واقعی کمک میکند بلکه برای کاهش دادهها نیز مفید است. افرادی که در یک دسته قرار میگیرند دارای واریانس یا تنوع كمتری نسبت به واریانس و تنوع موجود بین دستهها میباشند. هدف از تجزیه خوشهای اولاً پیدا كردن دستههای واقعی افراد و ثانیاً كاهش تعداد دادهها است. به عبارت دیگر، هدف شناسایی تعداد كمتری از گروهها است بطوری كه گروههای دارای شباهت بیشتر با یكدیگر در یك گروه قرار گیرند.
3.تجزیه به عاملها Factor analysis
هدف از این تجزیه مانند تجزیه به مولفه های اصلی كاهش حجم دادهها میباشد و زمانی مفید است كه بین دادهها همبستگی بالایی وجود داشته باشد. در این روش با بررسی همبستگی بین متغیرها میتوان به روابط بین صفات پی برد. در تجزیه به عاملها رابطه همبستگی بین تعداد زیادی متغیر را بوسیله چند فاكتور تشریح كنیم.
اگر چند متغیر X3 , X2 , X1و...وXp را داشته باشیم و بین آنها همبستگیهایی وجود داشته باشد میتوان متغیرها را بنحوی گروه بندی كرد که بین متغیرها، یك گروه از همبستگی زیاد و متغیرهای گروههای دیگر همبستگی كمی داشته باشند. آنگاه منطقی است كه بگوییم هر گروه از متغیرها نشان دهنده یك ساختار خاص است كه آنرا فاكتور مینامیم و یا عاملی كه باعث شده كه این متغیرها همبستگی زیادی داشته باشند.
قبل از تجزیه به عاملها چند شرط لازم است:
1. نوع و تعداد متغیرها : توصیه میشود تعداد متغیرها كم نباشد و بیشتر از متغیرهای مهم استفاده نماییم.
2. اندازه نمونه: تعداد نمونه كمتر از50 نباشد قانون كلی این است كه تعداد افراد حداقل 5 برابر تعداد متغیرها باشد.
3. همبستگی بین متغیرها: در اینجا نیز مثل روش PCA همبستگی بالا باشد برای پی بردن به اینكه آیا همبستگی كافی وجود دارد از چند روش استفاده میشود: الف- با بررسی ظاهری اگر همبستگیها بالا باشد نتیجه بهتری میدهد. ب- آزمون عدم اشتراك Test of specificity با استفاده از آزمون بارتلت. اگر کای اسکویر معنی دار باشد نشان دهنده این است كه تعداد همبستگی معنی دار كافی برای شروع این تست وجود دارد. روش دیگر آزمون KMO است كه ماكزیمم آن 1 است اگر مقدار این ضریب از 0.6 بیشتر باشد قابل قبول است. هر دو تست را میتوان بوسیله نرم افزارSPSS انجام داد.
4. افراد مورد استفاده همگن باشند (هیبرید و اینبرد باهم بررسی نشوند).
4. تجزیه تابع تشخیص Discriminant analysis
یكی از روشهای آمار چند متغیره است كه برعكس تجزیه كلاستر است یعنی از ابتدا گروهها مشخص شدهاند و میخواهیم ببینیم آیا گروه بندی درست بوده یا نه. مثلا از 1 تا m گروه داریم و هر كدام شامل n فرد هستند و در هر گروه نیز p متغیر اندازه گیری کردهایم. در اینجا برای تجزیه دادهها نیازی به استاندارد كردن آنها نمیباشد.