try another color:
60% 70% 80% 90% تغییر اندازه فونت متن:
امروز: سه شنبه, 1 مرداد, 1398

ارزيابي كلاس درس استادان معارف اسلامي باتاكيدبرابزاراندازه‌گيري

Send to friendSend to friend
زیر عنوان: 
"در نقد پاسخ"

اين نوشتار با مروري مجدد بر منابع روش شناختي علوم مختلف، به تعريف اندازه‌گيري و شرايط ابزارسازي براي سنجش و چگونگي ميزان كردن ابزارهاي اندازه‌گيري همانند فرم ارزشيابي استادان معارف و در جهت شناسايي عوامل مؤثر بر اعتبار و پايايي ابزار اندازه‌گيري تأكيد دارد.اين مقاله با نگاهي به پاسخ نقد كه در شماره پيشين مجله معارف مكتوب شده است به بررسي موضوع پرداخته است.
تعريف اندازه‌گيري
اندازه‌گيري: "تخصيص اعداد به چيزها و رويدادها بر طبق قواعد است". عدد يك نمادي است به صورت 3، 2، 1، ... يا A, B, C كه در آن هيچ معناي كمّي در نظر گرفته نمي‌شود مگر اينكه اين معني به آن داده شود مثلاً در يك ابزاري ما به افراد شركت كننده كه عده‌اي زن و عده‌اي مرد هستند عدد 1 يا 2 مي‌دهيم اما عدد 2 در اينجا معناي رياضي و كمّي ندارد.1
دشوارترين كار اندازه‌گيري تعيين قاعده است. قاعده يك راهنمايي يا يك روش دستوري است كه مي‌گويد چه بايد كرد. در يك اندازه‌گيري "قاعده" ممكن است چنين باشد كه اعداد 1 تا 5 افراد اختصاص يابد2 اما نمي‌توان براي هر يك از اين اعداد ضريبي در نظر گرفته و اين ارقام را با توجه به آن ضريب محاسبه نماييد زيرا اين كار ابزار شما را نامتعادل خواهد كرد. وقتي ابزارهاي اندازه‌گيري ميزان شده و متعادل در دسترس محقق باشند، ارتباط در مورد مشاهدات انجام شده به سهولت انجام مي‌شوند. يك وسيله سنجش زماني "خوب ميزان شده" تلقي مي‌شود كه استفاده كنندگان متفاوت از اين ابزار به نتايج يكسان دست يابند.3
بايد توجه داشت كه اندازه‌گيري به خودي خود هدف نيست بلكه كارافزار مؤثري است كه شما را قادر مي‌سازد تا در مورد پديده‌ها و اعمال و رفتار افراد، اطلاعاتي را به دست آوريد. براي مثال يك استاد دانشگاه ممكن است از خود بپرسد كه دانشجويان من در اين ترم در درس معارف چقدر پيشرفت داشته‌اند؟ استادان ديگر اين درس به لحاظ كارآيي تدريس در چه حد قرار دارند؟ شما براي پاسخگويي به مسائلي كه داريد مجبوريد به دفعات متعددي به اندازه‌گيري متوسل شويد. آيا هرگز فكر كرده‌ايد كه تصميم‌گيري در مورد روش و شيوه‌هاي تدريس بدون سنجش چقدر مشكل مي‌شد. اگر هر كسي تنها به تأييدهاي نظري قضاوت‌هاي شخصي متكي است آيا پيشرفتي در علوم صورت مي‌گرفت.4
يكي از مزاياي سنجش و ارزيابي اين است كه حدس، گمان و تعبير و تفسير را از اطلاعات دور مي‌كند.5
اندازه‌گيري برخي خصوصيات انسان مانند رنگ مو، رنگ چشم، قد و وزن آسان است اما اندازه‌گيري بسياري از ويژگي‌هاي انسان همانند قدرت استدلال و سنجش روش تدريس استادان و نيز قواعد روشني كه نشان دهنده خوب بودن استاد در اين صفات باشد دشوار و پيچيده است. از اين روي هميشه بايد براي اندازه‌گيري هر چيزي نوعي قاعده داشته باشيم. براي قاعده‌مند كردن ابزار اندازه‌گيري نياز به تناظر و همانندي با "واقعيت" است. اين قواعد همان چيزي است كه اگر براي شاخص‌هاي سنجش علمي و روشي استادان به كار گرفته شود ابزار اندازه‌گيري را ميزان و متعادل مي‌سازد.6
يك گام اساسي در انجام تحقيق فرايندي است كه از طريق آن مشاهدات محقق به اعداد برگردانده شوند. استيونس گفته است "اندازه‌گيري در گسترده‌ترين معناي آن تخصيص اعداد به اشياء يا رويدادها بنابر قانونمندي‌ها است".7
در هر ابزاري ابتدا بايد از متغيرها آغاز نمود و سپس براي تعيين اينكه اين متغيرها چگونه به شكل عددي درمي آيند از قوانيني بايد پيروي كرد به عنوان مثال متغير وزن را مي‌توان با مشاهده ارقامي كه با گام نهادن آزمودني‌ها بر روي ترازو به دست مي آيد اندازه‌گيري كرد. متغير بلوغ اجتماعي را مي‌توان بر مبناي نمره‌هايي كه از مقياس بلوغ اجتماعي واينلند (Vineland social maturity Scale) به دست مي‌آيد، اندازه‌گيري كرد. رايج‌ترين شيوه‌هاي اندازه‌گيري مقياس‌هاي استيونس است كه اندازه‌گيري را به انواع اسمي، رتبه‌اي، فاصله‌اي و نسبي دسته‌بندي كرده است.8
امروزه روش‌هاي تحقيق به گونه‌اي پيشرفت كرده‌اند كه براي تحقيق در هر زمينه‌اي راه گشا هستند و اين گونه نيست كه براي بررسي مسائل مختلف نتوان ابزار دقيقي درست كرد و در نتيجه اطلاعات با ضريب خطاي بالا (و به لحاظ همبستگي بي‌معني) خطايي را در تصميم‌گيري‌هاي كلان ايجاد نمايد. ما مي‌توانيم نشانگرهايي (شاخص‌هايي) درست كنيم كه قدرت استدلال، تفكر، خلاقيت و نوآوري افراد (استادان) را اندازه‌گيري كند يعني رفتارهاي قابل مشاهده‌اي وجود دارند كه به عنوان شاخص‌هاي معتبر اين ساختارها پذيرفته شده‌اند و يكي از مهمترين وظايف محقق انتخاب يا تهيه مقياس‌ها و وسائلي است كه مي‌توانند ويژگي‌هايي مانند قدرت استدلال، تسلط علمي، شخصيت، وقار رفتاري، خود كم‌بيني، استعدادها، علايق خودپنداره (Self Concept) و غيره را اندازه بگيرند. براي كمّي كردن كيفيت، انواع مختلفي از وسايل مورد استفاده قرار مي‌گيرد به عنوان مثال اگر شما بخواهيد شاخص‌هايي كه به صورت كيفي در فرم ارزشيابي استادان معارف وجود دارد به صورت عددي درآوريد دو روش اصلي وجود دارد: الف) يا از وسايل اندازه‌گيري كه قبلاً توسط متخصصين ساخته شده است استفاده كنيد9 ب) يا بايد خود محقق وسيله اندازه‌گيري لازم را بسازد.10
درباره تنظيم مقياس اندازه‌گيري اولين گام، مشابه ساختن مجموعه گزاره‌هايي است كه از ميان آنها گزاره‌هايي كه در مقياس نهايي قرار داده مي‌شوند برگزيده خواهند شد. در شاخص‌هاي انتخابي (ارزشيابي استادان)، گويه‌ها به صورت واقعي انتخاب نگرديده است چرا كه در مواردي به شاخص‌هاي پيچيده و مبهمي برمي‌خوريم در حالي كه در انتخاب مواد براي اين منظور بايد از به كار بردن مواد پيچيده، مبهم، گزاره‌هاي دربرگيرنده دو معني، نارسا و غير خودداري شود.11
اما اساسي‌تر آنكه هر ماده بايد طوري انتخاب شود كه بتوان بين كساني كه داراي ايستارهاي مساعد و آنانكه داراي ايستارهاي نامساعد درباره موضوع مورد بررسي هستند، تفاوت قائل شد.12
يكي از شاخص‌هاي ارزشيابي استادان معارف به عنوان مثال جلب مشاركت در نظر گرفته شده است. بين استادي كه داراي ايستارهاي مساعد براي جلب مشاركت است (مثلاً تعداد 20 نفر در كلاس الف كه حجم 30 نفر دارد با تعداد 5 مرتبه جلب مشاركت در رتبه خوب قرار مي‌گيرد) با استادي كه داراي ايستارهاي نامساعد براي جلب مشاركت است (مثلاً تعداد 200 نفر كلاس ب در سالن آمفي تئاتر با جلب مشاركت 5 مرتبه در رتبه بد قرار مي‌گيرد؟!) تفاوت وجود ندارد. زيرا ابزار اندازه گيري بايد به گونه‌اي باشد، فردي داراي آن ويژگي نمره خوب بگيرد و كسي كه آن ويژگي را رعايت نكرده نمره بد بگيرد. در حالي كه در مثال مذكور فردي كه در كلاس ب جلب مشاركت را رعايت مي‌كند نيز نمره بد خواهد گرفت چون مشاركت وي باعث بي‌نظمي كلاس خواهد شد. تفاوت نداشتن استادان در رعايت جلب مشاركت و عدم رعايت جلب مشاركت باعث شده است كه تنظيم مقياس اندازه‌گيري به هم بريزد. آيا در ابزار اندازه‌گيري مي‌توان شاخصي را در نظر گرفت كه در مواقعي جنبه مثبت داشته باشد و در مواقع ديگر به صورت منفي عمل كند؟! اين مشكل زماني تشديد مي‌گردد كه به چنين شاخص‌هايي ضريب داده شود. در چنين مواردي اشكال چندين برابر خواهد شد. علاوه بر اين، نمي‌توان استدلال كرد كه در مواقعي با كاهش نمره ارزشيابي و در مواقع ديگر با افزايش نمره به نوعي تعادل خواهيم رسيد زيرا در يك ابزار اندازه‌گيري همانند خط كش آيا مي‌توان گفت كه در بين فاصله 3 تا 4، 20 ميلي متر كم مي‌كنيم و براي ايجاد تعادل در فاصله بين اعداد 7 تا 8، 20 ميلي متر اضافه مي‌كنيم؟
علاوه بر اين درست است كه مي‌توان در يك تحقيق براي ميزان پايبندي مردم به دين و يا هنجارها شاخص‌هايي را در نظر گرفت كه داراي شدت و ضعف باشد اما در ساختن ابزار اندازه‌گيري نبايد شاخص‌هايي كه داراي ارزش كمتري است گنجانده شود بلكه در اندازه‌گيري ديانت مردم بايد از شاخص‌هايي استفاده كرد كه به صورت تجربي حكايت از پايبندي مردم به دين داشته باشد. مثلاً براي اثبات ديانت مردم به جاي بررسي صفت امانتداري بايد از نمادهاي بهتري همانند نماز خواندن و يا شركت در نماز جماعت كه نماد محسوسي از دينداري است، استفاده كرد. براي انتخاب شاخص‌ها بايد از گويه‌هايي استفاده كرد كه داراي قوت بيشتري باشند و الا بايد پس از جمع‌آوري گويه‌ها بعضي از آن‌ها را حذف كرد.13
براي ساختن يك ابزار بايد به شاخص‌ها و نشانگرها توجه داشت. اين شاخص‌ها بايد داراي شرايطي باشند كه آن شرايط نشان دهنده ميزان دقت در ابزار است كه در ذيل به دو شرط آن اشاره مي‌كنيم:
1ـ بايد داراي يك ويژگي (متغيري) باشد كه در تمام اعضاء يك مجموعه آن خاصيت وجود داشته باشد مانند ميزان وقت‌شناسي، هر چند كه اعضاء مجموعه ممكن است از اين جهت متفاوت باشند.
2ـ نشانگر يا شاخص متغيري است كه بر يك خاصيتي اطلاق مي‌شود و به تعريف آن كمك مي‌كند به عنوان مثال نشانگرهاي ويژگي (شاخص‌هاي متغير) وقت شناسي مي‌توانند چنين باشند: الف) هرگز دير سر كلاس حاضر نمي‌شود. ب) تكاليفش را به موقع و يا پيش از تاريخ معين تحويل مي‌دهد. ج) جزو اولين كساني است كه در جلسه سخنراني وارد مي‌شود.14
بنابر اين اگر ما يك شاخص را در ابزار اندازه‌گيري در نظر گرفته‌ايم و آن را براي ارزشيابي استادان معارف به كار برديم مي‌توانيم براي تعريف آن شاخص‌ها به صورتي عمل نماييم كه با روش‌ها و متد علمي و آماري قابل اندازه‌گيري باشد و تمامي مخاطبان را به صورت يكسان تست نمايد.از اين رو شاخص‌هايي كه در فرم استادان معارف طراحي شده به گونه‌اي است كه نه داراي شرايط اول و نه داراي شرايط دوم هستند. پيامد اين نحوه ارزشيابي اشاعه خطايي در سنجش خواهد بود كه تمام استادان را در برمي‌گيرد يعني اين خطا ممكن است 15% باشد اما اين 15% به صورت اشاعه هر استادي احتمال مي‌دهد كه شايد آن خطاي اندازه‌گيري به وي اصابت كرده باشد.
علاوه بر اين اگر بخواهيد رفتاري را در مواردي آزمايش و اندازه‌گيري نماييد بايد به گونه‌اي دقيق شرايط را براي همگان يكسان در نظر گرفت. اگر در يك سنجش و اندازه‌گيري براي عده‌اي از آزمون شوندگان شرايط مساعدي فراهم باشد و ديگران از شرايط معكوسي برخوردار باشند و در عين حال همه آنان را با يك ابزار تست نماييم آزمايش ما داراي كنترل دقت نخواهد بود. به عنوان مثال اگر براي استادي شرايط تدريس در يك كلاس با 200 نفر دانشجو فراهم باشد و براي استادي ديگر شركت كنندگان آن 20 نفر باشد نمي‌توان با يك ابزار هر دو گروه را تست كرد. يكسان كردن عوامل را مي‌توان يا از طريق كنترل توزيع فراواني (Haufikeitsvertiung) و يا با استفاده از روش كنترل دقت (Prazisionskontrolle) به گونه‌اي عمل نمود كه سنجش را مورد نقض و ترديد قرار ندهد.15
از مسائل ديگري كه در سنج‌ها و اندازه‌گيري‌ها بيش از همه داراي اهميت است سه معيار بنياديني است كه در ذيل به آن اشاره مي‌كنيم:
1ـ اجراي استاندارد (Sundardized administration) 2ـ اعتبار (Vilidity) 3ـ پايايي (Reliability)
مفاهيم ديگري چون خطاي معيار، برآورد نمره‌هاي حقيقي، فاصله‌هاي اطمينان و نمره تفاوت از ديگر موضوعاتي است كه بايد در اندازه‌گيري مورد ملاحظه قرار گيرد.
1ـ اجراي استاندارد:
منظور از اجراي استاندارد آزمون؛ شرايطي است كه بايد در يك ابزار اندازه‌گيري رعايت گردد. اين شرايط عبارتند از: دستورالعمل اجراي استاندارد، مدت زمان معين شده براي انجام آزمون يا سؤالات آن و نمره گذاري استاندارد آزمون است. آنچه كه در شرايط مذكور قابل دقت است نمره گذاري استاندارد آزمون است. در واقع اجراي آزمون بايد در شرايطي انجام شود كه با تمام آزمون شوندگان به نحو يكسان برخورد شود تا بتوان چنين فرض كرد كه تفاوت نمرات آزمون شوندگان صرفاً به دليل تفاوت عملكرد آنان است نه سليقه‌ها و انگيزه‌هاي ارزياب‌ها.16
بايد توجه داشت كه براي هر آزموني ابزار اندازه‌گيري خاصي لازم است به عنوان مثال براي سنجش پيشرفت تحصيلي نيازمند ابزاري هستيم كه با آزمون‌هاي ديگر همانند كنكور دانشگاه‌ها و يا امتحانات پايان ترم متفاوت است.
شما مي‌توانيد فرم ارزشيابي استادان معارف را با آزمون پيشرفت تحصيلي كه در آن معلمان سؤالاتي را طراحي كرده و با مشاهده و سنجش دانش‌آموزان پيشرفت تحصيلي آنان را محك مي‌زنند17 مقايسه نماييد. اما نمي‌توانيد فرم ارزشيابي استادان را با كنكور دانشگاه مقايسه كنيد زيرا در آزمون دانشگاه‌ها ناظرين، دفترچه آزمون و پاسخنامه را در اختيار دانشجويان قرار مي‌دهند. اما آيا در سنجش علمي و روشي استادان، ارزياب‌ها فرم ارزشيابي را در اختيار استادان قرار مي‌دهند تا به آن پاسخ دهند؟!
2ـ اعتبار
"اعتبار" با اين مسأله سر و كار دارد كه يك ابزار اندازه‌گيري تا چه حد آن چيزي را اندازه مي‌گيرد كه مورد نظر بوده است. براي سنجش اين مهم محقق بايد راه‌هايي براي اندازه‌گيري "اعتبار" ابداع كند. بنابر اين، اين سؤال پيش مي‌آيد، شيوه‌هايي كه قرار است با آن چيزي را اندازه بگيرند به چه صورتي است. براي سنجش "اعتبار" لازم است محقق به اين سؤالات پاسخ دهد. ابزاري كه براي سنجش قدرت تفكر، خلاقيت و نگرش افراد طراحي شده آيا واقعاً اين صفات را اندازه گيري مي‌كند؟ آيا اين آزمون ساير كيفيت‌ها را نيز به همان خوبي اندازه مي‌گيرد؟ آيا اين آزمون واقعاً مي‌تواند افراد بسيار خلاق را از افراد عادي متمايز كند؟ آيا مي‌توان بر مبناي (معدل) و نمره‌هاي اين آزمون پيش بيني‌هاي مفيدي انجام داد؟ آيا اين آزمون ابزار مناسبي براي استفاده در مورد همه افراد است و يا اينكه آن را تنها بايد در مورد افراد يا گروه‌هاي خاصي به كار برد؟ براي مثال اين آزمون براي اقليت‌هاي مذهبي چقدر مناسب است؟ پاسخ به اين پرسش‌ها همه به معنادار بودن و سودمند بودن استنباط‌هايي كه بر مبناي نمره‌ها صورت خواهد گرفت، يعني به "اعتبار" آزمون، مربوط مي‌شوند.18
راه‌هايي كه ما مي‌توانيم "اعتبار" ابزار اندازه‌گيري خود را تست نماييم19 عبارتند از:
الف) شواهد اعتباري مرتبط با محتوا: به عنوان مثال آزمون‌هاي كلاسي به طور كلي به منظور سنجش دانش و مهارت‌هاي دانش‌آموزان در يك حيطه محتوايي تعريف شده مورد استفاده قرار مي‌گيرند.
ب) شواهد مرتبط با ملاك: اين شواهد نشان مي‌دهد كه نمره‌هاي يك ابزار اندازه‌گيري تا چه اندازه با يك متغير مستقل بيروني كه گمان مي‌رود رفتار يا خصيصه مورد نظر را به طور مستقيم اندازه مي‌گيرد، مرتبط هستند. هنگامي كه كسي رابطه بين نمره‌هاي يك آزمون استعداد تحصيلي و معدل دانشگاه را بررسي مي‌كند در واقع شواهد مرتبط با ملاك را در مورد "اعتبار" آزمون گردآوري مي‌كند و هر چقدر اين رابطه نزديكتر باشد (تا خطاي 5%) مقدار "اعتباري" است كه آزمون استعداد تحصيلي براي پيش‌بيني معدل خواهد داشت.
ج) شواهد مرتبط با سازه: در اينجا بيشتر توجه به نمره‌هاي آزمون است كه به عنوان اندازه‌اي از يك صفت يا سازه روانشناختي قرار دارد. واژه سازه به چيزي اطلاق مي‌شود كه خود به طور مستقيم قابل اندازه‌گيري نيست اما اثرات قابل مشاهده را توضيح مي‌دهد.20
هنگامي كه آزمون ساخته و اجرا شد اگر محقق دريابد كه اين عناصر به طور مثبت با هم مرتبط نيستند نتيجه خواهد گرفت كه اندازه مذكور فاقد "اعتبار" است و آزمون يا سازه بايد مورد تجديد نظر قرار گيرد.
يكي ديگر از راه‌هاي سنجش "اعتبار" ابزار اندازه‌گيري همبستگي با ساير اندازه‌ها است. اگر بتوانيم نشان دهيم كه نمره‌هاي حاصل از يك آزمون جديد با نمره‌هاي حاصل از يك آزمون متداول كه گمان مي‌رود اندازه معتبري از سازه مورد نظر است همبستگي دارند. مي‌توان نتيجه گرفت كه ابزار اندازه‌گيري ساخته شده در اين آزمون داراي "اعتبار" است.21 در يك معدل ارزيابي و سنجش علمي و روشي استادان بايد همبستگي بالايي با معدل فارغ‌التحصيلي و يا رتبه بندي استادان ديگر در مورد تسلط علمي و روشي وجود داشته باشد. در يك آزمون برگزاري المپياد رياضي افراد موفق از اين آزمون بايد همبستگي بالايي22 با نمره‌هاي درس رياضي آنان وجود داشته باشد. بنابر اين اگر در المپياد رياضي افرادي قبول شده‌اند كه نمره درس رياضي آنان خوب نبوده است اين نتيجه نشان مي‌دهد كه اين آزمون، سازه‌ها و ابزار اندازه‌گيري داراي نقص بوده است و از "اعتبار" لازم برخوردار نيست.23
راه‌هاي ديگري براي سنجش "اعتبار" ابزار اندازه‌گيري وجود دارد كه از جمله آن بررسي‌هاي آزمايشي است. مثلاً در اعتباريابي شاخص اضطراب مي‌توان فرد را در شرايط اضطراب‌زا قرار داد علاوه بر اين موارد ما مي‌توانيم از طريق مقايسه نمره‌هاي گروه‌هاي تعيين شده و نيز از راه تحليل درون آزموني به اعتباريابي ابزار اندازه‌گيري دسترسي پيدا كنيم.24
3ـ پايايي
پايايي از ويژگي‌هايي است كه در ابزار اندازه‌گيري و نيز در مورد ارزياب‌ها بايد رعايت گردد. به عبارت ديگر هم بايد فرم ارزشيابي داراي پايايي باشد و هم ارزشياب‌ها بايد از پايايي برخوردار باشند.
الف) پايايي ابزار اندازه‌گيري: اين پايايي عبارت است از درجه ثبات در اندازه‌گيري اين كيفيت در هر نوع از اندازه‌گيري‌ها يك امر اساسي است. اگر در يك ارزيابي علمي، تحصيلي. روشي و خلاقيت هر بار كه آزمودني يكساني به كار رود نتايج متفاوتي به بار آورد از نظر روانشناسان و متخصصان تعليم و تربيت بي‌ارزش قلمداد خواهد شد.
اگر نتايج حاصل از ارزيابي يك استاد در يك زمان نمره بالا و در زمان ديگر نمره پايين باشد اشخاصي كه وسايل اندازه‌گيري را به كار مي برند بايد شيوه‌هايي را براي تعيين اينكه وسايل اندازه‌گيري آنها تا چه حد با ثبات و پايا هستند، شناسايي كنند. يك آزمون تا آنجا پايايي دارد كه نمره‌هايي كه يك فرد در اندازه‌گيري‌هاي مكرر كسب مي‌كند تقريباً يكسان باقي بمانند. به عبارت ديگر پايايي را مي‌توان با محاسبه همبستگي نمره‌هايي كه هر فرد در دو زمان مختلف از يك آزمون يا از دو آزمون متفاوت هم ارز، كسب كرده است برآورد كرد. در مواقعي نيز يكي ديگر از روش‌هاي پايايي دو نيمه كردن سؤالات است و همبستگي بين نمره‌هاي هر فرد را در آن دو نيمه محاسبه مي‌كنند.25
ب) پايايي ارزياب‌ها: نوع ديگري از پايايي وجود دارد كه مربوط به ارزياب‌ها و مشاهده گران است. در صورتي كه ويژگي شخصيتي و رفتاري ارزياب‌ها تأثيرگذار باشد آن آزمون پايايي نخواهد داشت پايايي ارزياب‌ها يا مشاهده گران "شاخصي است از اين كه رتبه‌بندي كه داوران يا مشاهده گران مختلف از يك رفتار يكسان ارائه مي‌كنند تا چه حد مشابهت دارند. محقق بايد نشان دهد كه رتبه بندي‌هاي او تحت تأثير ارزش‌ها، نگرش‌ها و ويژگي‌هاي شخصيتي داوران قرار ندارد".26
اكنون اين سؤال پيش مي‌آيد كه چگونه مي‌توان پايان ارزشياب‌ها را تست كرد. در پاسخ بايد گفت شيوه سنجش اين نوع پايايي آن است كه دو يا چند رتبه‌بندي كننده رفتار يكساني را مشاهده يا رتبه‌بندي كنند سپس براي تعيين ميزان توافق داوران همبستگي بين رتبه بندي‌هاي آنان محاسبه شود، ضريب همبستگي حاصله شاخص پايايي ارزياب‌ها است. به نظر مي‌رسد در فرم ارزيابي استادان معارف چنين شيوه‌هاي سنجش پايايي صورت نگرفته است زيرا در مواقعي دو ارزياب دو گونه رتبه‌بندي كاملاً متناقض را ارائه مي‌دهند. همبستگي بين آن دو رتبه‌بندي معنادار نبوده و ضريب خطاي بالايي را خواهد داشت. اين رتبه‌بندي در حالي صورت گرفته است كه شاخص‌هاي ارزيابي كاملاً تعريف شده و داوران نيز به خوبي آموزش ديده‌اند.
نكته ديگري كه در مورد تكنيك مشاهده قابل اهميت است خطاي ناشي از فراموشي مشاهده‌گر است، از اين روي مناسب است "مشاهده نامه"اي27 با متد خاصي طراحي شده و در اختيار مشاهده‌گران قرار گيرد.28

1 - كريلينجر، فرد، آن: مباني پژوهش در علوم رفتاري. ج 2 (مترجمان: حسن پاشا شريفي، جعفر نجفي زند) انتشارات آواي نور، تهران 1376، ص 91)
2 - همان: ص 92.
3 ـ بالدبي، دئو. ون دلن، مباني پژوهش در علوم تربيتي (و ساير زمينه‌هاي وابسته) ترجمه: جعفر نجفي زند، نشر قومس، تهران 1373، ص 136.
4 - همان: ص 133.
5 - همان: ص 134.
6 - جهت مطالعه بيشتر در مورد چگونگي قاعده‌مند كردن ابزار اندازه‌گيري مي بايست به صورت گويه از متن واقعيت اجتماعي استخراج شود به منابع زير مراجعه كنيد: 1ـ كند و كاوها و پنداشته‌ها، مقدمه‌اي بر روش‌هاي شناخت جامعه و تحقيقات اجتماعي، فرامرز رفيع پور، شركت سهامي انتشار، تهران 1375، طيف بوگاردوس، ص 218؛ طيف تورسنن، ص 230 و طيف ليكرت ص 240. بايد توجه داشت كه در تعريف هر يك از شاخص هاي فرم ارزشيابي استادان معارف اين گويه‌ها رعايت گردد و با توجه به جزئي و مشخص بودن آنها ارزشياب آن را علامت بزند. 2ـ روش تحقيق. س 1 موز؛ ج. كالتون (ترجمه كاظم ايزدي) 1376، Thurstone، ص 342؛ Likert ص 343؛ Guttman ص 348.
7 - آري، دانالد، لوسي چسر جيكوبز، اصغر رضويه: روش تحقيق در تعليم و تربيت (مترجمان وازگن سركيسيان، مينونيكو، ايما سعيديان) انتشارات سروش، تهران 1380 به نقل از:
Stevens, S.S. (1951) Mathematics, measurement and Psychophysics. In s.s. (ed) Hand book of Experimental Psychology (P.l) New York: wiley.
8 - همان: ص 156.
9 - جهت اطلاع از منابع سودمند براي شناسايي وسايل اندازه‌گيري به سالنامه اندازه‌گيري‌هاي رواني بوروس و مجموعه آزمون‌هاي مؤسسه آزمون‌هاي آموزشي (ETS) و فهرست تجمعي آزمون‌ها به صورت ميكروفيش 87ـ1975 و نيز متون تخصصي در مورد سنجش نظير كتاب‌هاي گرون لوند يا ساكس مراجعه كرد، همانند:
1) Gronlund . N.E, and R.L. line (1990) Measurement and Evaluation in Teaching (6 th. ed) New York.
2) Mac millan, sax. G (1980) Princioles of Eductional and Psychogical measuremen and Evaluation in Psychology and Education (4 th. ed) New York: Wiley.
برگرفته از كتاب دانلد آري، صص 294 و 296.
10 - همان: ص 293.
11 - موزر: س 1، ج. كالتون: روش تحقيق (ترجمه كاظم ايزدي) 1367، ص 338.
12 - همان: همان.
13 - جهت انتخاب و آزمون گويه‌ها رجوع كنيد به: پيمايش در تحقيقات اجتماعي، دي. اي. دو اس (ترجمه هوشنگ نايبي) نشر ني، تهران 1376، ص 107.
14 - بالديي، دئو، ون دلن: پيشين، ص 140.
15 - انسلندر، پتر: روش‌هاي تجربي تحقيق اجتماعي (ترجمه بيژن كاظم‌زاده) انتشارات آستان قدس رضوي، مشهد 1375، ص 215.
16 - براي مطالعه مثال‌ها رجوع كنيد به: لطف آبادي، حسين: سنجش و اندازه‌گيري در علوم تربيتي و روانشناسي؛ روان سنجي سنتي و رويكردهاي جديد در سنجش رواني ـ تربيتي، انتشارات حكيم فردوسي، مشهد، 1374، ص 226.
17 - همان، ص 80.
18 - آري، دانالد، لوسي چسر جيكوبز، اصغر رضويه: پيشين، ص 330.
19 - همان: ص 333.
20 - جهت مطالعه اعتبار و روايي سازه و اعتبار مرتبط با ملاك به كتاب: روش‌هاي تحقيق در علوم تربيتي و رفتاري؛ جان بست ( ترجمه حسن پاشا شريفي و نرگس طالقاني) انتشارات رشد، تهران، 1376، صص 263 و 262 مراجعه نماييد.
21 - آري، دانالد، لوسي چسر جيكوبز، اصغر رضويه، پيشين، ص 339.
22 - جهت تشخيص مقادير مورد نياز در مورد همبستگي بين دو متغير و ميزان معناداري آن ر.ك به كتاب سنجش و اندازه‌گيري در علوم تربيتي و روانشناسي: روان سنجي سنتي و رويكردهاي جديد در سنجش رواني ـ تربيتي، حسين لطيف‌آبادي، انتشارات حكيم فردوسي، مشهد، 1374، ص 181.
23 - آري، دانالد، لوسي چسر جيكوبز، اصغر رضويه: پيشين، ص 340.
24 -همان: ص 342، و نيز جهت مطالعه بيشتر درباره راه‌هاي سنجش اعتبار به كتاب: روش‌هاي تحقيق در علوم تربيتي و رفتاري، جان بست (مترجم حسن پاشا شريفي و نرگس طالقاني) انتشارات رشد، تهران 1376، ص 262.
25 - همان: ص 346.
26 - همان: صص 356ـ352.
پايي يك ابزار اندازه‌گيري همانند فرم ارزيابي استادان معارف را مي‌توان به طور نظري، نسبت واريانس نمره واقعي به واريانس نمره مشاهده شده در يك مجموعه از نمره‌ها تعريف كرد. يعني پايايي برابر است با ............. پايايي آزمون ............ واريانس نمره‌هاي واقعي ..... واريانس نمره‌هاي مشاهده شده).
27 - همان: ص 364.
28 - جهت اطلاعات بيشتر درباره ساختن ابزار مشاهده و جمع‌آوري داده‌ها رجوع كنيد به كتاب: روش تحقيق در علوم اجتماعي، ريمون كيوي و لوك وان كامپنهود (ترجمه عبدالحسين نيك گهر) انتشارات طوطيا، تهران 1375، صص 203ـ147.