4 đặc điểm hàng đầu của một bài kiểm tra tốt

Bài viết này đưa ra ánh sáng về bốn đặc điểm quan trọng của một bài kiểm tra tốt. Bốn đặc điểm là: 1. Độ tin cậy 2. Hiệu lực 3. Tính khách quan 4. Tính khả dụng.

Đặc tính # 1. Độ tin cậy:

Ý nghĩa từ điển của độ tin cậy là tính nhất quán, sự phụ thuộc hoặc tin tưởng. Vì vậy, trong độ tin cậy của phép đo là tính nhất quán mà phép thử mang lại kết quả tương tự trong việc đo bất cứ thứ gì nó đo được. Điểm kiểm tra được gọi là đáng tin cậy khi chúng ta có lý do để tin rằng điểm số là ổn định và đáng tin cậy. Tính ổn định và độ tin cậy tùy thuộc vào mức độ mà điểm số là một chỉ số về độ tin cậy về thời gian 'không có lỗi cơ hội. Do đó độ tin cậy có thể được định nghĩa là mức độ nhất quán giữa hai phép đo của cùng một thứ.

Ví dụ: chúng tôi đã thực hiện bài kiểm tra thành tích ở nhóm A và tìm thấy điểm trung bình là 55. Một lần nữa sau 3 ngày, chúng tôi đã thực hiện bài kiểm tra tương tự ở nhóm A và tìm thấy điểm trung bình là 55. Nó chỉ ra rằng công cụ đo lường (Kiểm tra thành tích) đang cung cấp một kết quả ổn định hoặc đáng tin cậy. Mặt khác, nếu trong phép đo thứ hai, bài kiểm tra cung cấp điểm trung bình khoảng 77 thì chúng ta có thể nói rằng điểm kiểm tra không nhất quán.

Theo cách nói của độ tin cậy của Gronlund và Linn (1995) đề cập đến tính nhất quán của phép đo, nghĩa là điểm số kiểm tra nhất quán hoặc kết quả đánh giá khác từ phép đo này đến phép đo khác

CV Good (1973) đã định nghĩa độ tin cậy là sự xứng đáng của người dùng trong đó một thiết bị đo lường đo lường một cái gì đó; mức độ mà một bài kiểm tra hoặc công cụ đánh giá khác nhất quán bất cứ điều gì nó thực sự đo lường.

Theo Ebel và Frisbie (1991), độ tin cậy của thuật ngữ có nghĩa là tính nhất quán trong đó một bộ điểm kiểm tra đo lường bất cứ thứ gì họ đo được.

Về mặt lý thuyết, độ tin cậy được định nghĩa là tỷ lệ của điểm thực và phương sai điểm quan sát được.

Theo Davis (1946), mức độ của các phép đo tương đối của phép đo một tập hợp điểm kiểm tra được xác định là độ tin cậy.

Do đó, độ tin cậy trả lời cho các câu hỏi sau:

Gronlund và Linn (1995)

Điểm kiểm tra tương tự như thế nào nếu mất được quản lý hai lần?

Điểm kiểm tra tương tự như thế nào nếu hai hình thức kiểm tra tương đương được thực hiện?

Đến mức nào thì điểm của bất kỳ bài kiểm tra tiểu luận. Khác nhau khi được chấm điểm bởi các giáo viên khác nhau?

Không phải lúc nào cũng có thể có được kết quả hoàn toàn phù hợp. Bởi vì có một số yếu tố như sức khỏe thể chất, trí nhớ, đoán, mệt mỏi, quên v.v ... có thể ảnh hưởng đến kết quả từ phép đo này đến phép đo khác. Các biến không liên quan này có thể giới thiệu một số lỗi đối với điểm kiểm tra của chúng tôi. Lỗi này được gọi là lỗi đo lường. Vì vậy, trong khi xác định độ tin cậy của thử nghiệm, chúng ta phải xem xét lượng lỗi xuất hiện trong phép đo.

Bản chất của độ tin cậy:

1. Độ tin cậy liên quan đến tính nhất quán của các kết quả thu được với một công cụ nhưng không phải là chính công cụ đó

2. Độ tin cậy đề cập đến một cách giải thích cụ thể về điểm kiểm tra. Ví dụ: điểm kiểm tra đáng tin cậy trong một khoảng thời gian có thể không đáng tin cậy từ thử nghiệm này sang thử nghiệm tương đương khác. Vì vậy, độ tin cậy không thể được coi là đặc điểm chung.

3. Độ tin cậy là một khái niệm thống kê để xác định độ tin cậy mà chúng tôi quản lý kiểm tra cho một nhóm một lần hoặc nhiều lần. Sau đó, tính nhất quán được xác định theo các thay đổi ở vị trí tương đối của một người trong nhóm hoặc số lượng biến thể dự kiến ​​trong điểm số của một cá nhân. Sự thay đổi vị trí tương đối của một cá nhân có liên quan bằng hệ số tương quan gọi là 'Hệ số độ tin cậy' và mức độ biến đổi được báo cáo bởi 'Lỗi tiêu chuẩn đo lường'. Cả hai quá trình này là thống kê.

4. Độ tin cậy là cần thiết nhưng không phải là điều kiện đủ để có hiệu lực. Một bài kiểm tra không đáng tin cậy không thể có hiệu lực. Nhưng nó không phải là một thử nghiệm với độ tin cậy cao sẽ có hiệu lực cao. Bởi vì một bài kiểm tra rất nhất quán có thể đo lường một cái gì đó khác với những gì chúng tôi dự định đo.

Phương pháp xác định độ tin cậy:

Đối với hầu hết các bài kiểm tra giáo dục, hệ số độ tin cậy cung cấp chỉ số thống kê rõ ràng nhất về chất lượng thường có sẵn. Các ước tính về độ tin cậy của kiểm tra cung cấp thông tin cần thiết để đánh giá chất lượng kỹ thuật của họ và thúc đẩy các nỗ lực cải thiện chúng. Tính nhất quán của điểm kiểm tra được thể hiện bằng các thay đổi về vị trí tương đối của một cá nhân trong nhóm hoặc về mức độ thay đổi trong điểm số của một cá nhân.

Trên cơ sở ước tính độ tin cậy này thuộc hai phân loại chung:

(tôi) Độ tin cậy tương đối hoặc Hệ số độ tin cậy:

Trong phương pháp này, độ tin cậy được nêu dưới dạng hệ số tương quan được gọi là hệ số độ tin cậy. Do đó, chúng tôi xác định sự dịch chuyển vị trí tương đối của điểm số của một cá nhân theo hệ số tương quan.

(ii) Độ tin cậy tuyệt đối hoặc sai số chuẩn của phép đo:

Trong phương pháp này, độ tin cậy được nêu dưới dạng sai số chuẩn của phép đo. Nó cho biết mức độ biến đổi của điểm số của một cá nhân.

Phương pháp xác định độ tin cậy tương đối hoặc hệ số độ tin cậy:

Để xác định hệ số độ tin cậy, chúng ta phải có được hai bộ đo trong điều kiện giống hệt nhau và sau đó so sánh hai bộ. Nhưng nó chỉ là một điều kiện lý thuyết, bởi vì chúng ta không thể có được hai phép đo trên hai điều kiện giống hệt nhau. Vì vậy, một số phương pháp đã được phát triển để xác định độ tin cậy tương đối.

Chúng là như sau (Gronlund và Linn Ố 1995):

(i) Cùng một hình thức kiểm tra có thể được thực hiện hai lần cho cùng một nhóm các cá nhân.

(ii) Hai hình thức kiểm tra riêng biệt nhưng tương đương có thể được quản lý cho cùng một cá nhân.

(iii) Các mục kiểm tra của một bài kiểm tra được chia thành hai bộ riêng biệt và điểm của hai bộ tương quan.

Các phương pháp tương tự nhau ở chỗ tất cả chúng đều liên quan đến hai bộ dữ liệu, thu được từ cùng một công cụ đánh giá hoặc từ các hình thức tương đương của cùng một quy trình. Hệ số độ tin cậy này phải được giải thích theo các loại thống nhất đang được nghiên cứu.

Các loại nhất quán khác nhau được xác định bằng các phương pháp khác nhau. Đó là như sau:

1. Tính nhất quán trong một khoảng thời gian.

2. Tính nhất quán đối với các hình thức khác nhau của công cụ.

3. Tính nhất quán trong công cụ

Có bốn phương pháp xác định hệ số độ tin cậy, chẳng hạn như:

(a) Phương pháp kiểm tra lại.

(b) Phương thức hình thức tương đương / Phương pháp hình thức song song.

(c) Phương pháp tách đôi.

(d) Phương pháp tương đương hợp lý / Kuder-Richardson.

(а) Phương pháp kiểm tra lại:

Đây là phương pháp đơn giản nhất để xác định độ tin cậy kiểm tra. Để xác định độ tin cậy trong phương pháp này, thử nghiệm được đưa ra và lặp lại trên cùng một nhóm. Sau đó, mối tương quan giữa bộ điểm số đầu tiên và bộ điểm số thứ hai thu được.

Một hệ số tương quan cao cho thấy độ ổn định cao của điểm kiểm tra. Theo lời của Gronlund, Các biện pháp ổn định trong các năm .80 và .90 thường được báo cáo cho các bài kiểm tra tiêu chuẩn hóa trong các dịp trong cùng một năm. Nhưng phương pháp này bị một số nhược điểm nghiêm trọng. Trước hết những gì nên là khoảng cách giữa hai chính quyền.

Nếu nó được quản lý trong một khoảng thời gian ngắn nói một hoặc hai ngày, thì học sinh sẽ nhớ lại câu trả lời đầu tiên của họ và dành thời gian cho tài liệu mới. Nó sẽ có xu hướng tăng điểm của họ trong chính quyền thứ hai. Nếu khoảng thời gian quá dài nói một năm, thì hiệu ứng trưởng thành sẽ ảnh hưởng đến điểm thi lại và nó sẽ có xu hướng tăng điểm thi lại.

Trong cả hai trường hợp, nó sẽ có xu hướng giảm độ tin cậy. Vì vậy, khoảng cách thời gian giữa hai chính quyền nên phụ thuộc phần lớn vào việc sử dụng và giải thích điểm kiểm tra. Do những khó khăn của nó trong việc kiểm soát các điều kiện ảnh hưởng đến điểm thi lại, làm giảm việc sử dụng phương pháp kiểm tra lại trong ước tính, hệ số độ tin cậy.

(b) Phương pháp hình thức tương đương / hình thức song song:

Độ tin cậy của điểm kiểm tra có thể được ước tính bằng phương pháp biểu mẫu tương đương. Nó còn được gọi là phương pháp hình thức thay thế hoặc hình thức song song. Khi hai hình thức kiểm tra tương đương có thể được xây dựng, mối tương quan giữa hai hình thức có thể được coi là các biện pháp tự tương quan của thử nghiệm. Trong quá trình này, hai hình thức kiểm tra song song được thực hiện cho cùng một nhóm học sinh trong khoảng thời gian ngắn, sau đó điểm của cả hai bài kiểm tra đều tương quan. Mối tương quan này cung cấp các chỉ số tương đương. Thông thường trong trường hợp kiểm tra tâm lý và thành tích tiêu chuẩn, các hình thức tương đương có sẵn.

Cả hai bài kiểm tra được chọn cho quản trị phải song song về nội dung, độ khó, định dạng và độ dài. Khi khoảng cách thời gian giữa chính quyền của hai hình thức kiểm tra được cung cấp, hệ số điểm kiểm tra cung cấp thước đo độ tin cậy và tương đương. Nhưng nhược điểm chính của phương pháp này là có được hai hình thức kiểm tra song song. Khi các bài kiểm tra không chính xác bằng nhau về nội dung, độ khó, độ dài và so sánh giữa các điểm đạt được từ các bài kiểm tra này có thể dẫn đến các quyết định sai lầm.

(c) Phương pháp tách đôi:

Ngoài ra còn có các phương pháp mà độ tin cậy có thể được xác định bằng một quản trị đơn của một thử nghiệm. Một trong những phương pháp như vậy là phương pháp tách đôi. Trong phương pháp này, một bài kiểm tra được thực hiện cho một nhóm học sinh theo cách thông thường. Sau đó, bài kiểm tra được chia thành hai giá trị tương đương và tương quan cho các bài kiểm tra nửa này được tìm thấy.

Quy trình phổ biến để phân tách bài kiểm tra là lấy tất cả các mục được đánh số lẻ, ví dụ 1, 3, 5, v.v. trong một nửa và tất cả các mục được đánh số chẵn, ví dụ 2, 4, 6, 8, v.v. các nửa được tương quan bằng cách sử dụng công thức Spearman-Brown.

Ví dụ, bằng cách tương quan cả hai nửa, chúng tôi tìm thấy một hệ số 0, 70.

Bằng cách sử dụng công thức (5.1), chúng tôi có thể có được hệ số độ tin cậy trong bài kiểm tra đầy đủ như:

Hệ số độ tin cậy .82 khi hệ số tương quan giữa một nửa thử nghiệm là 0, 70. Nó chỉ ra mức độ mẫu của các mục kiểm tra là mẫu đáng tin cậy của nội dung được đo tính nhất quán nội bộ của Haiti.

Gronlund (1995) cho rằng, độ tin cậy phân chia một nửa có xu hướng cao hơn độ tin cậy của hình thức tương đương vì phương pháp phân nửa dựa trên việc quản lý một hình thức thử nghiệm duy nhất. Phương pháp này vượt qua vấn đề về phương thức hình thức tương đương được giới thiệu do sự khác biệt từ hình thức đến hình thức, trong sự chú ý, tốc độ làm việc, nỗ lực, mệt mỏi và nội dung kiểm tra, vv

(d) Phương pháp tương đương / Kuder Richardson hợp lý:

Tương đương hợp lý là một phương pháp khác để xác định độ tin cậy bằng cách sử dụng công thức được phát triển bởi Kuder và Richardson. Giống như phương pháp tách đôi, phương pháp này cũng cung cấp thước đo về tính nhất quán bên trong. Nó không yêu cầu quản lý hai hình thức kiểm tra tương đương và cũng không yêu cầu chia các bài kiểm tra thành hai nửa bằng nhau. Hệ số độ tin cậy được xác định bằng cách sử dụng công thức Kuder-Richardson-20 đọc như thế này.

Phương pháp này cung cấp thông tin về mức độ mà các mục trong thử nghiệm đo các đặc điểm tương tự. Mặc dù sự đơn giản của việc áp dụng phương pháp này đã khiến nó lan rộng nhưng nó vẫn có một số hạn chế.

1. Phương pháp Kuder-Richardson và phương pháp tách đôi không thích hợp cho các bài kiểm tra tốc độ.

2. Cả hai phương pháp Kuder-Richardson và tách nửa không đo lường sự thống nhất của phản ứng học sinh từ ngày này sang ngày khác.

3. Phương pháp Kuder-Richardson rất khó tính trừ khi có sẵn thông tin liên quan đến tỷ lệ truyền.

Phương pháp xác định độ tin cậy tuyệt đối hoặc sai số chuẩn của phép đo:

Nếu chúng ta sẽ quản lý một bài kiểm tra nhiều lần, chúng ta sẽ tìm thấy một số thay đổi về điểm số. Bởi vì điểm số đạt được là một chỉ số của điểm thực sự của người kiểm tra cộng với: lỗi đo lường. HE Garrett (1985) đã xác định một điểm số thực sự là một thước đo có thể đạt được bằng cách lấy giá trị trung bình của một số lượng lớn phép đo của một cá nhân nhất định trong các thử nghiệm tương tự trong các điều kiện tương tự. Tất nhiên, một số điểm thực sự không thể được xác định bằng thực nghiệm .

Nếu điểm kiểm tra bao gồm một thành phần lỗi lớn thì độ tin cậy của nó thấp và nếu có một chút lỗi thì độ tin cậy của nó cao. Do đó, mức độ mà một điểm thực sự vượt quá, lỗi trong các điểm đạt được có thể được biểu thị bằng hệ số độ tin cậy.

Mối quan hệ này giữa điểm thực, điểm thu được và lỗi có thể được biểu thị bằng toán học như sau:

Chúng ta có thể tìm ra sai số chuẩn của phép đo (SE) khi hệ số độ tin cậy và độ lệch chuẩn của phân phối được đưa ra.

Công thức (Garrett năm 1985) để tính toán sai số chuẩn của phép đo như sau:

Ví dụ, trong một nhóm gồm 200 học sinh Trung học, hệ số tin cậy của bài kiểm tra thành tích trong toán học là 0, 70, Trung bình = 65 và o = 20. Lipu đạt được số điểm 60. SE của điểm này là bao nhiêu.

Bằng cách đặt giá trị trong công thức (5.3):

Vì vậy, điểm thực sự của Lipu là 60 ± 10, 95 tức là 70, 50 đến 49, 05.

Không có điểm số nào cho chúng ta biết điểm thực sự là gì, nhưng kiến ​​thức về SE chỉ ra sự khác biệt giữa điểm đạt được và điểm thực. Khi SE nhỏ, nó chỉ ra rằng điểm thực sự gần với điểm đạt được hơn và nó cũng cho biết sự khác biệt giữa điểm của hai cá nhân là chênh lệch thực hay chênh lệch do lỗi đo lường.

Các yếu tố ảnh hưởng đến độ tin cậy:

Có một số yếu tố ảnh hưởng đến các biện pháp độ tin cậy. Vì vậy, khi chúng tôi giải thích và sử dụng điểm số, chúng tôi phải thận trọng và thao túng các yếu tố đó thông qua việc chuẩn bị và kiểm tra.

Các yếu tố chính ảnh hưởng đến độ tin cậy của bài kiểm tra, điểm số có thể được phân loại thành ba tiêu đề:

1. Các yếu tố liên quan đến kiểm tra.

2. Các yếu tố liên quan đến người được thử nghiệm.

3. Các yếu tố liên quan đến thủ tục kiểm tra.

1. Các yếu tố liên quan đến kiểm tra:

(а) Độ dài của bài kiểm tra:

Công thức Spearman Brown chỉ ra thử nghiệm càng dài thì độ tin cậy sẽ càng cao. Bởi vì một bài kiểm tra dài hơn sẽ cung cấp mẫu đầy đủ của hành vi. Một nguyên nhân khác là yếu tố đoán có khả năng được trung hòa trong một bài kiểm tra dài hơn.

Ví dụ, nếu chúng ta sẽ đưa ra một tính toán để đo khả năng số của học sinh. Những người đã tính toán chính xác là hoàn hảo về khả năng số, những người thất bại là thất bại hoàn toàn. Nếu việc tính toán là một điều khó khăn, thì hầu hết các sinh viên sẽ thất bại. Nếu nó dễ, thì hầu hết các sinh viên sẽ tính toán chính xác. Vì vậy, điểm số mục duy nhất không bao giờ cho một kết quả đáng tin cậy.

(b) Nội dung của bài kiểm tra:

Theo Guilford tính đồng nhất của nội dung kiểm tra cũng làm tăng độ tin cậy của điểm kiểm tra. Một bài kiểm tra 50 bài về Văn minh Vệ đà sẽ cung cấp điểm số đáng tin cậy hơn bài kiểm tra 50 bài về lịch sử Ấn Độ. Theo Ebel (1991), chủ đề của một số môn học trong một số khóa học, như toán học và ngoại ngữ, được tổ chức chặt chẽ hơn, với sự phụ thuộc nhiều hơn vào các sự kiện, khả năng nguyên tắc và thành tựu, so với các vấn đề văn học hoặc lịch sử. cũng là một yếu tố mà kết quả là độ tin cậy cao.

(c) Đặc điểm của các mặt hàng:

Mức độ khó và độ rõ ràng của biểu thức của một mục kiểm tra cũng ảnh hưởng đến độ tin cậy của điểm kiểm tra. Nếu các mục kiểm tra quá dễ hoặc khó đối với các thành viên trong nhóm, nó sẽ có xu hướng tạo ra điểm số có độ tin cậy thấp. Bởi vì cả hai bài kiểm tra có một sự lây lan hạn chế về điểm số.

(d) Lan truyền điểm:

Theo Gronlund và Trin (1995), những thứ khác bằng nhau, sự lan truyền điểm số càng lớn thì ước tính độ tin cậy sẽ càng cao. Khi anh ta lan rộng điểm số sẽ có nhiều khả năng một cá nhân ở cùng vị trí tương đối trong một nhóm từ thử nghiệm này sang thử nghiệm khác. Chúng ta có thể nói rằng các lỗi đo lường ảnh hưởng ít hơn đến vị trí tương đối của cá nhân khi mức chênh lệch điểm số lớn.

Ví dụ, trong nhóm A, sinh viên có điểm an toàn từ 30 đến 80 và ở nhóm B, sinh viên có điểm an toàn từ 65 đến 75. Nếu chúng tôi quản lý các bài kiểm tra lần thứ hai trong nhóm A, điểm kiểm tra của các cá nhân có thể thay đổi theo nhiều điểm, với rất ít sự thay đổi ở vị trí tương đối của các thành viên trong nhóm. Đó là bởi vì sự lan rộng của điểm số trong bảng A là lớn.

Mặt khác, điểm số trong nhóm B có nhiều khả năng thay đổi vị trí trong lần kiểm tra thứ hai. Vì sự lây lan của điểm số chỉ là 10 điểm từ điểm cao nhất đến điểm thấp nhất, do đó, việc thay đổi một vài điểm có thể mang lại sự thay đổi căn bản ở vị trí tương đối của các cá nhân. Do đó, sự lây lan lớn hơn là độ tin cậy.

2. Các yếu tố liên quan đến người được thử nghiệm:

Sự thay đổi trong thành tích, sự khôn ngoan trong kiểm tra của các cá nhân và động lực của học sinh cũng ảnh hưởng đến độ tin cậy của điểm kiểm tra.

Sau đây là một số yếu tố quan trọng với người thử nghiệm ảnh hưởng đến độ tin cậy của thử nghiệm:

(a) Tính không đồng nhất của nhóm:

Khi nhóm là một nhóm đồng nhất, sự lan truyền của điểm kiểm tra có thể sẽ ít hơn và khi nhóm được kiểm tra là một nhóm không đồng nhất, sự lan truyền điểm số có thể sẽ nhiều hơn. Do đó hệ số độ tin cậy cho một nhóm không đồng nhất sẽ nhiều hơn nhóm đồng nhất.

(b) Kiểm tra sự khôn ngoan của học sinh:

Kinh nghiệm làm bài kiểm tra cũng ảnh hưởng đến độ tin cậy của điểm kiểm tra. Thực hành của các sinh viên trong các bài kiểm tra tinh vi làm tăng độ tin cậy của bài kiểm tra. Nhưng khi trong một nhóm, tất cả các sinh viên không có cùng mức độ khôn ngoan kiểm tra, điều đó dẫn đến sai số đo lớn hơn.

(c) Động lực của học sinh:

Khi các sinh viên không có động lực để làm bài kiểm tra, họ sẽ không đại diện cho thành tích tốt nhất của họ. Điều này làm giảm điểm thi.

3. Các yếu tố liên quan đến thủ tục kiểm tra:

Vì các yếu tố liên quan đến kiểm tra và các yếu tố liên quan đến người kiểm tra ảnh hưởng đến độ tin cậy của điểm kiểm tra, do đó, các yếu tố liên quan đến quy trình kiểm tra cũng ảnh hưởng đến điểm kiểm tra. Nếu người dùng thử nghiệm có thể kiểm soát các yếu tố này, thì họ có thể tăng tính nhất quán của điểm kiểm tra.

(a) Giới hạn thời gian thử nghiệm:

Theo Ebel và Frisbie (1991) Điểm số từ một bài kiểm tra được đưa ra trong điều kiện tốc độ cao thường sẽ cho thấy hệ số độ tin cậy thống nhất nội bộ cao hơn so với điểm số từ cùng một bài kiểm tra được đưa ra cho cùng một nhóm trong giới hạn thời gian hào phóng hơn. khi các sinh viên có nhiều thời gian hơn để làm bài kiểm tra, họ có thể đoán nhiều hơn, điều này có thể làm tăng điểm kiểm tra. Do đó, bằng cách tăng tốc độ kiểm tra, chúng tôi có thể tăng độ tin cậy của thử nghiệm.

(b) Cơ hội gian lận được trao cho các sinh viên:

Gian lận của sinh viên trong quá trình kiểm tra dẫn đến lỗi đo lường. Một số sinh viên có thể cung cấp câu trả lời chính xác bằng cách sao chép nó từ các mánh gian lận hoặc lắng nghe từ các sinh viên khác mà không biết câu trả lời chính xác. Điều này sẽ khiến điểm số của những học sinh đó cao hơn so với thực tế. Điều này sẽ làm cho điểm số quan sát được của những kẻ gian lận cao hơn điểm số thực sự của họ.

Độ tin cậy nên cao hơn như thế nào?

Rõ ràng các thiết bị đánh giá không bao giờ hoàn toàn đáng tin cậy. Làm thế nào một bài kiểm tra không đáng tin cậy và vẫn hữu ích phụ thuộc chủ yếu vào độ mịn của phân biệt đối xử mong muốn từ điểm kiểm tra. (Rem-mers. 1967) Mức độ của hệ số độ tin cậy phụ thuộc vào bản chất của thử nghiệm, quy mô và độ biến thiên của nhóm, mục đích của thử nghiệm được thực hiện và phương pháp được sử dụng để ước tính độ tin cậy. Một thử nghiệm với độ tin cậy thấp có thể có hiệu lực cao hơn và do đó có thể được sử dụng. Nhưng theo lời của Remmer (1967) 'Hầu hết các bài kiểm tra tiêu chuẩn được công bố cho sử dụng ở trường học đều có hệ số độ tin cậy ít nhất là 0, 80 trong dân số được thiết kế.

Khi một người đang chọn một bài kiểm tra tiêu chuẩn về việc diễn giải kết quả của mình, việc chỉ nhìn vào giá trị số của ước tính độ tin cậy là không đủ, người ta cũng phải tính đến cách ước tính đó. Gronlund (1976) đã nhận xét về tầm quan trọng của các phương pháp ước tính độ tin cậy.

Theo ông, phương pháp tách đôi đưa ra các giá trị số lớn nhất cho hệ số độ tin cậy. Phương pháp biểu mẫu tương đương và kiểm tra lại có xu hướng đưa ra giá trị số thấp hơn cho hệ số độ tin cậy. Thông thường hai phương pháp này cung cấp hệ số độ tin cậy trung bình đến lớn. Phương pháp dạng tương đương thường cung cấp hệ số độ tin cậy nhỏ nhất cho một thử nghiệm nhất định.

Do đó, có thể nói rằng giáo viên nên tìm kiếm một bài kiểm tra tiêu chuẩn có độ tin cậy càng cao càng tốt. Nhưng anh ta phải giải thích hệ số độ tin cậy này dưới ánh sáng của các nhóm học sinh dựa trên nó, tính biến thiên của nhóm này và phương pháp ước tính độ tin cậy.

Đặc tính # 2. Hiệu lực:

Trong việc lựa chọn hoặc xây dựng một công cụ đánh giá, câu hỏi quan trọng nhất là; Ở mức độ nào các kết quả sẽ phục vụ cho việc sử dụng cụ thể mà chúng được dự định? Đây là bản chất của tính hợp lệ.

Hiệu lực là đặc tính quan trọng nhất của chương trình đánh giá, trừ khi thử nghiệm hợp lệ, nó không phục vụ chức năng hữu ích. Các nhà tâm lý học, nhà giáo dục, cố vấn hướng dẫn sử dụng kết quả kiểm tra cho nhiều mục đích khác nhau. Rõ ràng, không có mục đích nào có thể được thực hiện, thậm chí một phần, nếu các bài kiểm tra không có đủ hiệu lực cao. Hiệu lực có nghĩa là sự thật đầy đủ của một bài kiểm tra. Nó có nghĩa là mức độ mà các thử nghiệm đo lường điều đó, những gì nhà sản xuất thử nghiệm dự định đo lường.

Nó bao gồm hai khía cạnh:

Những gì được đo và làm thế nào nó được đo lường nhất quán. Nó không phải là một đặc tính kiểm tra, nhưng nó đề cập đến ý nghĩa của điểm kiểm tra và cách chúng tôi sử dụng điểm số để đưa ra quyết định. Các định nghĩa sau đây được đưa ra bởi các chuyên gia sẽ đưa ra một bức tranh rõ ràng về tính hợp lệ.

Gronlund và Linn (1995) - Sự hợp lệ của đề cập đến sự phù hợp của việc giải thích được thực hiện từ điểm kiểm tra và các kết quả đánh giá khác liên quan đến việc sử dụng cụ thể.

Ebel và Frisbie (1991) - Sự hợp lệ Thuật ngữ, khi được áp dụng cho một tập hợp các điểm kiểm tra, đề cập đến tính nhất quán (độ chính xác) mà điểm số đo lường khả năng nhận thức cụ thể của sự quan tâm.

CV Good (1973), Trong từ điển giáo dục định nghĩa tính hợp lệ là mức độ mà một bài kiểm tra hoặc dụng cụ đo lường khác đáp ứng mục đích mà nó được sử dụng.

Anne Anastasi (1969) viết về tính hợp lệ của một bài kiểm tra liên quan đến các biện pháp kiểm tra và mức độ hiệu quả của nó.

Theo tính hợp lệ của Davis (1964) là mức độ thứ tự xếp hạng của điểm kiểm tra mà xét nghiệm phù hợp giống như thứ tự xếp hạng của cùng một kiểm tra trong tài sản hoặc đặc điểm mà bài kiểm tra đang được sử dụng để đo lường . Tính chất hoặc đặc tính này được gọi là tiêu chí. Vì bất kỳ thử nghiệm nào cũng có thể được sử dụng cho nhiều mục đích khác nhau, nên nó có thể có nhiều giá trị tương ứng với từng tiêu chí.

Freeman (1962) định nghĩa, một chỉ số về tính hợp lệ cho thấy mức độ mà một bài kiểm tra đo lường những gì nó dự định đo lường, khi so sánh với các tiêu chí được chấp nhận.

Lindquist (1942) đã nói, tính hợp lệ của thử nghiệm có thể được định nghĩa là độ chính xác mà nó đo lường được mà nó dự định đo lường, hoặc là mức độ mà nó tiếp cận không thể đo lường được trong những gì nó đo lường được.

Từ các định nghĩa trên, rõ ràng tính hợp lệ của một thiết bị đánh giá là mức độ mà nó đo lường những gì nó dự định đo lường. Hiệu lực luôn liên quan đến việc sử dụng cụ thể các kết quả và sự đúng đắn trong việc giải thích được đề xuất của chúng tôi.

Cũng không cần thiết rằng một bài kiểm tra đáng tin cậy cũng có thể hợp lệ. Ví dụ, giả sử một đồng hồ được đặt phía trước mười phút. Nếu đồng hồ là một mảnh thời gian tốt, thời gian nó cho chúng ta sẽ đáng tin cậy. Bởi vì nó cho một kết quả không đổi. Nhưng nó sẽ không có giá trị như được đánh giá bởi 'Giờ chuẩn'. Điều này cho thấy khái niệm rằng độ tin cậy là cần thiết nhưng không phải là điều kiện đủ để có hiệu lực.

Bản chất của tính hợp lệ:

1. Hiệu lực liên quan đến sự phù hợp của kết quả kiểm tra nhưng không liên quan đến chính công cụ.

2. Hiệu lực không tồn tại trên cơ sở tất cả hoặc không nhưng đó là vấn đề mức độ.

3. Các xét nghiệm không có giá trị cho tất cả các mục đích. Hiệu lực luôn luôn cụ thể để giải thích cụ thể. Ví dụ, kết quả của bài kiểm tra từ vựng có thể có giá trị cao để kiểm tra từ vựng nhưng có thể không có nhiều giá trị để kiểm tra khả năng sáng tác của học sinh.

4. Hiệu lực không phải là loại khác nhau. Đó là một khái niệm đơn nhất. Nó dựa trên nhiều loại bằng chứng.

Các yếu tố ảnh hưởng đến hiệu lực:

Giống như độ tin cậy cũng có một số yếu tố ảnh hưởng đến tính hợp lệ của điểm kiểm tra. Có một số yếu tố mà chúng tôi cảnh giác và có thể tránh dễ dàng. Nhưng có một số yếu tố mà chúng tôi không biết và nó làm cho kết quả kiểm tra không hợp lệ, cho mục đích sử dụng của họ.

Một số yếu tố như sau:

1. Các yếu tố trong bài kiểm tra:

(i) Các hướng dẫn không rõ ràng để học sinh trả lời bài kiểm tra.

(ii) Khó khăn trong việc đọc từ vựng và cấu trúc câu.

(iii) Các mục kiểm tra quá dễ hoặc quá khó.

(iv) Báo cáo mơ hồ trong các mục kiểm tra.

(v) Các mục kiểm tra không phù hợp để đo lường một kết quả cụ thể.

(vi) Không đủ thời gian cung cấp để làm bài kiểm tra.

(vii) Độ dài của bài kiểm tra quá ngắn.

(viii) Các mục kiểm tra không được sắp xếp theo thứ tự khó khăn.

(ix) Mẫu câu trả lời có thể xác định được.

Các yếu tố trong Quản trị kiểm tra và chấm điểm:

(i) Trợ giúp không công bằng cho từng học sinh, những người yêu cầu giúp đỡ,

(ii) Gian lận của học sinh trong quá trình kiểm tra.

(iii) Điểm không đáng tin cậy của câu trả lời loại bài luận.

(iv) Không đủ thời gian để hoàn thành bài kiểm tra.

(v) Tình trạng thể chất và tâm lý bất lợi tại thời điểm thử nghiệm.

Các yếu tố liên quan đến Testee:

(i) Kiểm tra sự lo lắng của các sinh viên.

(ii) Trạng thái thể chất và tâm lý của học sinh,

(iii) Bộ phản hồi có xu hướng nhất quán theo một khuôn mẫu nhất định trong việc đáp ứng các mặt hàng.

Đặc trưng # 3. Tính khách quan:

Tính khách quan là một đặc tính quan trọng của một bài kiểm tra tốt. Nó ảnh hưởng đến cả tính hợp lệ và độ tin cậy của điểm kiểm tra. Tính khách quan của một công cụ đo lường rên rỉ mức độ mà những người khác nhau chấm điểm nhận câu trả lời đến cùng một kết quả. CV Good (1973) định nghĩa tính khách quan trong thử nghiệm là mức độ mà công cụ không có lỗi cá nhân (sai lệch cá nhân), đó là tính chủ quan của một phần của người ghi bàn.

Gronlund và Linn (1995) nêu rõ Tính khách quan của bài kiểm tra đề cập đến mức độ mà các điểm có thẩm quyền tương đương có được kết quả tương tự. Vì vậy, một bài kiểm tra được coi là khách quan khi nó loại bỏ quan điểm cá nhân của người ghi bàn và phán đoán thiên vị. Trong bối cảnh này, có hai khía cạnh của tính khách quan cần được ghi nhớ trong khi xây dựng một bài kiểm tra.

(i) Tính khách quan trong việc tính điểm.

(ii) Tính khách quan trong việc giải thích các mục kiểm tra của người được kiểm tra.

(i) Tính khách quan của việc chấm điểm:

Tính khách quan của việc chấm điểm có nghĩa là cùng một người hoặc những người khác nhau chấm bài kiểm tra bất cứ lúc nào đều có cùng kết quả mà không có khả năng xảy ra lỗi. Một bài kiểm tra phải khách quan nhất thiết phải được diễn đạt đến mức chỉ có thể đưa ra câu trả lời đúng cho nó. Nói cách khác, phán đoán cá nhân của cá nhân chấm điểm kịch bản trả lời không nên là một yếu tố ảnh hưởng đến điểm kiểm tra. Vì vậy, kết quả của một bài kiểm tra có thể thu được một cách đơn giản và chính xác nếu quy trình chấm điểm là khách quan. Quy trình chấm điểm phải sao cho không có nghi ngờ gì về việc một mục là đúng hay sai hay đúng một phần hay sai một phần.

(ii) Tính khách quan của các hạng mục kiểm tra:

Theo tính khách quan của vật phẩm, chúng tôi muốn nói rằng vật phẩm phải gọi cho một câu trả lời xác định. Các bài kiểm tra được xây dựng tốt sẽ dẫn đến một và chỉ một cách giải thích bởi các sinh viên biết các tài liệu liên quan. Nó có nghĩa là các mục kiểm tra nên không có sự mơ hồ. Một mục kiểm tra nhất định sẽ có ý nghĩa tương tự đối với tất cả các sinh viên mà người làm bài kiểm tra dự định yêu cầu. Các câu có nghĩa kép, các mục có nhiều hơn một câu trả lời đúng không nên được đưa vào bài kiểm tra vì nó làm cho bài kiểm tra chủ quan.

Đặc tính # 4. Tính khả dụng:

Khả năng sử dụng là một đặc tính quan trọng khác của dụng cụ đo lường. Bởi vì những cân nhắc thực tế của các công cụ đánh giá không thể bị bỏ qua. Bài kiểm tra phải có giá trị thực tế theo quan điểm thời gian, kinh tế và quan điểm quản trị. Điều này có thể được gọi là khả năng sử dụng.

Vì vậy, trong khi xây dựng hoặc chọn một bài kiểm tra, các khía cạnh thực tế sau đây phải được tính đến:

(i) Dễ quản trị:

Điều đó có nghĩa là bài kiểm tra phải dễ quản lý để giáo viên phòng học chung có thể sử dụng. Do đó, hướng dẫn đơn giản và rõ ràng nên được đưa ra. Bài kiểm tra nên sở hữu rất ít bài kiểm tra. Thời gian của bài kiểm tra không quá khó khăn.

(ii) Thời gian cần thiết để quản trị:

Cần cung cấp giới hạn thời gian thích hợp để làm bài kiểm tra. Nếu để cung cấp đủ thời gian để thực hiện bài kiểm tra, chúng tôi sẽ làm cho bài kiểm tra ngắn hơn độ tin cậy của bài kiểm tra sẽ bị giảm. Gronlund và Linn (1995) cho rằng, ở đâu đó trong khoảng thời gian từ 20 đến 60 phút cho mỗi điểm số riêng lẻ mang lại bởi một bài kiểm tra được công bố có lẽ là một hướng dẫn khá tốt

(iii) Dễ giải thích và ứng dụng:

Một khía cạnh quan trọng khác của điểm kiểm tra là giải thích điểm kiểm tra và áp dụng kết quả kiểm tra. Nếu kết quả bị hiểu sai, mặt khác nó có hại nếu nó không được áp dụng, thì nó là vô ích.

(iv) Tính khả dụng của các dạng tương đương:

Các hình thức kiểm tra tương đương giúp xác minh điểm kiểm tra đáng ngờ. Nó cũng giúp loại bỏ yếu tố của bộ nhớ trong khi kiểm tra lại học sinh trên cùng một lĩnh vực học tập. Do đó, các hình thức tương đương của cùng một bài kiểm tra về nội dung, mức độ khó và các đặc điểm khác nên có sẵn.

(v) Chi phí kiểm tra:

Một bài kiểm tra nên kinh tế từ sự chuẩn bị, quản trị và quan điểm cho điểm.