Yêu cầu của bất kỳ dự đoán công nghiệp nào: Hiệu lực và độ tin cậy

Hai yêu cầu tối quan trọng đối với bất kỳ yếu tố dự đoán nào là tính hợp lệ và độ tin cậy. Trong môi trường công nghiệp, các loại hoặc loại hiệu lực tồn tại khác nhau, mặc dù loại được ưu tiên nhất được gọi là hiệu lực dự đoán. Ngoài ra còn có các loại biện pháp độ tin cậy khác nhau. Mối quan tâm với độ tin cậy và tính hợp lệ không chỉ giới hạn ở các yếu tố dự đoán mà còn áp dụng cho các tiêu chí.

Hiệu lực:

Tính hợp lệ của một công cụ dự đoán thường có thể được định nghĩa là mức độ mà công cụ dự đoán đạt được các mục tiêu nhất định của người dùng bằng cách đo lường những gì được cho là cần đo. Do đó, loại hiệu lực cụ thể liên quan tùy thuộc vào mục đích cụ thể của người dùng trong mọi tình huống.

Giá trị dự đoán:

Mục đích của người dùng là sử dụng công cụ đo lường của mình để dự đoán hiệu suất của nhân viên trong tương lai trên một số biến số khác (tiêu chí). Giá trị tiên đoán được thiết lập thống kê thông qua tương quan và hồi quy. Sự khác biệt quan trọng của tính hợp lệ dự đoán là một trong những sai lầm thời gian. Điểm số dự đoán được lấy cho các cá nhân tại một thời điểm (ví dụ: thời gian thuê) và điểm số tiêu chí được lấy vào một ngày sau đó (ví dụ: vào cuối sáu tháng).

Do đó, mối quan hệ kết quả thực sự đại diện cho sức mạnh dự đoán của người Viking về công cụ. Hiệu lực dự đoán là loại hiệu lực quan trọng nhất trong lựa chọn vì đây là loại duy nhất thực sự trùng lặp với tình huống lựa chọn. Một tên khác đôi khi được sử dụng cho tính hợp lệ dự đoán là hiệu lực theo dõi.

Thỏa thuận giá trị:

Mục đích ở đây, ít nhất là trên lý thuyết, nên là để ước tính hiệu suất hiện tại của nhân viên theo một số tiêu chí đo lường từ điểm số trên dự đoán. Hiệu lực đồng thời cũng được thiết lập bằng cách sử dụng các kỹ thuật tương quan và hồi quy, nhưng không có độ trễ về thời gian giữa việc đạt được điểm số dự đoán và tiêu chí. Một mẫu nhân viên hiện tại được sử dụng để xác định mối quan hệ của người dự đoán, và sau đó hồi quy kết quả có thể được áp dụng bằng cách lấy điểm số dự đoán trên những người nắm giữ công việc còn lại.

Nói cách khác, chúng tôi quan tâm đến việc dự đoán tình trạng hiện tại của mọi người, chứ không phải tình trạng của họ tại một thời điểm nào đó trong tương lai. Điều cực kỳ quan trọng là chỉ ra rằng hiệu lực đồng thời cao không đảm bảo tính hợp lệ dự đoán cao. Thật không may, hiệu lực đồng thời quá thường được sử dụng trong công nghiệp để thay thế cho tính hợp lệ dự đoán.

Quản lý đôi khi không sẵn sàng chờ đợi thời gian theo phương pháp dự đoán và có thể không nhận ra rằng các nhân viên hiện tại có thể đại diện cho một nhóm công nhân cơ bản khác với những người xin việc. Những người lao động hiện đang làm việc đã sống sót qua sàng lọc trong cả tuyển dụng và liên tục, và những người lao động nghèo hơn được thuê có thể đã rời đi một cách tự nguyện hoặc theo yêu cầu. Điều này làm cho rất khó để biện minh cho tính hợp lệ đồng thời với một tình huống có hiệu lực dự đoán.

Hiệu lực nội dung:

Khi người xác nhận giả định rằng người dự đoán của anh ta là đại diện của một loại tình huống nhất định, anh ta có liên quan đến tính hợp lệ của nội dung. Anh ta có một khái niệm cụ thể về loại kiến ​​thức, kỹ năng, thái độ hoặc hiệu suất cần được khai thác bởi công cụ đo lường và anh ta coi công cụ đó hợp lệ ở mức độ mà nội dung của nó là đại diện cho những gì anh ta muốn khai thác. Giá trị nội dung nói chung là không thể đo lường được trong bất kỳ ý nghĩa thống kê hoặc định lượng.

Người ta tìm thấy việc sử dụng hiệu lực nội dung lớn nhất trong số những người sử dụng các bài kiểm tra thành tích, chẳng hạn như bài kiểm tra cuối cùng trong một khóa học đại học. Một bài kiểm tra cuối cùng chỉ có thể được coi là có hiệu lực nội dung nếu nó được trình bày đầy đủ (được lấy mẫu), về mặt các mục của nó, nội dung của khóa học. Nếu nó không đại diện cho phạm vi bảo hiểm của tài liệu khóa học, chắc chắn nó không thể được coi là một thử nghiệm thích hợp để sử dụng cho một kỳ thi cuối cùng, tức là nó sẽ không có hiệu lực nội dung.

Xây dựng hợp lệ:

Với loại hiệu lực này, người dùng muốn suy ra mức độ mà những người được đánh giá có một số đặc điểm hoặc chất lượng (cấu trúc) được cho là sẽ được phản ánh trong hiệu suất thử nghiệm. Quy trình chung liên quan đến việc quản lý một số công cụ kiểm tra có vẻ hợp lý để đo cùng một cấu trúc và sau đó quan sát các mối quan hệ giữa các biện pháp này. Xây dựng tính hợp lệ đã không được sử dụng ở bất kỳ mức độ đáng kể nào bởi nhà tâm lý học công nghiệp; nó có xu hướng thường được sử dụng trong các tình huống lý thuyết hơn là thực tế.

Hiệu lực tổng hợp:

Người ta có thể coi tính hợp lệ tổng hợp là tính hợp lệ dự đoán của Viking. Giả sử chúng ta có một bài kiểm tra rằng trong một số tình huống đã chứng minh mối quan hệ tiên đoán cao với các tiêu chí hiệu suất khác nhau của các nhân viên công nghiệp. Giả sử thêm rằng một nhà máy sản xuất nhỏ muốn sử dụng một bài kiểm tra trong việc lựa chọn người đi trước, nhưng quá ít người làm việc trong nhà máy để thực hiện ngay cả một nghiên cứu có hiệu lực đồng thời. Nhà máy này có thể quyết định sử dụng thử nghiệm mà không có bất kỳ đánh giá thống kê chính thức nào về giả định rằng nó đã được chứng minh là thành công ở các nhà máy lớn hơn khác.

Thủ tục này chỉ có thể được coi là hợp lệ nếu:

(1) Công việc của người quản đốc trong nhà máy này tương tự như công việc của người đi trước liên quan đến việc đánh giá thống kê của bài kiểm tra, và

(2) Các ứng viên đốc công tại nhà máy này là điển hình (đến từ cùng một dân số) như những người nộp đơn cho các công việc của người đi trước trong các nhà máy lớn hơn. Hiệu lực tổng hợp chỉ nên được thay thế cho tính hợp lệ dự đoán với nhận thức đầy đủ về những hạn chế có thể có của nó.

Hiệu lực khuôn mặt:

Một loại tính hợp lệ khác thường được sử dụng để mô tả một bài kiểm tra liên quan đến mức độ mà người dùng quan tâm đến việc thử nghiệm của anh ấy trông có vẻ đúng với người thực hiện bài kiểm tra. Người xin việc thường trở nên buồn bã nếu các công cụ dự đoán mà họ được yêu cầu phải xuất hiện có ít hoặc không có mối quan hệ nào với công việc mà họ đang ứng tuyển. Ví dụ: nếu một người đang chọn người cho vị trí thợ máy và kiểm tra khả năng số học được sử dụng làm công cụ dự đoán, thì các mục kiểm tra nên xử lý các số áp dụng cho các vấn đề cơ học thay vì được nói theo các thuật ngữ chung chung hơn như mua táo hoặc những quả cam.

Nếu người nộp đơn không thấy được sự liên quan của người dự đoán với công việc mà anh ta đang ứng tuyển, như thường xảy ra trong các bài kiểm tra tính cách, anh ta có thể bị mất động lực nghiêm trọng trong tình huống kiểm tra, trở nên đáng ghét, hoặc, mặt khác, cảm thấy bất an. Điều này không chỉ làm hỏng chương trình lựa chọn mà còn có thể làm hại hình ảnh của công ty và làm hỏng hình ảnh của các thử nghiệm trong bất kỳ môi trường công nghiệp nào. Các tác giả sẽ mạo hiểm đoán rằng một số công khai xấu mà người dùng thiết bị lựa chọn trong ngành nhận được có thể là do người dùng xem xét nhu cầu kiểm tra của anh ta có tính hợp lệ.

Nhiệm kỳ tuổi tác và kinh nghiệm làm việc và ảnh hưởng của chúng đến hiệu lực:

Kiểm tra hiệu suất của người lao động đối với bất kỳ công việc cụ thể nào thường cho thấy mối quan hệ nhất định giữa các biến số như tuổi tác và kinh nghiệm và tiêu chí. Công việc càng phức tạp, các loại mối quan hệ này càng có khả năng tồn tại. Đối với nhiều công việc, một lượng kinh nghiệm đáng kể là cần thiết trước khi nhân viên thành thạo công việc. Mối tương quan giữa các loại biến và tiêu chí thành công trong công việc thể hiện một vấn đề nghiêm trọng trong lựa chọn. Cần thận trọng, đặc biệt nếu một người sử dụng thủ tục hợp lệ đồng thời như một phương tiện để thiết lập tiện ích của bất kỳ thiết bị dự đoán nào.

Ví dụ, nếu tồn tại một mối tương quan cao giữa tiêu chí và thời gian thực hiện công việc, thì nên giải thích hệ số hiệu lực đồng thời cao như thế nào? Điều này có nghĩa là người dự đoán thực sự phản ánh sự khác biệt về khả năng giữa các công nhân khi được đo bằng tiêu chí của Hồi, hay sự khác biệt của công nhân chủ yếu là do kinh nghiệm trong công việc? Nếu đó là cái sau, thì tất cả những người dự đoán sẽ hoàn thành là phân biệt những người lao động với nhiệm kỳ dài với những người được thuê gần đây.

Hiệu lực quan sát nói chung là sự đánh giá quá cao về hiệu quả dự đoán của công cụ lựa chọn. Trên thực tế, trừ khi người ta có thể chứng minh rõ ràng rằng người dự đoán không tương quan với các đặc điểm như tuổi tác và nhiệm kỳ có thể là yếu tố quyết định hiệu suất công việc, tất cả các giá trị đồng thời có được với người dự đoán đó phải được nghi ngờ cao.

Để minh họa điểm, hãy xem xét tình huống trong đó người ta có một tiêu chí, một yếu tố dự đoán và một biến liên quan đến tiêu chí như nhiệm kỳ công việc chịu trách nhiệm chính cho sự khác biệt về kỹ năng thể hiện trên tiêu chí của nhân viên, như sau:

C + D = Hiệu lực đồng thời được quan sát của người dự đoán

D = Số lượng phương sai tiêu chí trực tuyến miễn phí của Ten chiếm bởi người dự đoán

C = Số lượng phương sai tiêu chí xác định thời hạn xác định của Ten chiếm bởi người dự đoán

Hiệu lực quan sát nói chung nhưng không phải lúc nào cũng đánh giá quá cao tính hợp lệ thực sự, vì:

Hiệu lực đồng thời đúng hoặc không thiên vị, đại diện cho mối tương quan giữa yếu tố dự đoán và tiêu chí hoàn toàn không có ảnh hưởng của nhiệm kỳ công việc, được đưa ra bởi phương trình.

Mối tương quan (r true ) như thể hiện trong sơ đồ thực sự thể hiện, theo kiểu hình ảnh, những gì được biết đến trong các số liệu thống kê như là một hệ số tương quan một phần của nhóm. Nó báo cáo mối tương quan giữa yếu tố dự đoán và tiêu chí sau khi ảnh hưởng của nhiệm kỳ công việc đã bị xóa khỏi cả điểm số dự đoán và điểm tiêu chí của nhân viên hiện tại. Điều quan trọng là các hiệu ứng nhiệm kỳ phải được loại bỏ khỏi cả tiêu chí và yếu tố dự đoán trong tình huống đồng thời.

Nếu những hiệu ứng này không được thống kê loại bỏ khỏi tiêu chí, chúng tôi sẽ dự đoán ảnh hưởng của nhiệm kỳ hơn là hiệu suất công việc, với rất ít hoặc không liên quan đến hiệu lực dự đoán. Nếu các hiệu ứng nhiệm kỳ công việc không bị loại bỏ khỏi công cụ dự đoán, chúng tôi cũng có thể có được một hệ số hiệu lực không thể được coi là phù hợp với bất kỳ tình huống có hiệu lực dự đoán thực sự nào.

Chắc chắn các vấn đề về các biến tương quan của tiêu chí và yếu tố dự đoán trong cài đặt đồng thời minh họa một số hạn chế nghiêm trọng liên quan đến phương pháp xác nhận này. Có thể khẳng định một cách an toàn rằng hoàn toàn không có sự thay thế bằng nhau cho loại hiệu lực được gọi là hiệu lực dự đoán khi xây dựng và sử dụng một công cụ lựa chọn.

Độ tin cậy:

Nói chung, khái niệm hợp lệ liên quan đến những gì đang được đo bằng thiết bị đo. Một đặc điểm thứ hai và có lẽ không kém phần quan trọng của các yếu tố dự đoán là cần phải biết tính nhất quán của thước đo, bất kể những gì đang được đo. Nói cách khác, chúng ta cần thiết lập mức độ ổn định của bất kỳ thiết bị đo nào; phép đo thu được từ một yếu tố dự đoán phải nhất quán. Mức độ mà bất kỳ dụng cụ đo nào phù hợp hoặc ổn định và sẽ mang lại cùng một số điểm nếu cần được xác định là độ tin cậy của dụng cụ thử nghiệm đó.

Giống như tính hợp lệ, độ tin cậy thường được đo bằng hệ số tương quan. Vì phép đo đáng tin cậy ngụ ý sự ổn định từ tình huống này sang tình huống khác, công cụ đáng tin cậy sẽ tạo ra cùng một số điểm hoặc ít nhất là thứ hạng tương tự của các cá nhân trong hai tình huống. Bằng cách tính toán mối tương quan, chúng ta có được một biểu thức toán học về mức độ xảy ra.

Do đó, một công cụ đo lường đáng tin cậy là một công cụ mà các cá nhân nhận được cùng số điểm (hoặc gần như nhau) trong các phép đo lặp lại. Khi hệ số tương quan được sử dụng để đo lường sự tương đồng về điểm số của một nhóm người trên hai ứng dụng của cùng một biện pháp, nó được gọi là hệ số độ tin cậy.

Quá trình thực tế mà người ta có thể đánh giá độ tin cậy của một biện pháp phụ thuộc vào nhiều yếu tố. Có ba loại thay thế chính khác về độ tin cậy, mỗi loại đều có những ưu điểm và nhược điểm riêng. Chúng đủ khác nhau trong logic cơ bản của chúng để biện minh cho việc kiểm tra từng chi tiết.

Ba kỹ thuật để có được độ tin cậy của dụng cụ là:

(1) Các biện pháp lặp đi lặp lại trên cùng một người với cùng một bài kiểm tra hoặc dụng cụ,

(2) Đo lường trên cùng một người với hai hình thức đo lường tương đương của NX của dụng cụ đo và

(3) Tách thiết bị đo thành hai hoặc nhiều bộ phận tương đương và tương quan với các điểm số của bộ phận này.

Trước khi xem xét từng phương pháp, chúng ta nên kiểm tra một cách cụ thể hơn một số loại độ tin cậy hoặc độ ổn định của phép đo mà chúng ta có thể quan tâm trong các trường hợp khác nhau.

Chúng ta hãy giả sử rằng bất cứ khi nào chúng ta sử dụng một công cụ đo lường để đạt được điểm số của một người, điểm số nhận được là một chức năng của một số yếu tố, như sau:

X i = X đúng + X lỗi

Ở đâu

X i = Điểm quan sát cho người i trong bài kiểm tra

X true = Điểm thực sự cho người i trong bài kiểm tra Đây là lượng chất lượng thực tế được đo bằng bài kiểm tra mà người tôi thực sự sở hữu.

Lỗi X = Điểm lỗi cho người i trong bài kiểm tra, đây là số tiền mà người đó bị ảnh hưởng do hoạt động của các yếu tố cơ hội hoặc thời gian khác nhau.

Nếu tất cả các dụng cụ đo lường và phương pháp đo đều không có lỗi, thì chúng tôi sẽ luôn đạt được số điểm thực sự của con người và mối tương quan giữa hai phép đo trên cùng một nhóm người sẽ luôn là + 1, 00 hoặc độ tin cậy hoàn hảo (giả sử không có thay đổi trong điểm số thực sự sẽ được dự kiến). Thật không may, phép đo không có lỗi như vậy không bao giờ hoàn toàn có sẵn, vì rất nhiều thứ? Đóng góp vào hiệu suất tại bất kỳ thời điểm cụ thể trong thời gian.

Do đó, x i có thể lớn hơn hoặc nhỏ hơn X đúng đối với bất kỳ phép đo cụ thể nào và các mối tương quan được tính toán giữa các phép đo luôn nhỏ hơn thống nhất. Về mặt đại diện bằng hình ảnh của chúng tôi về phương sai hiệu suất giữa mọi người trên bất kỳ thiết bị đo nào, cho dù đó là thử nghiệm hay phỏng vấn, dự đoán hoặc tiêu chí, tổng phương sai này có thể được chia thành hai thành phần chính của phương sai sai và sai phương sai thực sự.

Trường hợp tổng phương sai = tổng biến thiên của điểm kiểm tra quan sát

Phương sai thực sự = độ biến thiên của con người theo số lượng thực của đặc tính được đo

Sai số lỗi = biến thiên điểm số lỗi của mọi người

Độ tin cậy có thể được định nghĩa là tỷ lệ của phương sai thực so với tổng phương sai, hoặc

Tỷ lệ phương sai điểm thực càng lớn, hoặc ngược lại, lượng phương sai sai số trong quá trình đo càng nhỏ thì độ tin cậy của phép đo càng lớn. Yếu tố quan trọng phân biệt ba thủ tục chính để xác định độ tin cậy là trong quá trình quyết định điều gì được coi là phương sai lỗi và điều gì được coi là phương sai đúng hay hệ thống. Không có độ tin cậy duy nhất cho bất kỳ thử nghiệm. Thay vào đó, độ tin cậy sẽ phụ thuộc vào nhu cầu của thời điểm này.

Ví dụ, nhà tâm lý học có thể hỏi bất kỳ loại câu hỏi nào sau đây về quy trình đo lường:

1. Làm thế nào chính xác tôi có thể đo người với bài kiểm tra này tại bất kỳ thời điểm nào?

2. Làm thế nào chính xác các biện pháp được thực hiện với bài kiểm tra này hôm nay sẽ là đại diện cho những người này vào một thời điểm nào đó trong tương lai?

3. Điểm chính xác trong bài kiểm tra này sẽ thể hiện khả năng thực sự của những người này như thế nào về đặc điểm được lấy mẫu trong bài kiểm tra?

Cả ba đều là những câu hỏi đáng tin cậy hợp pháp. Tuy nhiên, mỗi nơi lại nhấn mạnh một chút khác nhau vào các nguồn khác nhau về các biến thể lỗi trong điểm kiểm tra.

Những nguồn biến đổi lỗi này đã được Thorndike và Hagen (1963) thể hiện như sau:

1. Sự thay đổi do thử nghiệm tại một thời điểm cụ thể

2. Sự thay đổi trong từng cá nhân theo từng khoảng thời gian

3. Sự thay đổi do mẫu nhiệm vụ cụ thể được chọn để thể hiện chất lượng được đo

Bây giờ chúng ta hãy tiến hành kiểm tra từng phương pháp độ tin cậy, ghi nhớ các nguồn lỗi để chúng ta có thể xác định cách mỗi phương thức xử lý từng nguồn.

Phương pháp kiểm tra lại:

Một phương pháp rõ ràng để đánh giá sự ổn định bao gồm đo hiệu suất của cùng một cá nhân hai lần với cùng một dụng cụ đo. Loại độ tin cậy này bao gồm các nguồn biến thể 1 và 2 là lỗi. Do đó, độ tin cậy kết quả là một trong đó đo lường sự ổn định của điểm số thực theo thời gian. Có rất nhiều vấn đề với phương pháp kiểm tra lại được tạo ra bằng cách đo các cá nhân trong cùng một bài kiểm tra hai lần.

Ví dụ, trừ khi khoảng thời gian khá dài giữa các chính quyền, biến của một yếu tố bộ nhớ có khả năng làm sai lệch phản ứng của mọi người trong lần quản trị thứ hai. Một khó khăn khác là sự thay đổi do mẫu nhiệm vụ hoặc vật phẩm cụ thể được chọn được coi là phương sai hệ thống làm tăng thêm độ tin cậy.

Do đó, bất kỳ ai tình cờ biết nhiều câu trả lời hơn chỉ vì một vài trong số các mục kiểm tra đã chạm vào, theo sở thích của người đó, cũng sẽ được ưa chuộng trong chính quyền thứ hai vì cùng một mục, thay vì một mẫu mới, là đã sử dụng. Do đó, anh ta nên đạt điểm cao trên cả hai thử nghiệm do nguồn 3 biến thể được coi là phương sai thực sự.

Phương pháp kiểm tra song song:

Một cách để tránh có nguồn lỗi 3 là phương sai thực sự là sử dụng hai hình thức tương đương hoàn toàn có thể so sánh được với nhau hoặc của công cụ đo lường. Hai biểu mẫu này phải giống nhau nhất có thể, ngoại trừ các mục hoặc câu hỏi cụ thể trên mỗi biểu mẫu sẽ không giống nhau mặc dù chúng sẽ đại diện cho một mẫu vật phẩm tương tự được chọn. Một hình thức có thể được quản lý ngay lập tức sau khi hình thức kia hoặc chúng có thể được quản lý theo các khoảng cách đều nhau, tùy thuộc vào việc một hình thức có liên quan đến việc có nguồn biến thể 2 được bao gồm như phương sai lỗi hay không.

Loại độ tin cậy này, khi thử nghiệm khoảng cách được sử dụng, đại diện cho sự đánh giá khắt khe nhất về tính ổn định có thể được thực hiện. Tuy nhiên, thường là không thể hoặc tốt nhất là cực kỳ khó khăn để xây dựng các hình thức thay thế của một dụng cụ đo.

Làm thế nào để xây dựng hai hình thức thay thế nhưng tương đương của một thước đo hiệu suất công việc hoặc hai hình thức thay thế của một hình thức lịch sử cá nhân? Trong nhiều trường hợp không phải không có khó khăn đáng kể. Việc thiếu một thiết bị đo thực sự có thể so sánh này đã khiến các nhà tâm lý học tìm kiếm các phương pháp đánh giá độ tin cậy bổ sung bên cạnh các thủ tục kiểm tra lại và thử nghiệm song song.

Phương pháp kiểm tra chia nhỏ:

Phương pháp độ tin cậy chính thứ ba thường được gọi là thước đo tính nhất quán bên trong của thiết bị đo. Nó cung cấp một dấu hiệu về mức độ mà mọi người ghi điểm giống nhau, liên quan đến nhau, trên các phân khu khác nhau của công cụ tổng thể. Phương pháp này có lẽ là phương pháp đo lường độ tin cậy được sử dụng rộng rãi nhất vì nó yêu cầu chỉ có một hình thức được xây dựng và không yêu cầu quản trị lặp đi lặp lại của hình thức đó.

Cơ học của nó rất đơn giản. Ở dạng cơ bản nhất, phương thức nhất quán bên trong là thủ tục biểu mẫu song song trong đó các dạng song song là hai nửa của cùng một bài kiểm tra. Các thử nghiệm nửa này được chọn sao cho tương đương nhất có thể, mặc dù thường thì thử nghiệm được chia thành hai nửa bằng cách đặt tất cả các mặt hàng được đánh số lẻ vào một nửa và tất cả các mặt hàng được đánh số chẵn vào nửa kia. Đây được gọi là phiên bản chẵn của kỹ thuật tách đôi.

Điều quan trọng cần nhớ là việc tách tổng số bài kiểm tra thành một nửa tương đương chỉ xảy ra khi chấm điểm bài kiểm tra đó chứ không phải khi quản lý nó. Vì hai phép trừ chỉ dài bằng một nửa so với bản gốc, mỗi mẫu đại diện cho một mẫu hành vi chỉ lớn bằng một nửa so với tổng kiểm tra. Do đó, mối tương quan (độ tin cậy) giữa các nửa có thể là sự đánh giá thấp về độ tin cậy của điểm số dựa trên toàn bộ bài kiểm tra.

Để có được ước tính về độ tin cậy của bài kiểm tra hoàn chỉnh, công thức Tiên tri Spearman-Brown có thể được áp dụng như sau:

r tt = 2r / 1 + r

Trong đó r tt = độ tin cậy của tổng kiểm tra (ước tính)

r 1/2 1/2 = tương quan quan sát giữa hai nửa của thử nghiệm.

Ví dụ: nếu tương quan quan sát được giữa các nửa là 0, 40, thì Công thức Tiên tri sẽ ước tính độ tin cậy của bài kiểm tra hoàn chỉnh là:

r tt = 2 (0, 40) / 1 + 0. 40 = 0, 80 / 1, 40 = 0, 57

Do đó, phương pháp tách đôi cung cấp một phương pháp để ước tính độ tin cậy với một thử nghiệm duy nhất và một quản trị duy nhất. Tuy nhiên, có những hạn chế nhất định đối với việc sử dụng nó. Khi một người có một bài kiểm tra liên quan đến các yếu tố tốc độ chủ yếu (chẳng hạn như các bài kiểm tra văn thư đơn giản nhất định), quy trình thay thế một nửa cho kết quả cao giả.

Vì các bài kiểm tra tốc độ thường liên quan đến các mục dễ dàng, nên vấn đề chỉ là liệu chúng có được trả lời hay không để xác định xem chúng đúng hay không chính xác. Do đó, việc phân tách bài kiểm tra trên cơ sở chẵn, chẳng hạn, sẽ dẫn đến điểm số gần như giống hệt nhau cho cả hai nửa do đó có mối tương quan dương cao.

Phương pháp Kuder-Richardson:

Một phiên bản khác của phương pháp tách đôi thường được sử dụng để đo độ tin cậy. Liên quan đến một kỹ thuật thống kê được gọi là phân tích phương sai, hình thức thường gặp nhất của nó được gọi là thủ tục Kuder-Richardson. Phương pháp Kuder-Richardson (KR) cũng là độ tin cậy nhất quán bên trong, về cơ bản coi mỗi mục kiểm tra là một phép trừ, do đó thay vì có hai nửa có n phép trừ, trong đó n là tổng số mục trên dụng cụ đo. Kỹ thuật KR tương đương với việc tính toán tất cả các mối tương quan có thể có giữa các cặp bài kiểm tra (sẽ có n [n - l] / 2 cặp như vậy), lấy trung bình của các cặp này và điều chỉnh kết quả bằng cách sử dụng công thức tiên tri Spearman-Brown

Ở đâu

r tt = độ tin cậy ước tính của tổng kiểm tra

r ii = tương quan trung bình giữa các mục

K = số cặp vật phẩm

Giống như thủ tục biểu mẫu tách đôi, thủ tục Kuder-Richardson bỏ qua nguồn biến thể 2 và không phù hợp để kiểm tra tốc độ.

Một so sánh tóm tắt được đưa ra trong Bảng 2.4. Bảng này cho thấy các phương pháp độ tin cậy khác nhau và so sánh chúng theo các loại biến thể mà chúng bao gồm là phương sai lỗi.