본 연구는 영어 말하기 수행평가에서 다른 배경(전공, 학력, 평가 및 교육 경험)을 가진 비모국어 평가자들 사이의 차이를 조사하였다. 본 연구를 위해, IELTS 준비 자료로 이용할 수 있는 주제에 대해 32명의 중국 본토 대학생들이 제공한 결과물을 평가하기 위해 14명의 평가자들이 모집되었다. 평가자들은 네 가지 분석적 평가 척도(유창성과 일관성, 문법적 범위와 정확성, 어휘 및 발음)와 전체론적 평가 척도로 구분하여 말하기 능력을 평가하도록 요구되였다. MFRM (Multi-Facet Rasch Masch) 측정이 엄정성, 일관성 및 편견 측면에서 영어 말하기 성능 평가에서 두 그룹의 차이를 탐구하는 데 활용되었다. 피어슨 상관계수를 적용하여 분석적 평가 점수와 전체론적 평가 점수의 관계를 분석하였고 전체적인 점수가 분석적인 점수에 의해 어느 정도까지 설명할 수 있는지 고려되었다. 또한 본 연구에서 평가자들이 말하기 결과물을 평가할 때 자신들이 왜 그 점수를 주었는지를 설명하는 최소 세 개 이상의 기준점을 제시하도록 요구하였다. 그리고 타당한 이론에 기초하여, 이러한 서면 논평이 평가자들의 잠재적 인식과 두 그룹의 평가자들이 학생들의 말하기 성적을 평가하는 데 가장 많이 사용하는 등급 범주를 알아내기 위해 분류되었다. 범주의 빈도 차이에 대한 통계적 유의미성은 카이-제곱 검정을 통해 조사되었다. 본 연구에서 드러난 MFRM의 결과는 두 집단 모두 분석적 및 전체론적 평가 방법 모두에서 관대한 평가를 하는 경향이 있었으며, 두 평가방법 사이에는 상당한 연관성이 있다는 점을 보여준다. 그러나 EMR은 높은 수준의 평가자의 연관성을 보여주는 반면에 NEMR은 낮은 수준의 평가자 연관성을 보여준다. 전체론적 점수 및 분석적 점수 사이의 스피어맨-브라운 상관 관계를 보면 두 그룹의 평가자들 모두에서 유창성의 분석적 점수 변수가 전체론적 점수 변수와 가장 높은 상관 관계를 가졌고 발음의 분석 점수 변수가 전체론적 점수 변수와 가장 낮은 상관 관계를 가졌다는 것을 알 수 있었다. 서면 논평의 결과는 두 그룹의 평가자들이 범주에 다른 중요성을 부여했다는 것을 보여준다. EMR은 유창성과 일반의 범주에 훨씬 더 많은 관심을 기울인 반면, NEMR은 유창성과 문법 범위의 범주에 더 많은 비중을 할당했다. 한편, NEMR은 IELTS 기술자가 제시한 등급 기준에 정확히 부합하는 반면, EMR은 연구자가 제시한 기준에서 벗어난 전체적인 인상, 과제 또는 내용과 길이에 더 많은 관심을 보였다.본 연구의 결과는 대학 말하기 영어 교사, 학습자 및 관리자뿐만 아니라 영어 말하기 수행 평가에서 평가자 훈련 과정에도 도움이 될 것이다.