RE: 표절에 대한 분산 사법 프로그램의 필요성

음~ 개인적으로 만들어봤던 표절 검사는,

n-gram 추출
동일 n-gram 포함 문서 집단 검색
(입력 문서, 검색 문서)의 similarity 계산
요 framework에 따릅니다.
다만, 논문이나 리포트 같은 경우는 search space가 작기 때문에 쉽게 구현이 가능하구요,
모 대학 내 연구 윤리 감사 시스템도 위 framework로 만들었었습니다.

다만 일반 web document의 경우는 문제가 조금 복잡해집니다.
왜냐하면 모든 n-gram을 query할 수 없기 때문이죠. (뭐 구글 내부 db에 접근 가능하다면 쉬운 얘기겠지만 우린 구글이 아니니 ㅜㅜ)