음~ 개인적으로 만들어봤던 표절 검사는,
- n-gram 추출
- 동일 n-gram 포함 문서 집단 검색
- (입력 문서, 검색 문서)의 similarity 계산
요 framework에 따릅니다.
다만, 논문이나 리포트 같은 경우는 search space가 작기 때문에 쉽게 구현이 가능하구요,
모 대학 내 연구 윤리 감사 시스템도 위 framework로 만들었었습니다.
다만 일반 web document의 경우는 문제가 조금 복잡해집니다.
왜냐하면 모든 n-gram을 query할 수 없기 때문이죠. (뭐 구글 내부 db에 접근 가능하다면 쉬운 얘기겠지만 우린 구글이 아니니 ㅜㅜ)
표절 검사 알고리즘은 잘 모르지만, 오픈소스를 한번 찾아 볼 필요가 있을 것 같네요...
온라인 상에 이런 것들이 있네요...
https://www.plagscout.com/ko/%EB%AC%B4%EB%A3%8C-%ED%91%9C%EC%A0%88-%EA%B2%80%EC%82%AC%EA%B8%B0
https://lite.copykiller.co.kr/