You are viewing a single comment's thread from:

RE: 표절에 대한 분산 사법 프로그램의 필요성

in #kr-dev7 years ago (edited)

음~ 개인적으로 만들어봤던 표절 검사는,

  1. n-gram 추출
  2. 동일 n-gram 포함 문서 집단 검색
  3. (입력 문서, 검색 문서)의 similarity 계산
    요 framework에 따릅니다.
    다만, 논문이나 리포트 같은 경우는 search space가 작기 때문에 쉽게 구현이 가능하구요,
    모 대학 내 연구 윤리 감사 시스템도 위 framework로 만들었었습니다.

다만 일반 web document의 경우는 문제가 조금 복잡해집니다.
왜냐하면 모든 n-gram을 query할 수 없기 때문이죠. (뭐 구글 내부 db에 접근 가능하다면 쉬운 얘기겠지만 우린 구글이 아니니 ㅜㅜ)

Sort:  

표절 검사 알고리즘은 잘 모르지만, 오픈소스를 한번 찾아 볼 필요가 있을 것 같네요...
온라인 상에 이런 것들이 있네요...
https://www.plagscout.com/ko/%EB%AC%B4%EB%A3%8C-%ED%91%9C%EC%A0%88-%EA%B2%80%EC%82%AC%EA%B8%B0
https://lite.copykiller.co.kr/