표절에 대한 분산 사법 프로그램의 필요성

in #kr-dev7 years ago

현재 표절이 문제가 되고 있습니다.

표절은 쉽습니다.
직접 작성하는 것의 1/10의 노력이면 작성이 가능합니다.
표절로 이익을 얻고 안얻고를 떠나서 표절은 "악화가 양화를 구축하는 행위"로 심판 받아야 합니다.

이더리움 프로젝트 중 하나인 아라곤(https://aragon.one)에서는
분산화된 사법권(decentralized jurisdiction) 에 대해 이야기하고 있습니다.
스팀에는 이런 제도적 장치가 없는 것 같지만 스팀에서도 안되라는 법은 없습니다. 특히 표절에 대해서는 말이죠.

"사건이 발생하면 Court 는 organization contract 에 있는 행위를 변경하거나 취소할 수 있다."

#kr-dev 에서는 스팀잇관련 어플에 대한 아이디어가 올라오고 있으며,
개발자들이 이를 만들어 배포하기도 합니다.

올라오는 글들이 표절인지 검사하는 프로그램을 돌려서, 표절 가능성에 대한 리포팅을 한 후, 보팅을 하여 표절을 해결하는 방안이 어떨가 생각해 봅니다.



plagiarism.jpg

표절이니 아니니 시비하는 것은 에너지 낭비가 있는 것 같고,
위 방법이 좀 더 깔끔하고 분산적인 것이 아닌가 생각해 봅니다.

논의가 계속 진행되어 어느정도 무르익으면,
소셜 개발(Social Development)을 시작해 볼 수 있을 것 같습니다.

감사합니다.

Sort:  

전에 비슷한 생각을 해봤습니다. 전에 어떤분께서 표절검사하는 사이트를 올려주신적이 있고 이걸 올라오는 포스팅마다 검사를 하게 하는 프로그램을 만들어보는건 어떨까 하는 생각을요. 저와 비슷한 생각을 하고 계셨다니 ... 어떤 방식이 되었든 응원합니다.

101마리 원숭이 현상이라는 것이 있지요...

Well done post thanks for sharing

스팀잇이 베타를 벗어나기 전에 꼭 갖춰줘야 하는 시스템이 아닌가 싶습니다. 등록되는 모든 글을 사람이 일일이 체크 할 수도 없는 일이고, 이게 표절이냐 아니냐에 따른 논란도 있구요.

논문 같은 경우에는 투고시 iThenticate(논문 유사도)를 측정해서 알려주는데, 단어는 어느 논문하고 몇개가 비슷하고, 문장은 어느 논문하고 어느정도 비슷하고 등등
각각 비교해서 전체적인 논문 유사도에 대한 평점이 매겨집니다.

댓글 봇이 있듯이, 유사도 봇이 있다면 진짜 좋을듯 싶습니다.
일정 퍼센트 이상 유사시 저자에게 어느글과 비슷한지 알려주는...

그런데 넘어야 할 산이 너무 많긴 합니다.
논문이야 일정 양식이 있고, 대부분 DB화 되어 있어서 가능하지만...
그냥 올리는 글에 대해서는 어떻게 접근해야 할지 전혀 감이 안오네요T.T

오픈소스 프로젝트 하나 만들어 볼까요?

헉! 총떼를 매시고 진행하시는 건가요? ㅎㅎ 제가 할 수 있는 일이라면 적극 도와드리겠습니다~

음~ 개인적으로 만들어봤던 표절 검사는,

  1. n-gram 추출
  2. 동일 n-gram 포함 문서 집단 검색
  3. (입력 문서, 검색 문서)의 similarity 계산
    요 framework에 따릅니다.
    다만, 논문이나 리포트 같은 경우는 search space가 작기 때문에 쉽게 구현이 가능하구요,
    모 대학 내 연구 윤리 감사 시스템도 위 framework로 만들었었습니다.

다만 일반 web document의 경우는 문제가 조금 복잡해집니다.
왜냐하면 모든 n-gram을 query할 수 없기 때문이죠. (뭐 구글 내부 db에 접근 가능하다면 쉬운 얘기겠지만 우린 구글이 아니니 ㅜㅜ)

표절 검사 알고리즘은 잘 모르지만, 오픈소스를 한번 찾아 볼 필요가 있을 것 같네요...
온라인 상에 이런 것들이 있네요...
https://www.plagscout.com/ko/%EB%AC%B4%EB%A3%8C-%ED%91%9C%EC%A0%88-%EA%B2%80%EC%82%AC%EA%B8%B0
https://lite.copykiller.co.kr/