You are viewing a single comment's thread from:

RE: [머신러닝] 스팀잇 글 분류하기 (첫번째 시도)

in #kr6 years ago

저는 머신러닝은 관심있는 샘플소스나 튜토리얼을 따라한 것이 전부입니다. 기초도 몰라요.
그래서 머신러닝쪽은 @jacobyu님의 도움이 필요합니다. ㅎㅎ

순서대로 질문에 답변 드릴께요.

  1. 학습 데이터는 ([형태소 분석한 텍스트], 카테고리) 구조로 만들었습니다.

    분류가 안된 이유는 잘모르겠지만, 카테고리마다 중복되는 형태소가 많아서 분류가 안 되었을 가능성이 크다는 생각이 드네요.ㅎㅎ

  2. 테스트 방법는 스팀잇 글을 가져와서 형태소 분석하였습니다. 그리고 학습된 NaiveBayesClassifier 분석기의 기준으로 분류했습니다.

    학습 데이터에서 중복되는 형태소를 뺀다든지 하는 데이터 정제가 필요할 것으로 생각됩니다.

제 생각이지만,NaiveBayesClassifier로는 많은 분류를 분석하기 힘들다고 판단됩니다. 대부분의 샘플 소스를 보면 긍정/부정, 스팸 필터링 정도로만 사용하고 있어서요.
스팀잇 글 카테고리 분류는 좀 더 연구해보고 다시 도전할 생각입니다.

Sort:  

저도 같이 공부하면서 해보고 싶어요. 저도 고민해볼게요.

네 ㅎㅎ 답변감사합니다.

재밌는 공부거리 인거같아요.
딥러닝/ 머신러닝을 실제 적용해볼 수 있는