[미래의 AI]인간의 표정을 읽는 AI, 가능할까?

MIT Media Lab의 연구진들은 인간이 '감정'을 해석해내는것을 컴퓨터가 좀 더 자연스럽게 인간의 감정을 이해할 수있는 머신러닝 모델을 개발했습니다. "감성 컴퓨팅(Affective Comuting)"이라는 분야에서는, 얼굴 표정을 분석하고 인간의 감정을 해석한 후 이에 반응하도록하는 로봇과 컴퓨터가 개발되고 있습니다. 예를 들어, 개개인의 건강 및 웰빙을 모니터링 한다던지, 교실내 학생들의 관심도 측정하고 특정 질병의 징후를 진단하는 등 이를 수행할 수 있는 '동반자형'로봇을 개발하고 있습니다. 하지만 현재 직면하고 있는 어려움 중 하나는 사람에 따라 그들의 감정을 표현하는 방식이 다르다는 것입니다. 이는 문화, 성별 및 연령 등의 복합적인 요인에서 발생합니다. 게다가 이 밖에도 시간대, 수면시간, 대화 상대에게 느끼는 친밀도, 대화시점의 기분상태와 같은 미묘한 요소들 또한 영향을 줍니다. 대개 인간의 두뇌는 본능적으로 이러한 요인들을 잡아 내지만 컴퓨터에게는 쉽지 않은 작업입니다. 최근에는 딥러닝이기술이 개발되어 미묘한 부분을 파악하는 작업이 향상되었지만 대다수에게 적용하는 단계에는 아직까지 다다르지 못했습니다. 그렇기때문에 Media Lab 연구진은 수천 가지의 얼굴표정으로 컴퓨터를 훈련하면서 세밀한 기분을 더 정확하게 측정하기 위해 기존 시스템을 능가하는 머신러닝 모델을 개발했습니다. 또한, 약간의 추가 훈련 데이터를 사용함으로써 모델은 완전히 새로운 개체군에 적용될 수 있다고합니다. 현재 그들의 목표는 기존의 감성 컴퓨팅을 개선하는것이라고 하는데요정서적 컴퓨팅 기술을 개선하는것이라고 하는데요, Media Lab의 연구원이자 이 모델개발관련 논문 공동저자 Oggie Rudovic은 아래와 같이 설명을 덧붙였습니다.

"인간의 감정을 모니터링 하는것은 비간접적인 방법입니다. 그리고 사회적 지능을 가진 로봇을 개발하기위해서는 인간의 감정과 기분에 지능적이고 자연스럽게 반응할 수 있도록 설계해야합니다."

개개인에 특화된 '전문가'

기존의 감성컴퓨터 모델들은 "one-size-fits-all"이라는 개념을 사용했습니다. 예를 들면, 다양한 얼굴 표정을 묘사한 한 세트의 이미지를 가지고 각 표정의 특징을 살려서 훈련을 시키는 것이죠. 웃을 때 입술이 어떻게 구부러지는지 등을 학습시키는 것입니다. 최적화된 일반적인 특징을 새로운 이미지 세트 전체에 걸쳐 매핑하는 방식입니다. 하지만 MIT 연구진은 "전문가의 혼합"(MoE: mixture of experts)이라는 기술을 '모델 개인화 기술'과 결합하여 보다 세분화된 얼굴 표정 데이터를 산출할 수 있었습니다. Rudovic은 감성 컴퓨팅을 위해 이 두 기술을 결합한 것은 이번이 처음이라고합니다. MoE에서는 'expert'라고 불리는 수 많은 신경망 모델이 각각 별도의 처리 작업을 전문으로 수행하고 하나의 출력을 생성하도록 훈련됩니다. 또한, 'expert'가 보이지 않는 대상의 기분을 감지 할 가능성을 계산하는 'gating network'를 통합했습니다. 기본적으로 네트워크는 대상을 개별적으로 식별 할 수 있기때문에 이미지가 일단 주어진다면 태스크를 훌륭히 처리할 수있다고 합니다.

연구진은 이 모델을 위해 감성 컴퓨팅 응용 프로그램을 대상으로 설계된 비디오 채팅 플랫폼에서 대화하는 사람들의 공개 데이터베이와 RECOLA 데이터베이스에있는 18개의 개별 비디오 녹음 중 하나에 'expert'를 매칭하여 MoE 개별화 작업을 수행하였습니다. 그들은 9개 대상을 가지고 모델을 훈련하여 모든 비디오를 개별 프레임으로 나눈 다른 9개에 접목시켜 평가하였습니다. 각각의 'Expert'와 'gating network'는 개체 분류에 사용되는 뉴럴네트워크인 "ResNet"의 도움을 받아 개개인의 표정을 파악하는 작업을 하였는데요, 모델은 각기 다른 감정 상태를 부호화하기 위해 일반적으로 사용되는 지표인 'valence'(즐겁거나 불쾌한 감정)과 'arousal'(흥분된 감정)을 기준으로 각 프레임을 기록해나갔습니다. 이외 별도로 6명의 연구진이 각 프레임에 'valence'과 'arousal'을 표시하여 -1(저급)에서 1(고급)까지의 척도를 토대로 훈련시켰습니다. 연구진들은 추가 모델 개인화 작업을 수행하여 피사체의 나머지 비디오 일부 프레임에서 훈련된 모델 데이터를 제공한 다음 해당 비디오에서 아직 보여주지 않은 프레임을 가지고도 모델을 테스트해보았습니다. 결론은 새로운 개체군의 5~10% 데이터를 가지고 봤을때 MIT 연구진의 모델이 전통적인 모델과 비교했을때 큰 차이로 능가하는것을 보여줬으며, 즉, 실제 전문가들이 해석하는 수준까지 도달했다는 것을 의미합니다.

이는 이 모델이 개채군에 따라 적응할 수 있다는것을 보여줍니다. 사실 이것이 바로 이 연구의 가장 중요한 핵심이기도 합니다. 보통은 새로운 개체군이 생기면 미묘한 표정의 변화를 다룬 데이터 배포를 이동시키는 작업을 해야합니다. 한 문화권의 표정을 분석하고 또 다른 문화권에 적용하는 모델이라면, 앞서말한 데이터 이동없이는 원활한 작업을 수행할 수 없습니다. 하지만 새로운 문화권의 모델을 샘플링하여 모델에 적용한다면 수행능력이 더 뛰어날 수 밖에 없습니다. 특히, 개별화가 특화된 수준에서 말이죠. 그렇기때문에 모델의 개인화가 더 중요한 이유입니다. 다만, 현재의 데이터는 다양한 인종을 다루고 있지 않기때문에 모델을 훈련시키는데는 제한이 있습니다. 하지만 데이터가 풍부해지고 다양한 집단을 다루게된다면 이 모델의 진가를 발휘할 수 있게될 것이라고 연구진은 말합니다.

인간과 소통하는 로봇

연구진의 또 다른 목표는 컴퓨터와 로봇이 소량의 데이터 변경으로만으로도 자동학습을 통해 인간의 감정을 파악하고 무엇을 원하는지 파악할 수 있는것입니다. 예를 들어, 컴퓨터 또는 모바일 장치내에서 기본적으로 이런 기능이 탑재되어있다면 사용자의 비디오 기반 대화를 통해 사용자의 표정을 인식하고 감정을 읽어낼 수 있겠죠. 그리고 스마트앱이나 웹사이트가 인간이 겪는 고통 및 스트레스 혹은 부정적인 영향을 주는 것을 어떻게 대처할지에 대해 조언을 주는 상황을 그려볼 수 있습니다. 또한, 이 뿐만아니라, 우울증이나 치매를 모니터링하는 데 도움이 될 수 있습니다. 수동적으로 인간의 얼굴표정을 모니터링하여 나중엔 데이터로 전환하여 하루하루 사용자의 기분이 어땠는지를 기록할 수 있게된다면 인간의 웰빙 및 건강의 지표를 만들어 주는 셈이죠 . MIT의 연구진은 가장 유망한 애플리케이션이야말로 맞춤형 개인 로봇 혹은 교육용 로봇등과 같이 인간과 로봇이 상호작용할 수 있어야한다고 말합니다.

출처 : http://news.mit.edu/2018/helping-computers-perceive-human-emotions-0724