[Book review] 다시 확률 통계

in #steempress4 years ago


확률편, 저작: 나가노 히로유키

데이터의 의미를 찾고 싶다면, 확률과 통계부터 공부하자

수많은 데이터 속에서 필요한 정보를 수집하는 것이 '통계'이고, 그 정보를 바탕으로 확률을 계산해서 판단의 근거로 삼는 것이 '확률'로, 확률과 통계는 서로 뗄 수 없는 관계에 있습니다.

이 책은 집합, 경우의 수, 순열과 조합, 확률, 조건부 확률 를 다루고 있습니다.

누구나 수학을 좋아하지 않을 수는 있어도, 수학의 활용은 생활 어디에서나 사용되고 있는 일상에서의 일들에서 시작되고 있다.

그럼 어느 정도의 이해력이 있으면 될 수 있을까? 2010년 일본의 대표 수학자인 아키야마는 '이공계 대학 진학에 필요한 능력'으로 네 가지 능력을 들었습니다.

  1. 자기 신발을 모아서 지정된 자기 신발장에 넣을 수 있다.
  2. 모르는 단어의 뜻을 사전을 펼쳐서 찾을 수 있다.
  3. 카레라이스를 만들 수 있다.(레시피를 봐도 좋다)
  4. 가장 가까운 역에서 집까지 가는 지도를 그릴 수 있다.

이를 해석해 보면

  1. 일대일 대응의 개념을 이해한다. 즉, 자신의 좌우 신발을 대응시킨 후 지정된 자신의 신발장에 대응시킬 수 있다는 말은 일대일 대응의 개념을 이해하고 있다는 증거입니다.
  2. 순서 관계를 이해할 수 있다. 즉, 'study'라면 s는 알파벳 r 다음이고, 다음 t는 s와 u 사이의 문자이며 ..... 라는 식으로 26자 알파벳 사이에 순서를 이해하고 있어야 사전에서 찾을 수 있습니다.
  3. 순서를 정리하고 실행&관찰할 수 있다. 즉, 하나의 요리를 만들려면 재료를 준비하고 작업 순서에 따라 적절히 처리한 후 경과르 관찰하는 힘이 필요합니다.
  4. 추상 능력이 있다. 즉, 지도를 그리는 작업은 3차원 공간을 2차원 평면에 새기는 작업입니다. 이때는 쓸데 없는 정보를 제거하고 길을 따라 필요한 정보만을 추출하여 표현하는 추상 능력이 필요합니다.

수를 세는 건 인간만일까?

정말 수를 센다는 행위는 인간만이 할 수 있는 것일까? 최근에 인간이 아닌 동물도 수를 셀 수 있다는 연구 결과가 계속해서 발표되고 있다.

예를 들어 뻐꾸기는 성휘파람새의 둥지에 자기 알을 몰래 넣어 두고 성휘파람새가 알을 품게 하는데(탁란이라고 합니다.) 그때 자기 알과 같은 수만큼 성휘파람새의 알을 빼버릴 수 있다고 합니다. 이외에도 까마귀나 원숭이, 벌도 수 차이를 구별할 수 있다는 보고가 있습니다.

하지만 동물도 수를 알고 있다고 결론을 내리기에는 아직 이릅니다. 왜냐하면 수를 이해하는 데는 고도의 추상력이 필요하기 때문입니다.

이를 두고 영국의 수리 철학자 버트런드 러셀은

'2일의 2와 2마리 꿩의 2가 같은 2라는 걸 눈치채기까지 한없이 긴 세월이 필요했다.'

라고 이야기 했습니다. 추상화란 여러 가지 구체적인 예에서 필요 없는 정보를 빼고 공통되는 본질을 파악하는 것을 말합니다. 2일이나 2마리, 2미터, 2만원 모두 다른 단위가 붙어 있지만, 그 값이 2에 해당하는 분량이 라는 점에서 본질은 같다라는 의미로 '2'라고 표현합니다. 이 내용은 아마도 뻐꾸기에게는 어려울 것입니다.

인간은 이를 이해하고 발전시켜 큰 수를 세고 문제를 풀어 낼 수 있습니다.

문제를 푸는 데 필요한 조건이나 요소의 합이 증가하면 답이 폭발적으로 커지는 현상을 조합 폭발(combinatorial explosion) 이라고 하며 바둑이나 장기의 승패 패턴 분류나 순회 세일즈맨 문제(세일즈맨이 n개 도시를 방문해서 출발지로 돌아올 때 이동 거리가 최소 되는 경로) 등이며 n*n 격자 그래프의 총 경로 수를(모든 경로를 하나씩 조사하는 방법) 셌을 경우 n=11이면 계산하는 데 290억 년의 시간이 걸린다고 합니다.

세는 방법을 잘 정리하는 것이 예나 지금이나 수학을 발전시킨다.

계산방법(알고리즘)을 잘 생각하면 시간으 대폭 절약할 수 있습니다. 앞서 헤아린 경로의 수를 일본 교토대엣 ZDD(Zero-suppressed Binary Decision Diagram)라 불리는 알고리즘을 개발하여 2013년에 n=26일 때 총 경로를 계산하는 데 성공했습니다. 계산된 경로의 개수는 무려 1.736 * 10의 163승입니다.

격자 그래프의 경로 개수를 세는 알고리즘은 통신 네트워크의 통신 경로 최적화나 자동차 내비게이션의 정체 회피 경로 선택, 수많은 상품 중 고객이 무엇을 선택할지에 관한 구매 패턴 분석 등 데이터마이닝 분야에서 유효성을 나타내었고 앞으로의 연구 성과가 기대되고 있습니다.

이처럼 알고리즘을 생각한다는 것은 크게 생각하면 세는 방법을 잘 생각한다는 것입니다. 센다라는 것은 원시적인 행위에 대한 지성의 성과인 동시에 최첨단 과학으로 연결되는 현재 진행형인 연구의 단서이기도 합니다.



Posted from my blog with SteemPress : http://internetplus.co.kr/wp/?p=640