통계학을 공부하면서 얻게 된 뜻밖의 지식들

통계학을 공부하면서 얻게 된 뜻밖의 지식들


통계학을 공부한 지 3년이 넘어가고 있다. 이 3년이라는 시간 속에서 의도하지는 않았지만, 얻게된 뜻밖의 지식들이 있는데 이에 대해서 블로그에 남겨보려고 한다.

----------------------------------------------

1. Greek alphabet

 고등학교 때 까지는 x,y의 알파벳을 사용하고,  대학교 때 와서 전공에 따라 좀 더 생소한 기호들을 사용하기 시작했던 것 같다. 나의 처음 그리스 알파벳의 시작은 재무관리 시간에 배운 $\beta$였다. 이게 b인지 $\beta$인지 참 많이 헷갈리기도 했다.

 그러나 통계학을 공부하기 시작하고나서는 알아야 할 (아니면 적어도 발음할 수 있을) 그리스 알파벳의 갯수가 기하급수적으로 늘어나기 시작했다. 모수를 말하는 $\theta$, 확률공간을 정의할 때 사용되는 $\Omega$, $\sigma$, 평균을 나타내는 $\mu$, 확률분포인 $\Beta$, $\Gamma$, $\Chi$ 등 다양한 그리스의 알파벳을 알아야했다.
 그리고 이는 베이지안통계학을 공부하면 더 증가하는데, $\nu$, $\tau$, $\psi$, $\eta$, $\kappa$ 등 사전분포의 모수들을 정의할 때 사용하는 그리스 알파벳들을 더 배우기 시작했다.
 이론적인 통계학을 배우다보면 사용하는 $\delta$, $\epsilon$, $lambda$, $\xi$ 등도 있다.

 이렇게 뜻밖에 꺠치게 된(?) 그리스 알파벳은 미국에서는 가끔 유용하게 사용되는데 대학교 주변에 있는 fraternity / sorority house 입구에 대문짝하게 쓰여있는 단체의 이름을 잘 읽을 수 있다는 것이다. 



2. C++, Unix programming

 통계학과 진학을 준비할 때 가장 많이 가지고 있었던 질문, 그리고 사람들이 나에게 많이 하는 질문 중 하나는 R을 해야 해요, 아니면 Python을 해야 해요? 라는 질문이었다. (통계학 한정 정답은 R)
 하지만 일정 수준을 넘어서면, 그리고 굉장히 복잡하거나 용량이 큰 데이터를 분석하기 시작하면 R은 분석도구라기보다는 visualization을 위한 도구로 많이 사용한다. 그리고 그 대신에 C++을 사용하거나, Unix를 사용하기 시작한다. 
 C++의 경우는 Rcpp라는 함수를 이용하여, C++로 함수를 짜고 이를 Rcpp라는 wrapper함수를 통해 R에서 C++함수를 부른다. 
 Unix의 경우는 system이라는 R 내의 wrapper함수를 이용하여 Unix에서 돌아가는 프로그램을 사용한다. 또한 cluster computing을 사용하는 경우 unix console을 통해서 R 프로그램을 돌린다.

 나는 나이가 들어서 그런지 새로운 걸 배우는 걸 굉장히 주저하고 왠만하면 기존의 프로그램으로 해결하는 편이었는데, 굉장히 computationally heavy한 simulation을 하다 보면 어쩔 수 없이 C++를 통해 계산을 빠르게 하고, Cluster computing을 통해 일을 parallaize해서 시간을 단축해야만 했다. 또한 image data analysis의 경우 왠만한 프로그램들이 unix로 구현이 되어있기 때문에 unix를 사용하는 건 필수아닌 필수가 되어버렸다. 

 가끔은 내가 통계학을 공부하는지 컴퓨터를 공부하는지 헷갈리기는 하지만 그래도 좋은 점은 Unix와 C++은 꾕장히 basic하기 때문에 이것들을 배우기 시작하면 다른 언어를 배우기 더 쉽다는 점에 있다. 


 (예시) Useful unix command 

- Download dropbox folder to unix machine : bget
- Unzip the file: 
 tar -zxvf yourfile.tar.gz for  => tar.gz file
 tar -xvf yourfile.tar for => tar file
- Grant a permission
 chmod -R 755 directory-name/ : add a permission to a directory and its children : worked when I tar-ed the file by using "tar -xvf yourfile.tar".
chmod u+x filename : add a permission to a filename


3. “The best thing about being a statistician is that you get to play in everyone's backyard.”

 존 튜키선생님이 말씀하신 이 말, 통계학자가 좋은 이유는 어떤 곳에서도 놀(쓰임받을) 수 있기 때문이다,은 참으로 맞는 말이다. 물론 Kolmogorov처럼 통계학 자체를 발전시킬 수도 있지만 또 이는 엄밀하게 말하면 수학이라는 집의 backyard에서 노는 것이 아닐까? 싶기도 하고... 
 내가 통계학을 공부하면서 얻게 된 뜻밖의 지식은 주로 clinical한 것들에 있다. 최근에 발간된 논문
은 BRCA1,2라는 유전자 변형을 갖고 있는 여성의 유방암, 난소암 발병 확률을 계산하는데, 이 논문을 작성하기 위해 유방암과 난소암, 그리고 유전학에 대한 연구를 많이 해야 헸고, 그렇기 때문에 이에 대한 지식을 얻을 수 있었다.
 그리고 지금은 Oligodendrocytes를 segment하는 image data analysis를 하고 있는데 이를 위해 neuroscience 공부를 더 진행하고 있다. 그리고 이는 내가 통계학을 공부하면서 얻게 될 지식이라고는 감히 상상하지도 못했었다. 이럴 줄 알았으면 고등학교 때 생물공부좀 열심히 할껄...아니 차라리 이공계를 공부할껄... 

----------------------------------

그 이외에도 TeX 쓰는 법도 배우고, 신문을 읽을 때 통계자료를 비판적으로 보는 안목도 얻게 되는 등 긍정적으로 보면 뜻밖에 많은 지식을 얻게 된 것 같다. 그리고 그래서 다행이다.











댓글

  1. 안녕하세요,
    석사과정 관련해서 포스트 올리신 것은 확인했습니다. 혹시 이외에 질문을 드리고 싶은데, 제가 따로 연락을 취할 수 있는 방법이 있을까요~?
    감사합니다.

    답글삭제
    답글
    1. ecbae@pennmedicine.upenn.edu 로 메일 주세요~ 시간 나는대로 답장 드릴게요 :)

      삭제

댓글 쓰기