edX 강의 리뷰: HarvardX PH525: Data Analysis for Life Science

 

edX 강의 리뷰: HarvardX PH525: Data Analysis for Life Science 



 이번 학기에 나는 BIOM610이라는 우리 단과대학 수업의 조교를 맡게 되었다. 이 수업은 통계학을 전공하지 않는 박사학생들을 대상으로 기본적인 통계를 가르치는 수업이다. 이 수업은 유펜에서 역사적으로 낮은 수업평가를 받아왔는데, 그 이유는 학생들의 통계 수준이 천차만별이었고 이 다양한 스펙트럼의 학생들을 만족시키기 쉽지 않았기 때문이다. 그래서 이번년에 유펜에서는 edX를 이용하여 이 문제를 해결하기로 하였고, 그래서 이 HarvardX PH525 수업이 선택되었다. 수업 담당 교수님은 통계학의 노벨상, COPSS award, 수상자이시고 하버드 생물통계학과와 Dana-Farber Cancer Institute의 Data Science department의 chair로 계신 Rafael Irizarry 교수님이다.


 HarvardX PH525 수업은 bio쪽의 연구를 하는 사람들의 data analysis를 돕기 위해 고안된 수업이며, 이 수업의 특기할만할 점은 R을 70%, 이론을 30%정도로 비중을 두었다는 점이다. 논문을 작성할 때에 통계는 필수적으로 사용되며,  이를 위한 통계 소프트웨어 또한 필수록 사용되기 때문에 이러한 비중은 현실의 필요에 잘 부응한다고 할 수 있다. 수업은 총 4개의 모듈로 구성되어 있다. 

- PH525.1x: Statistics and R

- PH525.2x: Introduction to Linear Models and Matrix Algebra

- PH525.3x: Statistical Inference and Modeling for High-throughput Experiments

- PH525.4x: High-Dimensional Data Analysis


  내가 수업 조교를 하면서 느꼈던 이 edX의 수업의 장점과 단점은 다음과 같다.


장점

1. edX 수업 전반에 해당하겠지만, 자신의 스케줄대로 수업을 들을 수 있다. 또한 개개인의 역량에 따라 수업을 더 빠르게 진행할수도, 천천히 진행할 수도 있다.

2. Quiz들이 R을 사용하지 않으면 풀 수 없게 구성되어 있다. 이를 통해 R을 훈련하게 한다.

3. 커리큘럼이 기본 통계에서부터 최근 바이오 분야에서 많이 사용되는 high-dimensional data analysis 및 기본적인 machine learning등 다양한 분야를 포괄적으로 다루고 있다.

4. 수업과 함께 제공되는 교재 (http://genomicsclass.github.io/book/) 가 굉장히 잘 쓰여져 있다.

5. 수업과 함께 사용되는 코드는 모두 reproducible하다.


단점

1. 기본적인 통계 실력이 없다면 고전할 수 있다. 특히 수업 특성상 통계 이론은 간략하게 넘어가고 R을 많이 가르치기 때문에 기본적인 통계 지식이 없다면 고생할 수 있다. 이에 대해 내가 추천하는 방법은 해당 모듈에 해당하는 교재를 읽은 후 수업을 진행하는 것이다.

2. 기본적인 R 코딩 경험이 없다면 고전할 수 있다. 물론 첫 수업에서 R을 설치하는 것 부터 시작하지만,  통계 프로그램의 특성상 익숙해지는 데 시간이 걸릴 수 있다. 다만 이 수업의 좋은 점은 수업에 사용된 모든 code를 제공하기 때문에 이를 하나하나 따라해볼 수 있다는 점이다.

3. 수업과 quiz가 따로 노는 느낌이다. 또 가끔 quiz의 답이 맞지 않는 경우가 있다.  또한 Discussion board가 따로 없기 때문에 함께 공부하는 사람이 없다면 궁금한 점을 해결하기가 쉽지 않다.


 주관적으로 이 수업에 대한 평가를 해보자면 5점 만점에 3점을 주고 싶다. 그 이유는, 1. 기초 통계 지식이 없다면 이 수업을 따라가기 힘들기 때문이고 2. Quiz의 퀄리티가 그렇게 좋지 않고 3. Discussion board가 없기 때문이다. 만약 이 수업에 관심이 있다면 이 점을 꼭 확인하고 수업을 신청하기를 바란다.  만약 이 수업을 무료로 들으면  quiz에 대한 답을 알 수 없는 것 같은데, 답이 필요하면 댓글로 남겨주시길...

 나는 개인적으로 Rafael Irizarry 교수님의 coding 스타일을 어깨너머 볼 수 있어서 흥미로웠다. 마치 가우스나 오일러가 수학문제 푸는 걸 보는 듯한 느낌이랄까. 




학생들에게 주었던 Tip & Errata


- PH525.1x: Statistics and R, week 3

Hint/errata for Week 3: - General: Always pre-load those libraries to answer the questions!library(downloader)
library(dplyr)- T-test Exercise #1: Obtain a samples from the non-smoking mothers and smoking mothers. Reversing the procedure will give a wrong answer.
- Power Calculation Exercise #5: This question is rather theoretical but worthwhile to look at. If you are interested, please check this blog: https://stats.stackexchange.com/questions/2272/whats-the-difference-between-a-confidence-interval-and-a-credible-interval
- Monte Carlo Exercise #3: Use this code to compare the theoretical quantiles vs. samples obtained in the Monte Carlo simulation.
####
B=100 # Number of bins that we want to make
ps = seq(1/(B+1), 1-1/(B+1),len=B) # Percentiles from just above 0 to just below 1
x <- qt(ps,df=4) # Calculate the quantile of t-distribution with df = 4
y <- rnorm(n = 1000) # Generate the random numbers by using Monte Carlo simulation
qqplot(x, y , xlab = "T-distribution quantiles", ylab = "Quantiles of sample that obtained in the Monte Carlo Simulation")
####
- Permutation Exercise #2, #3: When you calculate the proportions of the null means are bigger than the observed value, include the equal sign to get the right answer.
- Association Test Exercise #1: it looks X-squared statistic, but it is a \chi – squared statistic and ask you to calculate the \chi – squared statistic.
- Question #5: verestimate -> overestimate


- PH525.2x: Introduction to Linear Models and Matrix Algebra, week 2

Hints for week 2:Reference: 
 1. http://genomicsclass.github.io/book/ : Chapter 4, Chapter 5
 2. (In case if you want to know the detail of linear regression) Kutner M, Nachtsheim C, Neter J, Li W. (2004). Applied Linear Statistical Model, 5th edition. Irwin/McGraw-Hill : Chapter 1Inference Review Exercise #2
 - Before use the replicate function to compute an estimate of g, pre-specify the vector (For example, ghat <- rep(NA, 100000) ) to store the estimate of g for each iterations.
 - Computation will take few seconds (My Mac took 5.154403 secs)Quiz Question #3
 - Before use the replicate function to compute an estimate of slope, pre-specify the vector (For example, slopehat <- rep(NA, 10000) ) to store the estimate of slope for each iterations.
 - Computation will take few seconds (My Mac took 6.139417 secs)


- PH525.3x: Statistical Inference and Modeling for High-throughput Experiments, week 3

Hints for week 2:Reference: http://genomicsclass.github.io/book/, chapter 6
For those who want to know more about Benjamin-Hochberg procedure and q-value, here are the original papers. For this class, chapter 6's explanation is enough.
  • Benjamin-Hochberg: Benjamini, Y., & Hochberg, Y. (1995). Controlling the false discovery rate: a practical and powerful approach to multiple testing. Journal of the Royal statistical society: series B (Methodological)57(1), 289-300.
  • q-value: Storey, J. D. (2002). A direct approach to false discovery rates. Journal of the Royal Statistical Society: Series B (Statistical Methodology)64(3), 479-498.
FDR exercise #7-12 : 
 - False negative rate: False Negative / # of # of Null hypothesis is false (in this question, m1)
 - False positive rate: False Positive / # of Null hypothesis is true (in this question, m0)Quiz 2-c,d : Only report up to two decimal points. For example, if your percentage is 3.421, report 3.42.


- PH525.4x: High-Dimensional Data Analysis, week 3

Hints/Errata for week 3: Concepts that introduced in week 3 may take a while to digest. If you need help, slack TAs :)
  • Smoothing Exercises #1
 Answer should be 0.616388
  • Quiz #4
 Disregard the answer. It uses "kmeans" instead of using "hclust". If you use the "hclust", then :
 #4-1: answer should be CLL and NOL
 #4-2 : Question should be re-written as "Which leukemia type is "not" clustered with CML?"
  • Quiz #6 `leuk2` -> `leukTF`
  • Quiz #9 , "Repeat the steps from questions 8 and 9 above for each of the 5 folds." -> "Repeat the steps from questions 7 and 8 above for each of the 5 folds."











 

댓글

  1. 안녕하세요! PH525.2x: Introduction to Linear Models and Matrix Algebra를 수강 중인데 혹시 quiz 답 공유해주실 수 있나요?

    답글삭제
    답글
    1. 알고싶으신 문제 알려주시면 답 달아드릴게요!

      삭제
    2. week1의 2번째 정답이 궁금합니다!

      삭제
    3. Distance of the model to the data 입니다!

      삭제

댓글 쓰기