memoRandum for data analytics

memoRandum for data analytics https://wsyang.com/ Recent content on memoRandum for data analytics Hugo -- gohugo.io en-us Sun, 08 Jul 2018 00:00:00 +0000 rstan을 이용한 베이즈 회귀분석 https://wsyang.com/2018/07/bayesian-simple-regression-using-rstan/ Sun, 08 Jul 2018 00:00:00 +0000 https://wsyang.com/2018/07/bayesian-simple-regression-using-rstan/ 이번 포스트에서는 단순 회귀분석의 예를 통해 Stan과 rstan의 사용법을 알아본다. 실제로 R에서 Stan을 실행하여 MCMC 샘플을 얻어서 베이즈 신뢰구간 및 베이즈 예측구간을 계산한다. 데이터 분포 확인 예제로 R에 포함된 cars 데이터를 이용한다. 이 데이터는 자동차의 속도 speed (mph)와 제동거리 dist 를 측정한 데이터로 50개의 관측값이 들어있다. > library(tidyverse) > ggplot(cars, aes(x = speed, y = dist)) + + geom_point() + + geom_smooth(method='lm') + + theme_minimal() 이 데이터의 산점도를 통해 자동차의 속도가 빠를수록 제동거리가 늘어나는 양의 상관관계가 존재하며 회귀분석에 적합한 데이터임을 알 수 있다. [R] dplyr 패키지의 _at 함수들 https://wsyang.com/2015/08/how_to_use_the_summarise_at_function/ Sun, 02 Aug 2015 00:00:00 +0000 https://wsyang.com/2015/08/how_to_use_the_summarise_at_function/ 시작하며 요즘 R에서 이루어지는 대부분의 데이터 전처리에 dplyr 패키지를 이용하고 있다. 보통 간단한 집계나 기초통계량은 함수 summarise()를 이용하여 새로운 데이터 프레임을 만들거나, 함수 mutate() 함수를 이용하여 기존 데이터 프레임에 새로운 열을 추가하곤 한다. 이때 하나의 변수에 대한 처리는 앞 두 함수를 쓰면 문제가 없는데 두 개 이상의 변수에 대한 처리에 유용하게 쓸 수 있는 함수가 있으니 바로 summarise_at()와 mutate_at() 이다. dplyr 패키지가 세상에 처음 모습을 드러냈을 때는 없었던 함수라 패키지 소개 글에는 빠져 있으니 이번 기회에 정리해 보자. Wordpress에서 Jekyll로... https://wsyang.com/2015/07/goodbye-wordpress-hellow-jekyll/ Sun, 26 Jul 2015 00:00:00 +0000 https://wsyang.com/2015/07/goodbye-wordpress-hellow-jekyll/ 시작하며 약 10년을 써오던 설치형 워드프레스를 버리고 Github Pages에서 제공하는 Jekyll 기반의 블로그로 이동하였다. 많은 이들이 그러하듯 워드프레스의 무거움과 관리의 귀찮음이 워드프레스에서 Jekyll로 이동하는데 결정적인 몫을 하였다. 게다가 거의 모든 글을 markdown으로 작성하고 있고 git도 매일같이 사용하는 도구이기에 이것들을 익히기 위한 학습시간이 불필요하다는 이점도 있고. Github Pages와 Jekyll을 이용하여 블로깅을 하는 방법과 장점에 대해서는 인터넷에 잔뜩 널려있으니1 여기서는 자세한 설명을 생략하기로 하고 이 블로그의 주된 주제인 데이터 분석, 특히 R 코드 및 수식이 들어간 글을 쉽게 Jekyll 문법에 맞게 포스팅하는 방법에 대해 정리해보자. Mac OS X에 Python 개발환경 만들기 https://wsyang.com/2015/07/hello-python/ Sun, 19 Jul 2015 00:00:00 +0000 https://wsyang.com/2015/07/hello-python/ 평소에 R 만 쓰다보니 점점 지식이 편협해 지는 것 같아 Python을 해보려 마음먹었다. 나중에 까먹을 것이 분명하므로 일단 Mac에서 수치계산 및 기계학습을 실행할 수 있는 환경을 구축하는 순서를 정리한다. 이하 환경에서 정상 작동확인 OS X Yosemite (10.10.4) 설치 순서 Homebrew 설치 Ubuntu의 apt-get과 같이 Mac에서 패키지 관리를 편하게 해주는 Homebrew를 설치 $ ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)" Python의 버전 관리 툴 pyenv 설치 Python의 버전 2. stringr package를 이용한 문자열 조작 https://wsyang.com/2014/07/stringr-package/ Fri, 04 Jul 2014 00:00:00 +0000 https://wsyang.com/2014/07/stringr-package/ 최근 R for everyone이라는 책을 읽었다. 그 중 stringr 이라는 패키지를 이용한 문자열 처리 방법이 나와 있어 이번 기회에 정리해 보려 한다. R 표준 base 패키지에 포함된 함수군와 비슷한 기능을 하는 것으로 보이지만 더 합리적인 출력형식을 가지므로 사용하기 편리하다. 이 패키지의 몇몇 특징을 살펴보면 factor와 character를 같은 방식으로 처리 일관성 있는 함수 이름과 인수 다른 함수의 입력값으로 사용하기 편리한 출력값. 길이 0인 입력값에 대해 길이 0인 결과를 돌려줌 입력값 NA가 포함되어 있을 때는 그 부분의 결과를 NA로 돌려줌 사용빈도가 떨어지는 문자열 조작 처리를 과감하게 제거하여 간략화시킴 베이즈 추정을 위한 Stan 맛보기 https://wsyang.com/2014/04/stan-introduction/ Thu, 10 Apr 2014 00:00:00 +0000 https://wsyang.com/2014/04/stan-introduction/ 시작하며 Bayesian inference using Gibbs sampling:BUGS는 베이즈 추정을 계산기 통계학적으로 수행하는 방법. “계산기 통계학적으로”라는 것은 복잡하고 어려운 함수기술에서 생략할 수 있는 부분은 생략해서 MCMC/Gibbs sampling으로 대체한다는 의미로 생각해도 좋음. 베이즈 추정을 하기 위해 우도 함수 등을 미리 구해 빡시게 코딩하는 것보다는 BUGS(WinBUGS, OpenBUGS, JAGS)등을 이용해 모델의 기술하고 실행한 후 결과를 확인하는 것이 편리. 그렇다고 해도 계산 시간이 오래 걸린다는 문제점은 남아 있음. 여기서는 Stan이라는 최근 많이 사용되는(것 같은?) 소프트웨어를 R에서 사용하는 방법에 대해 메모. Windows 7에 일본어 LaTeX 환경 만들기 https://wsyang.com/2014/03/windows-sublimetext-japanese-latex/ Wed, 12 Mar 2014 00:00:00 +0000 https://wsyang.com/2014/03/windows-sublimetext-japanese-latex/ 나이를 먹어감에 급속히 가속되는 기억의 휘발성을 위해 Windows 7 + 일본어 LaTeX + Sublime Text 3을 이용한 조판 시스템을 만드는 방법을 기록해 두기로 한다. 환경 OS: 일본어 MS Windows 7 Editor: Sublime Text 3 TeX Live 2013 TeX Live install TeX Users Group의 TeX Live를 다운로드 하여 설치 Sublime Text 3 환경 설정 LaTeXTools install Ctl + shift + p를 입력하여 Install Package를 선택 LaTeXTools를 설치 컴파일 스크립트 편집 [R] dplyr, plyr 함께 쓰다 피 볼 수 있다. https://wsyang.com/2014/03/conflict-between-dplyr-and-plyr/ Tue, 11 Mar 2014 00:00:00 +0000 https://wsyang.com/2014/03/conflict-between-dplyr-and-plyr/ dplyr 패지지를 사용할 때 그 결과가 이상하다면 plyr 패키지를 함께 불러 오지 않았는가 확인하자. 예를 들면 다음과 같은 경우… > library(dplyr) > iris %>% + group_by(Species) %>% + summarise(count=length(Species)) #> # A tibble: 3 x 2 #> Species count #> <fct> <int> #> 1 setosa 50 #> 2 versicolor 50 #> 3 virginica 50 > library(plyr) > iris %>% + group_by(Species) %>% + summarise(count=length(Species)) #> count #> 1 150 plyr 패키지를 detach 한 후 다시 확인하면 RPubs의 가독성을 높여주는 크롬 확장 프로그램 https://wsyang.com/2014/03/comfortable-rpub/ Wed, 05 Mar 2014 00:00:00 +0000 https://wsyang.com/2014/03/comfortable-rpub/ RPubs는 R 사용자를 위한 Web 서비스의 하나로 R로 작성된 코드+실행결과+설명을 markdown 문서로 만들어 업로드 할 수 있는 사이트다. 쉽게 말하면 RStudio에서 .Rmd를 컴파일(?) 하면 만들어 주는 .html 파일을 공유하는 서비스. 그런데 RPubs에 등록된 문서들을 읽다 보면 문장이 왼쪽에 딱 붙어있는데다 글씨도 작고… 노안이 시작되는 건지 읽기가 불편했다. 이런 사람이 나뿐만은 아니었나 보다. RPubs를 보다 쾌적하게 읽을 수 있는 Chrome 확장기능이 있었으니… Comfortable RPubs 주된 기능 RPubs의 스타일 시트를 변경하여 가독성을 높임 링크를 새로운 탭으로 열기 검색 윈도 RSS 피드 참고로 Rpub에 등록된 새로운 문서를 알려주는 트윗봇 @RPubsRecent도 유용 [R] 일본어 전각 문자를 반각 문자로 변환 https://wsyang.com/2014/03/convert-zenkaku-to-hankaku/ Tue, 04 Mar 2014 00:00:00 +0000 https://wsyang.com/2014/03/convert-zenkaku-to-hankaku/ 일본어가 섞여 있는 데이터를 분석하다 보면 숫자데이터에도 전각 반각 문자가 뒤죽박죽되어 있는 경우가 많다. 전각 숫자문자는 데이터 분석에 이용할 수 없어서 모두 반각 문자로 바꾸어 주어야 하는데 이미 Nippon이라는 R 패키지가 존재하고 있었다. > library(Nippon) > zen2han("１２３４５ＡＢＣ") #> [1] "12345ABC" 전각 반각이 섞여 있어도 전부 반각문자로 바꾸어 준다. 편리!! > # 3과 B가 반각, 나머지 전각문자 > zen2han("１２3４５ＡBＣ") #> [1] "12345ABC" 전각 문자와 반각 문자에 대한 위키백과 설명은 여기 [R] 클립보드를 이용한 데이터 입출력 https://wsyang.com/2014/03/how-to-read-write-to-clipboard-in-r/ Mon, 03 Mar 2014 00:00:00 +0000 https://wsyang.com/2014/03/how-to-read-write-to-clipboard-in-r/ 클립보드에 저장된 데이터를 불러오거나 R에서 생성된 객체를 클립보드로 보내는 방법 클립보드에서 데이터 불러오기 > # MS Windows > mydf <- read.table("clipboard", header = TRUE, sep = ",") > > # Mac OS X > mydf <- read.table(pipe("pbpaste"), header = TRUE, sep = ",") 클립보드로 내보내기 > data <- rbind(c(1,1,2,3), c(1,1, 3, 4), c(1,4,6,7)) > > # MS Windows > write.table(data, "clipboard", row.names = FALSE, sep = ",") > > # Mac OS X > clip <- pipe("pbcopy", "w") > write. 태풍이동경로의 시각화 https://wsyang.com/2014/02/typhoon-trajectories/ Fri, 28 Feb 2014 00:00:00 +0000 https://wsyang.com/2014/02/typhoon-trajectories/ Gaston Sanchez씨의 Visualizing Hurricane Trajectories를 읽고 dplyr 패키지 연습도 겸해서 따라 해보기. 데이터 National Climatic Data Center에서 제공하는 NCDC International Best Track Archive for Climate Stewardship (IBTrACS) Project, Version 3을 이용했다. 다양한 포맷의 데이터를 제공하는데 여기서는 csv 파일을 이용. 우리나라 및 일본의 최근 데이터를 찾아보았지만, 일본 기상청은 개별 태풍에 대해 pdf 파일만 제공하고 있고 우리나라도 국가 태풍센터에서 진로정보를 공개하고 있지만, 파일이 아닌 웹사이트의 정보를 크롤링해야 하는 삽질이 필요해서 포기. R을 이용한 시각화 > # 패키지 불러오기 > library(ggmap) > library(ggplot2) > library(dplyr) 우리나라에 영향을 미치는 태풍의 경로를 알아보기 위해 IBTrACS에서 Western North Pacific(WP) 지역 데이터 불러온다. [R] 데이터 처리의 새로운 강자, dplyr 패키지 https://wsyang.com/2014/02/introduction-to-dplyr/ Tue, 25 Feb 2014 00:00:00 +0000 https://wsyang.com/2014/02/introduction-to-dplyr/ 데이터 분석에서 가장 많은 시간을 차지하는 것은 데이터를 분석에 필요한 형태로 만드는 데이터 전처리 과정입니다. 우리가 공부하면서 보게 되는 책에 있는 예제는 말 그대로 예제일 뿐이지 실제 데이터 분석 업무에서는 바로 모델링이나 시각화에 적합한 형태의 데이터를 얻기 위해서는 지루하고 복잡한 과정을 거치게 됩니다. 데이터 분석 프로젝트에 걸리는 시간의 절반 이상은 데이터의 전처리, 변환, 필터링이 차지하게 되는 것이 보통입니다. R 언어 자체에도 데이터 전처리를 위한 많은 함수가 포함되어 있습니다. 여기에 각종 패키지의 도움을 받는다면 더욱 쉽고 빠르게 전처리 과정을 마칠 수가 있습니다. 기초부터 응용까지 무료 통계학 eBook 19선 + α https://wsyang.com/2013/08/free-ebooks-for-statistics/ Thu, 15 Aug 2013 00:00:00 +0000 https://wsyang.com/2013/08/free-ebooks-for-statistics/ 인터넷은 정보의 바다입니다. 인터넷에는 통계학에 관한 자료도 일일이 셀 수 없을 정도로 많이 있습니다. 하지만 단편적인 정보가 많아 체계적인 지식의 습득에는 역시 책을 이용하는 편이 효율적이겠죠. 이번 포스팅에서는 인터넷에 무료로 공개되어있는 통계학 및 R 언어에 관한 eBook을 소개하려 합니다. 영어로 쓰인 책이 대부분입니다만, 몇몇 한글 자료도 소개합니다. 그리고 각 자료에 대한 간략한 설명은 저의 주관에 근거한 것이니 참고 정도로만 생각해 주세요. 통계학 입문 Illowsky, B., and Dean, S. Collaborative Statistics. 기업 환경에서의 R https://wsyang.com/2013/08/r-in-the-enterprise/ Thu, 08 Aug 2013 00:00:00 +0000 https://wsyang.com/2013/08/r-in-the-enterprise/ 무료 데이터 분석 환경 R R은 무료 데이터 분석 소프트웨어이지만 고급 통계분석환경을 이용할 수 있습니다. 조작성에서도 GUI 환경을 지원하는 R Commander, 통합개발환경 R Studio등 무료로 이용할 수 있는 보조 소프트웨어가 다수 등장하여 점점 더 손쉽게 사용할 수 있는 환경이 조성되고 있습니다. 따라서 통계분석을 업무에 도입하는 경우에도 R은 충분한 기능을 제공하고 있다 말할 수 있습니다. 그러나 표준 R 환경만으로 모든 기업의 요구를 충족시킬 수 있는가에 대한 물음에는 아니오라고 답할수 밖에 없습니다. Box plot에 좀더 많은 정보를 담아보자 https://wsyang.com/2013/07/add-more-info-to-the-boxplot/ Fri, 26 Jul 2013 00:00:00 +0000 https://wsyang.com/2013/07/add-more-info-to-the-boxplot/ 데이터 분석할 때 무엇을 가장 먼저 하세요? 저는 우선 데이터의 분포 및 도수를 확인합니다. 데이터의 형태와 종류에 따라 사용할 수 있는 분석 방법이 정해지기 때문이죠. 이상치의 확인 때문이기도 합니다. 개인적으로 데이터의 분포를 확인할 때 Box plot을 즐겨 사용하는데요. Box plot 정확히 상자와 수염 그림(box and whisker plot)은 두 개 이상의 집단의 상대적 비교를 위해서 각 집단의 최대값(max)과 최소값(min) 그리고 중앙값(자료를 크기순으로 나열했을 때 가운데 위치하는 값: median) 및 사분위수(자료를 크기 순서에 따라 늘어놓은 자료를 4등분 했을 때 위치하는 값을 의미함) 제 1사분위수(아래에서 25% 백분위점에 위치하는 수: Q1), 제 3사분위수(아래에서 75% 백분위점에 위치하는 수: Q3)등 다섯 숫자를 요약하여 그래프로 나타내는 방법으로 John W. 소득 상ㆍ하위층 삶의 만족도 격차 - 꼴찌에서 두 번째 https://wsyang.com/2013/07/life-satisfaction-bli2003/ Tue, 16 Jul 2013 00:00:00 +0000 https://wsyang.com/2013/07/life-satisfaction-bli2003/ 우리나라의 소득 상위 10%와 하위 10%의 삶의 만족도에 대한 격차가 OECD Better Life Index 2013 조사 대상 36개 국가 중 끝에서 두 번째인 35위네요. Better Life Index는 전반적인 삶의 질을 0~10점으로 평가한 일종의 웰빙지수입니다. 한국 언론에서는 행복지수라 소개하고 있더군요. Better Life Index에는 11가지 평가항목이 있는데요. 이번 포스팅에서는 평가항목 중 인생 전반적인 생활 및 환경에 관한 만족도를 평가한 삶의 만족도, 특히 소득에 따른 만족도 데이터를 이용해 우리나라의 위치와 격차의 정도를 다른 조사대상국과 비교해 보도록 하겠습니다. 국정원 의심 계정 트윗 분석 https://wsyang.com/2013/07/newstapa-leaks/ Mon, 01 Jul 2013 00:00:00 +0000 https://wsyang.com/2013/07/newstapa-leaks/ 요즘 인터넷이 국정원의 정치개입의혹 때문에 떠들썩 합니다. 외국에 살기에 주로 인터넷을 통해 국내 상황을 접하는 데 트위터에서 보면 인터넷상에서만 정보가 오가지 공중파 방송이나 조중동에서는 쉬쉬하고 있는 것 같군요. 그러던 차에 뉴스타파에서 국정원 확인 및 의심 트위터 계정 658개와 게시글 23만여 건을 공개했습니다. 안 그래도 요즘 SNS 데이터 분석에 흥미를 가지고 있었는데 마침 잘 되었다 싶어 이 데이터를 이용한 분석을 시도해 보았습니다. 데이터 설명 뉴스타파의 국정원 의심 트위터 계정 공개 및 데이터 설명에 자세히 나와 있듯이 이 데이터는 국정원과 연계된 658개의 트위터 계정 가운데 512개 트위터 계정이 게시한 일자와 내용을 포함하고 있습니다. Facebook이 생각하는 데이터 과학자와 데이터 과학 연구자 https://wsyang.com/2013/06/data-scientist-and-quantitative-researcher-in-facebook/ Mon, 24 Jun 2013 00:00:00 +0000 https://wsyang.com/2013/06/data-scientist-and-quantitative-researcher-in-facebook/ Data Scientist: The Sexiest Job of the 21st Century 위 링크는 데이터 과학이라는 단어가 세상에 널리 알려지기 시작한 시점이 된 Harvard Business Review의 유명한 기사입니다. 이미 읽어 보신 분도 많겠지요. 제가 여기서 일일이 언급하지 않아도 “데이터 과학자의 정의”에 대해서는 지금까지 많은 사람들과 미디어에서 다루어 왔으므로 기존 자료를 찾아 읽는 편이 빠른 이해에 도움이 될 수 있을 것 같습니다. 그럼 데이터 과학자가 되기 위해서는 어떤 능력을 갖추고 있어야 할까요? 제가 지금까지 보아온 기사 및 자료를 보고 정리해보면 적어도 다음 3가지 능력이 아닐까 생각합니다. 한국 일본 항공노선 데이터의 시각화 https://wsyang.com/2013/06/visualizing-of-airplane-paths/ Thu, 20 Jun 2013 00:00:00 +0000 https://wsyang.com/2013/06/visualizing-of-airplane-paths/ 요즘 비행기로 여행 많이 하시죠? 만일 여러분이 비행기를 이용한 기록을 정리하고 지도에 표시해주는 서비스가 있다면 어떨까요? openflights.org 라는 프로젝트가 이러한 서비스를 제공하고 있습니다. OpenFlights는 개인의 항공 로그를 정리하여 여러 통계치를 보여주고 남들과 공유할 수 있는 프로젝트로 비행기로 여행을 자주 하시는 분들은 재미있게 이용할 수 있는 프로젝트의 하나입니다. 또한, 이 사이트에서는 전 세계 공항, 항공노선, 항공사에 대한 정보를 공개하고 있는데 지도를 이용한 데이터 시각화의 예제로 즐겨 사용되기도 합니다. 그래서 저도 이 데이터를 가지고 한국-한국, 일본-일본, 한국-일본 노선만을 추출하여 R 언어를 이용해 시각화해보겠습니다. 2013년 당신의 삶 나아지셨나요? https://wsyang.com/2013/05/your-life-feeling-better-2013/ Thu, 30 May 2013 00:00:00 +0000 https://wsyang.com/2013/05/your-life-feeling-better-2013/ 지난 3월 28일 경제협력개발기구(OECD)가 34개 회원국과 브라질, 러시아를 대상으로 조사한 2013년 판 ‘Your Better Life Index‘를 발표했습니다. 이 지수는 OECD 회원국의 각종 통계 자료들을 모아 나라별 헹복지수를 주거, 소득, 일자리, 공동체, 교육, 환경, 시민참여, 건강, 삶의 만족도, 안전성, 일과 삶의 균형의 총 11개 분야로 측정하고 종합한 지수입니다. 올해는 작년과 비교하면 종합 순위가 24위에서 27위로 떨어졌군요. OECD 회원국 안에서 우리나라는 어떤 위치에 있을까요? 조사 결과에 따르면 우리나라는 한 사람이 한 해에 OECD 평균 23,043달러에 못 미치는 17,337달러를 벌고, 상위 20%의 수입이 하위 20% 수입의 5배가 넘는 심각한 빈부격차에 시달리고 있으며, 15~64세 국민의 64%가 직업을 가지고 있으며 (남: 75%, 여: 53%), OECD 연평균 1,776시간을 훨씬 웃도는 2,090시간을 일하며, 25~64세의 80%가 고등학교를 졸업했고, OECD의 평가방법에 따른 수학과 과학의 점수가 평균보다 높고, 평균수명은 평균보다 한 살 많은 81세(남: 78세, 여: 85세) 대기 환경은 OECD 평균보다 안 좋고, 78%의 국민이 수질에 만족하고 있으며, 77%의 국민이 유사시 의지할 사람이 있다고 믿고 있으며, 소득 상위 20%의 투표율이 거의 100%인데 반해 하위 20%의 투표율은 71%에 불과하며, 82%의 사람들이 매일 부정적 경험보다 긍정적 경험을 겪는다고 답했습니다. 한·중·일 PubMed 논문 등록 수 비교 https://wsyang.com/2012/12/korea-china-japan-pubmed-citations/ Sun, 23 Dec 2012 00:00:00 +0000 https://wsyang.com/2012/12/korea-china-japan-pubmed-citations/ PubMed는 미국 국립 의학도서관의 국립생물공학정보센터(NCBI)가 운영하는 의학, 생물학분야의 학술논문 검색 서비스입니다. 이 데이터베이스에는 약 2,200만 건의 생물의학 논문에 대한 인용정보가 들어있고 2011년 한 해에만 986,427편의 논문에 대한 정보가 수록되어 있다고 하니 그 규모를 상상하실 수 있을 것 같습니다. 만약 자신이 의학, 생물학분야의 연구주제를 정하고 선행연구에 대한 자료를 수집하기 위해서는 반드시 들여다보아야 할 데이터베이스라 할 수 있습니다. 일본에는 이 PubMed 사용법에 관한 책도 십 수종이 있는데 이 글을 작성하면서 한국 서점 사이트를 통해 검색해 보았지만, 우리말로 된 책은 한 권도 없더군요. NCBI2R 패키지를 이용해 게놈 주석 불러오기 https://wsyang.com/2012/11/genome-annotation-using-ncbi2r-package/ Thu, 29 Nov 2012 00:00:00 +0000 https://wsyang.com/2012/11/genome-annotation-using-ncbi2r-package/ 관련분석(association study)을 하다 보면 필연적으로 SNP와 게놈정보를 많이 이용하게 됩니다. 보통 클라이언트에게 제출하는 분석결과 보고서에는 각 SNP에 대한 위치정보와 대응하는 유전자 이름을 같이 넣게 되는데 보통 DNA chip 제조회사가 제공하는 주석(annotation) 정보를 이용하게 됩니다. 저는 관련분석 시 주로 plink의 분석 결과 파일을 R로 불러와 그래프 작성 및 보고용 파일을 만드는데, plink의 결과 파일에는 유전자에 대한 정보가 포함되어 있지 않기 때문에 별도로 DNA chip 제조회사가 제공하는 주석 파일에서 필요한 부분을 추출하여 보고용 파일을 만들곤 합니다. 정부의 순대외채권 추이, 1994~2012 https://wsyang.com/2012/05/government-foreign-credits/ Thu, 31 May 2012 00:00:00 +0000 https://wsyang.com/2012/05/government-foreign-credits/ 국가재무제표를 처음으로 작성했더니 나랏빚이 300조 증가했다는 기사가 나왔습니다. 하지만 기사를 읽어 보아도 경제학에 무지한 저는 무슨 소린지 도통 모르겠습니다. 그래서 제가 구할 수 있는 국가통계포털 KOSIS 자료1를 좀 들여다보았습니다. 2012년 1&frasl;4 분기를 기준으로 우리나라는 외국에서 받을 돈(대외채권)이 외국에 갚을 돈(대외채무)보다 많은 순채권국입니다. 그런데 자료를 좀 더 살펴보만면 통화 당국(중앙은행)을 제외한 나머지 일반정부, 예금취급기관, 기타 부분은 모두 외국에 갚은 돈이 더 많습니다. 이중에서 정부의 순대외채권의 추이를 그려보면 다음과 같습니다. 정부의 재정이 흑자였던 때도 있긴 했군요. 2012 프로야구 각 팀의 표정을 보니 https://wsyang.com/2012/05/2012-professional-baseball-korea/ Wed, 30 May 2012 00:00:00 +0000 https://wsyang.com/2012/05/2012-professional-baseball-korea/ 올해 프로야구가 개막되고 팀별로 약 40게임을 소화했습니다. 어찌 보면 야구만큼 통계와 밀접한 관계가 있는 스포츠도 드문 것 같습니다. 타율, 방어율, 출루율, 승률 등 이름에서도 알 수 있듯이 선수 개개인의 성적은 확률로 나타내는 경우가 많죠. 오늘은 각 팀의 성적, 기록을 다변량 데이터의 시각화 방법의 한가지인 체르노프의 얼굴 그림(Chernoff face)를 이용해 그려보았습니다. 체르노프의 얼굴 그림은 각 변수의 크기를 얼굴 각 부분의 길이와 넓이로 표시하는 방법입니다. 이 방법은 변수의 순서에 따라 그림이 바뀌게 되므로 같은 데이터를 이용한다 하더라도 다양한 결과를 얻을 수 있는 특징이 있습니다. 우리나라 공기업의 순대외채권 추이, 1994~2012 https://wsyang.com/2012/05/changes-in-foreign-credit-of-public-enterprise/ Thu, 24 May 2012 00:00:00 +0000 https://wsyang.com/2012/05/changes-in-foreign-credit-of-public-enterprise/ 잃어버린 10년… 돌려받고 싶습니다. 당신의 삶 나아지셨나요? https://wsyang.com/2012/05/your-life-feeling-better/ Wed, 23 May 2012 00:00:00 +0000 https://wsyang.com/2012/05/your-life-feeling-better/ 경제협력개발기구(OECD)가 2012년 판 ‘Your Better Life Index‘를 발표했습니다. 이 지수는 OECD 회원국의 각종 통계 자료들을 모아 나라별 웰빙지수를 주거, 소득, 일자리, 공동체, 교육, 환경, 시민참여, 건강, 삶의 만족도, 안전성, 일과 삶의 균형의 총 11개 분야로 측정하고 종합한 지수입니다. 각 분야에는 세부 측정항목이 있는데 올해 특히 주목할 점은 각 항목별로 성별, 빈부격차에 따른 지수의 차이가 추가되었다는 것입니다. OECD 회원국 안에서 우리나라는 어떤 위치에 있을까요? 조사 결과에 따르면 우리나라는 한 사람이 한 해에 OECD 평균 22,387달러에 못 미치는 16,570달러를 벌고, 상위 20%의 수입이 하위 20% 수입의 5배가 넘는 심각한 빈부격차에 시달리고 있으며, 15~64세 국민의 63%가 직업을 가지고 있으며 (남: 74%, 여: 55%), OECD 연평균 1,749시간을 훨씬 웃도는 2,193 시간을 일하며, 25~64세의 80%가 고등학교를 졸업했고, OECD의 평가방법에 따른 수학과 과학의 점수가 평균보다 높고, 평균수명은 평균보다 한 살 많은 81세(남: 80세, 여: 84세) 대기 환경은 OECD 평균보다 안 좋고, 82%의 국민이 수질에 만족하고 있으며, 81%의 국민이 유사시 의지할 사람이 있다고 믿고 있으며, 소득 상위 20%의 투표율이 91%인데 반해 하위 20%의 투표율은 59%에 불과하며, 62%의 사람들이 매일 부정적 경험보다 긍정적 경험을 겪는다고 답했습니다. 소비자물가지수 지표 변경 전후 비교 https://wsyang.com/2012/04/how-to-lie-with-statistics/ Tue, 24 Apr 2012 00:00:00 +0000 https://wsyang.com/2012/04/how-to-lie-with-statistics/ 1년 전에 역대 정권별 소비자물가 상승률 추이라는 글을 올린 적이 있습니다. 이후 2011년 11월에 소비자물가지수 지표가 변경된 것은 많은 분이 아시리라 생각합니다. 통계청의 보도 자료를 보면 변경 이전에는 2005년의 물가를 100으로 보았을 때의 상대 값이었는데 변경 이후에는 2010년의 물가를 100으로 놓았을 때의 상대적인 값을 물가지수로 사용하게 됩니다. 그 외에도 조사대상 품목 수가 489개에서 481개로 변경 소비행태의 변화에 따른 품목 추가: 스마트폰 이용료, 떡볶이, 외식용 막걸리, 캠핑용품 등 43개 종목 추가 탈락 및 변경 품목: 금반지, 한복, 정수기, 캠코더, 전자사전 등 21개 종목 탈락 2010년 가계동향조사의 소비지출액 구성비에 따른 가중치의 재조정 경제협력개발기구(OECD) 방식을 도입해 품목별 가중치에 적용 등을 주요 내용으로 삼고 있습니다. GWAS로 배우는 유전통계학 - 6. 맺음말 https://wsyang.com/2012/04/genome-wide-association-analysis-part6/ Wed, 18 Apr 2012 00:00:00 +0000 https://wsyang.com/2012/04/genome-wide-association-analysis-part6/ 6. 맺음말 게놈정보는 유전계승법칙에 따라 다음 세대에 전달되는 안정된 형태의 데이터이기 때문에 통계적으로 유리하다고 말할 수 있습니다. 특히 게놈정보 중 다형성의 하나인 SNP에 주목해 모든 염색체상의 SNP좌위의 유전자형을 총체적으로 관측하여 형질과의 관련성을 검토하는 GWAS에 대해 앞선 8개의 글에서 소개하였습니다. 하지만 이번에 소개한 방법은 게놈 연구의 일부에 지나지 않습니다. GWAS는 형질과의 관련성을 총체적으로 분석하는 방법이지만 변이는 모두 공통이라는 전제(Common disease-common variant)를 필요로 하죠. 따라서 개인별로 변이가 서로 다른 형질의 원인을 GWAS로 찾아내는 것은 어렵습니다. GWAS로 배우는 유전통계학 - 5 분석결과의 시각화 https://wsyang.com/2012/04/genome-wide-association-analysis-part5/ Thu, 12 Apr 2012 00:00:00 +0000 https://wsyang.com/2012/04/genome-wide-association-analysis-part5/ 5. 분석결과의 시각화 GWAS로부터의 검정결과는 분석에 사용하는 DNA chip에 따라 차이가 있지만 보통 50만~150만의 p-값이 계산되므로 그 결과를 하나하나 확인하는 것은 사실상 불가능합니다. 따라서 먼저 시각적으로 분석결과를 확인하고 관련성이 있다고 판단된 SNP좌위의 정보를 확인하는 것이 일반적입니다. 분석결과의 시각화방법으로는 qq-plot(quantile-quantile plot)과 Manhattan plot이 많이 사용됩니다. Quantile-Quantile plot 만약 분석에 사용된 모든 SNP에 대해 형질과의 관련성에 대해 검정을 할 때 관련성이 없다는 귀무가설이 바르다고 하면 모든 p-값은 0과 1 사이의 균일분포(uniform distribution)를 따르게 될 것입니다. GWAS로 배우는 유전통계학 - 4 다중비교 문제 https://wsyang.com/2012/04/genome-wide-association-analysis-part4/ Wed, 11 Apr 2012 00:00:00 +0000 https://wsyang.com/2012/04/genome-wide-association-analysis-part4/ 4. 다중비교(multiple comparison) 문제 GWAS에서는 보통 50만~250만 SNP를 이용해 관련분석을 하게 되므로 반드시 다중비교의 문제가 발생합니다. 하나의 SNP를 이용한 검정의 유의수준을 $\alpha$라고 한다면 한 번의 검정에서 $\alpha \times 100$%의 확률로 잘못된 결론을 내리게 됩니다. 만약 50만 SNP좌위를 이용해 검정을 했을 때 단 한 번이라도 잘못된 결론을 내리게 될 확률, 즉 거짓 양성(false positive)은 \[ 1-(1-\alpha)^{500K} \approx 1 \] 이 되어 100% 오류를 포함하게 되는 거죠. 이러한 문제를 개선하기 위해 매우 다양한 방법이 고안, 발표되고 있습니다. GWAS로 배우는 유전통계학 - 3.2 질적, 양적형질에 대한 관련분석 https://wsyang.com/2012/04/genome-wide-association-analysis-part3-2/ Sat, 07 Apr 2012 00:00:00 +0000 https://wsyang.com/2012/04/genome-wide-association-analysis-part3-2/ 3.2 질적 형질에 대한 관련분석 질적 형질에 대한 관련분석을 분할표를 이용한 Pearson의 카이제곱 검정이나 Fisher의 정확 검정법을 주로 이용합니다. 어떤 SNP 좌위에 대해 가장 기본적인 관측 데이터는 질적 형질의 표현형에 따른 유전자형의 도수겠죠. 많은 경우 질적 형질은 두 개의 카테고리를 가지므로 개체의 표현형을 D(disease)와 N(non-disease)라 하고 SNP의 allele를 A, a라고 한다면 표 1과 같은 분할표를 작성할 수 있습니다. 표 1. 유전자형에 따른 돗수의 분할표 이 2×3 분할표에 대해 표현형과 관측 도수 간에 어떠한 관련성이 있는지를 카이제곱 검정 혹은 정확 검정법을 이용해 평가하게 됩니다. GWAS로 배우는 유전통계학 - 3.1 코호트 연구와 실험-대조군 연구 https://wsyang.com/2012/04/genome-wide-association-analysis-part3-1/ Thu, 05 Apr 2012 00:00:00 +0000 https://wsyang.com/2012/04/genome-wide-association-analysis-part3-1/ 3. Genome-wide association study 관련분석은 유전적 변이와 형질과의 관련성을 검출하는 것이 목적입니다. 이때 관측된 SNP좌위가 형질의 표현형(phenotype)에 직접적인 영향을 미친다는 것을 검출할 수 있다면 가장 바람직스러운 결과일 것 입니다(direct association). 그러나 실제로는 관련성을 시사하고 있다고 한다 해도 관측된 SNP좌위가 표현형과 직접 관련이 있다고는 보장할 수 없습니다. 진짜 원인이 되는 유전자 좌와 연쇄불평형(linkage disequilibrium; LD) 상태에 있는 유전자 좌도 표현형과 간접적인 관련이 있을 때가 많기 때문입니다(indirect association). Source: direct & indirect association from Kruglyak (2008), Nat. GWAS로 배우는 유전통계학 - 2.3 게놈 데이터의 품질평가 https://wsyang.com/2012/04/genome-wide-association-analysis-part2-3/ Tue, 03 Apr 2012 00:00:00 +0000 https://wsyang.com/2012/04/genome-wide-association-analysis-part2-3/ 2.3 게놈 데이터의 품질평가 게놈 정보는 유전계승형식을 이용한 품질평가가 중요합니다. 이번 포스팅에서는 앞서 소개한 하디-바인베르크 평형, 집단의 구조화 평가 이외의 품질평가 방법을 알아보도록 하겠습니다. Call Rate 하나의 SNP를 다수의 개체에 대해 유전자형을 조사했을 때 어떠한 형태로든 유전자형이 결정된 개체의 비율을 SNP 당 Call Rate(CR)이라 합니다. SNP 당 CR이 낮은 유전자좌는 유전자형의 결정이 곤란하다는 것을 의미합니다. 바꿔 말하면 그 SNP좌위의 관측결과에 대한 신뢰성이 낮다는 것을 의미하는 거죠. 일반적으로 SNP 당 CR이 0. GWAS로 배우는 유전통계학 - 2.2 집단의 구조화 문제 https://wsyang.com/2012/04/genome-wide-association-analysis-part2-2/ Sun, 01 Apr 2012 00:00:00 +0000 https://wsyang.com/2012/04/genome-wide-association-analysis-part2-2/ 많은 데이터분석에서 문제가 되는 것은 분석 대상 집단의 균질성입니다. 이질적인 집단의 혼재는 데이터분석 결과를 해석하는 데 있어 곤란을 불러일으킬 뿐만 아니라 잘못된 결론을 유도하게 할 수도 있습니다. 그러나 그룹 정보가 없는 데이터의 균질화는 어려우므로 관측항목에 이질성의 원인이 포함되어 있다 가정하고 군집분석 등의 분류모형을 이용해 추정하는 것이 일반적인 방법입니다. 게놈데이터 분석에서 분석 대상 집단의 이질성 대부분은 인종 차이가 그 원인입니다. 게놈연구에서는 이것을 집단의 구조화(population structure)라 합니다. 이번 포스팅에서는 GWAS에서 집단구조화가 분석결과에 미치는 영향, 구조화의 탐색방법, 그리고 그 해결방법에 대해서 알아보도록 하겠습니다. GWAS로 배우는 유전통계학 - 2.1 가계모순과 하디-베인베르크 평형 법칙 https://wsyang.com/2012/03/genome-wide-association-analysis-part2-1/ Sat, 31 Mar 2012 00:00:00 +0000 https://wsyang.com/2012/03/genome-wide-association-analysis-part2-1/ 게놈정보는 유전계승법칙에 따라 부모로부터 자손에게 한 세대로부터 다음 세대로 안정된 형태로 계승되기 때문에 매우 균질한 특성을 가지고 있습니다. 게다가 게놈연구의 인과관계도 매우 명확하여 반드시 게놈이 원인이 되기 때문에 분석의 방향성도 매우 명확합니다. 이번 포스팅에서는 게놈연구의 통계적 이점에 대해 설명하고 게놈정보를 이용한 분석을 하기 위한 준비 작업에 대해 소개하도록 하겠습니다. 2.1 가계모순과 하디-베인베르크 평형의 법칙 인간은 부모로부터 각각 하나의 allele를 유전계승법칙에 따라 물려받습니다. 따라서 만약 관측한 유전자형 데이터가 유전계승법칙과 맞지 않다면 관측 데이터가 잘못된 경우가 많습니다. GWAS로 배우는 유전통계학 - 1. 시작하며 https://wsyang.com/2012/03/genome-wide-association-analysis_part1/ Fri, 30 Mar 2012 00:00:00 +0000 https://wsyang.com/2012/03/genome-wide-association-analysis_part1/ 이제 전 게놈 관련분석은 어느 정도 정형화된 분석방법이 아닌가 싶습니다. 예전부터 이 분석방법에 대해 한번 정리해보고 싶었는데, 마침 일본 계산기통계학회에서 종합보고서 형식의 글을 써달라는 제의가 왔기에 회사 동료와 함께 작성한 글을 바탕으로 앞으로 5~6회에 걸쳐 GWAS에 대해 정리해 보고자 합니다. 1. 시작하며 인간의 다양성(variation)에 대한 해명은 근대 통계학연구의 좋은 재료였습니다. 앞선 포스팅(유전통계학과 수리통계학의 역사)에서 자세히 살펴본 바와 같이 Galton, K. Pearson, Fisher로 대표되는 통계학자들은 인간의 다양성을 설명하기 위해 회귀분석, 검정, 우도 등 근대통계학의 기초를 세우게 됩니다. R의 출력결과를 LaTeX 테이블로 변환하기 https://wsyang.com/2012/03/r-to-latex-table/ Sat, 17 Mar 2012 00:00:00 +0000 https://wsyang.com/2012/03/r-to-latex-table/ 통계분석 패키지인 R과 과학문서 작성에 많이 쓰이는 LaTeX는 궁합이 아주 잘 맞습니다. 특히 R의 Sweave라는 패키지를 이용하면 R 환경에서 훌륭한 LaTeX 문서를 만들 수 있습니다. 단지 Sweave를 이용하면 R의 소스코드가 좀 복잡해지기는 한데요. 그래서 저는 R에서 계산한 결과만을 LaTeX 테이블로 변환하는 방법을 즐겨 사용합니다. 이를 가능하게 해주는 것이 R의 xtable이라는 패키지입니다. 우선 xtable 패키지를 인스톨합니다. > install.packages("xtable") 인스톨한 패키지를 불러오고, 필요한 계산 혹은 분석을 하고 그 결과를 LaTeX 테이블로 변환하기 위해서는 함수 xtable()를 사용합니다. Visualize This https://wsyang.com/2011/08/visualize-this/ Mon, 29 Aug 2011 00:00:00 +0000 https://wsyang.com/2011/08/visualize-this/ 책을 한 권 샀습니다. “Visualize This“라고 데이터 시각화에 대한 책입니다. 블로그 flowingdata.com을 운영하는 친구가 펴낸 책인데 예제가 많아서 마음에 듭니다. 일본 아마존에 주문했더니 열흘 만에 도착했네요. 요즘 유행인 데이터 시각화에 저도 동참해 보렵니다. ^^; R에서 SAS의 영구파일 sas7bdat 이용하기 https://wsyang.com/2011/07/import-sas7dbat-into-r/ Wed, 27 Jul 2011 00:00:00 +0000 https://wsyang.com/2011/07/import-sas7dbat-into-r/ 최근 R package가 통계 분석에 많이 사용된다고는 하지만, 기업에서는 SAS나 SPSS를 더 많이 사용하는 것으로 알고 있습니다. 저도 대학이나 연구기관의 의뢰에는 R를 사용하지만, 기업의 데이터 분석에는 SAS를 이용합니다. 간혹 클라이언트로부터 받은 데이터가 SAS의 영구 파일형식인 sas7bdat일 때가 있습니다. 분석할 때 아무래도 손에 익은 R을 선호하게 되는데 SAS를 사용할 수 있는 환경에 있으면 데이터를 일반 ASCII 파일로 변환하여 사용하면 되지만 SAS를 사용할 수 없는 환경에 있을 때도 있습니다. 물론 R에서 SAS 형식의 데이터를 불러오는 함수 read. [R] 알아두면 편리한 함수 head와 tail https://wsyang.com/2011/06/r-head-and-tail/ Mon, 20 Jun 2011 00:00:00 +0000 https://wsyang.com/2011/06/r-head-and-tail/ R의 사용자 환경(UI)은 그다지 좋은 편이 못됩니다. R에서 데이터 파일(txt, csv 등)을 불러오면 데이터프레임 형식으로 작업공간에 저장됩니다. 데이터가 제대로 읽혔는지 확인하는 방법은 저장된 데이터프레임의 이름을 콘솔에 입력하면 됩니다만 데이터의 크기가 크면 한 화면에 다 보이지 않을뿐더러, 일정 수가 넘어가게 되면 아예 보여 주지도 않습니다. 또한, 계산 결과가 매우 많을 때도 같은 상황이 발생하게 됩니다. 예를 들어 SNP를 이용한 연관분석(association study)을 하게 되면 검정 통계량, 유의확률, SNP 빈도 등이 포함된 결과 파일을 가지고 작업을 하는데, 적게는 수천, 많게는 수십만 개의 결과를 확인해야 합니다. 유전통계학과 수리통계학의 역사 https://wsyang.com/2011/06/history-of-genetical-statistics-and-mathematical-statistics/ Fri, 10 Jun 2011 00:00:00 +0000 https://wsyang.com/2011/06/history-of-genetical-statistics-and-mathematical-statistics/ 유전학과 통계학은 유사점이 많은 학문입니다. 실제로 19세기 후반, 20세기 초반의 유명한 통계학자인 Francis Galton, Karl Pearson, R.A Fisher 등은 유명한 유전학자이기도 합니다. 이번 포스트에서는 각각의 학문이 어떻게 시작되고, 어떠한 경로로 지금에 이르렀는지 살펴보도록 하겠습니다. 유전학의 성립과 역사 초기의 과학적 생물학은 칼 본 린네(Carl von Linne에) 의해 시작된 분류학이라 할 수 있겠죠. Linne는 다양한 생물이 종(species)이라는 단위로 정리될 수 있다는 것을 제안했습니다. 그러나 이렇게 다양한 종이 어떠한 원리로 생겨났는가에 대한 원리는 명확하지 않아서 과학적인 고찰은 찰스 다윈(Charles Darwin)의 “종의 기원(Origin of Species)”의 출판을 기다릴 수 밖에 없었습니다. [유전통계학] 재조합비율과 거리 https://wsyang.com/2011/06/recombination-fraction-and-genetic-map-distance/ Wed, 01 Jun 2011 00:00:00 +0000 https://wsyang.com/2011/06/recombination-fraction-and-genetic-map-distance/ 재조합비율(recombination fraction)은 한 번의 감수분열에서 두 유전자 좌 사이에 재조합이 일어날 확률로 정의됩니다. 확률이므로 0에서 1 사이의 값을 가지는 것이 당연하지만 통상 $0 \leq \theta \leq 0.5$의 값을 가집니다. 이는 유전자 좌 사이가 멀리 떨어져 있으면 교차로 인해 재조합이 일어날 확률이 높아지지만 또 한 번 교차가 일어나 재조합이 한 번 더 일어날 확률도 높아지기 때문입니다. 드물게 $\theta \gt 0.5$일 때가 있는데, 이는 첫 번째 재조합이 일어났을 때, 두 번째 재조합이 억제되는 간섭(interference)이라는 현상 때문입니다. 게놈의 다양성과 유전자 다형성 https://wsyang.com/2011/05/genomic-variation-genetic-polymorphism/ Mon, 30 May 2011 00:00:00 +0000 https://wsyang.com/2011/05/genomic-variation-genetic-polymorphism/ 정자, 난자와 같이 부모로부터 자식에게 유전정보를 전달하는 매체를 배우자(gamate)라 합니다. 배우자의 염기서열은 곧 게놈의 서열이 되며 배우자에 따라 서로 다른 부분이 존재합니다. 각 개체는 아버지 유래와 어머니 유래 2종류의 서열이 존재하고 이 서열 사이에도 차이가 존재합니다. 집단 내 게놈 서열의 차이를 게놈의 다양성(genomic variation)이라 합니다. 게놈의 다양성에도 여러 종류가 있습니다. 게놈의 다양성에 의해 상동염색체 위의 같은 유전자 좌가 개인 사이 혹은 배우자 사이에 차이가 있을 때 이를** 유전자 다형성(genetic polymorphism)**이라 합니다. OECD에서 평가한 우리나라의 웰빙지수는? https://wsyang.com/2011/05/your-better-life-index/ Sun, 29 May 2011 00:00:00 +0000 https://wsyang.com/2011/05/your-better-life-index/ 5월 26일 자 동아일보에 한국인 36%만 삶에 만족한다는 기사가 실렸습니다. 경제협력개발기구(OECD)가 발표한 ‘Your Better Life Index‘를 인용한 기사인데요. 복지(welfare) 보다는 웰빙(well-being)의 정도를 측정한 보고서가 아닐까 싶습니다. 안 그래도 이 사이트는 평점 결과를 멋지게 시각화해 놓아서 관심 있게 보았던 차에 기사가 났네요. 개인적으로 등수놀이는 관심이 없으니 이번 포스팅에서는 OECD의 우리나라에 대한 평가를 중심으로 적어 보도록 하겠습니다. 이 보고서는 2008년부터 34개 회원국의 각종 통계 자료들을 모아 나라별 웰빙지수를 주거, 소득, 일자리, 공동체, 교육, 환경, 국정관리, 건강, 삶의 만족도, 안전성, 일과 삶의 균형의 총 11개 분야로 측정하고 있습니다. 연쇄(genetic linkage)와 재조합비율(recombination fraction) https://wsyang.com/2011/05/genetic-linkage-and-recombination-fraction/ Wed, 25 May 2011 00:00:00 +0000 https://wsyang.com/2011/05/genetic-linkage-and-recombination-fraction/ 멘델의 독립법칙은 두 유전자 좌(genetic locus)의 allele 전달에 관한 법칙입니다만, 독립의 법칙은 두 유전자 좌가 서로 다른 염색체 위에 있을 때만 성립합니다. 두 유전자 좌가 같은 염색체 위에 존재할 때에는 독립의 법칙이 성립하지 않을 때도 있습니다. 두 유전자 좌 간에 독립 법칙이 성립하지 않을 때 두 유전자 좌는 연쇄상태(genetic linkage)에 있다고 합니다. 다시 말하면, 연쇄(genetic linkage) 법칙은 멘델의 유전 법칙 중 독립 법칙의 예외에 해당합니다. 통계학과 유전학의 용어를 이용하여 연쇄의 법칙을 풀어쓰면, 1980년대와 2000년대 프로야구 투수들의 방어율 어느 쪽이 낮을까? https://wsyang.com/2011/05/era-of-the-2000s-and-1980s/ Mon, 23 May 2011 00:00:00 +0000 https://wsyang.com/2011/05/era-of-the-2000s-and-1980s/ 프로야구 좋아하세요? 저도 즐겨 보는 편입니다. 일본에 와서는 아무래도 우리나라 선수들이 활약하는 팀의 경기를 관심 있게 보곤 합니다. 이승엽 선수가 요미우리 자이언츠에 소속되어 있을 때, 직장 동료들과 도쿄 돔에 갔었는데 마침 이승엽 선수가 2루타로 타점을 올리고 팀이 승리해서 으쓱했던 기억도 나네요. 우리나라의 프로야구는 아시다시피 1981년 처음 시작되었습니다. 그땐 저도 꼬맹이 초등학생이었는데 벌써 30년이 지났네요. 당시의 쟁쟁했던 선수들이 이제는 감독이 되어 팀을 지도하는 모습을 보니 감회가 새롭습니다. 그때나 지금이나 저는 두산 팬입니다. 분할표형식 데이터의 검정방법들 https://wsyang.com/2011/05/contingency-table-test/ Mon, 16 May 2011 00:00:00 +0000 https://wsyang.com/2011/05/contingency-table-test/ 이산형 데이터의 분석은 분할표(contingency table)를 이용한 검정방법이 많이 사용됩니다. 가장 일반적으로 알려진 방법이 칼 피어슨(K. Pearson)의 카이제곱 검정입니다. 하지만, 이 방법도 분할표에서 기대도수의 값이 5 미만인 셀이 20% 이상일 때는 검정 통계량의 특성상 정확하지 못한 검정이 됩니다. 이에 대한 대안으로 피셔(R. A. Fisher)의 정확 검정(exact test)이 있습니다. 그 밖에도 교락인자(confounding factor)의 유무, 대응관계의 여부, 분할표의 크기 등 조건에 따라 여러 검정 방법이 있습니다. 여러 표본집단의 평균차이에 대한 검정방법들 https://wsyang.com/2011/05/more-than-3-groups-test/ Thu, 12 May 2011 00:00:00 +0000 https://wsyang.com/2011/05/more-than-3-groups-test/ 둘 이상 여러 표본집단의 평균차이에 대한 검정에서 많이 사용되는 방법은 분산분석(analysis of variance; ANOVA)입니다. 하지만 두 표본집단의 검정과 마찬가지로 데이터의 정규성을 확인하여 모수적 방법인 분산분석을 이용할지 비모수 검정을 이용할지 판단해야 합니다. 또한, 관심 있는 요인(factor)의 수에 따라서도 사용 가능한 방법이 다름에 주의하여야 합니다. 위 그림에서는 단순히 분산분석이라고 적어 놓았지만, 분석 이전에 데이터를 얻는 실험계획방법에 따라 그 결과의 해석이 달라짐에도 주의해야만 합니다. 또한, 여러 평균을 한 번의 분석에 비교하게 되므로 다중비교(multiple comparison)의 문제도 고려해야 하고, 2개의 요인에 대해 복수의 관측값이 존재할 때는 교호작용(interaction)의 유의성에 대해서도 고려해야 합니다. 두 표본집단의 평균차이에 대한 검정방법들 https://wsyang.com/2011/05/two-group-test/ Wed, 11 May 2011 00:00:00 +0000 https://wsyang.com/2011/05/two-group-test/ 두 표본집단(2 sample)의 평균 차이에 대한 검정방법으로 가장 많이 쓰이는 것이 아마 t-검정이라 생각됩니다. 하지만 데이터의 형태나 조건에 따라 적용할 수 있는 검정법과 적용할 수 없는 검정법들이 있음을 주의해야 합니다. 말로 길게 설명하는 것보다는 그림이 이해하기가 더 쉬우리라 생각해 플로차트 형식으로 만들어 보았습니다. 여기서 가장 중요한 것은 역시 데이터의 정규성입니다. 데이터가 정규분포를 따른다고 가정할 수 있을 때 모수 검정법(parametric test)인 t-검정을, 정규분포의 가정을 할 수 없을 때 비모수 검정법(nonparametric test)인 Wilcoxon의 검정을 사용합니다. R에서 사용하는 데이터 셋의 형태 https://wsyang.com/2011/05/data-set-in-r/ Mon, 09 May 2011 00:00:00 +0000 https://wsyang.com/2011/05/data-set-in-r/ R에서 사용하는 가장 기본적인 데이터 셋의 형태는 벡터(vector)이다. 하나 이상의 숫자, 문자 등의 집합을 벡터(vector)라고 한다. 벡터를 행과 열로 가지는 표 형식으로 확장한 것이 행렬(matrix)이다. 또한, 벡터의 집합을 원소로 가지는 데이터의 형태를 리스트(list)라 하고, 리스트에 포함된 벡터의 길이가 모두 같을 때 이를 데이터프레임(data frame)으로 취급할 수 있다. 이 장에서는 R에서 사용하는 데이터 셋의 형태에 대해서 정리해 보도록 한다. 벡터(vector) R은 실수, 복소수, 문자열, 논리값 등의 기본 데이터를 하나씩 단독으로 다루는 것이 아니라 같은 종류의 데이터를 여러개 묶은 벡터 형식으로 다룬다. 역대 정권별 소비자물가 상승률 추이 https://wsyang.com/2011/05/cpi-trend-by-regimes/ Fri, 06 May 2011 00:00:00 +0000 https://wsyang.com/2011/05/cpi-trend-by-regimes/ 요즘 물가 때문에 걱정이 많으시죠? 얼마 전 한국에 다녀왔는데 한국물가나 일본물가나 별 차이 없더군요. 교통비 빼고는 일본이나 한국이나 마트에 가면 쓰게 되는 돈의 차이가 거의 없었습니다. 오히려 일본은 디플레이션과 엔고 현상 때문에 물건값이 떨어지는 경우도 많이 있습니다. 우리나라의 올해 4월 소비자 물가 상승률이 4.2%로 발표되었습니다. 또한, OECD의 3월 소비자물가 통계를 보면 우리나라 소비자물가는 지난해 같은 달과 비교해 4.7% 급등해 에스토니아(5.2%)에 이어 두 번째로 높았다고 하는군요. 우리나라의 경제구조는 외부 충격에 약한 취약한 구조라고 합니다. [유전통계] 통계로 설명하는 멘델의 유전 법칙 https://wsyang.com/2011/05/mendels-low-with-statistics/ Tue, 03 May 2011 00:00:00 +0000 https://wsyang.com/2011/05/mendels-low-with-statistics/ 지금은 어떤지 모르겠지만 저는 고등학교 생물 시간에 처음으로 멘델의 법칙에 대해 배웠습니다. 당시에는 그냥 생물학의 한 분야로서만 기억할 뿐, 이 법칙이 통계학과 관련이 있으리란 생각은 전혀 못했었죠. 멘델의 법칙은 그레고어 멘델(Gregor Johann Mendel, 1822~1884)이 수도원 정원에서 완두를 기르면서 다양한 특징들을 연구하여 1866년에 발표한 논문에 실려 있는 내용입니다. 하지만 멘델의 연구결과는 눈에 띄지 않는 학술잡지 속에 묻혀 있었고, 그의 세심한 실험과 정교한 정량 분석은 시대를 너무 앞서 있었습니다. 그의 사후 1900년이 되어서야 비슷한 문제를 탐구하고 있던 세 명의 식물 유전학자가 멘델의 연구 결과를 재발견함으로써 비로소 세상의 주목을 받게 됩니다. [R] 눈으로 확인하는 중심극한정리 https://wsyang.com/2011/04/clt-with-r/ Thu, 28 Apr 2011 00:00:00 +0000 https://wsyang.com/2011/04/clt-with-r/ 통계학을 공부하신 분이라면 한 번쯤 중심극한정리(Central Limit Theorem, CLT)라는 용어를 들어보셨으리라 생각합니다. 중심극한정리는 추론통계학의 핵심이 되는 정리 중의 하나인데, 이 정리를 통계학에서 쓰는 기호와 용어를 이용해 설명하면 아래와 같습니다. 평균이 $\mu$ 이고 분산이 $\sigma^2$ 인 모집단으로부터 추출한 크기가 $n$인 확률표본의 표본평균 $\bar{X}$는 $n$이 증가할수록 모집단의 분포유형에 상관없이 근사적으로 정규분포 $N(\mu, \sigma/n)$을 따른다. 중심극한정리에 의하면 모집단의 분포가 연속형이든, 이산형이든, 또는 한쪽으로 치우친 형태이든 간에 표본의 크기가 클수록 표본평균의 분포는 근사적으로 정규분포에 근접한다는 이야기입니다. [R] boxplot의 새로운 형태 violin plot https://wsyang.com/2011/04/violin-plot-in-r/ Mon, 25 Apr 2011 00:00:00 +0000 https://wsyang.com/2011/04/violin-plot-in-r/ 데이터 분석을 할 때 가장 먼저 해야 하는 일은 데이터의 형태(분포)를 확인하는 것입니다. 많은 통계 교과서들이 각종 데이터 분석 기법을 설명하는 과정에서 데이터가 어떤 분포를 따르고 있다는 가정하에서 설명합니다. 따라서 데이터가 어떠한 분포를 따르고 있는지 파악해야만 사용할 수 있는 분석 기법을 결정할 수 있습니다. 개인적으로 데이터의 분포를 확인할 때 가장 많이 쓰는 방법이 boxplot입니다. 무엇보다도 간단하게 그릴 수 있고, 대략적인 이상치(outlier)의 존재를 확인할 수 있기 때문입니다. boxplot에 분포의 형태를 보다 구체적으로 표현하는 방법으로 violin plot이 있습니다. 3월 11일 일본 대지진이 일어날 확률과 로또에 당첨될 확률 어느쪽이 더 높을까? https://wsyang.com/2011/04/earthquake-vs-lotto/ Sat, 16 Apr 2011 00:00:00 +0000 https://wsyang.com/2011/04/earthquake-vs-lotto/ 일본 대지진이 일어난 지 벌써 한 달이 지났습니다. 아직 후쿠시마 원전 사고는 수습될 기미가 보이지 않고, 피해지역의 고충도 여전히 진행 중입니다. 오늘 인터넷 서핑을 하다가 흥미로운 사이트를 알게 되었습니다. 전 세계의 지진 관측데이터를 수집하고 공표하는 사이트 Earthquake Hazard Program 입니다. 이곳에서는 1973년 이후 세계 전역에서 발생한 모든 지진 데이터를 데이터베이스에 보관하고 있습니다. 이 데이터를 이용해 3월 11일 대지진이 일어날 확률과 로또에 당첨될 확률을 비교해 보겠습니다. 먼저, 1973년 이후 2011년 3월 10일까지 데이터베이스에는 총 34,506건의 지진이 등록되어 있습니다. 방사선이 인체에 미치는 영향-유전통계학적 견해 https://wsyang.com/2011/04/effects-of-the-radiation-on-the-human-body/ Thu, 14 Apr 2011 00:00:00 +0000 https://wsyang.com/2011/04/effects-of-the-radiation-on-the-human-body/ 오늘도 글 하나 번역해 보았습니다. 글쓴이는 지난번 글과 같이 일본 이화학연구소 게놈 의과학연구센터 소장인 카마타니 나오유키(鎌谷直之) 선생님입니다. 원문: 인간 게놈의 안정성과 방사선의 장해 (일본어) 지진으로 말미암아 후쿠시마 제일 원전에서 방사선 누출 사고가 일어나 많은 사람이 대피하고 있습니다. 또한, 일본 전체가 방사선, 방사능에 대한 공포에 떨고 있습니다. 이 문제는 방사능이나 방사선이 눈에 보이지 않는다는 것과 그 영향을 헤아릴 수 없다는 점에서 심각성을 더한다고 말할 수 있습니다. 여기서 방사능, 방사선이 인체에 미치는 영향에 대해 정리해 봅시다. 방사능 오염 식품 섭취 제한권고에 대한 과학적 입장 https://wsyang.com/2011/04/radioactive-contaminated-food-intake-limits/ Tue, 12 Apr 2011 00:00:00 +0000 https://wsyang.com/2011/04/radioactive-contaminated-food-intake-limits/ 후쿠시마 원전 사고 이후 근방의 수돗물과 채소에서는 나라가 정한 기준치를 초과하는 방사능이 검출되고 있습니다. 이에 따라 출하제한, 섭취제한 등의 조치가 취해지고 있지만, 항상 따라오는 말이 먹어도 건강에는 당장 영향이 없다는 것입니다. 왜 그럴까요? 건강에 당장 영향이 없는데 왜 섭취제한을 할까요? 일본 이화학연구소 게놈 의과학연구센터 소장인 카마타니 나오유키 선생님의 글을 허락하에 번역해 보았습니다. 원문: 개인 리스크와 집단 리스크(일본어) 후쿠시마 제일 원자력발전소의 사고로 인한 방사선피해의 뉴스가 일본을 불안으로 몰아넣고 있습니다. 수돗물이 방사성 요오드에 의해 오염되었다고 말합니다. [R] R에서 가계도 작성하기 https://wsyang.com/2011/04/pedigree-tree-in-r/ Sun, 10 Apr 2011 00:00:00 +0000 https://wsyang.com/2011/04/pedigree-tree-in-r/ 유전통계학에서 연쇄분석(linkage analysis)을 하기 위해서는 각 가계 구성원의 가계도(pedigree chart)를 작성하는 것이 필수입니다. 가계 구성원의 수가 많지 않은 가계의 경우 손으로 그리거나, 도표를 그리는 소프트웨어(OmniGraffle, MS Visio등)를 이용하곤 합니다. 그러나 가계 구성원의 수가 많은 경우는 가계도를 그리는 것도 만만치 않은 일입니다. 전문적으로 가계도를 작성해 주는 소프트웨어도 있습니다만, 여기서는 R에서 작성하는 방법을 알아보도록 하겠습니다. 먼저 R에서 가계도를 작성하기 위해서는 kinship2이라는 패키지가 필요합니다. > install.packages("kinship2") kinship package를 설치한 후, 함수 pedigree를 이용하여 가계도를 작성합니다. [R] 새로운 R의 통합환경 RStudio https://wsyang.com/2011/04/rstudio-introduction/ Sun, 10 Apr 2011 00:00:00 +0000 https://wsyang.com/2011/04/rstudio-introduction/ 약 한 달 전 R 사용자들의 트위터 해시 태그인 #rstats의 타임라인을 뒤덮는 사건이 있었으니, 바로 RStudio의 출현입니다. RStudio 이전에도 통합환경이 없었던 것은 아니지만 사용하는 OS에 따라서 쓸 수 있는 것과 없는 것이 있고, 개인적으로 약간씩의 아쉬움이 남는 것들이 대부분이었습니다. 더군다나 R의 리눅스 버전은 아예 GUI 환경이 없습니다. 저 같은 경우 회사에서는 쓰는 데스크탑이 리눅스라서 많은 분이 사용하시는 emacs + ESS 환경에서 R을 이용해왔습니다. 그동안 나온 몇몇 통합환경을 시도해 보기는 했지만, 위의 두 조합을 뛰어넘는 편리성을 가진 것은 없었는데, RStudio의 발표 이후로 작업환경을 완전히 바꾸었습니다. 유전통계학의 오늘과 내일 - 고려대학교 특강 https://wsyang.com/2011/04/statistical-genetics-lecture-korea-univ/ Fri, 08 Apr 2011 00:00:00 +0000 https://wsyang.com/2011/04/statistical-genetics-lecture-korea-univ/ 유전통계학의 오늘과 내일(고려대학교 특강) from Woosung Yang 서울과 동경의 방사선치 비교 https://wsyang.com/2011/03/radioactivity-tokyo-seoul/ Wed, 30 Mar 2011 00:00:00 +0000 https://wsyang.com/2011/03/radioactivity-tokyo-seoul/ 후쿠시마 원자력 발전소의 사고로 때문에 발생한 방사능 물질이 우리나라에서도 검출되었다고, 대대적으로 언론에서 다루었습니다. 제가 우리나라 소식의 대부분을 포털뉴스와 트위터로 접하기 때문에 방송에서 어느 정도 비중 있게 다루었는지는 모르겠지만, 많은 분들이 불안해하셨으리라 생각합니다. 그래서, 이번엔 서울과 동경(신주쿠)의 방사선치를 비교해 보도록 하겠습니다. 위 그래프는 국내 실시간 방사선 수치를 공개하는국가환경방사선 자동감시망과 일본의 동경 건강안전연구센터에서 수집한 서울과 동경의 매시간 환경방사선치를 이용한 것입니다. 다만, 우리나라의 경우 보통 나노시버트( $nSv/h$ )단위로 데이터를 공표하기 때문에 비교를 위해서 마이크로시버트( $\mu Sv/h$ )로 변환하였습니다 (1 마이크로시버트 = 1,000 나노시버트). 동경의 방사능치 안전한가? -수돗물편- https://wsyang.com/2011/03/tokyo-radioactivity-water/ Tue, 29 Mar 2011 00:00:00 +0000 https://wsyang.com/2011/03/tokyo-radioactivity-water/ 오늘은 수돗물에 대해서 이야기해 보도록 하겠습니다. 일본 수도권의 정수장에서 유아(1세 미만)가 섭취할 수 있는 기준치를 넘는 방사선 물질이 검출되었다는 뉴스가 지난 23일 발표되었습니다. 그리고 다행이도 어제 28일 동경으로 직접 수돗물을 공급하는 카나마치 정수장에서는 방사능 물질이 검출되지 않았다는 소식을 접할 수 있었습니다. 하지만, 정수장의 수돗물이 바로 가정이나 회사의 수도에 공급되는 것은 아니고, 동경의 수도망이 한곳의 정수장의 물만 사용하는 것도 아니라 정수장에서 발표하는 수치와 실제로 우리가 사용하는 수돗물의 수치와는 차이가 있습니다. 현재 일본 문부성 및 동경 건강안전연구센터의 홈페이지에서는 환경방사능 조사치와 함께 실제 우리가 사용하는 수돗물의 방사능 수치도 함께 발표하고 있습니다. 동경의 방사능치 안전한가? https://wsyang.com/2011/03/radioactivity-values-of-safe-tokyo/ Sat, 26 Mar 2011 00:00:00 +0000 https://wsyang.com/2011/03/radioactivity-values-of-safe-tokyo/ 정말 간만의 포스팅입니다. 일본에서 대지진이 일어난 지 벌써 2주가 지났습니다. 저도 2년 전부터 고베에서 동경으로 이사와 직장생활을 하고 있었기에, 이번 지진을 생생하게 겪었습니다. 아직도 간혹 여진이 계속되고 있지만, 많이 안정된 상황입니다. 요즘은 지진보다는 후쿠시마 원자력발전소의 사고가 큰 문제가 되고 있습니다. 정부에서는 원자력 발전소로부터 반경 20km 이내는 피난 지시를, 반경 30km 이내의 주민은 실내대피의 조치를 하고 있지만, 이것이 충분한 조치인지 우려하는 목소리가 높아지고 있습니다. 며칠 전부터 동경을 비롯한 수도권의 수돗물에서 유아(1살 미만)가 마실 수 있는 기준을 초과하는 방사능 물질이 검출되어 슈퍼는 물론 자동판매기의 생수마저 구매하기 어려운 상황입니다. 두 이산형 변수의 연관성 척도 Cramér's V https://wsyang.com/2011/03/cramers-v/ Fri, 04 Mar 2011 00:00:00 +0000 https://wsyang.com/2011/03/cramers-v/ 두 이산형 변수의 연관성(association)에 대해 알아볼 때 흔히 카이제곱 검정을 이용합니다. 하지만, 엄밀히 말하면 카이제곱 검정은 연관성의 유의한 정도(test for the significance)의 결과일 뿐, 연관성 크기를 나타내는 척도는 아닙니다. 즉, 두 개의 데이터 셋에 대해 각각 연관성 검정을 했을 때 검정결과인 유의확률을 가지고 어느 쪽이 연관성이 크다고는 말할 수 없다는 것이죠. 두 이산형 변수의 연관성의 크기를 나타내는 척도 중 하나가 Cramér’s V라는 것이 있습니다. Cramér’s V의 계산 식은 \[ \phi_c = \sqrt{\frac{\chi^2}{N(k-1)}} \] 고대 세종캠퍼스 홍보지에 인터뷰가 실렸습니다. https://wsyang.com/2008/12/interview/ Fri, 26 Dec 2008 00:00:00 +0000 https://wsyang.com/2008/12/interview/ 벌써 두 달 전의 이야기입니다만 석사과정의 지도교수님으로부터 저의 모교인 고려대학 세종캠퍼스의 홍보지에 저와의 인터뷰를 기획하고 있으니 협조해달라는 메일이 왔습니다. 메일로 인터뷰에 응하고 이후 연락이 없어서 잊고 있었다가 문득 생각이 나서 사이트에 들어가 보니 인터뷰가 실렸군요. 연락이라도 주셨으면 감사했을 것을… 취미를 알려달라고 해서 사진 찍는 것이라 답했더니 인터뷰 제목이 저렇게 되어버렸네요. 아내와 함께 보고서는 한참을 웃었습니다. 인터뷰의 전문은 이곳에서 보실 수 있습니다. 많이 쑥스럽네요. ㅎㅎ [SAS] 숫자가 포함된 문자열의 정렬 https://wsyang.com/2008/08/sorting-strings-containing-numbers/ Fri, 08 Aug 2008 00:00:00 +0000 https://wsyang.com/2008/08/sorting-strings-containing-numbers/ Q. 다음과 같은 데이터셋이 존재한다고 했을 때, 문자열변수 안의 숫자의 크기순으로 정렬하고 싶지만, 이대로 PROC SORT를 이용하면 A-1, A-10, A-12, A-2의 순으로 정렬됩니다. 문자열 안의 숫자의 크기 순으로 정렬하는 방법은 없나요? A. 정렬을 하기 전에 id 변수의 숫자의 앞에 0을 추가할 필요가 있습니다. 0을 추가하려면 다음과 같은 과정이 필요합니다. scan 함수를 이용하여 변수를 “-” 문자를 기준으로 분리 Zw.d 포맷을 이용하여 수치 문자열의 앞에 0을 추가 CATX함수를 이용하여 전후의 공백을 없애고 분할할 문자열을 연결 예) 새로운 SNP case-control 연관분석 방법 OMTT https://wsyang.com/2008/08/optimal-dose-effect-mode-trend-test-for-snp-genotype-tables/ Fri, 08 Aug 2008 00:00:00 +0000 https://wsyang.com/2008/08/optimal-dose-effect-mode-trend-test-for-snp-genotype-tables/ Optimal dose-effect mode trend test for SNP genotype tables., An Genetic Epidemiology Published Online: 7 Aug 2008 요점 정리 SNP를 이용한 Case-Control 연관분석을 하고자 할 때, 가법 형식(additive mode)에 대해 trend 검정을, 우성 형식(dominant mode)에 대해 우성 검정을, 열성 형식(recessive mode)에 대해 열성 검정을 할 때가 있다. 또한, 어떤 유전 형식을 따르는지 알 수 없지만, 그 중 하나와 일치한다면 연관이 있다고 생각하여, 세 가지 검정 중 가장 유의한 검정결과를 채택하는 방법을 사용할 때도 있다. [SAS] 복수의 문자변수의 값을 연결해 하나의 변수로 만드는 방법 https://wsyang.com/2008/08/how-to-create-a-single-variable-from-mutiple-chracter-variables/ Thu, 07 Aug 2008 00:00:00 +0000 https://wsyang.com/2008/08/how-to-create-a-single-variable-from-mutiple-chracter-variables/ Q. 복수의 문자변수 값을 컴마(,)로 연결해 하나의 변수로 만드는 방법은? A. SAS 9 부터 추가된 CATX 함수를 이용하면 구분문자를 지정하여 문자열로 만들 수 있다. DATA _NULL_; dlm=","; char1="Hong"; char2="GilDong"; char3="15"; char4="A"; results=CATX(dlm, OF char1-char4); PUT results; RUN; 출력결과 : Hong,GilDong,15,A [R] Boxplot에 관측치의 수를 표시하는 방법 https://wsyang.com/2008/08/how-to-display-the-number-of-observations-in-the-boxplot/ Wed, 06 Aug 2008 00:00:00 +0000 https://wsyang.com/2008/08/how-to-display-the-number-of-observations-in-the-boxplot/ Boxplot에서 관측치의 수를 나타내고 싶은 경우, 여러 가지 방법이 있겠지만, 함수 text() 혹은 mtext()를 사용하는 것이 가장 간단하지 않을까 싶다. 함수 text()가 그래프 안에 관측치의 수를 표시하는 반면 mtext()는 그래프의 축(axis)에 표시하는 차이가 있다. > y <- rnorm(50) > x <- factor(sample(letters[1:5], 50, replace = T)) > boxplot(y ~ x, col = "lightgray") > text(1:5, rep(min(y), 5), paste("n=", tapply(y, x, length))) 위 예의 경우 boxplot과 관측치의 수가 겹쳐버리게 되어 보기가 좀 불편해진다. [R] 하나의 윈도에 2개의 그래프를 그리는 방법 https://wsyang.com/2008/07/two-plot-in-the-single-window/ Tue, 29 Jul 2008 00:00:00 +0000 https://wsyang.com/2008/07/two-plot-in-the-single-window/ R에서 하나의 윈도에 2개 이상의 그래프를 겹쳐 그리려면 일반적으로 함수 curve()나 points()를 이용한다. 하지만, 패키지에 따라서는 이 함수들을 제대로 사용할 수 없는 경우가 있다. 경험한 바로는 ROC (receive operating characteristic) curve를 간단하게 그릴 수 있게 해주는 ROCR package에서는 points() 함수를 쓸 수가 없었다. 이 같은 경우 2개의 그래프를 겹쳐 그릴 수 있게 하기 위해서는 함수 par(new=TRUE)를 이용한다. > x1 <- rnorm(25, mean=, sd=1) > y1 <- dnorm(x1, mean=, sd=1) > > x2 <- rnorm(25, mean=, sd=1) > y2 <- dnorm(x2, mean=, sd=1) > > # points() 함수를 이용한 경우 > plot(x1, y1, type='p', xlim=range(x1,x2), ylim=range(y1,y2)) > points(x2, y2, type='p', col="red",xlim=range(x1,x2), ylim=range(y1,y2)) > # par(new=TRUE)를 이용한 경우 > plot(x1, y1, type='p', xlim=range(x1,x2), ylim=range(y1,y2)) > par(new=TRUE) > plot(x2, y2, type='p', col="red", axes=F, xlim=range(x1,x2), ylim=range(y1,y2)) 2개 이상의 그래프를 겹쳐 그릴 때는 항상 x, y축의 범위에 주의해야 한다. R의 기본조작 https://wsyang.com/2008/07/r-basic/ Tue, 22 Jul 2008 00:00:00 +0000 https://wsyang.com/2008/07/r-basic/ 시작과 종료 R의 시작방법은 사용하고 있는 OS에 따라 다르다. MS Windows라면 R의 아이콘을 더 블클릭하면 된다. 정상적으로 R이 설치되었다면 어떤 OS를 사용한다 하더라도 다음과 유사한 메시지를 볼 수 있을 것이다. R version 3.0.2 (2013-09-25) -- "Frisbee Sailing" Copyright (C) 2013 The R Foundation for Statistical Computing Platform: x86_64-apple-darwin10.8.0 (64-bit) R is free software and comes with ABSOLUTELY NO WARRANTY. You are welcome to redistribute it under certain conditions. Type ’license()’ or ’licence()’ for distribution details. R 은? https://wsyang.com/2008/07/what-is-r/ Fri, 18 Jul 2008 00:00:00 +0000 https://wsyang.com/2008/07/what-is-r/ R 소개 R은 AT&T 벨연구소의 Becker와 Chembers에 의해 발표된 S라 하는 통계분석, 확률 시뮬레이션, 그래픽을 위한 프로그래밍 언어를 그 기초로, 뉴질랜드 Aukland 대학 통계학과 Ross Ihaka와 Robert Gentleman에 의해 1992년부터 개발이 시작되었다. 현재는 세계 다수의 멤버로 구성된 개발팀에 의해 발전하고 있으며, S의 개발자이기도 한 Chembers 도 R의 개발팀에 합류했다. R의 역사와 개요에 대해서는 다음 동영상을 참고하길 바란다. R은 오픈 소스 소프트웨어이며, GPL 라이센스를 따르고 있다. R 프로젝트의 홈페이지는 http://www.r-project.org이며, CRAN (Comprehensive R Archive Network)에서 R의 소스코드 및 MS Windows, Linux, Mac OS X 용으로 컴파일된 바이너리 파일을 얻을 수 있다. [R] 결손치를 히스토그램에 나타내는 방법 https://wsyang.com/2008/07/r-%EA%B2%B0%EC%86%90%EC%B9%98%EB%A5%BC-%ED%9E%88%EC%8A%A4%ED%86%A0%EA%B7%B8%EB%9E%A8%EC%97%90-%EB%82%98%ED%83%80%EB%82%B4%EB%8A%94-%EB%B0%A9%EB%B2%95/ Mon, 07 Jul 2008 00:00:00 +0000 https://wsyang.com/2008/07/r-%EA%B2%B0%EC%86%90%EC%B9%98%EB%A5%BC-%ED%9E%88%EC%8A%A4%ED%86%A0%EA%B7%B8%EB%9E%A8%EC%97%90-%EB%82%98%ED%83%80%EB%82%B4%EB%8A%94-%EB%B0%A9%EB%B2%95/ 기본 R의 histgram에서는 결손치(NA)를 그래프에 표시하지 않는다. 결손치의 수를 그래프에 나타내기 위해서는 약간의 추가 과정이 필요하다. > sample.data <- as.factor(sample(c(1, 0, NA), 100, replace = TRUE)) > sample.data <- as.character(sample.data) > sample.data[is.na(sample.data)] <- " NA" > sample.data <- factor(sample.data) > plot(sample.data) ggplot2 패키지를 이용하면 좀더 멋진 그래프를 얻을 수 있다. > library(ggplot2) > ggplot(data = NULL, aes(x = sample.data)) + + geom_histogram(stat = "count") [R] 중복된 Package를 삭제하는 방법 https://wsyang.com/2008/06/how-to-remove-duplicated-packages/ Fri, 27 Jun 2008 00:00:00 +0000 https://wsyang.com/2008/06/how-to-remove-duplicated-packages/ R을 사용하다 보면 package가 중복되어 설치되는 경우가 있다. 이러한 경우 중복된 package를 삭제하려면, 함수 remove.packages()를 이용해 R의 콘솔상에서 다음과 같이 입력한다. > remove.packages(installed.packages() [duplicated(rownames(installed.packages())), 1], lib=.libPaths()[.libPaths() != .Library]) statistical genetics의 배경지식에 관한 참고논문 https://wsyang.com/2008/06/statistical-genetics-papers/ Fri, 27 Jun 2008 00:00:00 +0000 https://wsyang.com/2008/06/statistical-genetics-papers/ Cardon LR, Bell JI., Association study designs for complex diseases. Nat Rev Genet. 2001 Feb;2(2):91-9. Hirschhorn JN, Daly MJ, Genome-wide association studies for common diseases and complex traits., Nat Rev Genet. 2005 Feb;6(2):95-108. Cordell HJ, Clayton DG., Genetic association studies., Lancet. 2005 Sep 24-30;366(9491):1121-31. Dawn Teare M, Barrett JH., Genetic linkage studies., Lancet. 2005 Sep 17-23;366(9490):1036-44. Spielman RS, Ewens WJ., The TDT and other family-based tests for linkage disequilibrium and association.