<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" media="screen" href="/~d/styles/rss2full.xsl"?><?xml-stylesheet type="text/css" media="screen" href="http://feeds.feedburner.com/~d/styles/itemcontent.css"?><rss xmlns:feedburner="http://rssnamespace.org/feedburner/ext/1.0" version="2.0">
	<channel>
		<title>LiFiDeA by 김진영</title>
		<link>http://lifidea.tistory.com/</link>
		<description>정보검색, 개인정보관리, 유학생활</description>
		<language>ko</language>
		<pubDate>Sat, 12 Sep 2009 13:32:28 +0900</pubDate>
		<generator>Tistory 1.1 (http://www.tistory.com/)</generator>
		<atom10:link xmlns:atom10="http://www.w3.org/2005/Atom" rel="self" href="http://feeds.feedburner.com/lifidea" type="application/rss+xml" /><feedburner:feedFlare href="http://add.my.yahoo.com/rss?url=http%3A%2F%2Ffeeds.feedburner.com%2Flifidea" src="http://us.i1.yimg.com/us.yimg.com/i/us/my/addtomyyahoo4.gif">Subscribe with My Yahoo!</feedburner:feedFlare><feedburner:feedFlare href="http://www.newsgator.com/ngs/subscriber/subext.aspx?url=http%3A%2F%2Ffeeds.feedburner.com%2Flifidea" src="http://www.newsgator.com/images/ngsub1.gif">Subscribe with NewsGator</feedburner:feedFlare><feedburner:feedFlare href="http://feeds.my.aol.com/add.jsp?url=http%3A%2F%2Ffeeds.feedburner.com%2Flifidea" src="http://o.aolcdn.com/favorites.my.aol.com/webmaster/ffclient/webroot/locale/en-US/images/myAOLButtonSmall.gif">Subscribe with My AOL</feedburner:feedFlare><feedburner:feedFlare href="http://www.bloglines.com/sub/http://feeds.feedburner.com/lifidea" src="http://www.bloglines.com/images/sub_modern11.gif">Subscribe with Bloglines</feedburner:feedFlare><feedburner:feedFlare href="http://www.netvibes.com/subscribe.php?url=http%3A%2F%2Ffeeds.feedburner.com%2Flifidea" src="http://www.netvibes.com/img/add2netvibes.gif">Subscribe with Netvibes</feedburner:feedFlare><feedburner:feedFlare href="http://fusion.google.com/add?feedurl=http%3A%2F%2Ffeeds.feedburner.com%2Flifidea" src="http://buttons.googlesyndication.com/fusion/add.gif">Subscribe with Google</feedburner:feedFlare><feedburner:feedFlare href="http://www.pageflakes.com/subscribe.aspx?url=http%3A%2F%2Ffeeds.feedburner.com%2Flifidea" src="http://www.pageflakes.com/ImageFile.ashx?instanceId=Static_4&amp;fileName=ATP_blu_91x17.gif">Subscribe with Pageflakes</feedburner:feedFlare><feedburner:browserFriendly>Thanks for Your Subscription! - LiFiDeA</feedburner:browserFriendly><atom10:link xmlns:atom10="http://www.w3.org/2005/Atom" rel="hub" href="http://pubsubhubbub.appspot.com" /><item>
			<title>CIKM의 한국인 저자 논문들</title>
			<link>http://feedproxy.google.com/~r/lifidea/~3/8ckTvEKJSI0/68</link>
			<description>이번 CIKM Conference의 한국인 저자 논문을 모아 보았습니다. SIGIR에서보다 더 많은 논문이 눈에 띄는군요.&amp;nbsp; 저희 연구실의 서장원 선배, 그리고 SIGIR에서 뵈었던 나승훈님 이외에는 처음 뵙는 분들이라 기대가 큽니다. 영문 블로그의 &lt;a href="http://lifidea.wordpress.com/2009/09/02/retrieval-experiments-in-pseudo-desktop-collections/" target="_blank"&gt;CIKM의 제 논문 관련 포스팅&lt;/a&gt;, 그리고 &lt;a href="http://lifidea.wordpress.com/2009/09/03/cikm-2009-statistics-of-titles-and-institutions/" target="_blank"&gt;저자 및 타이틀 통계&lt;/a&gt;도 참조하세요. &lt;br /&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Full Paper&lt;/span&gt;&lt;br /&gt;Generating Comparative Summaries of Contradictory Opinions in Text&lt;br /&gt;
&lt;a href="http://sifaka.cs.uiuc.edu/ir/people.html" target="_blank"&gt;Hyun Duk Kim (University of Illinois at Urbana-Champaign)&lt;/a&gt;, ChengXiang Zhai (University of Illinois at Urbana-Champaign)&lt;br /&gt;&lt;br /&gt;Towards Real-Time Measurement of Customer Satisfaction Using Automatically Generated Call Transcripts&lt;br /&gt;
&lt;a href="Towards%20Real-Time%20Measurement%20of%20Customer%20Satisfaction%20Using%20Automatically%20Generated%20Call%20Transcripts%20Youngja%20Park%20%28IBM%20T.%20J.%20Watson%20Research%20Center%29,%20Stephen%20C.%20Gates%20%28IBM%20T.%20J.%20Watson%20Research%20Center%29" target="_blank"&gt;Youngja Park (IBM T. J. Watson Research Center)&lt;/a&gt;, Stephen C. Gates (IBM T. J. Watson Research Center)&lt;br /&gt;&lt;br /&gt;Improving Web Page Classification by Label-propagation over Click Graphs&lt;br /&gt;
&lt;a href="http://www.linkedin.com/pub/soo-min-kim/14/994/b2a" target="_blank"&gt;Soo-Min Kim (Yahoo! Labs)&lt;/a&gt;, Patrick Pantel (Yahoo! Labs), Lei Duan (Yahoo! Labs), Scott Gaffney (Yahoo! Labs)&lt;br /&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Short Paper&lt;/span&gt;&lt;br /&gt;Online Community Search Using Thread Structure&lt;br /&gt;
Jangwon Seo (University of Massachusetts Amherst), W Bruce Croft
(University of Massachusetts Amherst), David A Smith (University of
Massachusetts Amherst)&lt;br /&gt;&lt;br /&gt;An Improved Feedback Approach Using Relevant Local Posts for Blog Feed Retrieval&lt;br /&gt;
Yeha Lee (Pohang University of Science and Technology (POSTECH)),
Seung-Hoon Na (National University of Singapore), &lt;a href="http://www.postech.ac.kr/%7Ejhlee/kjhlee.html" target="_blank"&gt;Jong-Hyeok Lee
(Pohang University of Science and Technology (POSTECH))&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;Extraction of a Latent Blog Community Based on Subject&lt;br /&gt;
&lt;a href="http://zion.hanyang.ac.kr/" target="_blank"&gt;Seok-Ho Yoon (Hanyang University), Jung-Hwan Shin (Hanyang University),
Sunju Park (Yonsei University), Sang-Wook Kim (Hanyang University)&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;
</description>
			<category>정보검색</category>
			<category>컨퍼런스</category>
			<author>lifidea</author>
			<guid isPermaLink="false">http://lifidea.tistory.com/68</guid>
			<comments>http://lifidea.tistory.com/entry/CIKM%EC%9D%98-%ED%95%9C%EA%B5%AD%EC%9D%B8-%EC%A0%80%EC%9E%90-%EB%85%BC%EB%AC%B8%EB%93%A4#entry68comment</comments>
			<pubDate>Sat, 12 Sep 2009 13:32:28 +0900</pubDate>
		<feedburner:origLink>http://lifidea.tistory.com/68</feedburner:origLink></item>
		<item>
			<title>휴식의 기술</title>
			<link>http://feedproxy.google.com/~r/lifidea/~3/obiySzkcwQI/67</link>
			<description>오늘 미국은 노동절(Labor Day)입니다. 동시에 3개월 반의 긴 여름방학기 끝나는 날이기도 합니다. 휴식과 일의 교차점에서, '휴식'의 의미에 대해 생각해보려고 합니다. &lt;br /&gt;&lt;br /&gt;삶을 일과 휴식으로 나눈다면 휴식에는 일과 반대의 역할을 부여하는 것이 마땅할 것 같습니다. 몸과 마음이 일에서 최대한 벗어나 삶 전체를 균형점에 돌려놓는 거죠. 또한 휴식의 시작은 일의 끝이요, 휴식의 끝은 일의 시작이기에, 휴식에는 일을 준비한다는 의미도 있습니다. 마지막으로, 어딘가에도 얽매일 필요가 없는 휴식 기간을 통해 자신의 새로운 면모를 발견할 수도 있을 겁니다. &lt;br /&gt;&lt;br /&gt;하지만, 휴식을 통해 본연의 목적을 달성하는 사람은 많지 않은 것 같습니다. 휴식은 자칫 일의 연장이 되기도 하고, 일상으로 되돌아가는 것을 방해하기도 하고, 일상을 통해 쌓아온 소중한 것들을 무너뜨리기도 합니다.휴가지에서도 일을 처리하는 직장인, '월요 증후군', 그리고 휴가를 다녀온 후 다이어트를 하는 모습 등은 이런 모습을 대변합니다. 저도 예외는 아니었던 것 같습니다.&lt;br /&gt;&lt;br /&gt;어떻게 하면 바람직한 '휴식'을 취할 수 있을까요? 우선은 올바른 '일'이 정착되어야 하지 않을까 합니다. 주중에 많은 스트레스를 받아 금요일 쯤에는 녹초가 되는 직장인이 휴식 기간에 다시 생산적인 일을 하기는 쉽지 않을 것 같습니다. 일에 치어 그 이외의 것을 생각할 수 없는 일상이 반복된다면 스스로를 돌이켜볼 필요가 있지 않을까요. &lt;br /&gt;&lt;br /&gt;이와 함께 '삶'을 전체로써 바라보는 관점이 필요할 것입니다. 휴가 역시 자기 삶의 일부일진데, 평소에 실천하던 바람직한 원칙이 휴식을 빌미로 깨어진다는 것은 이들이 자신의 삶에 제대로 정착되지 못했음을 의미할 것입니다. 그리고 이런 패턴이 계속된다면 자기 변화를 통한 삶의 개선은 요원할 것입니다. &lt;br /&gt;&lt;br /&gt;많은 자유가 주어지는 대학원 생활에서 일과 휴식의 조화를 꾀하고, 이를 통해 삶을 더 높은 경지로 끌어올리는 일은 더욱 중요합니다. 충분한, 그리고 효과적인 휴식을 취하고 있는지 생각해볼 일입니다. &lt;br /&gt;</description>
			<category>유학생활</category>
			<author>lifidea</author>
			<guid isPermaLink="false">http://lifidea.tistory.com/67</guid>
			<comments>http://lifidea.tistory.com/entry/%ED%9C%B4%EC%8B%9D%EC%9D%98-%EA%B8%B0%EC%88%A0#entry67comment</comments>
			<pubDate>Tue, 08 Sep 2009 00:49:43 +0900</pubDate>
		<feedburner:origLink>http://lifidea.tistory.com/67</feedburner:origLink></item>
		<item>
			<title>블로그 주소이전 및 운영 계획</title>
			<link>http://feedproxy.google.com/~r/lifidea/~3/Vldi2zpR-28/66</link>
			<description>&lt;p&gt;블로그 주소를 이전하였습니다. &lt;a href="http://lifidea.tistory.com/../"&gt;한글 블로그는&lt;/a&gt; 다시 예전의 티스토리 주소로 되돌아가고, &lt;a href="http://lifidea.wordpress.com/"&gt;영문 블로그는&lt;/a&gt; 워드프레스에 새로 둥지를 틀었습니다. 현재의 &lt;a href="http://www.lifidea.com/"&gt;http://www.lifidea.com&lt;/a&gt; 에는 향후 LiFiDeA Project페이지가 들어설 예정입니다.&lt;/p&gt;
&lt;p&gt;원래는 직접 개발한 lifidea.com에 한글 및 영문 블로그를 같이 운영한다는 계획이었습니다만, 전혀 다른 독자를
대상으로 하는 두 블로그를 한곳에 두는 일에는 많은 무리가 따랐습니다. 직접 개발한 엔진을 유지보수하는 어려움, 설치형을 사용할
경우 트래픽 유치가 쉽지 않다는 것도 문제였습니다.&lt;/p&gt;
&lt;p&gt;앞으로 한글/영문 블로그를 동시에 운영합니다. 둘다 테마는 정보검색과 개인정보관리 연구이지만, 한글 블로그에는 입문에
해당하는 내용을, 영문 블로그는 좀더 전문적인 내용을 올릴 생각입니다. 한글/영문 블로그 모두 구독(feed) 주소에는 변화가
없습니다.&lt;/p&gt;
&lt;p&gt;2년만에 돌아온 티스토리에는 많은 변화가 있군요. 이번 이전이 좀더 활발한 소통을 위한 기반이 될 수 있도록 노력하겠습니다. &lt;br /&gt;
&lt;/p&gt;
&lt;p&gt;&lt;/p&gt;
&lt;p&gt;
&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;한글 블로그 주소 : &lt;a href="http://lifidea.tistory.com/../"&gt;http://lifidea.tistory.com/&lt;/a&gt; &lt;a href="http://feeds.feedburner.com/lifidea"&gt;(구독하기)&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;영문 블로그 주소 : &lt;a href="http://lifidea.wordpress.com/"&gt;http://lifidea.wordpress.com/&lt;/a&gt; &lt;a href="http://feeds.feedburner.com/lifidea_en"&gt;(구독하기)&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;</description>
			<category>Journal</category>
			<author>lifidea</author>
			<guid isPermaLink="false">http://lifidea.tistory.com/66</guid>
			<comments>http://lifidea.tistory.com/entry/%EB%B8%94%EB%A1%9C%EA%B7%B8-%EC%A3%BC%EC%86%8C%EC%9D%B4%EC%A0%84-%EB%B0%8F-%EC%9A%B4%EC%98%81-%EA%B3%84%ED%9A%8D#entry66comment</comments>
			<pubDate>Thu, 03 Sep 2009 12:48:00 +0900</pubDate>
		<feedburner:origLink>http://lifidea.tistory.com/66</feedburner:origLink></item>
		<item>
			<title>두번째 논문 - 데스크톱 검색의 새로운 연구 모델</title>
			<link>http://feedproxy.google.com/~r/lifidea/~3/vTBew9m1OUo/65</link>
			<description>&lt;p&gt;데스크톱 검색을 주제로 쓴 두번째 논문 ‘&lt;a href="http://maroo.cs.umass.edu/pub/web/getpdf.php?id=871"&gt;Retrieval Experiments in Pseudo-desktop Collections’&lt;/a&gt;이 &lt;a href="http://www.comp.polyu.edu.hk/conference/cikm2009/program/accepted_papers.htm"&gt;&lt;acronym title="ACM Conference on Information and Knowledge Management"&gt;&lt;span class="caps"&gt;CIKM2009&lt;/span&gt;&lt;/acronym&gt;에&lt;/a&gt; 실리게 되었다는 소식입니다. 데스크톱 검색, 더 넓게 말하자면 개인 정보의 검색은 은 제 연구 관심사인 개인정보관리와 검색 연구의 접점으로써 앞으로 주력하고 싶은 분야입니다.
&lt;/p&gt;
&lt;p&gt;이번 논문의 주제는 크게 두가지입니다. 우선, 데스크톱 검색 연구를 위한 데이터가 프라이버시 문제로 공개되지 못하는 문제점을 해결하기 위해, 검색 실험을 위한 테스트 데이터(문서+질의)를 자동으로 만드는 기법을 제시하였습니다.&lt;/p&gt;
&lt;p&gt;좀더 구체적으로 데스크톱과 유사한 성격의 문서를 모으고 질의-문서의 쌍을 자동으로 생성합니다. 질의-문서의 쌍을 생성하는
방법이 재미있는데, 데스크톱에서 사용자들이 주로 자신이 이미 본 문서(known-item)를 찾는 점에 착안하여 임의의 문서에서
추출한 단어를 질의어로 사용하는 것입니다.&lt;/p&gt;
&lt;p&gt;예를 들자면 Tom이라는 가상의 유저가 &lt;span class="caps"&gt;HTML&lt;/span&gt; 표준과 Web Accessibility의 전문가라고 가정하고 그 토픽에 해당하는 문서(e-mail, pdf, doc등등)를 모읍니다. 그 중 Mary가 보낸 ‘&lt;span class="caps"&gt;HTML&lt;/span&gt; Standard Draft’라는 제목의 메일을 Tom이 찾는다고 가정해 봅시다. 그러면 ‘Mary &lt;span class="caps"&gt;HTML&lt;/span&gt; Draft’와 같이 문서에서 추출한 단어를 질의어로 사용할 수 있을 것입니다. 이런 방식으로 프라이버시 문제가 없는 데스크톱 검색용 컬렉션(test collection)을 만드는 것입니다.&lt;/p&gt;
&lt;p&gt;본 논문에서는 컬렉션 생성 방법과 더불어 만들어진 컬렉션을 실제 사용자의 질의와 비교하여 이 둘이 통계적으로
유사(indistinguishable)하다는 것을 증명하고 있습니다. 물론 이렇게 만들어진 컬렉션이 실제 사용자가 사용하는
데스크톱의 검색 환경과 동일하지는 않을 것입니다. 하지만 연구자들간에 공유가 가능하며(reusable) 다양한 특성을 갖는
테스트 컬렉션을 자동으로 생성할 수 있다는 장정이 이러한 한계를 상쇄할 것입니다.&lt;/p&gt;
&lt;p&gt;향후 과제로서 이렇게 자동 생성된 컬렉션에서의 실험 결과와 실제 데스크톱에서의 실험 결과를 비교해보는 일을 들 수
있습니다. 또한 요즘 개인 정보가 데스크톱보다는 각종 웹 서비스에 흩어져 있는 경우가 많기에 이를 모두 아우르는 검색 기술을
개발하는 것도 재미있을 것 같군요.&lt;br /&gt;
&lt;/p&gt;
&lt;p&gt;컨퍼런스는 홍콩에서 11/2~11/6일에 있으며, 돌아가는 길에 한국에 들를 생각입니다. 전화와 블로그로만 뵙던 그리운 분들을 직접 뵙는다고 생각하니 설레는군요.&lt;/p&gt;
&lt;p&gt;참조 : &lt;a title="[http://lifidea.wordpress.com/2009/09/02/retrieval-experiments-in-pseudo-desktop-collections/]로 이동합니다." target="_blank" href="http://lifidea.wordpress.com/2009/09/02/retrieval-experiments-in-pseudo-desktop-collections/"&gt;영문 포스팅&lt;/a&gt;&lt;br /&gt;
&lt;/p&gt;</description>
			<category>Research</category>
			<author>lifidea</author>
			<guid isPermaLink="false">http://lifidea.tistory.com/65</guid>
			<comments>http://lifidea.tistory.com/entry/%EB%91%90%EB%B2%88%EC%A7%B8-%EB%85%BC%EB%AC%B8-%EB%8D%B0%EC%8A%A4%ED%81%AC%ED%86%B1-%EA%B2%80%EC%83%89%EC%9D%98-%EC%83%88%EB%A1%9C%EC%9A%B4-%EC%97%B0%EA%B5%AC-%EB%AA%A8%EB%8D%B8#entry65comment</comments>
			<pubDate>Mon, 03 Aug 2009 12:11:00 +0900</pubDate>
		<feedburner:origLink>http://lifidea.tistory.com/65</feedburner:origLink></item>
		<item>
			<title>첫 컨퍼런스 - ECIR (유럽 정보검색학회) 후기</title>
			<link>http://feedproxy.google.com/~r/lifidea/~3/3RxvxVK5ELc/64</link>
			<description>&lt;p&gt;한때 지금과 같은 형태의 컨퍼런스가 사라질 것이라고 생각한 적이 있었습니다. 모든 분야의 최신 정보가 실시간으로 전파되며
그 수단 역시 텍스트 위주에서 비디오 등으로 다양화되는 요즈음, 왜 굳이 몇달 전부터 논문을 준비하여 심사를 받고, 막대한
비용을 들여가며 만나야 하는지 이해할 수 없었습니다. 사람들이 조금만 더 합리적으로 생각한다면 번거로운 컨퍼런스 대신 발표
동영상을 올리고 실시간으로 comment를 받는 식으로 바뀌리라는 상상을 하기도 했습니다.&lt;/p&gt;
&lt;p&gt;첫 컨퍼런스인 &lt;a href="http://ecir09.irit.fr/"&gt;ECIR에&lt;/a&gt; 참석하고 나서야 이것이 얼마나
단견이었는지를 느꼈습니다. 컨퍼런스는 정보와 지식만큼이나 관계 형성과 감정의 교류를 위한 장이라는 깨달음을 얻었기 때문입니다.
공부는 인터넷으로도 할 수도 있지만, 지구 저편에서 온 연구자와 공감할 때 느껴지는 쾌감을 얻을 수는 없으니까요.&lt;/p&gt;
&lt;p&gt;첫번째 가르침은 의외의 곳에서 찾아왔습니다. 도착한 첫날, 여정을 풀고 숙소 주변을 둘러보고 있는데, 누군가 제 이름을 불러서 돌아보니 &lt;a href="http://ciir.cs.umass.edu/personnel/croft.html"&gt;지도교수님께서&lt;/a&gt;
야외 테이블에서 맥주를 한잔 하고 계셨습니다. 반가운 마음에 자리에 앉아 한참 대화를 나누다가 “첫 컨퍼런스를 성공적으로 보내는
방법은 무엇입니까?”라는 질문을 드렸습니다. 교수님께서는 잠시 생각하시더니 뜻밖에도 “최대한 사람들을 많이 만날 것, 그리고
마음이 맞는 사람들과 깊이있는 대화를 나눌 것”이라고 말씀하셨습니다. 그때는 ’지식’보다 ’사람’을 강조하시는 점을 의아하게
생각했지만 며칠이 지나서 그 뜻을 알 수 있었습니다.&lt;/p&gt;
&lt;p&gt;둘째날 튜토리얼과 웍샵이 있었고 저는 Interactive IR Workshop과 Information Extraction
Tutorial에 참석했습니다. 논문으로만 접하던 학자들의 발표도 발표였지만, 연구자들이 모인 자리인지라 즉석에서 생동감있는
토론이 벌어지는 것이 인상적이었습니다. 저녁에는 참석자들과 근처의 Bar에 가서 한밤중까지 많은 이야기를 나누었습니다.
University of Glasgow를 비롯한 유럽 각지에서 온 사람들이라, 미국의 대학원 생활 그리고 한국에 대해 많은
관심을 나타냈습니다. 첫 만남이었음에도 연구자라는 공통점 떄문인지 금방 친해질 수 있었습니다.&lt;/p&gt;
&lt;p&gt;그 다음날 지도교수님의 기조연설을 시작으로 본행사가 시작되었습니다. &lt;a href="http://ecir09.irit.fr/content/query-evolution-france.pdf"&gt;Query Evolution이라는&lt;/a&gt;
주제의 연설은 지금까지 키워드 처리에 중점을 맞추어 개발된 검색엔진이 좀더 자연어에 가까운 길고 복잡한 질의어를 다룰 수 있어야
한다는 요지의 발표였습니다. 이어진 논문 발표를 들으면서 많은 발표자들이 30분이라는 제한된 시간에 지나치게 많은 내용을
전달하려고 한다는 인상을 받았습니다. 저녁에 숙소에 돌아와서는 &lt;a href="http://lifidea.com/file/ecir_slide_jykim.pdf"&gt;슬라이드의&lt;/a&gt; 불필요한 문장과 내용은 모두 빼고 최종 연습을 했습니다. Glasgow에서 온 친구들이 연습 발표를 지켜봐주어 많은 도움이 되었습니다.&lt;/p&gt;
&lt;p&gt;드디어 발표날, 수차례의 연습 덕인지 발표가 가까워질수록 마음이 편해지면서 자신이 생겨 실제 발표는 즐겁고 편안하게 할 수
있었습니다. 발표 직후에 ‘단순하면서도 활용도가 높은 연구였다’, ‘알아듣기 쉬웠다’는 comment를 받으며 보람을
느꼈습니다. 특히, 검색학회의 원로이자 Microsoft Research Cambridge의 책임자인 Stephen
Robertson경 등을 비롯하여 존경하는 연구자들이 많이 참석한 자리라 더욱 기뻤습니다.&lt;/p&gt;
&lt;p&gt;발표를 마치고는 좀더 편한 마음으로 남은 일정에 임할 수 있었습니다. 그제서야 봄을 맞은 남프랑스의 아름다운 정경이 눈에
들어왔습니다. 컨퍼런스를 마치고는 이틀 정도 파리에 머물며, 루브르 박물관, 퐁피두 센터, 피카소 박물관 그리고 몽마르트 언덕
등을 주마간산으로나마 돌아보았습니다. 궁금하신 분들을 위해 &lt;a href="http://picasaweb.google.co.kr/myleo.jerry/200904ECIRParis"&gt;웹 겔러리에&lt;/a&gt; 사진을 올렸습니다.&lt;/p&gt;
&lt;p&gt;긴장도 많이 했고 시행착오도 있었지만, &lt;span class="caps"&gt;ECIR&lt;/span&gt; 참석은 평생 잊을 수 없는
기억이 될 것 같습니다. Amherst에서 고민하면서 작업할 때에는 보잘것없이 여겨지던 작업이지만, 이렇게 세계 각국의 학자들과
교감을 할 수 있는 발판이 되었다는 사실이 놀랍기만 합니다. “자신이 선택한 길을 최선을 다해 걸어갈 때, 그 길의 끝에서
세상을 만날 수 있다”는 구본형 선생님의 책 한구절이 떠오릅니다.&lt;/p&gt;</description>
			<category>유학생활</category>
			<author>lifidea</author>
			<guid isPermaLink="false">http://lifidea.tistory.com/64</guid>
			<comments>http://lifidea.tistory.com/entry/%EC%B2%AB-%EC%BB%A8%ED%8D%BC%EB%9F%B0%EC%8A%A4-ECIR-%EC%9C%A0%EB%9F%BD-%EC%A0%95%EB%B3%B4%EA%B2%80%EC%83%89%ED%95%99%ED%9A%8C-%ED%9B%84%EA%B8%B0#entry64comment</comments>
			<pubDate>Sun, 03 May 2009 12:10:00 +0900</pubDate>
		<feedburner:origLink>http://lifidea.tistory.com/64</feedburner:origLink></item>
		<item>
			<title>첫 논문 - 좋아하는 영화를 찾아주는 검색 기법은?</title>
			<link>http://feedproxy.google.com/~r/lifidea/~3/gK4GRkxUWHQ/63</link>
			<description>&lt;p&gt;이번 달에 첫 논문 &lt;a href="http://ciir-publications.cs.umass.edu/pub/web/getpdf.php?id=861"&gt;A Probabilistic Retrieval Model for Semistructured Data&lt;/a&gt; 을 발표하러 프랑스 툴루즈에서 열리는 &lt;a href="http://ecir09.irit.fr/"&gt;&lt;span class="caps"&gt;ECIR&lt;/span&gt;&lt;/a&gt; (유럽 정보검색 학회)에 다녀왔습니다. ‘첫’ 기억은 항상 소중하지만, 연구자에게 첫 논문이 주는 감회는 남다른 것 같습니다.&lt;/p&gt;
&lt;p&gt;이번 작업은 굉장히 단순한 관찰에서 시작되었습니다. ‘감독’, ‘배우’, ‘제목’ 등의 정보가 항목(element or field)별로 기록된 문서(&lt;span class="caps"&gt;XML&lt;/span&gt;
or Database record)를 생각해봅시다. 저의 착안점은 이런 종류의 구조화된 데이터베이스를 검색하는 사용자의 질의어는
문서의 각 항목에 매핑(mapping)될 수 있다는 것입니다. 예를 들어 ‘meg ryan romance’라는 질의어에 대해서
문서를 평가할 때 ’meg’과 ’ryan’은 배우의 이름이고, ’romance’는 장르일 것이라는 것을 어렵지않게 알 수
있습니다.&lt;/p&gt;
&lt;p&gt;더 중요한 것은 이러한 매핑을 간단한 (그리고 효율적인) 분류(bayesian classification) 알고리즘을 통해
찾을 수 있으며, 이 관계를 바로 검색 결과를 향상시킬 수 있다는 사실입니다. 앞의 예제를 계속 살펴보면 질의어 ’meg’과
’ryan’에 대해서는 ‘배우’ 항목에 더 큰 가중치를 부여하고, ’romance’에 대해서는는 ’장르’에 더 큰 가중치를
부여하는 것입니다. 또한 이렇게 계산된 가중치는 기존 language modeling 검색 모델에 자연스럽게 통합됩니다.&lt;/p&gt;
&lt;p&gt;이렇게 각 질의어에 대해 적절한 문서의 항목을 찾고 이를 검색 모델의 항목별 가중치로 활용하는 기법은 문서를
통째로(bag-of-words) 처리하거나 각 항목에 대해 고정된 가중치를 부어햐는 기법에 비해 훨씬 나은 성능(20~30%
향상)을 보입니다. 예컨대 영화 문서를 찾는 데에는 “’제목’이 ’줄거리’보다 2배 더 중요하다”고 일괄적으로 단정짓기보다는 각
질의어(query-term)에 대해 적절한 항목을 찾아주는 것이 효과적이라는 거죠.&lt;/p&gt;
&lt;p&gt;논문에서는 영화(&lt;span class="caps"&gt;IMDB&lt;/span&gt;)와 이력서(Monster.com) 데이터베이스를 사용한 실험을 소개했지만, 대부분의 웹 서비스가 이렇게 구조화된 형태로 데이터를 보관하며 웹 문서를 구조화하려는 &lt;span class="caps"&gt;XML&lt;/span&gt;, Semantic Web등의 움직임을 미루어볼때 이러한 알고리즘의 쓰임새는 점점 넓어질 것입니다.&lt;/p&gt;
&lt;p&gt;이번 연구를 통해 느낀 것은 꼭 복잡한 기법이 더 가치있는 것은 아니며, 나은 성능을 가져다주는 것도 아니라는 점입니다.
오히려 직관적이며 어쩌면 너무나 당연해 보이는 모델이 놀랄만큼 좋은 결과를 나타낼 수 있다는 생각을 했습니다. 인간의 편단
과정을 흉내내려는 검색 연구에 있어서 어쩌면 너무나 당연한 일일까요?&lt;/p&gt;
&lt;p&gt;P.S. 더 자세한 정보는 &lt;a target="" href="http://lifidea.wordpress.com/2009/08/25/how-would-you-search-for-your-favorite-movie/"&gt;영문 포스팅&lt;/a&gt; 과 &lt;a href="http://lifidea.com/file/ecir_slide_jykim.pdf"&gt;발표 슬라이드&lt;/a&gt; 를 참조하시면 됩니다.&lt;/p&gt;</description>
			<category>Research</category>
			<author>lifidea</author>
			<guid isPermaLink="false">http://lifidea.tistory.com/63</guid>
			<comments>http://lifidea.tistory.com/entry/%EC%B2%AB-%EB%85%BC%EB%AC%B8-%EC%A2%8B%EC%95%84%ED%95%98%EB%8A%94-%EC%98%81%ED%99%94%EB%A5%BC-%EC%B0%BE%EC%95%84%EC%A3%BC%EB%8A%94-%EA%B2%80%EC%83%89-%EA%B8%B0%EB%B2%95%EC%9D%80#entry63comment</comments>
			<pubDate>Fri, 03 Apr 2009 12:08:00 +0900</pubDate>
		<feedburner:origLink>http://lifidea.tistory.com/63</feedburner:origLink></item>
		<item>
			<title>화가는 캔버스를 두려워하지 않는다</title>
			<link>http://feedproxy.google.com/~r/lifidea/~3/JbDXgzqoPhY/62</link>
			<description>&lt;p&gt;‘화가는 캔버스를 두려워하지 않는다.’ 고흐가 동생 테오에게 보낸 편지에 적은 문구입니다. 평생 생활고에 시달리면서도
순수한 예술혼을 불태웠던 그가 텅 빈 캔버스를 응시하며 중얼거리는 모습이 떠오릅니다. 요즘 들어 스스로 자주 되뇌이는 말이기도
합니다.&lt;/p&gt;
&lt;p&gt;처음 유학을 결심했을 때, 항상 자기 분야의 최전방(state-of-the-art)에서 변화를 접하고 이에 나아가 미래를
열어가는 일에 한몫 거들 수 있다는 점이 연구자의 길을 선택하는 가장 큰 동기였습니다. 매일 새벽별을 보며 돌아오는 생활을
하더라도, 자신이 선택한 길을 가는 여정이라면 차라리 아름다울 것이라는 낭만에 젖어 있었습니다.&lt;/p&gt;
&lt;p&gt;하지만 유학 생활을 시작한 지 1년 반이 지나고, 새로운 일과 생활에 대한 환상에서도 벗어난 요즘, 연구자라는 진로, 그리고 항상 무언가를 만들어는 직업에 종사한다는 것에 대해 종종 생각하게 됩니다.&lt;/p&gt;
&lt;p&gt;우선 밝은 면을 생각해봅시다. 어린시절 찰흙이나 레고 블럭으로 무언가를 만들면서 시간가는 줄 몰랐던 것을 생각해보면 창조는 본질적으로 즐거운 일이 아닌가 합니다. 생산성 및 창의성에 대한 고찰이 돋보이는 책 &lt;a href="http://www.amazon.com/Flow-Psychology-Experience-Mihaly-Csikszentmihalyi/dp/0060920432"&gt;Flow – the psychology of optimal experience에도&lt;/a&gt; 정상급의 학자나 예술가들은 창의적인 작업 도중 종종 무아지경에 빠진다는 이야기가 나옵니다.&lt;/p&gt;
&lt;p&gt;문제는 어떤 일이든 그것이 생계의 수단이 되는 순간 여러가지 제약조건을 안게 된다는 점입니다. 우선 마음의 이끌림에
의해서가 아니라 누군가(일반 대중)의 필요에 부합하는 대상을 만들어야 한다는 조건이 있습니다. 연구자라면 펀딩을 제공하는 주체나
논문을 심사하는 사람들을 염두에 두지 않을 수 없습니다. 비슷한 문제로 연구 프로젝트의 규모가 커질수록 각 구성원이 역할이
줄어들며, 이에 비례하여 개인의 주인의식이 희박해진다는 문제도 있습니다.&lt;/p&gt;
&lt;p&gt;이보다 심각한 문제는 아마도 직업으로서 지속적으로 생산물을 내야 한다는 강박관념일 것입니다. 대학원생은 졸업을 위해, 회사
연구원 및 신임 교수는 직업 유지를 위해 끊임없이 뭔가 만들어 써내고 발표해야 하기 떄문입니다. 가끔 언론에 성과에 대한 압박을
견디지 못해 극단적인 선택을 하는 연구원의 사례가 보고되며, 연구 성과 조작등의 비윤리적 사건의 배경에 이런 스트레스가
존재한다는 것을 상기해 봅시다.&lt;/p&gt;
&lt;p&gt;하지만 이러한 부담감보다 더욱 문제가 되는 것은 창작이 더이상 ’놀이’가 아니고 ’의무’가 되는 순간 무언가 만들어내기
위해 필수적인 정신적 자유를 찾기 어려워진다는 점입니다. 일단 마음이 구속을 받게되면, 생산성은 떨어지게 마련이며 이 점이 더
큰 부담으로 돌아오는 악순환이 시작됩니다.&lt;/p&gt;
&lt;p&gt;따라서 창작을 업으로 하는 사람에게는 일 자체에서 보상을 찾으며 성과에는 초연한 태도가 필요할 겁니다. 현직에서 왕성한
연구 활동을 벌이는 학자들이 대부분 검소한 생활을 하며, 자신의 분야 이외에는 무관심한 것도 그런 이유인지 모르겠습니다. 거꾸로
연구 활동에서 오는 정신적 보상이 다른 일에 굳이 관심을 가질 필요가 없을 정도로 충분하다고 해석해도 될겁니다.&lt;/p&gt;
&lt;p&gt;여기 와서 힘에 부칠때마다 예전에 소프트웨어 회사에 근무하며 주어진 스펙을 코드로 옮기는 것보다 좀더 창의적인 일을 꿈꾸던 자신을 떠올립니다. 그 꿈에 한발 다가선 지금, 창작에 대한 부담을 논하는 것은 사치라는 생각도 듭니다.&lt;/p&gt;</description>
			<category>유학생활</category>
			<author>lifidea</author>
			<guid isPermaLink="false">http://lifidea.tistory.com/62</guid>
			<comments>http://lifidea.tistory.com/entry/%ED%99%94%EA%B0%80%EB%8A%94-%EC%BA%94%EB%B2%84%EC%8A%A4%EB%A5%BC-%EB%91%90%EB%A0%A4%EC%9B%8C%ED%95%98%EC%A7%80-%EC%95%8A%EB%8A%94%EB%8B%A4#entry62comment</comments>
			<pubDate>Tue, 03 Mar 2009 13:06:00 +0900</pubDate>
		<feedburner:origLink>http://lifidea.tistory.com/62</feedburner:origLink></item>
		<item>
			<title>검색 로그(Query Log)로 할 수 있는 것</title>
			<link>http://feedproxy.google.com/~r/lifidea/~3/ab8tWQU7ow0/61</link>
			<description>&lt;p&gt;웹의 발전은 정보검색(IR)이라는 분야를 도서관학의 일개 전공분야에서 최신 기술과 막대한 인력, 자원이 투입되는 거대
산업으로 바꾸어 놓았습니다. 지금도 대부분의 사람에게 웹 검색은 일상사가 되었지만, 앞으로도 위키/블로그와 같은 데이터 생산 및
공유 기술의 개발, 그리고 그에 따른 데이터의 증가에 따라 웹 검색의 수요는 계속 늘어날 것입니다.&lt;/p&gt;
&lt;p&gt;규모도 규모지만, 웹은 IR 연구자들에게 항상 새로운 과제를 제시합니다. 홈페이지 검색, 뉴스 검색, Q&amp;amp;A 검색,
블로그 검색 등은 웹이 없었다면 생기지도 않았을 IR의 세부 연구주제입니다. 새로운 형태의 웹 서비스는 고유의 검색 문제를 안고
태어난다고 해도 과언이 아닙니다. 문제만 준다면 조금 얄미울텐데, 다행히 대부분은 해결의 실마리도 따라옵니다. 웹 문서의 링크
구조를 활용하는 PageRank 알고리즘, 검색에 활용되기 시작한 태그 데이터 등이 그 사례입니다.&lt;/p&gt;
&lt;p&gt;하지만 웹의 발전이 IR연구자에게 주는 가장 귀한 선물은 역시 검색 로그(query log)가 아닐까 합니다. 사용자가
서비스에 접속하여 어떤 질의어를 입력하는지, 그리고 어떤 문서를 클릭하는지를 그대로 기록한 검색 로그에는 연구자들이 궁금해하는
검색의 비밀이 고스란히 담겨있기 때문입니다. 더 좋은 것은 이런 데이터를 거의 무제한으로 비용 없이 얻을 수 있다는 점입니다.&lt;/p&gt;
&lt;p&gt;문제는 검색 업체가 아닌 이상은 이 데이터에 접근할 수 없다는 점인데, 최근에 &lt;acronym title="Microsoft Research"&gt;&lt;span class="caps"&gt;MSR&lt;/span&gt;&lt;/acronym&gt;에서 &lt;a href="http://research.microsoft.com/users/nickcr/wscd09/"&gt;검색 로그 데이터를 선별된 연구자에게 제공하는 워크샵을&lt;/a&gt; 제안했습니다. MSN의 검색 로그 1500만건이 클릭 데이터와 같이 제공된다고 하니 흔치않은 기회인 것 같습니다.&lt;/p&gt;
&lt;p&gt;그렇다면 검색 로그로 무엇을 할 수 있을까요? 가장 단순하게는 질의어 통계를 낼 수 있을 것입니다. 네이버나 다음에서
보여주는 ‘인기 검색어’등이 그 예입니다. 또한, 사용자 활동이 세션(접속→종료)별로 기록된다는 점을 감안하면 사용자가 먼저
입력한 질의어를 가지고 다음 질의어를 예측하는 모델을 만들 수 있을 것입니다. 질의어 맞춤법 교정(query
correction)이나 관련 검색어 제안 등이 이러한 사례입니다. 이를 좀더 확장하면 &lt;a href="http://portal.acm.org/citation.cfm?doid=1277741.1277787"&gt;사용자의 검색 실력을 감지하여&lt;/a&gt; 그에 따라 적절한 처리를 해줄 수도 있습니다.&lt;/p&gt;
&lt;p&gt;&lt;a href="http://www.lifidea.com/entry/SIGIR-2008%EC%9D%98-%EA%B5%90%ED%9B%88-%EC%A7%88%EC%9D%98%EC%96%B4%EC%97%90-%EB%94%B0%EB%9D%BC-%EA%B2%80%EC%83%89-%EB%B0%A9%EC%8B%9D%EC%9D%84-%EA%B2%B0%EC%A0%95%ED%95%98%EB%9D%BC"&gt;올해 SIGIR에서&lt;/a&gt; 화제가 되었듯이, 질의어를 분류하고 군집화하여 적절한 처리를 하는 데에도 검색 로그는 필수적입니다. &lt;a href="http://trec.nist.gov/" title="TREC"&gt;트렉&lt;/a&gt; 등에서 제공하는 수십 수백건의 질의어를 갖고 의미있는 질의어 모델을 만드는 것은 상식적으로 불가능하겠죠. 또한  연구용 컬렉션(문서-질의어 모음)은 실제 검색 서비스에서 나온 데이터가 아니라는 한계도 있습니다.&lt;/p&gt;
&lt;p&gt;각 검색에에 대해 클릭된 문서가 질의어에 관련하여 옳은(relevant) 문서라고 간주하면, 대용량 검색 로그를 가지고
검색 모델(retrieval model) 자체를 학습하는 것도 가능합니다. 실제 검색 로그는 검색 서비스를 개발하고 개선하는 데
기반이 되며, 검색 모델 학습(Learning to rank)이 웹 검색의 폭발적 확산과 함께 본격적으로 연구되기 시작한 것도
우연은 아닐 겁니다. 하지만 사용자가 목록에 있는 모든 문서를 검토하고 클릭을 하는 것은 아니며, 원래 검색 의도와 다른 클릭도
있을 수 있기 때문에, 이런 방식으로 검색 로그를 활용하기 위해서는 다양한 &lt;a href="http://research.yahoo.com/node/2317"&gt;노이즈 제거 기법이&lt;/a&gt; 적용되어야 합니다.&lt;/p&gt;
&lt;p&gt;이러한 검색 로그 분석에는 대용량 데이터가 사용되기 떄문에 MapReduce 등의 대용량 병렬 처리 환경이 필요합니다. 저는 최근에 연구실에 있는 검색 로그를 학교의 Hadoop Cluster에서 분석하고 있는데, &lt;a href="http://wiki.apache.org/pig/FrontPage"&gt;Pig라는&lt;/a&gt; 환경이 MapReduce를 데이터베이스(&lt;span class="caps"&gt;RDBMS&lt;/span&gt;)처럼 편리하게 사용하도록 도와줍니다. 좀더 익숙해지면 이곳을 통해 소개하도록 하겠습니다.&lt;/p&gt;</description>
			<category>정보검색(IR)</category>
			<author>lifidea</author>
			<guid isPermaLink="false">http://lifidea.tistory.com/61</guid>
			<comments>http://lifidea.tistory.com/entry/%EA%B2%80%EC%83%89-%EB%A1%9C%EA%B7%B8Query-Log%EB%A1%9C-%ED%95%A0-%EC%88%98-%EC%9E%88%EB%8A%94-%EA%B2%83#entry61comment</comments>
			<pubDate>Tue, 03 Mar 2009 13:05:00 +0900</pubDate>
		<feedburner:origLink>http://lifidea.tistory.com/61</feedburner:origLink></item>
		<item>
			<title>Human Computation의 사업화 - 아마존 Mechanical Turk</title>
			<link>http://feedproxy.google.com/~r/lifidea/~3/yumHholxQRE/60</link>
			<description>&lt;p&gt;정보 검색, 컴퓨터 비전, 기계 번역 등 알고리즘으로 인간을 흉내내려는 인공지능 분야에서는 결국 사람이 무엇이 옳은지에
대한 판단을 내려줘야 하는 경우가 많습니다. 예를 들어 특정 질의어에 주어진 문서가 적합한지, 번역된 문서의 뜻이 원문에
충실한지 등의 판단이 이에 속합니다.&lt;/p&gt;
&lt;p&gt;이처럼 단순하지만 사람이 해야 하는 일을 게임화하여 자발적으로 하게끔 하게 만드는 것을 핵심 아이디어로 하는 연구의 &lt;a href="http://video.google.com/videoplay?docid=-8246463980976635143"&gt;동영상이&lt;/a&gt; Human Computation이라는 이름으로 화제가 된 적이 있었습니다. 그 연구의 핵심인물인 &lt;a href="http://www.cs.cmu.edu/%7Ebiglou/"&gt;Luis von Ahn은&lt;/a&gt; 그 해 미국 CS Professor Job Market의  Hottest Candidate이었다고 하죠.&lt;/p&gt;
&lt;p&gt;그때 많은 사람들이 재미있다고 생각하고 넘겼을 이 아이디어를 아마존이 사업화했습니다. 이러한 단순 작업의 노동력을 사고
파는 시장이 생긴 것입니다. 예를 들어 검색엔진 개발자가 질의어 100개와 각 질의어에 해당하는 Top100문서를 올리면 이들의
relevance를 누군가가 온라인으로 판별해주고 돈을 받는 것입니다. 실제로 얼마전에 MS에 인수된 자언어 검색 앤진 업체인 &lt;a href="http://www.google.com/search?q=powerset"&gt;PowerSet의&lt;/a&gt; 검색 결과 판별이 올라와 있군요. 물론 온라인 옥션에서처럼 일이 제대로 되었는지를 제안자가 확인하여 지불하는 시스템입니다.&lt;/p&gt;
&lt;p&gt;단순히 검색 연구자에게만 관련된 일은 아닌 것 같습니다. 지금은 이렇게 단순한 형태의 서비스지만, 앞으로 더 복잡하고 창조적인 일에 대해서도 충분히 적용될 수 있기 때문입니다. 더 나아가서는 피터 드러커나 &lt;a href="http://www.paulgraham.com/hiring.html"&gt;폴 그라함&lt;/a&gt;, &lt;a href="http://bhgoo.com/"&gt;구본형씨&lt;/a&gt; 등이 누누히 외쳐온 대로 전통적인 고용 형태가 점차 일회적이고 프로젝트 단위로 결합하여 일하는 ‘1인 기업(free agent)’의 집합으로 변화하는 신호탄이라고 해석할 수도 있지 않을까요.&lt;/p&gt;
&lt;p&gt;한 &lt;a href="http://behind-the-enemy-lines.blogspot.com/2008/08/mechanical-turk-worker-quality-and-hit.html"&gt;블로그에는&lt;/a&gt;
이곳에서 일을 수행한 사람들의 처리 속도를 분석한 자료가 올라와 있습니다. 단순 작업이라도 일정한 속도로 처리하는 사람과
들쭉날쭉한 속도를 보이는 사람이 뚜렷이 구분되며 일 간에도 난이도의 편차가 있기 때문에, 더 ‘효율적인’ 사람에게 더 어려운
일을 배정하는 알고리즘이 필요하다고 결론짓고 있군요. 효율도 효율이지만, 제가 일의 성과가 낱낱이 데이터화하고 이에 따라 다음에
할 일이 기계적으로 결정된다면 조금 우울할 것 같군요 ;)&lt;/p&gt;</description>
			<category>기술동향</category>
			<author>lifidea</author>
			<guid isPermaLink="false">http://lifidea.tistory.com/60</guid>
			<comments>http://lifidea.tistory.com/entry/Human-Computation%EC%9D%98-%EC%82%AC%EC%97%85%ED%99%94-%EC%95%84%EB%A7%88%EC%A1%B4-Mechanical-Turk#entry60comment</comments>
			<pubDate>Tue, 03 Feb 2009 13:04:00 +0900</pubDate>
		<feedburner:origLink>http://lifidea.tistory.com/60</feedburner:origLink></item>
		<item>
			<title>새로 나온 IR 교과서를 받아보고...</title>
			<link>http://feedproxy.google.com/~r/lifidea/~3/YV97vNyaaYc/58</link>
			<description>&lt;p&gt;자연어 처리(&lt;span class="caps"&gt;NLP&lt;/span&gt;)를 중심으로 관련 분야를 폭넓고 싶게 다루었던
‘Foundation of Statistical Natual Lanugage Processing(일명 주사위책)’을 기억하시는
분이 많으실 겁니다. 그 필진에 야후 리서치 책임자이신 분이 가세하여 집필한 &lt;a href="http://www.amazon.com/Introduction-Information-Retrieval-Christopher-Manning/dp/0521865719"&gt;IR책이&lt;/a&gt; 나와서 오늘 받아서 몇 챕터를 읽어보았습니다. 이미 &lt;a href="http://freesearch.pe.kr/1010"&gt;국내 블로그에&lt;/a&gt; 소개된 바 대로, 웹에 &lt;a href="http://www-csli.stanford.edu/%7Ehinrich/information-retrieval-book.html"&gt;초판이&lt;/a&gt; 꾸준히 공개되면서 널리 알려진 책입니다.&lt;/p&gt;
&lt;p&gt;사실 처음 시작하는 입장이 아니라, IR이라는 분야를 1년간 주로 논문 및 실제 연구를 통해 공부한 후에 ’교과서’로 다시
읽는 기분은 조금 남다른 데가 있습니다. 학부때처럼 ‘요걸 언제 다 읽어’가 아니라, ‘이걸 이렇게 쓰셨구나.. 그런데 이
부분은 좀 이상한데?’가 되기 때문입니다. 산 아래에서 올려다보는 아득함과, 조금 올라와서 한숨 돌리며 내려다보는 여유의
차이라고 할까요? 아직은 아득함이 압도적이지만 말입니다.&lt;/p&gt;
&lt;p&gt;이 책의 존재를 접하고 처음 들었던 의문이 있었습니다.&lt;br /&gt;
&lt;/p&gt;
&lt;blockquote&gt;&lt;br /&gt;
‘왜 IR책을 NLP연구자가 쓰는거지?’
&lt;/blockquote&gt;
&lt;p&gt;사실 1저자인 &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/indices/a-tree/m/Manning:Christopher_D=.html"&gt;Christopher D. Manning의 출판물 목록을&lt;/a&gt;
보면 IR쪽 연구는 거의 하지 않는다는 것을 알 수 있습니다. 연구 관심사를 살펴 보아도 IR은 빠져있군요. NLP와 IR이
그만큼 깊은 관련을 맺고있다는 측면에서 이해할 수도 있고, 그만큼 IR이라는 분야가 널리 각광을 받고 있다고 생각할 수도
있지만, 관련 분야의 연구자가 교과서를 쓰겠다고 나설 수 있을 정도로 아직 IR이라는 분야의 역사나 저변이 충분치 못해서라는
생각이 듭니다. 사실 DB 교과서를 OS 연구자가 쓴다는 건 말이 안 되지 않습니까.&lt;/p&gt;
&lt;p&gt;어쨌든 책을 받아들고 읽으면서 이런 우려를 상당 부분 떨쳐버릴 수 있었습니다. 정통 IR에 해당하는 인덱싱이나 검색 모델
부분, 웹 검색에 대부분의 지면이 할애되어 있고, 예전에 주사위책에 있던 Latent Semantic Indexing도 거의
새로 씌인 것 같습니다. 오히려 NLP의 색채를 지우기 위한 노력의 일환인지, 제가 관심을 가졌던 NLP와 IR의 연계 연구에
대해서는 내용이 빈약하다는 느낌을 받을 정도였습니다.&lt;/p&gt;
&lt;p&gt;하지만, 역시 본격 IR 교과서로는 미흡하다고 할만한 부분도 눈에 띕니다. 우선 지난번 책에 이어 Clustering과
Classification을 지나치게 많이 (그것도 비슷한 내용으로) 다루면서 IR의 주요 분야인 Question
Answering이나 Cross Language IR, Multimedia IR을 누락시킨 것은 이해하기 힘듭니다. 또한 정통
IR 연구의 핵심인 검색 성능 평가(evaluation)부분에서는 평가 결과의 유의성 테스트(significance test)가
전혀 다루어지지 않으며, 평가의 효율성을 높이기 위한 &lt;a href="http://portal.acm.org/citation.cfm?id=1148170.1148219&amp;amp;coll=GUIDE&amp;amp;dl=ACM,ACM&amp;amp;type=series&amp;amp;idx=1148170&amp;amp;part=Proceedings&amp;amp;WantType=Proceedings&amp;amp;title=Annual%20ACM%20Conference%20on%20Research%20and%20Development%20in%20Information%20Retrieval&amp;amp;CFID=22370424&amp;amp;CFTOK"&gt;최근 연구성과가&lt;/a&gt; 많이 누락되어 있음을 확인했습니다. (사실 이 부분은 실제 IR 연구를 하지 않고서는 깊이있게 쓰기 힘든 점이 있습니다.)&lt;/p&gt;
&lt;p&gt;검색 모델 측면에서도 거의 모든 부분에 걸쳐 Vector Space Model(&lt;span class="caps"&gt;VSM&lt;/span&gt;)
을 기준으로 설명이 이루어집니다. 단, 별도로 독립된 Language Model(LM)관련 챕터에서는 LM의 상대적 장점을
분명히 인정하고 있습니다. 작년 말 Draft에서는 좀더 LM쪽에 인색한 평가를 내렸던 점으로 미루어볼때, 그사이에 IR
연구자들의 의견을 반영한 듯 합니다. 어쨌든 이론적으로나 성능으로나 이미 학계의 대세가 된 LM 관련 내용이 부족한 것은
사실입니다. (LM과 관련된 대부분의 연구가 최근에 이루어졌다는 것은 인정합니다만)&lt;/p&gt;
&lt;p&gt;이처럼 구성 측면의 아쉬움에도 불구하고 복잡한 개념을 명쾌한 예와 간결한 문장으로 풀해내는 저자들의 능력은 이 책에서도 유감없이 발휘되고 있습니다. 조만간 &lt;a href="http://www.pearsonhighered.com/croft1epreview/"&gt;정통 IR에 더 가까운 책이&lt;/a&gt; 나오겠지만, 이 책은 앞으로도 많이 쓰일 것 같습니다. 단, IR로 밥멀이를 하시는 분이 아닌 분이라면 (특히 주사위 책을 갖고계시다면) 웹사이트에서 부분적으로 출력해 보시는 것도 좋지 않을까 하는 판단입니다.&lt;/p&gt;
&lt;p&gt;P.S. 이 책의 별명(~책)은 뭐가 될까요? 파란 색이라 물결?, 아니면 표지의 태그?&lt;/p&gt;</description>
			<category>Book</category>
			<author>lifidea</author>
			<guid isPermaLink="false">http://lifidea.tistory.com/58</guid>
			<comments>http://lifidea.tistory.com/entry/%EC%83%88%EB%A1%9C-%EB%82%98%EC%98%A8-IR-%EA%B5%90%EA%B3%BC%EC%84%9C%EB%A5%BC-%EB%B0%9B%EC%95%84%EB%B3%B4%EA%B3%A0#entry58comment</comments>
			<pubDate>Wed, 03 Dec 2008 13:01:00 +0900</pubDate>
		<feedburner:origLink>http://lifidea.tistory.com/58</feedburner:origLink></item>
		<item>
			<title>새로운 알고리즘의 성능이 훌륭한가? - 유의성 테스트</title>
			<link>http://feedproxy.google.com/~r/lifidea/~3/KSE330jyWCU/57</link>
			<description>&lt;p&gt;IR 연구를 하다 보면 매일 데이터를 접하고, 이를 통계적으로 해석하여 결론을 내리게 됩니다. 검색이 다루는 대상(문서,
질의어 등)이 불확정적인 대상이며, 검색의 목표 역시 결국에는 통계적으로 최대 다수의 사용자를 만족시키는 결과를 제공하는 것을
목표로 하기 때문입니다.&lt;/p&gt;
&lt;p&gt;하지만 저는 불행히도 통계를 정식으로 배운 적이 없기에 이런 상황에서 항상 마음 한구석에 불편함을 느꼈습니다. 하지만,
이론적 틀이 없다는 약점은 스스로 자유롭게 사고할 수 있다는 기회를 제공하나 봅니다. 배우고 연구하면서 생긴 의문을 해결하기
위해 고민하고, 주변의 자문을 구하는 동안 통계라는 것이 단순히 학문이라기보다는 세상을 바라보는 방식이라는 느낌이 들었습니다.&lt;/p&gt;
&lt;p&gt;통계적으로 세상을 바라본다는 것은 어떤 뜻일까요? 대부분의 통계 기법은 불확정적인 현상을 주어진 모델(주로 확률 분포) 중 하나에 대입하는 데에서 출발합니다. 모든 현상이 몇 안되는 분포에 들어맞으리라는 보장은 없지만, &lt;a href="http://www.lifidea.com/entry/%EB%8B%A4%EC%8B%9C-%EB%B0%B0%EC%9A%B0%EB%8A%94-%ED%99%95%EB%A5%A0%EB%A1%A0-3-%ED%99%95%EB%A5%A0%EB%B6%84%ED%8F%AC-%ED%8F%AC%EC%95%84%EC%86%A1-%EC%A7%80%EC%88%98%EB%B6%84%ED%8F%AC-%EC%A4%91%EC%8B%AC%EA%B7%B9%ED%95%9C%EC%A0%95%EB%A6%AC"&gt;중심극한정리로&lt;/a&gt; 설명되는 자연의 규칙성으로 말미암아 실제로 대부분의 현상은 정규분포로 대표되는 통계학적 모델에 부합합니다. (모델 선정이 적절한지는 그 자체로 통계학의 주요 관심사로 이를 모델비평(model criticism)이라고 합니다.)&lt;/p&gt;
&lt;p&gt;일단 현상이 모델화되면 그 다음부터는 다양한 방법으로 데이터에 대한 결론을 유도할 수 있습니다. 모델과 관찰값을 비교하여
관찰값이 모델에서 나왔을 확률을 구할수도 있고, 서로 다른 관찰값으로부터 생성된 두 모델을 비교하여 서로 유의미한 차이가
있는지를 알아볼 수도 있습니다. 물론 &lt;a href="http://en.wikipedia.org/wiki/Resampling_%28statistics%29"&gt;모델에 의존하지 않는 통계 기법도&lt;/a&gt; 존재합니다만, 이들은 좀더 폭넓은 응용법위를 갖는 반면에 데이터에 대한 가정이 적은 만큼 정확성에 있어 제약을 받습니다.&lt;/p&gt;
&lt;p&gt;이제 관심을 IR로 돌려봅시다. IR에서 내려야 하는 중요한 문제는 ‘새로운 알고리즘의 성능이 기존 알고리즘에 비해
훌륭한가?’입니다. 이는 위에서 언급한 두 모델을 비교하는 문제의 일종인데, 우선 기존 알고리즘과 새 알고리즘의 쿼리별 성능을
두 벡터의 형태로 얻고, 이 두 벡터가 하나의 분포에서 나왔다는 가설을 세우는 겁니다. 이때 세우는 가설은 우리가 증명하고자
하는 사실(새로운 알고리즘이 기존 알고리즘과 다른 분포에서 나왔다는 것)의 반대를 가정하기에 귀무가설(null
hypothesis)라고 합니다.&lt;/p&gt;
&lt;p&gt;이 과정은 두 사건(기존 알고리즘과 새 알고리즘의 성능)의 차이가 통계적으로 유의미한가(statistically
significant)를 가리는 과정이기에 유의성 테스트(significance test)라고 하며, IR시스템의 평가를 다룬 &lt;a href="http://dis.shef.ac.uk/mark/publications/my_papers/SIGIR2005.pdf"&gt;최근 논문에서는&lt;/a&gt; 알려진 방법 중에 t-test를 사용하는 것을 권장하고 있으며, 적어도 50개의 토픽(질의어)를 대상으로 유의성 테스트와 상대적인 평가 지표(&lt;span class="caps"&gt;MAP&lt;/span&gt;)에서 10% 이상의 향상이 있는 경우에만 의미있는 성능 향상이라는 결론을 내고 있습니다.&lt;/p&gt;
&lt;p&gt;통계 분석을 위해서는 주로 R이라는 패키지를 사용하는데, 이는 S라는 상용 통계 패키지의 공개
구현(implementation)으로 벡터와 행렬을 기본 데이터형으로 사용하는 등 Matlab과 유사한 형태를 띠나 좀더 통계
분석에 특화된 것으로 보입니다. R 참고문서로는 &lt;a href="http://www.mpi.nl/world/persons/private/baayen/publications/baayenCUPstats.pdf"&gt;다음 자료를&lt;/a&gt; 추천합니다. 약간 생소한 언어학(linguistics) 데이터를 사용하고는 있지만, 기본 문법부터 고급 데이터 분석까지 충실히 설명하고 있습니다.&lt;/p&gt;
&lt;h2&gt;Reference&lt;/h2&gt;
&lt;ul&gt;
&lt;li&gt;구체적인 예로 &lt;a href="http://freesearch.pe.kr/1015"&gt;이 포스팅을&lt;/a&gt; 추천합니다.&lt;/li&gt;
&lt;li&gt;좀더 자세한 설명은 다음 책의 &lt;a href="http://www.pearsonhighered.com/croft1epreview/samples.html"&gt;샘플 챕터를&lt;/a&gt; 참조하시기 바랍니다.&lt;/li&gt;
&lt;/ul&gt;</description>
			<category>정보검색(IR)</category>
			<author>lifidea</author>
			<guid isPermaLink="false">http://lifidea.tistory.com/57</guid>
			<comments>http://lifidea.tistory.com/entry/%EC%83%88%EB%A1%9C%EC%9A%B4-%EC%95%8C%EA%B3%A0%EB%A6%AC%EC%A6%98%EC%9D%98-%EC%84%B1%EB%8A%A5%EC%9D%B4-%ED%9B%8C%EB%A5%AD%ED%95%9C%EA%B0%80-%EC%9C%A0%EC%9D%98%EC%84%B1-%ED%85%8C%EC%8A%A4%ED%8A%B8#entry57comment</comments>
			<pubDate>Mon, 03 Nov 2008 13:00:00 +0900</pubDate>
		<feedburner:origLink>http://lifidea.tistory.com/57</feedburner:origLink></item>
		<item>
			<title>SIGIR 2008의 교훈 - 질의어에 따라 검색 방식을 결정하라!</title>
			<link>http://feedproxy.google.com/~r/lifidea/~3/QsdrdSzdr6Y/59</link>
			<description>&lt;p&gt;IR분야의 최고 컨퍼런스인 &lt;span class="caps"&gt;SIGIR&lt;/span&gt; 2008이 얼마전에 싱가포르에서 열렸습니다. 그 권위만큼이나 대표적인 연구자들의 최신 성과들이 집대성되기에, &lt;a href="http://www.informatik.uni-trier.de/%7Eley/db/conf/sigir/sigir2008.html"&gt;발표된 논문을&lt;/a&gt; 훑어보면 지금 IR 연구의 state-of-the-art, 그리고 앞으로의 방향까지 짐작케합니다.&lt;/p&gt;
&lt;p&gt;그중 저의 눈길을 끌었던 것은 사용자의 질의를 분류하여 적절한 검색 방식을 선택하는 주제였습니다. 어떤 쿼리가 들어오든지
정해진 검색 모델을 사용하여 랭킹을 계산하던 모델은 사용자 및 검색 의도(query intent)가 제한적이었던 시절에는
유효했을 겁니다. 하지만 거의 모든 사람이, 온갖 목적으로 검색엔진을 이용하는 요즘에는 질의어에서 속성(feature)을
추출하여 분류(classification) 혹은 군집화(clustering)하고, 이에 따른 적절한 처리를 하는것이 중요한
이슈가 되고 있습니다.&lt;/p&gt;
&lt;p&gt;이중 &lt;acronym title="Microsoft Research"&gt;&lt;span class="caps"&gt;MSR&lt;/span&gt;&lt;/acronym&gt;에서 질의어를 분석하여 가장 적합한 검색엔진으로 검색한 결과를 보여주는 주제로 &lt;a href="http://doi.acm.org/10.1145/1390334.1390344"&gt;논문이&lt;/a&gt;
나왔습니다. 여기서는 더 나은 검색엔진을 만들어도 이미 구글에 락인(lock-in)된 사용자들을 유인하기 쉽지 않은 MS의
고민이 엿보입니다. 브라우저 플러그인 형태로 만들어져 가장 좋은 검색결과가 예측되는 검색엔진을 자동 선택해주기 때문에,
검색엔진간의 자유경쟁 시대를 예고하는 잠재력을 가진 연구라고 할까요. 물론 MS에서 개발된 플러그인은 웬만하면 Live
Search를 추천하겠지만요;)&lt;/p&gt;
&lt;p&gt;또한 질의어 분석을 통해 검색 개인화(personalization) 여부를 결정하는 &lt;a href="http://doi.acm.org/10.1145/1390334.1390364"&gt;논문도&lt;/a&gt;
흥미있었습니다. 개인화가 중요한 화두임에는 분명하지만, 이를 무차별적으로 적용했을 때는 오히려 검색결과의 품질이 전반적으로
떨어진다는 점이 문제인데, 여기서는 질의어와 상위 랭크된 문서를 분석하여 개인화가 성능을 높일 것으로 예측되는 질의에만
선택적으로 적용한다는 해결책을 내놓고 있습니다. 그리고 검색 의도가 분명치 않아 다양한 종류의 결과가 나오는 질의어일수록
개인화에 의해 성능을 높일 수 있다는 분석 결과를 밝히고 있습니다. 이와 유사한 연구로 질의어를 통해
지역화(localization)여부를 결정하는 &lt;a href="http://doi.acm.org/10.1145/1390334.1390421"&gt;논문도&lt;/a&gt; 있군요.&lt;/p&gt;
&lt;p&gt;마지막으로 쿼리 분류를 랭킹 학습(Learning to Rank)에 접목시킨 &lt;a href="http://doi.acm.org/10.1145/1390334.1390356"&gt;연구도&lt;/a&gt;
눈여겨볼만 합니다. 기존 랭킹학습이 쿼리의 종류에 관계없이 단일한 랭킹 함수를 학습했다면, 여기서는 일단 기존의 질의어 집합을
K-Nearest Neighbor알고리즘으로 클러스터링하여 각 클러스터별로 랭킹을 학습한 뒤 새로 들어온 질의어에는 이와 유사한
질의어 클러스터의 랭킹 함수를 조합한 랭킹 함수를 적용한다는 아이디어입니다. 예를들어 어떤 질의에는 검색 결과의
최신성(recency)이, 다른 질의에는 권위(authority)가 중요할텐데요, 질의어를 보고 이를 예측하여 적절한 처리를
하겠다는 겁니다.&lt;/p&gt;
&lt;p&gt;해마다 SIGIR에서는 발표 논문의 소주제(예 : 웹검색, 개인화, 랭킹 학습 등등)가 10가지 정도 결정되곤 하는데, 그
주제 자체가 매년 상당수 바뀝니다. 이렇게 역동적인 분야에서 연구를 한다는 것은 분명 도전이지만 그만큼 흥미진진합니다. 무럭무럭
자라는 아이를 지켜보는 느낌이랄까요. 내년에는 그 아이의 성장에 저도 한 숟가락(?) 기여해 보렵니다.&lt;/p&gt;</description>
			<category>정보검색(IR)</category>
			<author>lifidea</author>
			<guid isPermaLink="false">http://lifidea.tistory.com/59</guid>
			<comments>http://lifidea.tistory.com/entry/SIGIR-2008%EC%9D%98-%EA%B5%90%ED%9B%88-%EC%A7%88%EC%9D%98%EC%96%B4%EC%97%90-%EB%94%B0%EB%9D%BC-%EA%B2%80%EC%83%89-%EB%B0%A9%EC%8B%9D%EC%9D%84-%EA%B2%B0%EC%A0%95%ED%95%98%EB%9D%BC#entry59comment</comments>
			<pubDate>Fri, 03 Oct 2008 12:02:00 +0900</pubDate>
		<feedburner:origLink>http://lifidea.tistory.com/59</feedburner:origLink></item>
		<item>
			<title>전문가의 시대는 끝났나</title>
			<link>http://feedproxy.google.com/~r/lifidea/~3/bzaDO-p_mAQ/56</link>
			<description>&lt;p&gt;미국에 와서 자주 보는 와이어드(Wired)즈이 이번호 특집에 &lt;a href="http://www.wired.com/science/discoveries/magazine/16-07/pb_theory"&gt;‘이론의 끝 – 데이터 홍수가 과학적 방법을 쓸모없게 만든다’는&lt;/a&gt;
글이 눈길을 끌었습니다. 글의 요지는 페타바이트(1000테라바이트)급의 데이터를 손쉽게 다루고, 여기에서 패턴을 찾아내고 결론을
유도하는 기술이 발전하게 됨에 따라, 과학적 방법론의 요체인 가설 수립 및 실험을 통한 검증 과정에서 인간의 역할이 점차
축소되고 있다는 것입니다. 예컨데 특정 개체의 염기서열을 분석하는 차원을 넘어 생태계 전체를 모델링하고, 이 모델의 성립에는
필요하나 발견되지 않은 종이 있다면 그 종의 특성을 모델로부터 예측할 수 있다는 겁니다.&lt;/p&gt;
&lt;p&gt;데이터마이닝/기계학습 기술이 일 이년된 것도 아니며, 이 기사에서 이야기하는대로 만능도 아닌데 벌써 과학의 종언을 운운하는
것은 과장(hype)으로 여겨집니다. 제가 아는 한 현재의 기술 수준은 매우 잘 정의된 문제(이진 분류, 군집화)에 대해 비교적
깨끗한(모델 특성에 맞는) 데이터를 넣어줄 경우 납득할만한(거의 인간 수준의) 성능을 보여주는 것으로 알고 있습니다. 그나마도
대부분 한번에 원하는 결과가 나오지 않아 경험자라 할지라도 상당한 시행착오를 거치게 됩니다.&lt;/p&gt;
&lt;p&gt;따라서 현실의 복잡한 문제를 나누어 각각을 적절한 알고리즘에 넣고 처리하여 결과를 종합하는 전 과정에 ’전문가’의 노하우가
필요한 것입니다. 그리고 이런 노하우의 채득은 저수준의 패턴 인식 문제를 푸는 것보다 훨씬 고도의 지적 능력을 요구합니다.
따라서 과학적 연구 프로세스를 자동화하는 것은 AI 발달 단계에서도 가장 나중에 일어날 것으로 전망되고 있죠. (이 상태를 &lt;a href="http://en.wikipedia.org/wiki/Technological_singularity"&gt;Singularity라고&lt;/a&gt; 부르는 것 같습니다만…)&lt;/p&gt;
&lt;p&gt;하지만 고도화된 데이터 처리기술이 많은 부분에서 ’전문가’의 영역을 침범하는 것은 사실입니다. 며칠전 읽은 &lt;a href="http://www.randomhouse.com/bantamdell/supercrunchers/"&gt;‘Supercrunchers’&lt;/a&gt;
라는 책에는 포도주 산지의 평년 기온 및 강수량 등이 그해 그 고장에서 생산된 와인의 평균 가격에 미치는 영향을 간단한
회귀분석(regression)을 사용하여 모델링하고, 이 모델이 결국에는 세계 최고의 와인 테이스터보다 더 정확게 포도주의
품질을 예측하게 되었다는 일화가 나옵니다. 저자는 데이터 처리기술(number-crunching)의 가능성에 대해 다음과 같이
자신있게 말합니다.&lt;/p&gt;
&lt;pre&gt;As long as you have large enough dataset, almost any decision can be crunched.&lt;br /&gt;
&lt;/pre&gt;
&lt;p&gt;자신의 전문성이 경험을 통한 ’감’의 정확성에 의존하는 경우, 조만간 컴퓨터에 자리를 내주어야 할지도 모른다는 생각입니다. 이 책에는 그밖에도 &lt;a href="http://www.true.com/default.htm"&gt;매치매이킹&lt;/a&gt;, &lt;a href="http://farecast.com/"&gt;항공기 티켓 가격 예측&lt;/a&gt; 등에 응용되는 데이터 처리기술의 다양한 사례가 소개됩니다. (번역본은 아직 없군요.)&lt;/p&gt;
&lt;p&gt;이런 기술로 인해 발생할 실업 만큼이나 걱정되는 것이 기술의 차이가 가져올 기업과 국가 경쟁력의 차이입니다. 앞서 언급한
기사에서도 소개되지만, 미국에서는 구글과 IBM에서 대학과 손을 잡고 대용량 데이터 처리 기술을 연구하고 확산시키는 프로젝트를
시작했습니다. 이미 저만치 있으면서 더 달아나려는 그들의 뒷모습이 점점 희미하게 보이는 것은 저 혼자의 느낌만은 아닐 겁니다.&lt;/p&gt;</description>
			<category>기술동향</category>
			<author>lifidea</author>
			<guid isPermaLink="false">http://lifidea.tistory.com/56</guid>
			<comments>http://lifidea.tistory.com/entry/%EC%A0%84%EB%AC%B8%EA%B0%80%EC%9D%98-%EC%8B%9C%EB%8C%80%EB%8A%94-%EB%81%9D%EB%82%AC%EB%82%98#entry56comment</comments>
			<pubDate>Fri, 03 Oct 2008 11:59:00 +0900</pubDate>
		<feedburner:origLink>http://lifidea.tistory.com/56</feedburner:origLink></item>
		<item>
			<title>정보 검색(Information Retrieval) 연구 개론</title>
			<link>http://feedproxy.google.com/~r/lifidea/~3/zRjhlFly67o/55</link>
			<description>&lt;p&gt;예전에 잠깐 &lt;a href="http://www.lifidea.com/entry/%EC%A0%95%EB%B3%B4_%EA%B2%80%EC%83%89_Information_Retrieval_%EC%97%B0%EA%B5%AC"&gt;정보 검색 연구를&lt;/a&gt; 소개한 적이 있지만, 앞으로 정보검색론(Information Retrieval이하 IR)에 대해 써볼 생각입니다. 아직 풋내기 대학원생이지만, 지난 1년간의 공부를 정리하고 앞으로의 방향을 잡아보는 차원에서 시작합니다.&lt;/p&gt;
&lt;h2&gt;IR은 웹 검색이다?&lt;/h2&gt;
&lt;p&gt;제 연구분야를 간단히 소개할 때 검색엔진을 연구한다고 말하곤 합니다. 그러면 보통 ‘검색엔진? 그거 다 연구된거 아냐?’
라는 반응을 봅니다. 사실 저도 구글 등 상업용 검색엔진을 쓰면서 불편함을 많이 느끼지 못했기에 비슷한 의문을 가졌습니다.&lt;/p&gt;
&lt;p&gt;하지만 IR은 단순히 웹 문서의 검색을 연구하는 것이 아닙니다. IR은 좀더 넓은 의미에서 사용자의 정보
욕구(information needs)를 만족시키는 정보물(information object)를 찾아주는 것을 목표로 하기
때문입니다. 웹 문서 검색이 가장 잘 알려진 분야인 것은 사실이지만, 우리가 ‘아 그게 뭐지?’, 혹은 ‘아 그것이 어디
있을까?’라고 궁금해 하는 순간순간이 모두 IR연구자들이 해결하고자 하는 문제인 것입니다. 실제 세상의 모든 유무형의 사물은
정보의 형태로 표현될 수 있으며, 이들 정보물의 양에 비해 사람의 인지능력은 항상 턱없이 부족하기에 검색 연구는 앞으로도 계속될
것입니다.&lt;/p&gt;
&lt;p&gt;흔히 우리가 보는 웹 검색, 질문과 답변을 찾는 지식 검색, 뉴스 검색, 이미지와 비디오 검색, 지도와 전화번호 검색
이외에도 어떤 분야의 전문가를 찾아주는 전문가 검색, 도서 검색, 음악 검색, 제품 검색 등 검색의 대상에는 제한이 없습니다.
또한 현재 연구중인 &lt;a href="http://en.wikipedia.org/wiki/RFID"&gt;&lt;span class="caps"&gt;RFID&lt;/span&gt;&lt;/a&gt; 기술 등이 보편화되어 세상의 모든 물체에 센서가 달리게 되면 실제 사물역시 검색의 대상이 될 수 있겠습니다.&lt;/p&gt;
&lt;p&gt;검색의 방식 측면에서도 한국어로 검색어를 입력했을 떄 적절한 영어 문서를 찾아주는 교차어 검색(cross-language
IR)이나 키워드가 아닌 질문 형태의 검색어를 받아 적절한 답(문서가 아닌)을 구해주는 질의 응답(question
answering – 컴퓨터가 답변해주는 지식인이라고 생각하시면 됩니다.), 여러 곳에 나누어진 정보를 모아서 검색해주는 분산
검색(distributed IR) 역시 검색의 세부 분야로 연구되고 있습니다.&lt;/p&gt;
&lt;h2&gt;무엇을 어떻게 연구하나?&lt;/h2&gt;
&lt;p&gt;검색을 연구한다면 정확히 뭘 하는지 궁금하실 겁니다. 우선 사용자의 정보욕구는 검색어(query) 형태로 표현되기 때문에,
질의어를 분석하는 것이 필요합니다. 질의어에서 어구(phrase)나 사람 이름 등의 고유명사를 추출하기도 하고, 질의어에서
단어를 빼거나 추가하면 검색 결과가 좋아지는 경우가 많은데 관련된 기술을 질의어 확장(query expansion)이라고 합니다.&lt;/p&gt;
&lt;p&gt;질의어가 분석되었다면 정보물(여기서는 문서를 가정)을 분석해야 할 것입니다. 문서는 미리 색인화(indexing)를 거쳐
속성 집합(feature set) 형태로 표현되는데, 이 속성에는 문서에 포함된 단어나 어구, 문서의 인기도나 최선성 등의 관련
정보가 모두 포함됩니다. 어떤 속성(feature)를 검색에 사용하느냐가 검색 성능을 좌우하기 때문에 검색회사나 연구자들은
검색에 도움이 되는 속성을 개발하느라 열심입니다. 상업용 검색엔진에는 수천개의 속성이 사용되고 있으며, 지금도 계속 추가된다고
하는군요!&lt;/p&gt;
&lt;p&gt;질의어와 문서가 분석되고 나면 이를 비교해서 관련성(relevance)이 높은 문서 순으로 정렬해야 할 것입니다. 이를
위해 각 문서에 점수를 매기는데, 이때 사용되는 수식이 검색 모델입니다. 검색모델은 기본적으로 검색어와 문서의
유사성(textual similarity) 및 문서의 품질 등을 종합적으로 고려하여 순위를 매기는데, 검색어와 문서를 벡터로
놓고 비교하는 방법, 문서를 확률 변수로 보는 방법 등이 있지만 어느 모델이 더 우월한지는 결론이 나지 않은 상황입니다.
최근에는 각 속성간의 중요도를 자동으로 결정하는 &lt;a href="http://www.lifidea.com/entry/%EA%B5%AD%EB%82%B4-%EC%9D%B8%ED%84%B0%EB%84%B7-%EC%84%9C%EB%B9%84%EC%8A%A4%EC%9D%98-%EC%83%9D%EC%A1%B4%EB%B0%A9%EC%A0%95%EC%8B%9D"&gt;기계학습 기반의&lt;/a&gt; 방법이 개발되어 널리 사용되고 있습니다.&lt;/p&gt;
&lt;p&gt;검색 결과가 나온 다음에는 이를 평가해야 할 것입니다. 제가 검색 연구를 시작하기 전에 가장 궁금했던 부분인데, 결국에는
사람이 판단해준 결과를 바탕으로 검색 품질을 점수화하는 것이었습니다. 예컨데, 상위 10개 문서중 7개가 관련성이 있다면
0.7점을 주는 식이죠. 언뜻 간단하게 보이지만, 이 과정에는 비용도 많이 들어가고 고려해야 할 점이 많기에 검색 결과의 평가는
검색 연구의 중요한 축을 형성하고 있습니다.&lt;/p&gt;
&lt;h2&gt;아직 궁금하다면…&lt;/h2&gt;
&lt;p&gt;검색을 다루는 글이니만큼 참고자료도 ‘정보검색’ 이라는 키워드를 사용한 &lt;a href="http://www.google.com/search?q=information%20retrieval"&gt;검색결과로&lt;/a&gt; 제공하겠습니다;) 목록을 보시면 위키피디아 페이지, 책 등의 자료가 첫페이지에 있는 것을 보실 수 있습니다. 저희학교 정보검색 수업 홈페이지도 있군요.&lt;/p&gt;</description>
			<category>정보검색(IR)</category>
			<author>lifidea</author>
			<guid isPermaLink="false">http://lifidea.tistory.com/55</guid>
			<comments>http://lifidea.tistory.com/entry/%EC%A0%95%EB%B3%B4-%EA%B2%80%EC%83%89Information-Retrieval-%EC%97%B0%EA%B5%AC-%EA%B0%9C%EB%A1%A0#entry55comment</comments>
			<pubDate>Wed, 03 Sep 2008 11:58:00 +0900</pubDate>
		<feedburner:origLink>http://lifidea.tistory.com/55</feedburner:origLink></item>
		<item>
			<title>국내 인터넷 서비스의 생존방정식</title>
			<link>http://feedproxy.google.com/~r/lifidea/~3/W9HbqN4mUf4/54</link>
			<description>&lt;p&gt;오늘 국내 포탈에서 검색과 관련된 일을 하시는 분을 뵈었습니다. 검색을 학문으로 공부하는 입장에서 현업 종사자의 생생한
경험을 들을 수 있는 기회였습니다. 보안상 구체적인 사항을 언급할 수는 없지만, 아직 우리나라 웹 서비스 회사의 기술적인 수준은
세계 수준과 상당한 격차가 있다는 생각이 들었습니다.&lt;/p&gt;
&lt;p&gt;우선 검색 모델 개발 및 개선 절차가 체계화되어야 된다는 생각이 들었습니다. 흔히들 구글 검색이 검색어 매칭과
PageRank만을 기반으로 하는 것처럼 생각하시지만, 실제로는 수천개의 Feature가 정교하게 결합된 결과압니다. 이렇게
Feature의 개수가 많아질수록, 각 Feature의 결합은 각각이 검색 결과의 품질에 미치는 영향에 대한 엄밀한 분석을
바탕으로 해야 할 것입니다.&lt;/p&gt;
&lt;p&gt;최근 학계에서 각광받고 있는 &lt;a href="http://www.google.com/search?q=learning%20to%20rank"&gt;Learning to Rank&lt;/a&gt;
와 같은 기법을 사용하면 사용자의 클릭 등을 바탕으로 최적의 랭킹을 위한 주어진 Feature의 결합 가중치를 자동으로 학습할
수 있습니다. 지속적으로 검색 품질을 모니터링하고, 위와 같은 기법을 활용하여 주어진 Feature에서 최선의 결과를 끌어낼 수
있도록 해야 할 것입니다.&lt;/p&gt;
&lt;p&gt;물론 위와 같은 기법의 활용을 위해서는 구글의 MapReduce, 야후!의 Hadoop과 같은 컴퓨팅 클러스터가 구축되어야 할 것입니다. 구글에서 나온 &lt;a href="http://research.google.com/pubs/papers.html#category7"&gt;최근 논문&lt;/a&gt;
을 보면 구글이 활용하는 자동화된 알고리즘은 대부분 MapReduce연산의 반복으로 구현된다는 것을 알 수 있습니다. 구글이나
야후가 전세계를 상대로 인터넷 서비스를 제공할 수 있는 데에는 이와 같은 기본기가 바탕이 되는 것입니다.&lt;/p&gt;
&lt;p&gt;아직 국내 인터넷 서비스는 토종 포털이 압도하고 있지만, 자동화된 알고리즘과 이를 뒷받침하는 컴퓨팅 파워를 갖춘 구글 등의
공세가 만만치 않을 것입니다. 국내 업체는 현지화를 강점으로 내세우고 있지만, 구글 등은 현지화를 넘어 모든 서비스의 &lt;a href="http://portal.acm.org/citation.cfm?doid=1242572.1242610"&gt;개인화&lt;/a&gt; 에 도전하고 있습니다. 그것도 사람이 전혀 관여할 필요가 없는 방식으로 말입니다. 한국인 모두를 대상으로 최적화된 랭킹과 자신만을 위한 랭킹 중 어떤 것을 선택하시겠습니까.&lt;/p&gt;
&lt;p&gt;이에 더 나아가 외국 업체들은 국경 없는 서비스 제공을 위한 기반 기술 개발에도 열심입니다. 구글이 막대한 투자를 아끼지 않고 있는 &lt;a href="http://googleresearch.blogspot.com/2006/04/statistical-machine-translation-live.html"&gt;기계번역&lt;/a&gt; 기술이 어느 수준에 다다르는 순간, 각국 인터넷 업체와 구글간의 힘의 균형이 무너질 것이라는 예측은 지나친가요?&lt;/p&gt;</description>
			<category>기술동향</category>
			<author>lifidea</author>
			<guid isPermaLink="false">http://lifidea.tistory.com/54</guid>
			<comments>http://lifidea.tistory.com/entry/%EA%B5%AD%EB%82%B4-%EC%9D%B8%ED%84%B0%EB%84%B7-%EC%84%9C%EB%B9%84%EC%8A%A4%EC%9D%98-%EC%83%9D%EC%A1%B4%EB%B0%A9%EC%A0%95%EC%8B%9D#entry54comment</comments>
			<pubDate>Tue, 03 Jun 2008 11:56:00 +0900</pubDate>
		<feedburner:origLink>http://lifidea.tistory.com/54</feedburner:origLink></item>
		<item>
			<title>고3과 대학원</title>
			<link>http://feedproxy.google.com/~r/lifidea/~3/XUPytIsKeWs/53</link>
			<description>&lt;p&gt;대학원에 진학하며 생각한 것 중 하나가 ‘고3때 처럼만’ 이었다. 부끄럽게도 스스로 가장 치열하게 살았다고 기억되는 때가
고3이였던 까닭이다. 아침 자율학습을 시작으로 야간 자율학습까지 마치고 그것도 모자라 도서관까지 갖다 집에 오던 날도, 공부가
잘 되던 날은 그렇게 행복할 수가 없었다. 원하는 것을 분명히 알았고, 그것을 향해 한걸음씩 다가가고 있다고 확신했기 때문일까.&lt;/p&gt;
&lt;p&gt;어른이 되어 원하는 전공(전자)을 선택했지만 생각만큼 몰입할 수 없었고, 전공 공부보다 인생 공부에 관심이 많았던 학부
생활을 거쳤다. 그 후 정말 이거다 싶은 분야를 찾아 시작한 대학원 생활을 고3의 각오로 시작하는 것은 자연스러운 것이었다.&lt;/p&gt;
&lt;p&gt;대학원과 고3은 비슷한 점도 많다. 깨어있는 시간의 대부분을 쏟아 넣어야 하고, 끊임없이 한계를 시험함으로써 스스로를 키워야 한다. 성과에 대한 엄밀하고 끊임없는 피드백(모의고사, 논문)이 주어진다는 점도 같다.&lt;/p&gt;
&lt;p&gt;하지만 몇달이 지난 지금, 고3처럼 대학원 생활을 해서는 절대 성공할 수 없다는 생각이 든다. 심지어 고3 생활을 겪어내며
생긴 사고방식과 습관이 대학원 공부를 하는 데 장애가 된다고까지 느껴진다. 고3과 대학원은 전혀 다른 게임이라는 생각이 강하게
들기 때문이다.&lt;/p&gt;
&lt;p&gt;고3은 대학에 가기 위해 공부를 한다. 좀더 구체적으로 잘 정리된 교과서와 참고서를 반복 숙달하며, (과외) 선생님이 떠
먹여주기도 한다. 공부에 대한 주된 동기는 주로 부모님과 선생님에게서 나온다. 이 게임에서 성공하는 학생은 현재보다는 미래를
바라보고 주변의 기대에 부응하기 위해서 스스로를 통제하고 주어진 일을 묵묵히 해나가는 방법을 배운다. 교과서를 감히 의심하거나,
그 이상을 알려는 것은 비효율적인 일이다. 시험 점수를 받을 수만 있다면 무턱대고 외워도 되기 때문이다. 출제 경향을 짚어
전과목에 적절한 시간을 배분하고, 빠른 시간에 정확하게 답을 골라내는 것이 핵심 기술이다.&lt;/p&gt;
&lt;p&gt;대학원은 이와 다르다. 여기서는 자신의 선택으로, 스스로 정의하고 발견해 나가는 공부를 한다. 또한 이해의 깊이가 핵심이기
때문에 ‘전과목에서 고른 성적’을 받는 것은 별 의미가 없다. 끊임없이 묻고, 가설을 세우고, 이를 검증하여 이론을 만들고,
나아가 다른 사람에게 이해시키는 것이 능력이다.&lt;/p&gt;
&lt;p&gt;지나친 이상론이라고 생각할지도 모른다. 실제로 많은 대학원생들이 자신보다는 지도교수에 의해 주어지는 일을 하지 않냐고,
대부분의 경우 그저 때맞춰 졸업하여 그럴듯한 곳에 자리잡는 것이 목표 아니냐고 말이다. 어쩌면 그럴지도 모르겠다. 나도 여기
오기 전에는 비슷한 생각을 했으니 말이다. 물론 원하는 공부를 한다는 핵심 동기가 있었지만, 주변에서 ‘눈 딱감고 5년만 버티면
된다’는 말을 들어도 별 거부감이 없었다. 고3때처럼 ‘밝은 미래’를 떠올리며 현재의 고통을 감내하면 될 줄 알았다.&lt;/p&gt;
&lt;p&gt;여기 와서도 처음에는 그렇게 스스로를 채찍질했던 것 같다. 아침에 일어나서 어려운 수학책을 진도에 맞춰 읽기도 했고, 일년
내에 첫 논문을 쓰겠다고 랩에서 연구 주제를 붙잡고 늦게까지 있어보기도 했다. 하지만 이는 오래 가지 못했다. 고통도
고통이었지만, 무엇보다도 그렇게 해서 될 일이 아니라는 생각이 들었다. 목적했던 공부도 제대로 되지 않았고, 연구 자체도 뭔가
꽉 막힌 느낌이었다.&lt;/p&gt;
&lt;p&gt;몇달이라면 가능했을지도 모른다. 익숙한 환경에서 부모님의 보호를 받는 상황이라면 좀더 쉬웠을 것이다. 하지만, 타국에서
혼자 수년을 그렇게 보낼 수는 없는 일이었다. 그것도 인생의 황금기에 말이다. 설사 가능하더라도 내가 원하는 삶의 모습과는
거리가 멀었다.&lt;/p&gt;
&lt;p&gt;그제서야 깨달았다. 대학원 생활은 고3처럼 해서 되는 것이 아니라는 것을. 스스로가 중심이 되지 못하고 공부를 수단으로
전락시켜서는 새로운 발견을 가능케하는 깊이에 도달할 수 없다는 것을, 창조에 필요한 에너지는 대상에 대한 순수한 호기심에서
나온다는 것, 무엇보다도 그렇게 하지 않고서는 지속할 수 없다는 것을 말이다. 정해진 목표에 스스로를 얽매기보다는, 자신의
분야에 푹 빠져 스폰지처럼 지식을 흡수하고 미지의 영역을 개척하는 자유를 만끽해야 하는 것이다.&lt;/p&gt;
&lt;p&gt;그렇게 마음을 고쳐먹고 공부할 내용을 해치워야 하는 정복의 대상으로 바라보기보다는 마음 깊은 곳에서 받아들이려고 노력했다.
시험만 끝나면 다 잊어버려도 되는 것이 아니라, 평생을 벗삼고 키워가야 할 지식이니 말이다. 그제서야 외계어처럼 보이던 책들이
친근하게 다가왔다. 논문을 써야 한다는 강박관념을 버리고서야 주제에 대한 새로운 시각이 보이기 시작했다.&lt;/p&gt;
&lt;p&gt;물론 이는 말처럼 간단한 일이 아니다. 어리고 예민했던 시절에 각인된 습관을 버리는 일이니 말이다. 심지어 고3 생활을
지나치게(?) 열심히 했던 자신이 원망스럽기까지 했다. 하지만 아직도 20대, 스스로 선택한 길이 나를 올바른 방향으로 이끌고
있으니 다행이라고 해야 할까.&lt;/p&gt;
&lt;p&gt;소년들은 야망을 가져야 된다고 하지만, 대학원생은 야망을 버려야 할 것 같다. ’야망’이 상징하는 세속적 가치가 눈이
들어오는 순간 연구자로서의 눈은 멀게 되니 말이다. 다만 물살을 거슬러 올라가는 듯한 지금의 숨가쁨이 훗날 대양을
주유(周遊)하는 돌고래의 해방감으로 바뀌기를 바랄 뿐이다.&lt;/p&gt;</description>
			<category>Essay</category>
			<author>lifidea</author>
			<guid isPermaLink="false">http://lifidea.tistory.com/53</guid>
			<comments>http://lifidea.tistory.com/entry/%EA%B3%A03%EA%B3%BC-%EB%8C%80%ED%95%99%EC%9B%90#entry53comment</comments>
			<pubDate>Sun, 03 Feb 2008 12:53:00 +0900</pubDate>
		<feedburner:origLink>http://lifidea.tistory.com/53</feedburner:origLink></item>
		<item>
			<title>모범생이 싫다</title>
			<link>http://feedproxy.google.com/~r/lifidea/~3/INBp8kzMJwo/52</link>
			<description>어떤 사람을 묘사할 때 종종 붙은 수식어로 ’모범생’이 있다. 이 말은 1)공부를 잘 하고 2)주변의 기대에 부응하는 삶을 살아가는 사람에게 주로 긍정적인 늬앙스로 사용된다.(한국에서는 1)과 2)가 거의 동의어다.) 불행인지 다행인지 나는 이 말을 상당히 많이 들어온 데다, 주변을 둘러봐도 ’모범생’이 가득하다.&lt;br /&gt;
&lt;br /&gt;이 말에 대해 원인모를 거부감을 가져왔던 내게 최근에 그 실체를 파악하게 해준 책이 있으니 바로 시오노 나나미(이하 시오노상 — 그녀가 사람들에게서 원하는 호칭이란다.)의 ‘남자들에게’ 였다. 관습보다는 독창성을, 지능보다 판단력을, 눈에 보이는 핸섬함보다 보일듯 말듯한 스타일을 추구한다는 시오노상이 자신이 생각하는 바람직한 남자의 모습에 대해 쓴 에세이다. 20대에 단신으로 유럽에 건너가 동서양을 넘나드는 온갖 체험을 하며 혼자 서양 고대사를 탐구하여 거의 대가급 작가가 된 여인의 남자론이니 한줄 한줄의 무게가 남다르다.&lt;br /&gt;
&lt;br /&gt;시오노상은 ‘매력있는 남자’를 다음과 같이 명쾌하게 정리한다.&lt;br /&gt;
&lt;br /&gt;&lt;div style="border: 1px dashed rgb(203, 203, 203); padding: 10px; background-color: rgb(255, 255, 255);" class="txc-textbox"&gt;
매력 있는 남자란 자기 냄새를 피우는 자다. 스스로 생각하고, 스스로 판단하고, 무슨 무슨 주의주장에 파묻히지 않고 유연한 사람. 그러니 더욱 예리하고 통찰력 있는, 바로 그런 자다.&lt;/div&gt;
&lt;br /&gt;&lt;br /&gt;
이 부분을 읽으며 온몸을 휘감는 전율을 느낀 것은, 내가 생각하는 삶의 지향점의 정수가 담겨있기 때문이 아니었을까. 그렇다. 나는 스스로의 목소리를 갖고, 이를 통해 세상을 바꾸고 싶었다. 지금까지 그렇게 해 왔으니까, 남들이 다 그렇게 하니까 그냥 그렇게 따라가는 것이 싫었다.&lt;br /&gt;
&lt;br /&gt;’모범생’이라는 말이 싫었던 것은, ’모범’이라는 말에 자신의 목소리 보다는 관습적으로 바람직하다고 여겨지는 기준에 충실하다는 뜻이 담겨있기 때문일 것이다. 그리고, 잠재적으로는 세상에 자신을 끌어다 맞춤으로써 얻어지는 안전한 보상에 가치 기준을 두고 있다는 뜻이기도 할 것이다.&lt;br /&gt;
&lt;br /&gt;하지만, 모범생을 거부하는 것는 간단한 일이 아니다. 내면의 목소리에 끊임없이 귀를 기울이며, 동시에 이를 객관적 진리, 그리고 세상의 기준에 맞춰가려는 노력을 하지 않으면 자신만의 ‘의미있는 목소리’를 갖기는 어려운 일이다. 또한 순응이 던져주는 달콤한 미끼를 덥석 베어물지 않아야 한다. 늘 ‘깨어있어야’ 하는 것이다.&lt;br /&gt;
&lt;br /&gt;그런 면에서 내게 주어진 환경이 감사하기도 하다. ’세상’보다는 ’자신’에게 충실하게 해주기 때문이다. 시오노상은 이런 말도 했다.&lt;br /&gt;
&lt;br /&gt;&lt;div style="border: 1px dashed rgb(203, 203, 203); padding: 10px; background-color: rgb(255, 255, 255);" class="txc-textbox"&gt;
자유를 제한받은 곳에서 참된 자유가 발휘된다. 정신활동의 완전 연소는 어느 정도의 구속 없이는 성취하기 어려운 것 같다.&lt;/div&gt;
&lt;br /&gt;이곳 생활에 익숙해지며 가끔 답답함이 느껴지기도 하는 요즈음, 이 말을 떠올리며 마음을 다잡아 본다.&lt;br /&gt;</description>
			<category>유학생활</category>
			<author>lifidea</author>
			<guid isPermaLink="false">http://lifidea.tistory.com/52</guid>
			<comments>http://lifidea.tistory.com/entry/%EB%AA%A8%EB%B2%94%EC%83%9D%EC%9D%B4-%EC%8B%AB%EB%8B%A4#entry52comment</comments>
			<pubDate>Thu, 03 Jan 2008 12:47:00 +0900</pubDate>
		<feedburner:origLink>http://lifidea.tistory.com/52</feedburner:origLink></item>
		<item>
			<title>불확실성을 평가한다 -- 정보이론(Information Theory)</title>
			<link>http://feedproxy.google.com/~r/lifidea/~3/LUaXGBMU3Mc/51</link>
			<description>&lt;p&gt;정보 이론은 기계학습이나 자연어처리, 정보검색을 연구하는 사람에게 기본 소양처럼 여겨지는 분야입니다. 하지만 처음에는
정보를 계량적으로 측정한다는 발상 자체부터 와닿지 않았습니다. 지난 학기에 공부한 내용을 바탕으로 정보이론에 대한 직관적 이해를
돕는 글을 써 보려 합니다.&lt;/p&gt;
&lt;p&gt;확률론이 불확실성에 대한 모델링과 이에 기반한 추론을 목표로 한다면, 정보이론은 불확실성을 평가하려 합니다. 정보이론의
’정보’는 불확실성인 다름아닌 것입니다. 따라서 정보이론의 가장 기본적인 단위인 엔트로피(Entropy)의 계산에도 확률변수가
사용됩니다.&lt;/p&gt;
&lt;p&gt;대부분의 대상이 확률변수로 모델링되는 위 분야에서 정보이론이 항상 사용되는 것은 놀라운 일이 아닙니다. 예를 들어 정보검색
분야에서는 문서와 질의어(query)를 확률변수로 모델링하고 이 모델간의 거리를 바탕으로 문서의 랭킹을 계산하는데, 이때
사용되는 척도(KL-Divergence)가 정보이론에서 제공됩니다.&lt;/p&gt;
&lt;p&gt;좀더 구체적으로 알아봅시다. 확률변수 X의 불확실성을 나타내는 엔트로피는 다음 수식처럼 각 확률값에 로그를 취한 것의 기대값(즉, 확률값에 대한 가중 평균)으로 계산됩니다.&lt;/p&gt;
&lt;p&gt;&lt;img src="http://upload.wikimedia.org/math/4/f/0/4f0080f2c78d5b39d6f8ce8dfa076f8e.png" alt=""&gt;&lt;/p&gt;
&lt;p&gt;간단한 루비 프로그램으로 이를 알아봅시다. 아래 예에서 보듯 두가지 사건이 가능한 확률변수의 경우 각 사건의 발생 확률이
균일할수록 엔트로피는 커집니다. 이는 엔트로피를 불확실성으로 이해할 때, 사건간의 확률이 비슷할수록 예측하기 어렵다는 점과
통합니다.&lt;/p&gt;
&lt;pre&gt;&amp;gt;&amp;gt; [1,1].to_prob.h&lt;br /&gt;
=&amp;gt; 1.0&lt;br /&gt;
&amp;gt;&amp;gt; [1,5].to_prob.h&lt;br /&gt;
=&amp;gt; 0.650022421648354&lt;br /&gt;
&amp;gt;&amp;gt; [1,10].to_prob.h&lt;br /&gt;
=&amp;gt; 0.439496986921513&lt;br /&gt;
&amp;gt;&amp;gt; [1,100].to_prob.h&lt;br /&gt;
=&amp;gt; 0.0801360473312753&lt;br /&gt;
&amp;gt;&amp;gt; &lt;br /&gt;
&lt;/pre&gt;
&lt;p&gt;또한, 표본공간을 잘게 쪼갤수록 엔트로피(불확실성)는 더 커집니다.&lt;/p&gt;
&lt;pre&gt;&amp;gt;&amp;gt; [1,1].to_prob.h&lt;br /&gt;
=&amp;gt; 1.0&lt;br /&gt;
&amp;gt;&amp;gt; [1,1,1,1].to_prob.h&lt;br /&gt;
=&amp;gt; 2.0&lt;br /&gt;
&amp;gt;&amp;gt; [1,1,1,1,1,1,1,1].to_prob.h&lt;br /&gt;
=&amp;gt; 3.0&lt;br /&gt;
&lt;/pre&gt;
&lt;h3&gt;엔트로피에 대한 연산&lt;/h3&gt;
&lt;p&gt;확률변수 여러개가 모여 연합확률분포(Joint Probability Distribution)를 형성하고 확률변수간에
조건부확률(Conditional Probability)를 정의할 수 있는 것처럼 연합 엔트로피나 조건부 엔트로피도 정의될 수
있으며, 이러한 값들에 대한 연산 법칙은 확률변수의 경우와 마찬가지로 적용됩니다.&lt;/p&gt;
&lt;p&gt;&lt;img src="http://upload.wikimedia.org/math/a/c/f/acfe99276a861ba5fd6e773d298ba555.png" alt=""&gt;&lt;/p&gt;
&lt;h3&gt;상호 정보(Mutual Information)&lt;/h3&gt;
&lt;p&gt;개별 사건의 불확실성을 평가하다 보면 자연히 두 사건간의 관계에 관심이 가게 됩니다. 두 사건간의 의존성을 불확실성 관점에서 평가하는 것이 상호정보입니다. 즉, 사건 &lt;img src="http://www.forkosh.dreamhost.com/mimetex.cgi?X" style="vertical-align: middle;"&gt;와 &lt;img src="http://www.forkosh.dreamhost.com/mimetex.cgi?Y" style="vertical-align: middle;"&gt;가 있을 때, &lt;img src="http://www.forkosh.dreamhost.com/mimetex.cgi?Y" style="vertical-align: middle;"&gt;를 아는 것이 &lt;img src="http://www.forkosh.dreamhost.com/mimetex.cgi?X" style="vertical-align: middle;"&gt;의 불확실성을 얼마나 낮추어주는지를 평가하는 겁니다.&lt;/p&gt;
&lt;p&gt;&lt;img src="http://upload.wikimedia.org/math/a/7/9/a79044209a8ae6976a20110235bb4e89.png" alt=""&gt;&lt;/p&gt;
&lt;p&gt;이는 &lt;img src="http://www.forkosh.dreamhost.com/mimetex.cgi?Y" style="vertical-align: middle;"&gt;를 기준으로 다음처럼 기술할 수도 있습니다.&lt;/p&gt;
&lt;p&gt;&lt;img src="http://upload.wikimedia.org/math/a/7/9/a79044209a8ae6976a20110235bb4e89.png" alt=""&gt;&lt;/p&gt;
&lt;h3&gt;Cross Entropy &amp;amp; KL-Divergence&lt;/h3&gt;
&lt;p&gt;앞서 설명한 것처럼 현상을 확률번수로 모델링하다보면 필수적인 과정이 우리가 만든 모델을 실제 현상에 비추어 평가하는
것입니다. 즉, 우리가 만든 모델이 얼마나 대상에 부합하는지를 평가할 수 있어야 이를 개선시킬 수 있는데, 이때 척도로 사용되는
것이 KL-Divergence입니다. 앞서 설명한 정보검색 예제에서는 각 문서를 질의어로 상징되는 유저의
정보욕구(Information Needs) 대한 모델로 보고, 이에 부합하는 순서대로 랭킹을 계산하는 겁니다.&lt;/p&gt;
&lt;p&gt;&lt;img src="http://upload.wikimedia.org/math/7/a/d/7ad8846e32b4ab8f75668f389aa35fbd.png" alt=""&gt;&lt;/p&gt;
&lt;p&gt;구체적으로 KL-Divergence는 우리가 모델링하려는 사건에 대한 확률변수 &lt;img src="http://www.forkosh.dreamhost.com/mimetex.cgi?P" style="vertical-align: middle;"&gt;를 불완전한 모델 &lt;img src="http://www.forkosh.dreamhost.com/mimetex.cgi?Q" style="vertical-align: middle;"&gt;를 사용하여 표현하는 데 필요한 비트 수를 뜻하는 Cross Entropy에서 원래 사건의 &lt;img src="http://www.forkosh.dreamhost.com/mimetex.cgi?P" style="vertical-align: middle;"&gt;의 엔트로피를 빼서 구합니다. 즉, &lt;img src="http://www.forkosh.dreamhost.com/mimetex.cgi?Q" style="vertical-align: middle;"&gt;를 통한 모델링 작업이 얼마나 실제 사건&lt;img src="http://www.forkosh.dreamhost.com/mimetex.cgi?P" style="vertical-align: middle;"&gt;의 불확실성을 증가시켰는지를 나타내는 것입니다.&lt;/p&gt;
&lt;p&gt;앞서 설명한 상호정보 역시 KL-Divergence를 사용하여 표현될 수 있습니다. 아래 식을 보면 사건 &lt;img src="http://www.forkosh.dreamhost.com/mimetex.cgi?X" style="vertical-align: middle;"&gt;와 &lt;img src="http://www.forkosh.dreamhost.com/mimetex.cgi?Y" style="vertical-align: middle;"&gt;의 연합확률분포 &lt;img src="http://www.forkosh.dreamhost.com/mimetex.cgi?P%28X%2CY%29" style="vertical-align: middle;"&gt;를 각 사건의 확률분포 &lt;img src="http://www.forkosh.dreamhost.com/mimetex.cgi?P%28X%29" style="vertical-align: middle;"&gt;와 &lt;img src="http://www.forkosh.dreamhost.com/mimetex.cgi?P%28Y%29" style="vertical-align: middle;"&gt;의 곱으로 나타낼 때 더 필요한 비트의 수가 두 사건간의 상호정보라는 것을 알 수 있습니다.&lt;/p&gt;
&lt;p&gt;&lt;img src="http://upload.wikimedia.org/math/9/5/f/95f35b63d6e42c137c3d8b9aa971230d.png" alt=""&gt;&lt;/p&gt;
&lt;p&gt;다시 루비 예제를 봅시다. 두 사건간의 Cross Entropy는 아래처럼 두 사건의 확률분포가 비슷할수록 작다는 것을 알 수 있습니다.&lt;/p&gt;
&lt;pre&gt;&amp;gt;&amp;gt; [1,2,3].to_prob.h&lt;br /&gt;
=&amp;gt; 1.45914791702724&lt;br /&gt;
&amp;gt;&amp;gt; [1,2,3].to_prob.ch([1,2,3].to_prob)&lt;br /&gt;
=&amp;gt; 1.45914791702724&lt;br /&gt;
&amp;gt;&amp;gt; [1,2,3].to_prob.ch([3,2,1].to_prob)&lt;br /&gt;
=&amp;gt; 1.98746875060096&lt;br /&gt;
&amp;gt;&amp;gt; [1,2,3].to_prob.ch([10,2,1].to_prob)&lt;br /&gt;
=&amp;gt; 2.81345170232653&lt;br /&gt;
&lt;/pre&gt;
&lt;h2&gt;Reference&lt;/h2&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a href="http://en.wikipedia.org/wiki/Information_Theory"&gt;http://en.wikipedia.org/wiki/Information_Theory&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;h3&gt;소스 코드&lt;/h3&gt;
&lt;p&gt;위 예제를 실행시키기 위해서는 다음 모듈을 Array에 Include하면 됩니다.&lt;/p&gt;
&lt;pre&gt;module Entropy&lt;br /&gt;
  include Math&lt;br /&gt;
## Get probability distribution&lt;br /&gt;
  def to_p()&lt;br /&gt;
    collect{|e| e.to_f / sum}&lt;br /&gt;
  end&lt;br /&gt;
&lt;br /&gt;## Entropy&lt;br /&gt;
  def h&lt;br /&gt;
    -inject(0){|sum,e| sum + e * log2(e) }&lt;br /&gt;
  end&lt;br /&gt;
  &lt;br /&gt;
## Cross Entropy&lt;br /&gt;
  def ch(a)&lt;br /&gt;
    sum = 0 ; each_both(a){|p , q| sum += p * log2(q) } ; -sum&lt;br /&gt;
  end&lt;br /&gt;
  &lt;br /&gt;
## KL-Divergence&lt;br /&gt;
  def kld(a)&lt;br /&gt;
    ch(a) - h()&lt;br /&gt;
  end&lt;br /&gt;
end&lt;br /&gt;
&lt;/pre&gt;</description>
			<category>Tutorial</category>
			<author>lifidea</author>
			<guid isPermaLink="false">http://lifidea.tistory.com/51</guid>
			<comments>http://lifidea.tistory.com/entry/%EB%B6%88%ED%99%95%EC%8B%A4%EC%84%B1%EC%9D%84-%ED%8F%89%EA%B0%80%ED%95%9C%EB%8B%A4-%EC%A0%95%EB%B3%B4%EC%9D%B4%EB%A1%A0-Information-Theory#entry51comment</comments>
			<pubDate>Mon, 03 Dec 2007 12:42:00 +0900</pubDate>
		<feedburner:origLink>http://lifidea.tistory.com/51</feedburner:origLink></item>
		<item>
			<title>좋아하는 일 지켜가기</title>
			<link>http://feedproxy.google.com/~r/lifidea/~3/fEyM-gNAw8U/50</link>
			<description>&lt;p&gt;7병역특례를 마치고 복학할 무렵 결심한 것이 있었으니, 좋아하는 일을 평생 하겠다는 것이었습니다. 마음이 끌리는 일은
놀랄만한 집중력으로 해내는 스스로를 발견하고, 하지만 대부분의 사람들이 자신의 마음보다는 눈에 보이는 조건을 위주로 평생의 업을
택한다는 현실을 목격한 후였습니다.&lt;/p&gt;
&lt;p&gt;고민 끝에 평소의 관심사와 그동안의 경험, 그리고 앞으로의 전망을 고루 만족시키는 길을 발견할 수 있었고, 이를 좆아
미국에까지 왔습니다. 제가 발견한 것은 정보 욕구(Information Needs)를 만족시키고 나아가 인간의 잠재력을 최대한
끌어올리는 기반 기술 및 정보 시스템의 개발이었습니다. 그동안 꿈꿔오던 일을 더이상 바랄나위 없는 환경에서 할 수 있게 된다는
사실은 흥분 그 자체였습니다.&lt;/p&gt;
&lt;p&gt;하지만 ‘사랑은 시작하는 것 보다 지키기가 어렵다’고 했던가요… 쉽지 않게 시작한 유학 생활은 시작부터 녹록치 않습니다.
익숙하고 편안한 것과 멀어져 낯선 것에 몸을 맡기는 적응기가 끝나고, 이곳에서의 일상에 다시 적응하기 시작할 무렵, 문득 초심과
멀어져가는 자신을 발견하고 몸서리치게 됩니다.&lt;/p&gt;
&lt;p&gt;궁금한 것을 스스로 찾아가며 하나씩 깨우쳐가는 배움의 즐거움은 내일로 치르는 시험에 대한 걱정으로, 군더더기없이 잘 설계된
코드가 동작하는 것을 보는 희열은 연구 프로젝트 결과에 대한 부담으로 대체되어 갑니다. 놀이라 부르던 것이 일이 되고, 그 일이
쌓여 부담이 되고, 그 결과가 만족스럽지 못해 스스로의 능력에 대한 회의라도 찾아올때면 정말 집에가고 싶어집니다.&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;좋아하는 일을 직업으로 삼지 않는 것은 우아한 삶의 조건이다. – 시오노 나나미&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;예전에 책에서 이 구절을 읽고 강하게 부정하던 기억이 납니다. 좋아하는 일을 일을 하지 못한다면 성공해도 성공한게 아니라고
믿었던 저로서는 도저히 공감할 수 없었습니다. 하지만 좋아하는 일을 지켜가는 것이 이렇게 힘들다는 것을 알았다면 생각을
고쳐먹었을지도 모르겠습니다. 정녕 직업은 생계 수단으로, 그리고 인생의 의미는 그 밖에서 찾아야 하는 것인가요.&lt;/p&gt;
&lt;p&gt;좀더 노력하려 합니다. 좋아하는 일을 열심히 하면 성공할 수 있다는 순진한 믿음을 버리지 않으려 합니다. 스스로 객관적인
성취보다는 내면의 만족을 중시하기에 가능하다고 봅니다. 단 이런 결과가 그냥 얻어지는 것이 아니라는 점은 뼈저리게 배우고
있습니다.&lt;/p&gt;
&lt;p&gt;좋아하는 일도 ’일’입니다. 일은 자신, 그리고 다른 사람과의 약속입니다. 학자가 되는 일은 분명 취미로 책을 읽고 자료를 조사하는 것과 다른 결심을 필요로 합니다. 꾸준히 결과를 내고, 다른 사람의 기대치를 충족시켜야 합니다.&lt;/p&gt;
&lt;p&gt;하지만, 이에 우선하는 것이 내면의 불꽃을 지키고 활활 타오르게 하는 것입니다. 학과 세미나에서 어떤 교수님이
동기(motivation)야말로 가장 희소한 자원이라고 말씀하시는 것을 듣고 공감했습니다. 대상에 대한 순전한 호기심, 진리
탐구에 대한 열의를 잃어버린 사람은 학문을 할 수 없습니다. 학문을 명예나 부를 위한 수단으로 전락시키는 것도 이런 사람들의
책임일 겁니다.&lt;/p&gt;
&lt;p&gt;조용히 앉아 마음의 목소리에 귀를 기울이는 하루를 보내고 싶은 오후입니다.&lt;/p&gt;</description>
			<category>유학생활</category>
			<author>lifidea</author>
			<guid isPermaLink="false">http://lifidea.tistory.com/50</guid>
			<comments>http://lifidea.tistory.com/entry/%EC%A2%8B%EC%95%84%ED%95%98%EB%8A%94-%EC%9D%BC-%EC%A7%80%EC%BC%9C%EA%B0%80%EA%B8%B0#entry50comment</comments>
			<pubDate>Sat, 03 Nov 2007 11:41:00 +0900</pubDate>
		<feedburner:origLink>http://lifidea.tistory.com/50</feedburner:origLink></item>
		<item>
			<title>유학생 살아남기</title>
			<link>http://feedproxy.google.com/~r/lifidea/~3/tWoWudeq3sU/49</link>
			<description>&lt;p&gt;미국 생활 시작한지 이제 두달 남짓, 아직 어떤 판단을 내리기에도 충분치 않은 시간입니다. 하지만 유학 생활이 어떤
것인지, 그리고 어떻게 해야 후회없는 시간을 만들어갈 수 있을지 감이 조금씩 옵니다. 예전에 “xx는 xx야!”하고 선언하는
개그가 있었죠. 저도 한번 해 보렵니다.&lt;br /&gt;
&lt;/p&gt;
&lt;blockquote&gt;&lt;br /&gt;
유학 생활은 암벽 등반이야!
&lt;/blockquote&gt;
&lt;p&gt;너무 비관적인가요? 그러나 상당히 애착이 가는 비유입니다. 둘다 상당한 결심이 없이는 시작하기 힘듭니다. 그리고 일단
시작하면 계속 가야 합니다. 중간에 기댈 곳도 없고 멈추는 것도 허용되지 않습니다. 하지만 일단 올라가면 상당한 성취감을
줍니다. 하지만, 성취감만으로 버티기에는 너무나 고되기에, 과정에서 즐거움을 발견해야 합니다. (올라가는게 목표라면 굳이 암벽을
택하지는 않겠죠 ;)&lt;/p&gt;
&lt;p&gt;유학을 ‘암벽 등반’으로 생각하면 어떻게 임해야할지가 그려집니다. 우선 기본은 철저한 자기관리일 겁니다. 끝까지 무너지지
않고 꾸준히 갈 수 있도록 몸과 마음을 최상의 상태로 유지해야 합니다. 낯선 상황에 봉착해서도 흔들리지 않도록 평소에 꾸준한
준비를 통해 여유를 만들어야 합니다. 경험적으로 볼때 타국에서 혼자 겪는 어려움은 종류에 관계없이 두 배는 힘듭니다.&lt;/p&gt;
&lt;p&gt;절제와 극기로 생활의 질서와 기본적인 여유가 확보된 다음에는 주변을 돌아볼 수 있을 것입니다. 이때 중요한 것은 개방된
마음을 갖고 먼저 다가가는(stepping forward) 것입니다. 단일 민족에 비교적 획일화된 가치관을 갖고 살아가는
우리나라 사람들에게 특히 어려운 일입니다만, 개인의 영역을 소중히하는 미국에서는 먼저 다가가지 않으면 아무도 자신에게 오지
않습니다. 그리고 고립된 상태에서 젊은 날의 몇년을 지내는 것은 그리 권할만한 일이 아니겠죠.&lt;/p&gt;
&lt;p&gt;마지막으로 자신의 일에서 지속적인 의미와 즐거움을 발견하는 것이 필요할 것입니다. 사실 “자신이 원하는 일을 충분히 시간을
들여 할 수 있는 것”이 유학생의 특권 아니겠습니까. 하지만 지난 두달의 경험을 통해, 자신의 일에 대한 열정을 지켜가는 것이
얼마나 어려운 일임을 잘 알게 되었습니다. 하지만 연구자로서, 더구나 유학생으로서 이를 잃는다면 앞으로 나아갈 수도 없으며 모든
것이 너무나 허무해집니다. 제 2의 생명처럼 여기며 지켜나갈 일입니다.&lt;/p&gt;
&lt;p&gt;쓰고 나니 사뭇 비장한 글이 되어버렸습니다. 하지만 이런 기본이 없이는 유학 생활의 낭만은 먼 이야기가 되지 않을까요.&lt;/p&gt;</description>
			<category>유학생활</category>
			<author>lifidea</author>
			<guid isPermaLink="false">http://lifidea.tistory.com/49</guid>
			<comments>http://lifidea.tistory.com/entry/%EC%9C%A0%ED%95%99%EC%83%9D-%EC%82%B4%EC%95%84%EB%82%A8%EA%B8%B0#entry49comment</comments>
			<pubDate>Sat, 03 Nov 2007 11:40:00 +0900</pubDate>
		<feedburner:origLink>http://lifidea.tistory.com/49</feedburner:origLink></item>
		<item>
			<title>정보 검색(Information Retrieval)을 연구한다고?</title>
			<link>http://feedproxy.google.com/~r/lifidea/~3/yY0f1FEfmc0/48</link>
			<description>&lt;a href="http://www.cs.umass.edu/"&gt;학교&lt;/a&gt;를 결정하고 나서, 정보 검색(Information Retrieval – 이하 IR)을 연구하러 간다고 주변 분들께 말씀드렸을 때 생소하게 여기는 분들이 많으셨습니다. 공부를 시작한지 이제 50일, 머지 많은 &lt;a href="http://ciir.cs.umass.edu/cmpsci646/"&gt;IR수업&lt;/a&gt; 중간고사 대비 겸해서 배운 내용을 정리해 볼까 합니다.
&lt;p&gt;IR은 사람들의 정보 욕구(Information Needs)를 충족시키는 것을 목표로 합니다. 하지만 이런 정의는
Computer Science의 대부분의 분야를 포괄하죠. 데이터베이스도, 네트워크도 따지고 보면 그렇지 않습니까. 좀더
구체적으로는 무형의(Unstructured) 텍스트 데이터에서 사람들이 원하는 정보를 찾는 기술을 연구한다고 보시면 됩니다.
정형화된(Structured)데이터를 다루는 데이터베이스, 그리고 학습을 통하여 주어진 작업에서의 성능 개선을 목표로 하는 기계
학습과는 구분됩니다.&lt;/p&gt;
&lt;p&gt;하지만 이쯤에서 만족하지 못하는 분들이 계실 겁니다. 학문이라면, 그것도 Computer Science 관점에서는 객관적인
지표가 필요할텐데 ‘사람들의 욕구 충족’ 이라는 주관적이고 모호한 척도를 어떻게 측정하고 평가하나요? 제가 처음 가졌던 의문도
바로 그 점이었습니다.&lt;/p&gt;
&lt;p&gt;해답은 의외로 간단했습니다. 결국은 사람이 평가하는 것이었습니다. 평가자가 주어진 검색 결과에서 어떤 문서가 자신의 정보
욕구와 관련있는지 아니면 무관한지를 알려주면, 이에 얼마나 근사한 결과를 냈는지를 가지고 검색 시스템을 평가합니다. 이때
사용되는 지표가 Precision, 및 Recall인데, 기본적으로는 검색 결과가 얼마나 정보 욕구를 정확히, 그리고 완전히
만족시키는지를 측정하는 것입니다.&lt;/p&gt;
&lt;p&gt;이처럼 (사람도 하기 어려운) Mind-reading을 하는 시스템을 만든다는 점에서 IR을 주로
인공지능(Artificial Intelligence)의 분야로 분류하곤 합니다. 모호한 타겟을 갖고 있다는 점이 IR의 어려운
점이자 매력이기도 합니다. (정보 욕구 해소를 삶의 미션으로 삼는 저의 이념과 부합하는 부분이죠;)&lt;/p&gt;
&lt;p&gt;얼핏 간단해 보이는 이 ’검색’이라는 문제를 풀기 위한 전혀 다른 (적어도)수십가지 방법이 존재하는 이유도 이와 무관하지 않나 합니다. 현재 많이 사용되는 &lt;a href="http://en.wikipedia.org/wiki/Vector_space_model"&gt;Vector Space Model&lt;/a&gt;, 그리고 &lt;a href="http://ciir.cs.umass.edu/"&gt;&lt;span class="caps"&gt;CIIR&lt;/span&gt;&lt;/a&gt; 에서 개발하였으며 최근에 널리 사용되는 &lt;a href="http://en.wikipedia.org/wiki/Language_modelling"&gt;Language Model&lt;/a&gt; 등이 대표적인 예입니다.&lt;/p&gt;
&lt;p&gt;IR은 Computer Science가 아닌 정보과학(Information Science) 관점에서도 많이 연구되고
있으며, 텍스트 데이터를 다루는 관계로 자연어처리(Natural Language Processing), 그리고 최근에는
분류(classification), 군집회(clustering)등 기계학습(Machine Learning)분야의 기반 기술의
응용을 통한 성능 향상을 꾀하고 있기도 합니다. 물론 이 모든 것의 기본은 확률론, 통계, 수학입니다.&lt;/p&gt;</description>
			<category>정보검색(IR)</category>
			<author>lifidea</author>
			<guid isPermaLink="false">http://lifidea.tistory.com/48</guid>
			<comments>http://lifidea.tistory.com/entry/%EC%A0%95%EB%B3%B4-%EA%B2%80%EC%83%89Information-Retrieval%EC%9D%84-%EC%97%B0%EA%B5%AC%ED%95%9C%EB%8B%A4%EA%B3%A0#entry48comment</comments>
			<pubDate>Wed, 03 Oct 2007 11:36:00 +0900</pubDate>
		<feedburner:origLink>http://lifidea.tistory.com/48</feedburner:origLink></item>
		<item>
			<title>UMass Amherst에 도착했습니다.</title>
			<link>http://feedproxy.google.com/~r/lifidea/~3/Pmf__xp7Gu4/47</link>
			<description>&lt;p&gt;한계 중량까지 우겨넣은 이민가방 두개와 캐리어를 끌고 호텔 방에 들어선게 엇그제 같은데, 벌써 이곳에 도착한지 20일이
되어 갑니다. 초반의 시차 문제, 모든 면에서 전혀 새루운 환경에 적응해 나가는 일은 매순간이 도전이었지만, 이제
’안정’되었다는 느낌이 서서히 들기 시작합니다.&lt;/p&gt;
&lt;p&gt;처음 이주간은 정말 제정신이 아니었던 것 같습니다. 어느날 골똘히 생각해보니 미국 생활, 가족과 떨어져 사는 기숙사 생활,
직업으로서의 대학원생, 전공으로서의 컴퓨터 과학 등등 저를 둘러싼 환경 중 바뀌지 않은 것이 별로 없었습니다. 혼자 빨래 한번
제대로 해본 적 없는 제가 무슨 생각으로 여기까지 왔는지 갑자기 궁금해지며, 그정도 정신을 차리고 있는 것도 다행이라고 새삼
생각했습니다.&lt;/p&gt;
&lt;p&gt;어쨌든 이왕 이렇게 된 바에 스스로를 한번 푹 담가보자고 생각했습니다. 새로운 사람을 만나고, 새로운 곳에 가 보고,
기회를 만들어 예전에 해보지 못했던 것을 시도했습니다. 미국 학생들의 파티에도 가 보고, 그 어렵다는 냄비밥에도 도전해 시행착오
끝에 밥다운 밥을 만들었습니다. 그 결과 미국 생활에서 서로 힘이 되줄 사람들을 만날 수 있었고, 혼자 어떻게든 살아나갈 수
있겠다는 자신감을 얻었습니다.&lt;/p&gt;
&lt;p&gt;학교 및 연구실 생활도 많은 부분이 결정되었습니다. 연구실의 Bruce Croft, James Allan교수님과 면담을
하여 저의 리서치 비전과 랩의 연구 주제의 접점을 논의하였고 첫학기 수업인 정보검색(Information Retrieval)과
자연어 처리(Natural Language Processing)도 들어보았습니다. 다행히 교수들께서는 제 연구 관심사에 대해
호의적이시며, 수업 역시 정말 충실합니다. 자연어 처리 수업은 특히 기계학습 정보 추출 (Information
Extraction)분야의 대가급 연구자인 Andrew McCallum교수님의 강의라 들어갈 때마다 긴장과 흥분의 연속입니다.&lt;/p&gt;
&lt;p&gt;예전에 일주일간 맛본 적은 있었지만, 미국이라는 환경에 대해서도 많은 생각을 했습니다. 하루종일 돌아다녀도 먼지하나 뭍지
않고 어디서나 수돗물을 틀어 마실 수 있는 꺠끗한 환경에, 전세계 방방곡곡에서 온 사람들이 나름의 방식을 지켜가면서도 서로
조화를 이루어 살아가는 모습이 참 대단하다는 생각이 듭니다. 특히 제가 있는 Amherst는 조용한 교외의 학교 타운이라 예전에
시애틀에서와 마찬가지로 미국 사회의 어두운 모습은 찾아보기 힘듭니다.&lt;/p&gt;
&lt;p&gt;마주치는 미국 사람들도 활기차고 친근한 모습입니다. 특히 한국과 달리 학교, 가게, 식당 등 어디가나 마주치는 스텝들의
친절은 인상적입니다. 모든 사람들이 진정 자신의 일에 만족하고, 그 일을 통해 세상에 기여하겠다는 생각을 하는 듯 합니다.
연구실에 같이 들어온 동료(대부분 석사 졸업생)가 여섯 명이나 되어 많이 배울 수 있을 것 같다는 느낌입니다.&lt;/p&gt;
&lt;p&gt;다시 찾은 안정과 편안함이 나태와 향락으로 이어지지 않게 하려고 합니다. 너무 많은 일, 복잡한 생활에 어떤 일에도 집중할
수 없었던 한국에서의 시행착오를 되풀이하지 않으려고 합니다. 먹는 일을 제외하고는 물건 구입도 최소한으로 하고, 유희만을
목적으로 하는 활동도 자제하려 합니다. 핸드폰, 차, TV 등은 당분간 없이 지낼 생각입니다. 지금 제 책상에는 소로우와 스콧
니어링의 책이 꽃혀 있습니다.&lt;/p&gt;
&lt;p&gt;주어진 여건에 만족하고, 순간순간 후회를 남기지 않도록 최선을 다하는 것이 저를 아껴주시고, 이끌어주신 많은 분들의 기대에 부응하는 길이라는 것을 잘 알고 있습니다.&lt;/p&gt;
&lt;p&gt;처음 마음 지켜가며 최선을 다하겠습니다.&lt;/p&gt;</description>
			<category>유학생활</category>
			<author>lifidea</author>
			<guid isPermaLink="false">http://lifidea.tistory.com/47</guid>
			<comments>http://lifidea.tistory.com/entry/UMass-Amherst%EC%97%90-%EB%8F%84%EC%B0%A9%ED%96%88%EC%8A%B5%EB%8B%88%EB%8B%A4-1#entry47comment</comments>
			<pubDate>Thu, 13 Sep 2007 11:16:00 +0900</pubDate>
		<feedburner:origLink>http://lifidea.tistory.com/47</feedburner:origLink></item>
		<item>
			<title>유학길에 오릅니다.</title>
			<link>http://feedproxy.google.com/~r/lifidea/~3/Agtcn4Qs_XI/46</link>
			<description>&lt;div&gt;
  &lt;br class="webkit-block-placeholder"&gt;
&lt;/div&gt;
&lt;div&gt;
  &lt;p style="margin: 0px; font-family: Helvetica; font-style: normal; font-variant: normal; font-weight: normal; font-size: 12px; line-height: normal; font-size-adjust: none; font-stretch: normal;"&gt;
연구실 일을 대강 마치고, 고마운 분들께 인사를 드린 후에 보스턴으로 향하는 비행기에 올랐습니다. 유학 결심후 1년 반, 이제
드디어 원하는 공부를 시작하게 된다는 생각, 전혀 다른 환경에 내던져진다는 생각 등이 복잡하게 교차하는 심경이었습니다. 한참
꿈에 부풀다가도 앞으로의 일은 참 막막했습니다. &lt;/p&gt;
&lt;blockquote&gt;'내가 도대체 무슨 짓을 한거지?' &lt;/blockquote&gt;&lt;p style="margin: 0px; font-family: Helvetica; font-style: normal; font-variant: normal; font-weight: normal; font-size: 12px; line-height: normal; font-size-adjust: none; font-stretch: normal;"&gt;이렇게 되뇌이기를 몇 번, 하지만 돌아가는 다리를 불사른 지금은 두려움과 불안함보다 빨리 전진하는 것 이외에는 별 수 없습니다. 삶의 새로운 장을 열었으니, 더 나은 역사를 써야 합니다. 새 출발에 대한 각오를 적어봅니다.&lt;/p&gt;
&lt;p style="margin: 0px; font-family: Helvetica; font-style: normal; font-variant: normal; font-weight: normal; font-size: 12px; line-height: normal; font-size-adjust: none; font-stretch: normal;"&gt;&lt;br class="webkit-block-placeholder"&gt;&lt;/p&gt;
&lt;ul id=""&gt;&lt;li&gt;&lt;font class="Apple-style-span" face="Helvetica" size="3"&gt;&lt;span class="Apple-style-span" style="font-size: 12px;"&gt;&lt;b&gt;껍데기보다 알맹이&lt;/b&gt;
: '&lt;a href="http://lifart.com/tag/%EC%9C%A0%ED%95%99%EC%A4%80%EB%B9%84" target="_blank"&gt;유학 준비기&lt;/a&gt;'에서 밝혔지만, 저는 배우고 찾아내는 즐거움을 느끼고, 이를 통해 다른 사람에게 도움을 주자는 생각에서 여기
왔습니다. 이런 생각을 갖고 출발하지 않은 유학생은 별로 없겠지만, 수많은 시련과 좌절에 봉착해서도 초심을 간직하는 사람은 많지
않을 겁니다. 눈에 보이는 논문 수나 학위에 집착하기보다 항상 처음의 순수한 마음에 비추어 부끄럽지 않은 길을 가려 합니다.&lt;/span&gt;&lt;/font&gt;&lt;/li&gt;
&lt;li&gt;&lt;span class="Apple-style-span" style="font-family: Helvetica; font-size: 12px;"&gt;&lt;b&gt;넓이보다 깊이&lt;/b&gt;
: 그동안 저를 괴롭혀 왔던 것중 하나는 '어떤 일에도 충분한 관심을 쏟을 수 없을 만큼 많은 것에 손을 댔다'는 것입니다. 일
뿐만 아니라 인간관계에 있어서도 이런 경향은 정서적인 불안과 함께 제가 한 인간으로서의 깊이를 갖는 데에 장애가 되어 왔습니다.
&lt;br /&gt;
예전에 'The ability to focus is directly proportionate to the ability to
unfocus.' 라는 말을 읽었는데, 집중력의 총량이 제한되어 있지는 않겠으나, 머리속에 적은 수의 일만 남기는 것이 집중력을
최대한 끌어내기 위한 전제조건임은 분명합니다. 이렇게 관심을 분산시키다 보면 어떤 일에서도 최고 수준의 결과물을 내기는
어려우며, 스스로의 능력도 기껏해야 제자리에 머물게 됩니다. &lt;br /&gt;
기계화 및 정보화로 대량 생산이나 복제가 용이한 환경에서, '그저
그런 결과물'은 거의 가치를 갖지 못합니다. 유학생으로서 일이든 인간관계든 그 폭은 제한되기 마련입니다. 신중하게 고른 일에
최선을 다하려고 합니다.&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;font class="Apple-style-span" face="Helvetica" size="3"&gt;&lt;span class="Apple-style-span" style="font-size: 12px;"&gt;&lt;b&gt;객관적 가치보다 주관적 가치&lt;/b&gt;
: 함께 사는 세상에서 다른 사람에 대한 배려는 필수적이나, 자신보다 다른 사람의 가치에 맞추려는 모습을 자주 보게 됩니다.
한국에서도 저는 주변의 시선을 의식하기보다 스스로에게 더 맞는 길을 찾으려 애썼지만, 쉽지 않았던 것이 사실입니다. &lt;br /&gt;
하지만
무언가 만들어내는 것을 업으로 삼는 연구자로서 스스로 생각하고 행동하는 능력은 이미 선택사항이 아니기에, 모든 일에 있어 순응과
수용보다는 정말 '나 다운 것', '내게 어울리는 것'이 무엇인지를 항상 생각하려 합니다.&lt;/span&gt;&lt;/font&gt;&lt;/li&gt;
&lt;/ul&gt;&lt;div&gt;
환
경이 인간을 만든다고 하지만, 주어진 환경에 스스로의 방식으로 적응하고, 최대한의 가치를 끌어내는 일은 가장 창조적인
작업입니다. 환경과 갈등을 빛거나, 반대로 이에 동화되어 자기 색깔을 잃는 것은 둘다 답이 아닐 겁니다. 미국이 제공하는
'기회'는 순간순간 깨어 있는 자에게만 포착되는 것임을 믿습니다.&lt;/div&gt;
&lt;p&gt;스스로의, 그리고 고마운 분들의 기대를 져버리지 않으려고 합니다.&lt;br /&gt;
&lt;/p&gt;
&lt;/div&gt;</description>
			<category>Essay</category>
			<category>유학준비</category>
			<author>lifidea</author>
			<guid isPermaLink="false">http://lifidea.tistory.com/46</guid>
			<comments>http://lifidea.tistory.com/entry/UMass-Amherst%EC%97%90-%EB%8F%84%EC%B0%A9%ED%96%88%EC%8A%B5%EB%8B%88%EB%8B%A4#entry46comment</comments>
			<pubDate>Sun, 26 Aug 2007 22:13:00 +0900</pubDate>
		<feedburner:origLink>http://lifidea.tistory.com/46</feedburner:origLink></item>
		<item>
			<title>다시 배우는 선형대수(1) - 우리곁의 벡터와 행렬</title>
			<link>http://feedproxy.google.com/~r/lifidea/~3/t5WeYvhQbxM/44</link>
			<description>&lt;br /&gt;
&lt;H2&gt;왜 선형대수인가? &lt;/H2&gt;확률/통계 책을 잡고 반쯤 읽다보면 어느 페이지를 펴도 나와서 저를 괴롭히는 존재가 있었으니, 바로 행렬과 벡터였습니다. 처음에는 고등학교때 배운 (얼마 남지 않은) 수학 실력으로 어떻게 해 보려다가, 앞으로의 공부를 제대로 하려면 선형대수를 산수하듯이 할 수 있어야 한다고 느꼈기에, 선형대수 책을 다시 사서 공부해야 한다는 결론에 도달했습니다. '다시 배우는 확률론 - 확률 과정'편을 제대로 쓰기 위해서는 선형대수를 알아야 하는 사정도 있었습니다. 그도 그럴것이 실제 세계의 문제를 수학적으로 모델링하다보면 한두개의 숫자로는 어림도 없고, 대개는 여러 수의 집합(벡터)나 벡터의 집합(행렬)을 사용해야 하기 때문입니다. 또한 선형대수의 중심 주제가 백터와 행렬의 연산이다 보니 자연스럽게 선형대수는 현대 과학 및 공학의 기본이 되는 것입니다. &lt;br /&gt;&lt;br /&gt;대수(Algebra)가 수를 다루듯 선형대수(Linear Algebra)는 선형 시스템의 기본 요소인 벡터와 행렬의 특성 및 그들간의 관계 및 연산을 다룹니다. 선형 시스템을 다룬다지만 실제로 대부분의 비선형 시스템이 선형으로 근사될 수 있기 때문에 선형대수의 활용범위는 훨씬 넓습니다. 모든 공학분야에 걸쳐 사용되는 매트랩(MatLab)의 기본 자료구조(Data Structure)가 행렬(벡터 역시 행렬로 표현)이 된것은 우연이 아닙니다.&lt;br /&gt;&lt;br /&gt;이처럼 쓸모가 많은 (사실, 모르고서는 아무것도 할 수 없는) 선형대수이지만, 막상 학교에서는 이유도 모른채 수많은 정의와 정리를 암기하고 이를 바탕으로 기계적인 문제풀이 요령을 암기하는 교육(고문?)이 이루어지는 것이 대부분입니다. 왜 배워야 하는지를 모르니 동기부여가 안되고, 추상적인 설명만 들으니 감이 오지 않습니다. 원리를 알아야 방법을 이해할 수 있을텐데 이것이 안되니 무작정 외워야 합니다. 공학 교육에서 수학을 가르치는 목적은 사건과 현상을 바라보는 수학적 직관을 키워주기 위함일진데, 그자리에 공포와 회의가 들어섭니다. (저는 효과적인 교육을 위해서 Why - What - How가 결합되어야 한다고 봅니다.)&lt;br /&gt;&lt;br /&gt;저도 학부 3학년때 선형대수를 분명 수강했지만 그 당시 왜 이것을 배워야 하는지 몰랐으며, 최근에 다시 책을 보았을때 한가지도 제대로 기억이 나지 않는 아픔을 겪었습니다. 하지만 선형대수가 정보검색 및 머신러닝 이론의 대부분의 근간이 되는 탓에 물러설 수도, 돌아갈 수도 없었기에 좋은 교재와 자료부터 수소문하여 처음부터 다시 공부했습니다. 막히는 곳도, 시행착오도 많이 겪었으나 벡터와 행렬의 세계가 조금은 눈에 들어오는 느낌이었습니다.&lt;br /&gt;&lt;br /&gt;앞으로 몇회에 걸쳐 선형대수를 다루려 합니다. 어깨에 힘이 잔뜩 들어간 기존 자료와는 달리, &lt;A title="지난번 확률론" href="../../tag/%ED%99%95%EB%A5%A0%EB%A1%A0"&gt;지난번 확률론&lt;/A&gt;과 마찬가지로 실용적 관점에서 수학적 직관 배양을 목표로 합니다. 다행인 것은 선형대수의 개념 대부분이 우리에게 친숙하다는 점입니다. 대수(Algebra)를 확장하다보니 선형대수는 마치 행렬과 벡터에 대한 산수와 같습니다. 기본적인 가감승제 연산은 행렬과 백터에 대해서도 그대로 존재하고, 수의 닫힌집합은 벡터 공간(Vector Space)의 개념에 대응되며, 절대값은 행렬값(Determinant)에, 양수는 양정치(Positive-definite Matrix)에 대응됩니다.&lt;br /&gt;&lt;br /&gt;선형대수를 공부하면서 느낀점은 참으로 '아름다운' 학문이라는 겁니다. '공부가 힘들어서 살짝 맛이 갔구나'고 생각하시겠지만, 여러분도 예전에 공부를 하며 어떤 복잡한 현상이 단순하게 설명될 때 표현하기 힘든 희열을 맛보신 적이 있을 겁니다. 마치 매우 정교한 기계가 한치의 오차도 없이 동작하는 식으로, 선형대수에는 이처럼 '뭔가 맞아 들어가는' 느낌을 주는 무언가가 있습니다. 모든 현상의 이면에 이런 질서가 숨어있다니, 신은 진정 존재하나 봅니다. 선형대수의 세계로 오신 것을 환영합니다!&lt;br /&gt;&lt;br /&gt;(공부하면서 쓰는 내용이다보니, 부정확한 내용이 있을 수 있습니다. 발견하시는 대로 알려주시면 감사하겠습니다.)&lt;br /&gt;
&lt;H2&gt;선형(Linear)이란? &lt;/H2&gt;앞에서 대수는 산수라고 밝혔는데, '선형'이라는 말이 궁금하실 겁니다. '&lt;A title=선형 href="http://en.wikipedia.org/wiki/Linear_%28disambiguation%29"&gt;선형&lt;/A&gt;'이라는 말은 다양한 의미를 지니나, 선형대수에서는 어떤 대상의 &lt;SPAN style="TEXT-DECORATION: underline"&gt;요소 각각에 대해(piecewise) 연산을 수행하여 조합하면 전체적인 결과가 나온다&lt;/SPAN&gt;고 이해하시면 될 것 같습니다. 별 것 아닌듯 하지만 이처럼 전체를 부분으로 우아하게 쪼갤 수 있는 특성은 복잡도를 극명하게 낮추고 이에 따라 결과를 예측할 수 있게 합니다. 공학에서의 선형성이 어떤 시스템에서 입력에 대응하는 출력이 나온다는 의미로 사용되는 것은 이와 무관하지 많습니다. 사실 선형대수는 벡터 및 행렬에 대해 배우는 것으로 이해하셔도 되는데, 이들이 선형성을 갖기에 선형대수라는 표현을 쓰는 것 같습니다.&lt;br /&gt;&lt;br /&gt;
&lt;H2&gt;Vector &amp;amp; Matrix &lt;/H2&gt;&lt;A title=벡터 href="http://en.wikipedia.org/wiki/Vector_%28spatial%29"&gt;벡터&lt;/A&gt;와 &lt;A title=행렬 href="http://en.wikipedia.org/wiki/Matrix_%28mathematics%29"&gt;행렬&lt;/A&gt;을 모른다고 생각하는 분은 별로 없을 겁니다. 하지만 우리가 일상생활에서 항상 벡터와 행렬을 접한다는 점을 인식하는 분은 많지 않습니다. 이는 벡터의 정의가 대부분의 자료에서 '방향과 크기를 갖는 물리량'으로 되어있는 것과 무관하지 않습니다. 물론 맞는 이야기지만 여기서는 벡터를 일정한 순서를 갖는 수의 집합으로 봅시다. 그러면 우리가 하루에도 수없이 벡터를 접한다는 말에 공감하실 겁니다. 이번달 쓴 용돈의 항목별 지출 상황, 내가 산 주식들의 오늘 종가, 우리 가족의 오늘 기상시각 등이 모두 벡터로 표현가능한 것입니다.&lt;br /&gt;&lt;br /&gt;벡터를 이렇게 정의하면 크기 및 방향도 생각해 볼 수 있습니다. 앞서 살펴본 용돈 벡터(과자:1000원, 책:2000원)를 보면 용돈은 얼마만큼, 어떤 방향으로 쓰는지가 나옵니다. 100명의 학생에 대해 과자와 책 지출액을 조사하여 각각을 X,Y축으로 갖는 평면에 나타내보면 요즘 학생의 용돈 사용의 경향이 나타날 것입니다. 이처럼 벡터는 우리 생활 가까이 있습니다.&lt;br /&gt;&lt;br /&gt;벡터는 쉬운데 행렬은 어렵다고 하는 분이 많습니다. 행렬은 단지 벡터를 굴비 엮듯이 여러 개 붙인 것입니다. 붙여서 된 결과물이 사각형이기에, 이를 가로(행 - row) 및 세로(열 - column) 벡터의 배열로 볼 수 있습니다. 이처럼 행렬을 벡터의 배열로 보는 관점은 매우 중요한데, 행렬에 대한 모든 연산이 벡터 연산의 조합으로 환원될 수 있으며, 이것이 선형대수를 이해하는 열쇠가 되기 때문입니다. 반대로 벡터는 행/열 방향의 원소가 하나인 행렬의 특수한 형태로 볼 수 있기에, 실제 컴퓨터 프로그램으로는 벡터를 따로 구현하지 않는 경우도 많습니다.&lt;br /&gt;&lt;br /&gt;
&lt;H2&gt;Inner Product(내적) &amp;amp; Matrix Multiplication(행렬 곱) &lt;/H2&gt;'수'를 알아보았으니, 이제 연산을 알아봅시다. &lt;A title="덧샘 뺄샘" href="http://en.wikipedia.org/wiki/Matrix_addition"&gt;덧샘 뺄샘&lt;/A&gt;&lt;IMG style="FLOAT: right; MARGIN: 1em 0pt 0pt 1em; WIDTH: 136px; HEIGHT: 150px" src="http://upload.wikimedia.org/wikipedia/en/2/26/Matrix_multiplication_diagram.PNG"&gt;은 행렬이나 벡터나 각 요소끼리 하면 됩니다. (여기서 선형성이 드러납니다.) 곱샘은 좀 다른데, 벡터의 경우 요소끼리 곱하여 그 결과를 더합니다. 즉, 벡터 A(a,b,c)와 B(d,e,f)의 곱은 (a,b,c)*(d,e,f)=ad+be+cf가 됩니다. 즉, 벡터끼리 곱한 결과는 '&lt;A title=내적 href="http://en.wikipedia.org/wiki/Dot_product"&gt;내적&lt;/A&gt;'이라고 불리는 수이며, 이는 기하학적으로 A, B벡터 각각의 크기에 A와 B사이의 각도K의 코사인 값의 곱 - |A||B|cos(K) - 이 됩니다. 따라서 벡터의 곱은 각 벡터의 크기 및 두 벡터 방향의 유사성에 비례합니다. (90도의 코사인 값이 0이므로, 직각을 이루는 두 벡터의 곱은 0이 됩니다.) 이 모두가 곱샘에 대한 직관적인 이해와 일치합니다.&lt;br /&gt;&lt;br /&gt;&lt;A title="행렬의 곱샘" href="http://en.wikipedia.org/wiki/Matrix_multiplication"&gt;행렬의 곱샘&lt;/A&gt;은 어렵게 느끼는 경우가 많습니다만 벡터의 곱으로 풀어보면 간단합니다. 오른쪽 그림과 같이 행렬 A와 B를 곱할때 A를 가로방향, B를 세로방향으로 쪼개 요소끼리 곱한다고 기억하실 텐데, 이를 다른말로 하면 A행렬의 행백터와 B행렬의 열백터의 곱(내적)이 됩니다.&lt;br /&gt;&lt;br /&gt;&lt;br /&gt;&lt;IMG style="WIDTH: 548px; HEIGHT: 108px" src="http://upload.wikimedia.org/math/6/3/c/63c3479595af0a0c48cf1f82f0a2ef12.png"&gt;&lt;br /&gt;&lt;br /&gt;
&lt;H2&gt;첫 연재를 마치며... &lt;/H2&gt;공대생이면서도 수학에 대한 막연한 두려움을 떨쳐버리기는 쉽지 않았습니다. 하지만 나이들어 혼자 다시 공부를 하며, 수학이 원래 그런 것이라기보다는 그동안 우리가 수학을 그렇게 보도록 길들여지지 않았나하는 생각을 했습니다. 이제 막 학문의 길에 들어선 사람으로서 학문이 현실과 유리되는 것이 안타까웠습니다. 이 글만으로 선형대수 공부를 끝낼수는 없겠으나, 수학에 대한 거부감과 불편함을 조금이나마 덜어줄 수 있기를 기원해봅니다.&lt;br /&gt;&lt;br /&gt;다음 번에는 벡터와 행렬의 생활 터전이라고 할 수 있는 &lt;A title="벡터 공간" href="http://en.wikipedia.org/wiki/Vector_space"&gt;벡터 공간&lt;/A&gt;에 대해 알아보도록 하겠습니다.&lt;br /&gt;
&lt;H2&gt;참고자료&lt;/H2&gt;(선형대수 교재와 참고자료 목록입니다.)&lt;br /&gt;&lt;A title="Introduction to Linear Algebra - TextBook Homepage" href="http://www-math.mit.edu/%7Egs/books/ila2.html"&gt;Introduction to Linear Algebra - TextBook Homepage&lt;/A&gt;&lt;br /&gt;&lt;A title="MIT Course 18.06: Linear Algebra (Spring 2007)" href="http://web.mit.edu/18.06/www/"&gt;MIT Course 18.06: Linear Algebra (Spring 2007)&lt;/A&gt;&lt;br /&gt;&lt;A title=http://en.wikipedia.org/wiki/Linear_algebra href="http://en.wikipedia.org/wiki/Linear_algebra"&gt;http://en.wikipedia.org/wiki/Linear_algebra&lt;/A&gt; &lt;br /&gt;
&lt;H2&gt;벡터 &amp;amp; 행렬&lt;/H2&gt;&lt;A title=http://ko.wikipedia.org/wiki/벡터_공간 href="http://ko.wikipedia.org/wiki/%EB%B2%A1%ED%84%B0_%EA%B3%B5%EA%B0%84"&gt;http://ko.wikipedia.org/wiki/벡터_공간&lt;/A&gt;&lt;br /&gt;&lt;br /&gt;</description>
			<category>Tutorial</category>
			<category>벡터</category>
			<category>선형대수</category>
			<category>행렬</category>
			<author>lifidea</author>
			<guid isPermaLink="false">http://lifidea.tistory.com/44</guid>
			<comments>http://lifidea.tistory.com/entry/%EB%8B%A4%EC%8B%9C-%EB%B0%B0%EC%9A%B0%EB%8A%94-%EC%84%A0%ED%98%95%EB%8C%80%EC%88%98-Linear-Algebra-%EC%9A%B0%EB%A6%AC%EA%B3%81%EC%9D%98-%EB%B2%A1%ED%84%B0%EC%99%80-%ED%96%89%EB%A0%AC#entry44comment</comments>
			<pubDate>Sun, 20 May 2007 11:33:18 +0900</pubDate>
		<feedburner:origLink>http://lifidea.tistory.com/44</feedburner:origLink></item>
		<item>
			<title>다시 배우는 확률론 (3) - 확률 분포</title>
			<link>http://feedproxy.google.com/~r/lifidea/~3/S5ysvs-zzeg/42</link>
			<description>지난회까지 &lt;A title="확률의 기본 개념" href="http://www.lifidea.com/entry/%EB%8B%A4%EC%8B%9C-%EB%B0%B0%EC%9A%B0%EB%8A%94-%ED%99%95%EB%A5%A0%EB%A1%A0-1-%EA%B8%B0%EB%B3%B8-%EA%B0%9C%EB%85%90"&gt;확률의 기본 개념&lt;/A&gt; 및 &lt;A title="확률과 관련하여 범하기 쉬운 오류" href="http://www.lifidea.com/entry/%EB%8B%A4%EC%8B%9C-%EB%B0%B0%EC%9A%B0%EB%8A%94-%ED%99%95%EB%A5%A0%EB%A1%A0-2-%ED%86%B5%EA%B3%84%EC%9D%98-%ED%95%A8%EC%A0%95-%EB%B2%A0%EC%9D%B4%EC%A6%88%EB%A3%B0-%EC%8B%AC%EC%8A%A8%EC%9D%98%EC%97%AD%EC%84%A4"&gt;확률과 관련하여 범하기 쉬운 오류&lt;/A&gt;에 대해 알아보았습니다. 이번에는 확률 지식을 실전에 응용하는데 기본이 되는 확률분포를 알아보겠습니다. 확률의 개념을 이해하면 됬지 왜 여러 종류의 확률분포를 또 공부해야 되냐구요?&lt;br /&gt;&lt;br /&gt;이렇게 생각해봅시다. 객체지향 설계에서 복잡한 요구사항을 디자인 패턴의 조합으로 해결하듯이, 확률분포는 복잡한 실제 현상을 단순한 확률모형의 조합으로 이해하기 위한 도구입니다. 현상을 확률적인 특성에 따라 몇 가지로 구분하고 각각에 대해 필요한 값(확률분포함수, 평균, 분산 등)을 미리 계산해 놓았으니 고맙기 이를데 없습니다.&lt;br /&gt;&lt;br /&gt;복잡한 현상을 확률분포 몇가지의 조합으로 분석할 수 있다는 사실도 놀랍거니와, 임의의 확률분포에서 추출한 표본이 정규분포를 따른다는 신비로운 특성도 보입니다.&lt;br /&gt;&lt;br /&gt;
&lt;H2&gt;이항분포(Binomial Distribution) &lt;/H2&gt;가장 단순한 확률분포로, 앞면이 p의 확률로 나오는 동전을 N번 던졌을 때 나오는 앞면의 개수가 이루는 확률분포입니다. 앞면 혹은 뒷면으로 결과를 구분할때와는 달리 결과가 숫자이므로, 이를 좌표평면에 표시할 수 있습니다. 기본 조건인 동전의 성질(p)와 시행 횟수만 알면 평균은 Np, 분산은 Np(1-p)로 구해집니다.&lt;br /&gt;&lt;br /&gt;
&lt;H2&gt;포아송분포(Poisson Distribution) &lt;/H2&gt;&lt;IMG style="FLOAT: right; MARGIN: 1em 0pt 0pt 1em; WIDTH: 325px; HEIGHT: 244px" src="http://upload.wikimedia.org/wikipedia/commons/thumb/c/c1/Poisson_distribution_PMF.png/325px-Poisson_distribution_PMF.png"&gt; 
시간당 5명의 손님이 오는 가게에서 일한다고 생각해 봅시다. 바로 이 순간에 손님이 도착할 확률은 0에 가까우나, 순간이 무한히 모여 이루어지는 기간(1시간)에 대해서는 일정한 확률(5명)이 정의됩니다. 이를 표현하는 확률분포가 포아송분포로서, 앞서 살펴본 이항분포에서 성공률이 극히 작은(p-&amp;gt;0) 대신 시행횟수가 매우 큰(N-&amp;gt;무한대) 경우라고 생각하면 편합니다.&lt;br /&gt;&lt;br /&gt;실제 시/공간에서 벌어지는 일은 대부분 여기에 해당되기에, 포아송분포는 쓸모가 많습니다. 예를 들어 일정한 횟수와 분포로 발생하는 사건을 다루는 대기행렬 이론(Queueing Theory)의 기초가 되기도 합니다. 큐잉 이론은 다음 회에서 다시 다루도록 하겠습니다.&lt;br /&gt;&lt;br /&gt;
&lt;DIV style="TEXT-ALIGN: center"&gt;&lt;IMG src="http://upload.wikimedia.org/math/1/8/b/18bf9c021b8474a129595caf2c5a6ddb.png"&gt;&lt;br /&gt;&lt;/DIV&gt;k : 사건의 실제 발생 횟수&lt;br /&gt;λ : 단위 기간동안 예상 발생 횟수&lt;br /&gt;&amp;nbsp;&lt;br /&gt;위와 같은 포아송분포를 k를 x축으로 갖는 확률분포 그래프로 그리면 위와 같습니다. 그림에서처럼 λ가 4인 경우 4에서 가장 높은 확률을 보입니다. (기간 당 예상 발생 횟수가 4이니 당연합니다.) &lt;br /&gt;
&lt;br /&gt;
&lt;H2&gt;지수분포(Exponential Distribution) &lt;/H2&gt;

&lt;H2&gt;&lt;IMG style="FLOAT: right; MARGIN: 1em 0pt 0pt 1em; WIDTH: 325px; HEIGHT: 244px" src="http://upload.wikimedia.org/wikipedia/commons/thumb/b/b1/Exponential_distribution_pdf.png/325px-Exponential_distribution_pdf.png"&gt; &lt;/H2&gt;&amp;nbsp; 사건의 발생 확률이 지수적(exponential)으로 감소하는 분포를 지수분포라고 합니다. 예컨데 단위 길이를 뚫을 확률(강성)이&amp;nbsp; λ인 금속판을 어떤 입자가 a보다 깊게 뚫는 사건을 생각해봅시다. 이를 두께가 1/n으로 무한히 얇은 금속판을 n*a번 뚫는 사건으로 볼 수 있으며, 이에 따른 확률분포는 아래와 같습니다.&lt;br /&gt;
&lt;DIV style="TEXT-ALIGN: center"&gt;&lt;IMG src="http://upload.wikimedia.org/math/7/c/1/7c1e7458e99f77f22c350aec59c67e9c.png"&gt;&lt;br /&gt;
&lt;/DIV&gt;&lt;br /&gt;
&lt;DIV style="TEXT-ALIGN: left"&gt;지수분포는 무기억성(Memoryless)이라는 고유의 특성을 갖는데, 이는 과거의 사건이 미래에 영향을 끼치지 못한다는 의미입니다. 예를들어 전구가 켜져있는 시간이 지수분포에 따른다면, 10(s)시간동안 켜져있던 전구가 11(s+t)시까지 켜져있을 확률이 새 전구가 1(t)시간 켜져있을 확률과 같다는 뜻입니다. 이를 식으로 정리하면 아래와 같습니다.&lt;br /&gt;
&lt;DIV style="TEXT-ALIGN: center"&gt;&amp;nbsp;&lt;IMG src="http://upload.wikimedia.org/math/7/e/9/7e968d6085d82f72a581bfdca92da9ec.png"&gt;&lt;br /&gt;&lt;/DIV&gt;&lt;/DIV&gt;이 성질은 지수분포가 다양한 현상을 모델링하는데 사용되는 이유가 되니, 잘 알아둡시다.&lt;br /&gt;&lt;br /&gt;&lt;br /&gt;
&lt;H2&gt;정규분포와 중심극한정리(Central Limit Theorem) &lt;/H2&gt;이공계 대학생이라면 누구나 배우는 것이 중심극한정리입니다. 요약하면 임의의 서로 독립적인 확률분포(모분포)에서 추출된 값들의 합(표본 평균)은 원래 모분포의 종류와 관계없이 정규분포를 이룬다는 겁니다. &lt;A title="어떤 사이트" href="http://www.statisticalengineering.com/central_limit_theorem_%28summary%29.htm"&gt;다음 웹페이지&lt;/A&gt;에는 다양한 모분포에 대해 표본 평균이 정규분포가 됨을 애니메이션으로 보입니다. 이때 정규분포의 평균은 모분포의 평균과 동일하나, 분산은 모분포의 분산을 추출한 횟수(표본 크기)로 나눈 값입니다. (여러번 추출하여 평균한 값에 대한 분포이니 당연히 분산이 줄어들게 됩니다.) &lt;br /&gt;&lt;br /&gt;중심극한정리를 모집단과 표본집단의 관계를 설명하는 것으로 이해할 수 있는데, 모집단을 모두 조사하기 힘든 경우 표본 조사를 수행하고 이를 통해 모집단의 평균 및 분산을 역으로 추정할 수 있는 것입니다.&lt;br /&gt;&lt;br /&gt;중심극한정리를 이해하면 정규분포가 왜 그렇게 광범위하게 나타나며, 또한 활용되는지 알 수 있습니다. 많은 현상이 단일 확률분포를 따른다기보다 확률분포에서 추출된 여러 값의 합으로 묘사될 수 있는데, 이 합은 어김없이 정규분포를 따르기 때문입니다. 따라서 자연계의 현상(예:신호의 노이즈) 분석 및 표본추출에 근거한 사회현상 분석에는 대부분 정규분포가 사용됩니다.&lt;br /&gt;&lt;br /&gt;
&lt;H2&gt;참고자료 &lt;/H2&gt;
&lt;P&gt;강의자료&lt;/P&gt;
&lt;P&gt;&lt;A title="통계 정보 홈페이지" href="http://compstat.chonbuk.ac.kr/Softwares/mse2001/default.htm"&gt;&lt;FONT color=#551a8b&gt;통계 정보 홈페이지&lt;/FONT&gt;&lt;/A&gt; (전북대 통계정보학과 / 친절한 설명이 인상적입니다.)&lt;br /&gt;&lt;A title="확률론과 확률분포" href="http://mmlab.snu.ac.kr/%7Eshlee/prob/"&gt;확률론과 확률분포&lt;/A&gt;&lt;br /&gt;&lt;A title="표본과 중심극한이론" href="http://www.anr.co.kr/information/infomation_stat03.html"&gt;표본이론과 중심극한이론&lt;/A&gt;&lt;br /&gt;&lt;br /&gt;확률분포&lt;br /&gt;&lt;A title=http://en.wikipedia.org/wiki/Probability_distribution href="http://en.wikipedia.org/wiki/Probability_distribution"&gt;http://en.wikipedia.org/wiki/Probability_distribution&lt;/A&gt;&lt;br /&gt;&lt;A title=http://en.wikipedia.org/wiki/Binomial_distribution href="http://en.wikipedia.org/wiki/Binomial_distribution"&gt;http://en.wikipedia.org/wiki/Binomial_distribution&lt;/A&gt;&lt;br /&gt;&lt;A title=http://en.wikipedia.org/wiki/Poisson_distribution href="http://en.wikipedia.org/wiki/Poisson_distribution"&gt;http://en.wikipedia.org/wikiPoisson_distribution&lt;/A&gt;&lt;br /&gt;&lt;A title=http://en.wikipedia.org/wiki/Exponential_distribution href="http://en.wikipedia.org/wiki/Exponential_distribution"&gt;http://en.wikipedia.org/wiki/Exponential_distribution&lt;/A&gt;&lt;br /&gt;&lt;br /&gt;&lt;br /&gt;중심극한정리&lt;br /&gt;&lt;A title=http://en.wikipedia.org/wiki/Illustration_of_the_central_limit_theorem href="http://en.wikipedia.org/wiki/Illustration_of_the_central_limit_theorem"&gt;http://en.wikipedia.org/wiki/Illustration_of_the_central_limit_theorem&lt;/A&gt;&lt;br /&gt;&lt;A title=http://en.wikipedia.org/wiki/Concrete_illustration_of_the_central_limit_theorem href="http://en.wikipedia.org/wiki/Concrete_illustration_of_the_central_limit_theorem"&gt;http://en.wikipedia.org/wiki/Concrete_illustration_of_the_central_limit_theorem&lt;/A&gt;&lt;br /&gt;&lt;A title="중심극한정리 컴퓨터 시뮬레이션" href="http://www.vias.org/simulations/simusoft_cenlimit.html"&gt;중심극한정리 컴퓨터 시뮬레이션&lt;/A&gt;&lt;br /&gt;&lt;br /&gt;(모든 그림은 &lt;A title=위키피디아 href="http://en.wikipedia.org/"&gt;위키피디아&lt;/A&gt;에서 차용하였습니다.)&lt;/P&gt;</description>
			<category>Tutorial</category>
			<category>확률론</category>
			<author>lifidea</author>
			<guid isPermaLink="false">http://lifidea.tistory.com/42</guid>
			<comments>http://lifidea.tistory.com/entry/%EB%8B%A4%EC%8B%9C-%EB%B0%B0%EC%9A%B0%EB%8A%94-%ED%99%95%EB%A5%A0%EB%A1%A0-3-%ED%99%95%EB%A5%A0%EB%B6%84%ED%8F%AC-%ED%8F%AC%EC%95%84%EC%86%A1-%EC%A7%80%EC%88%98%EB%B6%84%ED%8F%AC-%EC%A4%91%EC%8B%AC%EA%B7%B9%ED%95%9C%EC%A0%95%EB%A6%AC#entry42comment</comments>
			<pubDate>Sun, 06 May 2007 23:12:34 +0900</pubDate>
		<feedburner:origLink>http://lifidea.tistory.com/42</feedburner:origLink></item>
		<item>
			<title>다시 배우는 확률론 (2) - 통계의 함정</title>
			<link>http://feedproxy.google.com/~r/lifidea/~3/cMUDtmX2SA8/39</link>
			<description>교과서를 가지고 씨름하다 혹시나 해서 도서관에 가 보았는데, 역시 쓸만한 책이 많더군요. 교과서보다 훨씬 생생한 사례를
가지고 알기쉽게 설명한 책을 찾았습니다. 지난 시간에 소개한 '통계는 성공의 나침반'이라는 책을 추천합니다. 다음 구절이
인상적이어서 옮겨 보았습니다. &lt;br /&gt;&lt;blockquote&gt;"인간의 두뇌는 확률문제를 푸는 데 별로 적합하지 않다." - 책 '확률의 함정'에서&lt;br /&gt;
&lt;/blockquote&gt;위 말처럼 인간의 사고 및 판단의 대부분을 차지하는 휴리스틱(Heuristic)은 &lt;a title="오류투성이여서" href="http://en.wikipedia.org/wiki/List_of_cognitive_biases"&gt;오류투성이여서&lt;/a&gt;, 정신이 온전한 상태에서도 수많은 실수를 범하게 됩니다. 오늘은 확률과 관련하여 자주 범하는 오류를 살펴보도록 합시다.&lt;br /&gt;&lt;br /&gt;&lt;br /&gt;
&lt;h2&gt;
  부분의 합은 전체가 아니다? - 심슨의 역설
&lt;/h2&gt;
&lt;br /&gt;직관과 어긋나는 사례로 자주 언급되는 것이 '심슨의 역설(Simpson's Paradox)'입니다. 이는 유명한
O.J.심슨 사건 변호사의 궤변에서 비롯된 이름으로, 통계 조사에서 부분적인 결과와 이를 합친 전체의 결과가 어긋나는 결과나
종종 관찰된다는 것입니다. &lt;a href="http://www.hankyung.com/news/app/newsview.php?aid=2005062766061&amp;amp;nid=104&amp;amp;sid=011513&amp;amp;page=3" title="다음 기사"&gt;다음 기사&lt;/a&gt;는
어떤 대학의 남학생 합격률이 더 높았는데, 단과대별로는 여학생의 합격률이 높다는 모순적인 현상을 다룬 것입니다. 원인은 남학생은
대부분 합격률이 높은 단과대에 지원했으며, 여학생은 그 반대이기 때문입니다. 전체 합격자 비율은 단대별 합격률의 단순 평균이
아니라 전체 합격자 수를 전체 지원자 수로 나눈 것이므로, 합격자 절대수가 많으면 합격률이 높아지는 겁니다.&lt;br /&gt;
&lt;br /&gt;
또 &lt;a href="http://www.mentalese.net/blog/296" title="어떤 블로그"&gt;어떤 블로그&lt;/a&gt;에는 이를 빌어 한의학과 서양 의학을 비교하는 사례가 있군요. 과학자가 아니더라도 직관을 맹신하는 것은 위험합니다.&lt;br /&gt;
&lt;br /&gt;
&lt;h2&gt;암검사 결과를 믿을 수 없다? - 베이즈 룰&lt;br /&gt;

&lt;/h2&gt;
많은 기계학습 이론의 기초가 되는 베이즈 규칙(Bayes' Rule)도 직관의 함정을 피하도록 도와줍니다. &lt;a href="http://yudkowsky.net/bayes/bayes.html" title="다음 웹페이지에"&gt;다음 웹페이지&lt;/a&gt;는 
어떤 암 발병확률이 1%이고, 발병자 80%가 양성 반응을, 비 발병자 9.6%가 양성 반응을 보이는 암검사에서 양성판정을 받은
환자가 암을 가졌을 확률이 몇%인지 묻고 있습니다. 실제 의사들에게 질문을 했을때도 대부분이 80%로 대답했다고 합니다만, 위
페이지의 계산결과를 보면 실제 확률은 7.8%라고 합니다. 이처럼 베이즈 규칙은 결과적인 사건(암검사)이 주어졌을 때 원인이
되는 사건의 확률을 추론할 수 있는 수단을 제공한다는 데 의의가 있습니다.&lt;br /&gt;
&lt;br /&gt;
베이즈 규칙에서는 아래 식처럼 사건의 원래 발생확률(A - prior)과 그 사건이 발생을 가정할때 현상이 나타날 조건부
확률(B|A likelihood - 해당 사건이 현상을 설명하는 정도)를 곱해서, 현상이 주어졌을때 예측하고자 하는 사건의 발생
확률(A|B posterior)을 계산합니다. 앞의 사례로 돌아가면, 암(사건)의 발병확률이 1%로 워낙 낮기 때문에,
양성판정(현상)으로 높아진 확률도 7.8%에 머무는 것입니다.&lt;br /&gt;
&lt;br /&gt;
&lt;div style="text-align: center;"&gt;
  &lt;img src="http://upload.wikimedia.org/math/3/f/0/3f024a0d2eba7ea94aa6b2bb1e73ed69.png"&gt; &amp;nbsp;&amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp; &lt;img src="http://upload.wikimedia.org/math/3/e/2/3e294d8052aa226062a1a1158be30079.png"&gt;
&lt;/div&gt;
&lt;br /&gt;
기계학습의 주제인 분류(classification)작업에서는 현상에 대한 학습자의 가설(hypothesis)이 사용되기에,&amp;nbsp; 주어진 현상(B)을 가장 잘 설명하는 가설(A)을 찾는데 베이즈 규칙을 사용합니다. &lt;a href="http://www.paulgraham.com/spam.html" title="베이즈 룰을 사용한 스팸 필터"&gt;베이즈 룰을 사용한 스팸 필터&lt;/a&gt;를 생각해보면 메일에 포함된 단어(B)를 종합하여 스펨인지 아닌지(A)를 판단해 내는 것입니다. &lt;br /&gt;
&lt;br /&gt;
&lt;h2&gt;마치며
&lt;/h2&gt;베이즈 규칙은 기계학습 알고리즘 대부분의 이론적 기초를 제공하는 중요한 이론이지만 그 함의를 완전히 이해하는 것은 쉬운
일이 아닙니다. 제 이해가 부족한 모양인지, 이 부분을 보통 대학생이 이해할 수 있을 정도로 설명했다는 확신이 서지 않네요.
공부를 더 쌓으며 보충하도록 하겠습니다. 다음에는 확률 분포를 다룰까 합니다.&lt;br /&gt;
&lt;br /&gt;
&lt;h2&gt;
  참고자료
&lt;/h2&gt;&lt;h3&gt;심프슨의 역설&lt;span style="text-decoration: underline;"&gt;&lt;br /&gt;
  &lt;/span&gt;
&lt;/h3&gt;
&lt;p&gt;
  &lt;a href="http://www.hankyung.com/news/app/newsview.php?aid=2005062766061&amp;amp;nid=104&amp;amp;sid=011513&amp;amp;page=3" title="심프슨의 역설 관련 자료"&gt;심프슨의 역설 관련 기사&lt;/a&gt;&lt;br /&gt;
&lt;/p&gt;
&lt;p&gt;
  &lt;a href="http://en.wikipedia.org/wiki/Simpson%27s_paradox"&gt;http://en.wikipedia.org/wiki/Simpson's_paradox&lt;/a&gt;
&lt;/p&gt;
&lt;p&gt;
  &lt;br /&gt;
&lt;/p&gt;
&lt;h3&gt;
  베이즈룰&lt;br /&gt;
&lt;/h3&gt;
&lt;p&gt;
  &lt;a href="http://en.wikipedia.org/wiki/Bayes_rule" title="http://en.wikipedia.org/wiki/Bayes_rule"&gt;http://en.wikipedia.org/wiki/Bayes_rule&lt;/a&gt;
&lt;/p&gt;
&lt;p&gt;
  &lt;a href="http://yudkowsky.net/bayes/bayes.html" title="An Intuitive Explanation of Bayesian Reasoning"&gt;An Intuitive Explanation of Bayesian Reasoning&lt;/a&gt;
&lt;/p&gt;</description>
			<category>Tutorial</category>
			<category>기계학습</category>
			<category>확률론</category>
			<author>lifidea</author>
			<guid isPermaLink="false">http://lifidea.tistory.com/39</guid>
			<comments>http://lifidea.tistory.com/entry/%EB%8B%A4%EC%8B%9C-%EB%B0%B0%EC%9A%B0%EB%8A%94-%ED%99%95%EB%A5%A0%EB%A1%A0-2-%ED%86%B5%EA%B3%84%EC%9D%98-%ED%95%A8%EC%A0%95-%EB%B2%A0%EC%9D%B4%EC%A6%88%EB%A3%B0-%EC%8B%AC%EC%8A%A8%EC%9D%98%EC%97%AD%EC%84%A4#entry39comment</comments>
			<pubDate>Tue, 24 Apr 2007 23:28:56 +0900</pubDate>
		<feedburner:origLink>http://lifidea.tistory.com/39</feedburner:origLink></item>
		<item>
			<title>다시 배우는 확률론 (1) - 기본 개념</title>
			<link>http://feedproxy.google.com/~r/lifidea/~3/Srq9cok1cbw/38</link>
			<description>학문 연구는 결국 현실 세계의 문제를 푸는데 그 목적이 있을진데, 대부분 사람에게는 멀게만 느껴집니다. 지식 자체의 복잡성보다도 이를 전달하는
방식에 대한 고민이 부족하지 않았나 합니다. 교과서는 딱딱한데다 현재 추세에는 한참 뒤쳐지며, 신선한 연구결과를 담은 논문은 그 분야 전문가 몇몇을
제외하고는 읽어볼 엄두조차 못내는 것이 우리의 현실입니다.&lt;br /&gt;

&lt;br /&gt;

&lt;a href="../%ED%96%A5%ED%9B%84-%EC%9A%B4%EC%98%81-%EA%B3%84%ED%9A%8D%EC%9E%85%EB%8B%88%EB%8B%A4" title="운영 계획"&gt;운영
계획&lt;/a&gt;에서 밝힌 대로 이론적 지식을 대중의 눈높이에 맞추어 소개하려고 합니다. 학문적 엄밀함보다는 활용가능성에 초점을 맞추어, 상식보다
한걸음 나아가는 앎의 전달을 목표로 합니다. 쉽게 설명하기 위해서는 제대로 알아야 하므로, 저의 공부에도 도움이 되지 않을까 합니다.&lt;br /&gt;

&lt;br /&gt;

첫번째로 확률론을 다루겠습니다. 고등학교 졸업한지 몇년이상 되신 분들은 거의 기억나지 않으시겠으나, 확률론은 생각보다 쓸모가 많습니다. 세상
대부분이 비결정적인 확률적 현상이기에, 확률에 대한 지식은 좀더 정확한 예측 및 판단을 가능케하며, 자칫 범하기 쉬운 오류도 막아줍니다. 좀더
섬세하고 정확한 직관을 주는 것입니다.&lt;br /&gt;

&lt;br /&gt;

또한 확률론은 많은 학문의 기초가 됩니다. 기계학습(Machine Learning)은 확률론을 계산모델로 표현한 것이며,
자연어처리(Natural Language Processing) 및 정보검색(Information Retrieval)분야에서도 최근에는 확률론을
적용하여 정확도를 높이고, 예외 상황에 강한 이론 및 시스템을 만들고 있습니다.&lt;br /&gt;
&lt;br /&gt;
&lt;h2&gt;확률을 아십니까&lt;/h2&gt;
자주 쓰는 용어의 엄밀한 정의를 내리기 힘든 경우가 많은데, '확률'도 만만한 개념은 아닙니다. 확률은 결국 정보의 정확성에 대한 개념일진데 &lt;a title="최근에 읽은 책" href="http://www.yes24.com/Goods/FTGoodsView.aspx?goodsNo=1411578&amp;amp;CategoryNumber=001001022005001"&gt;최근에 읽은 책&lt;/a&gt;에서는 이를 다음과 같이 구분합니다.&lt;br /&gt;
&lt;br /&gt;
&lt;ol&gt;&lt;li&gt;확실 : 결과가 결정된 경우&lt;/li&gt;&lt;li&gt;리스크 : 결과의 종류 및 각각의 확률을 아는 경우&lt;/li&gt;&lt;li&gt;불확실 : 결과의 종류 혹은 각각의 확률이 불확실한 경우&lt;br /&gt;
 &lt;/li&gt;&lt;li&gt;무지 : 결과에 대해 전혀 모르는 경우&lt;/li&gt;&lt;/ol&gt;
&lt;br /&gt;
실제로 사용되는 확률은 2, 3번의 정의를 포괄합니다. 또한 2번에서 언급된 '앎'의 객관성에 따라 객관적 / 주관적 확률로
구분되기도 합니다. 이중 '객관적 확률'은 주사위의 각 면이 나올 확률처럼 실험에 의해 검증가능한 것이며, '주관적 확률'은
내가 이번학기에 여자친구를 사귈 확률처럼 현상에 대한 개인의 확신의 정도를 나타냅니다. 이는 당연히 같은 현상에 대해 사람마다
다를 수 있습니다.&lt;br /&gt;
&lt;br /&gt;
여기서 '직접 실험해볼 수 없는 확률은 모두 주관적이란 말이냐'는 의심을 가지실 수 있습니다. 만약 그렇다면 확률 공부하는
사람은 앉아서 숫자 세는 것 이외에는 할 일이 없겠지만 그렇지는 않습니다. 실제로는 알려진 사건에 법칙을 적용하여 알려지지 않은
사건의 확률을 추론해낼 수 있으며, 이렇게 구한 확률을 '논리적 확률'이라고 합니다. 이는 실제로 객관화될 수 있는 값이나,
검증되지 않았다는 측면에서는 객관적 확률은 아닌 듯 합니다.&lt;br /&gt;
&lt;br /&gt;

&lt;h2&gt;
  확률론의 세계관
&lt;/h2&gt;

다른 학문이 그렇듯이 확률론에서도 세계를 바라보는 고유한 관점을 갖습니다.&amp;nbsp; 확률론의 세계는 발생가능한 모든 사건을 포함하는
'표본공간'(Sample Space)입니다. 표본공간이 사건 전체의 집합이라면 '사건'은 표본공간의 부분집합이며, 각각 고유의 발생 가능성 -
'확률' - 을 가집니다. 확률론에서 가장 많이 사용되는 동전 던지기를 생각해봅시다. 여기서 표본공간은 앞면과 뒷면이며, 보통 동전이라면 앞면
혹은 뒷면이 나올 확률이 각각 1/2입니다. 표본공간 전체의 확률은 1이겠죠.&lt;br /&gt;

&lt;br /&gt;

너무 시시하다구요? 하지만 옛부터 튼튼한 개념이 학습의 지름길이라고 했습니다. 확률론의 다른 개념은 모두 여기에서 파생되며, 좀더 복잡한 현상을
확률론으로 설명하다보면 표본공간과 사건의 개념이 흔들리기 일쑤입니다. 동전을 N번 던져 앞면이 나오는 횟수를 조사할 경우 표본공간은 무엇일까요?
서로 구별가능한 동전을 N개 같이 던질때는 어떻게 될까요?&lt;br /&gt;

&lt;br /&gt;

&lt;h2&gt;
  사건간의 관계
&lt;/h2&gt;

표본공간과 사건을 정의한 후에 생각해볼 것이 사건 간의 관계입니다. 예방접종을 맞으면 질병에 걸릴 확률이 낮아지는 것처럼 사건 간에는 다양한
의존관계가 존재합니다. 여기서 조건부 확률의 개념이 등장합니다. 특정 사건 B(조건)의 발생 여부가 원래 사건 A의 발생 확률에 영향을 끼치는
것입니다. B의 발생을 아는 상태에서의 확률은 원래 알던 A의 확률 P(A)와 구분지어 P(A|B)로 표시합니다.&lt;br /&gt;

&lt;br /&gt;

이와 관련하여 생각해 볼수있는 것이 사건 간의 독립성입니다. 독립적으로 발생하는 두 사건간의 관계는 어떤 특성을 지닐까요? 직관적으로는 한
사건의 발생 확률이 다른 사건의 확률에 영향을 끼치지 않아야 합니다. 조건부 확률을 이용해 표시하면 P(A) = P(A|B)가 되겠군요.&lt;br /&gt;

&lt;br /&gt;

주의할 점은 셋 이상의 사건이 있을때 두 사건씩 쌍으로 독립인 것과, 세 사건이 서로 득립인 것은 구분해 주어야 한다는 것입니다. 즉,
A,B,C에 대해 생각해보면 A와 B각각은 C와 독립이지만, A와 B가 동시에 발생하는 사건은 C에 영향을 줄 수 있다는 겁니다. 슬슬 직관이
어긋나기 시작하시나요?&lt;br /&gt;

&lt;br /&gt;

&lt;h2&gt;
복잡한 확률 문제 풀기&lt;/h2&gt;


실 세계의 사건은 대부분 단순한 규칙 적용으로 풀리지 않습니다. 어디서부터 손대야 할지도 막막한 경우가 대부분입니다. 이럴때 전가의 보도처럼
사용되는 방식이 Divide &amp;amp; Conquer입니다. 확률론에도 이처럼 복잡한 현상을 나누어 해결하도록 도와주는 도구가 있는데, 이것이
전확률법칙(&lt;a href="http://en.wikipedia.org/wiki/Law_of_total_probability" title="Law of total probability"&gt;Law
of total probability&lt;/a&gt;)입니다.&lt;br /&gt;

&lt;br /&gt;

&lt;div style="text-align: center;"&gt;&lt;img src="http://upload.wikimedia.org/math/9/e/e/9eef4f1d6441cda735dfad44b9deb9f8.png"&gt;
&lt;br /&gt;
&lt;/div&gt;

&lt;br /&gt;

전확률법칙은 위 식처럼 복잡한 사건 A의 확률을 바로 구하기보다 사건 B1~Bn에 대한 조건부 확률의 가중평균으로 구하는
겁니다. 여기서, 사건 B1~Bn은 표본공간 전체에 대한 분할이어야 합니다. 전교에서 어떤 혈액형을 가진 학생의 비율을
구할때, 반별로 구한 비율을 반별 학생수로 가중평균하여 구하는 방식입니다. 물론 실제 사건에 대한 적절한 분할을 찾는 문제는
이처럼 단순하지는 않겠죠.&lt;br /&gt;
&lt;br /&gt;
&lt;h2&gt;
  다음에는...
&lt;/h2&gt;

저의 연구분야 - 머신러닝 / 정보검색 - 가 대부분 확률론에 기반하기에, 이 글은 앞으로 다룰 많은 주제의 기반이 될 듯 합니다. 다음에는
확률 현상과 관련된 흔한 오류를 다룰까 합니다.&lt;br /&gt;

&lt;br /&gt;

&lt;h2&gt;
  참고자료
&lt;/h2&gt;

&lt;p&gt;
  위 자료는 '확률의 개념 및 응용 - 전종우/손건태'에 기초하며, 아래 자료는 추가로 읽어보시기 바랍니다.&lt;br /&gt;
&lt;/p&gt;


&lt;p&gt;
  &lt;a href="http://www.dartmouth.edu/%7Echance/teaching_aids/books_articles/probability_book/book.html" target="_blank"&gt;Stanford
  Univ. Probabillity Theory Textbook (PDF)&lt;/a&gt;&lt;br /&gt;
  &lt;a href="http://www-stat.stanford.edu/%7Esusan/surprise/" target="_blank"&gt;Java
  Applets on Probability Theory&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;&lt;br /&gt;
&lt;/p&gt;


&lt;p&gt;
  &lt;a href="http://www.mentalese.net/blog/category/%EC%9E%90%EC%97%B0/%ED%86%B5%EA%B3%84%ED%95%99" title="통계학 관련 블로그"&gt;통계학
  관련 블로그&lt;/a&gt;&lt;br /&gt;
  &lt;a href="http://ezstat.co.kr/" title="류근관 교수님의 통계학 홈페이지"&gt;류근관 교수님의 통계학
  홈페이지&lt;/a&gt; &lt;br /&gt;
&lt;/p&gt;
&lt;p&gt;&lt;br /&gt;

&lt;/p&gt;




&lt;p&gt;
  &lt;a href="http://en.wikipedia.org/wiki/Law_of_total_probability" title="http://en.wikipedia.org/wiki/Law_of_total_probability"&gt;http://en.wikipedia.org/wiki/Probability_theory&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;&lt;a href="http://en.wikipedia.org/wiki/Law_of_total_probability" title="http://en.wikipedia.org/wiki/Law_of_total_probability"&gt;http://en.wikipedia.org/wiki/Probability_interpretations&lt;br /&gt;
&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;&lt;a href="http://en.wikipedia.org/wiki/Law_of_total_probability" title="http://en.wikipedia.org/wiki/Law_of_total_probability"&gt;http://en.wikipedia.org/wiki/List_of_probability_topics&lt;br /&gt;http://en.wikipedia.org/wiki/Law_of_total_probability&lt;/a&gt;
&lt;/p&gt;
&lt;br /&gt;</description>
			<category>Tutorial</category>
			<category>개념</category>
			<category>확률론</category>
			<author>lifidea</author>
			<guid isPermaLink="false">http://lifidea.tistory.com/38</guid>
			<comments>http://lifidea.tistory.com/entry/%EB%8B%A4%EC%8B%9C-%EB%B0%B0%EC%9A%B0%EB%8A%94-%ED%99%95%EB%A5%A0%EB%A1%A0-1-%EA%B8%B0%EB%B3%B8-%EA%B0%9C%EB%85%90#entry38comment</comments>
			<pubDate>Sun, 22 Apr 2007 07:35:16 +0900</pubDate>
		<feedburner:origLink>http://lifidea.tistory.com/38</feedburner:origLink></item>
		<item>
			<title>강릉대 아이들, 미국 명문대학원을 정복하다.</title>
			<link>http://feedproxy.google.com/~r/lifidea/~3/lvqXc98ogpg/37</link>
			<description>유학 준비에 대한 자료를 찾다 눈에띄는 제목의 책을 발견했습니다. '강릉대 아이들 미국 명문대학원을 정복하다.' 강릉대 전자공학과에 91년 설립과 동시에 부임한 조명석 교수님이, 15년에 걸친 노력끝에 어떻게 97년부터 총 31명을 미국 대학원에 진학시켰는지에 대한 이야기입니다.&lt;br /&gt;&lt;br /&gt;'&lt;a href="http://lifart.com/entry/%EB%AF%B8%EA%B5%AD-%EB%8C%80%ED%95%99%EC%9B%90-%EC%9C%A0%ED%95%99%EC%97%90-%EB%8C%80%ED%95%9C-%EC%98%A4%ED%95%B4%EC%99%80-%EC%A7%84%EC%8B%A4-2" target="_blank"&gt;대학원 입학허가를 받는데 어느 학부를 졸업했느냐는 중요하지 않다&lt;/a&gt;'는 제 생각을 확인하기 위해 읽기 시작한 책이었으나, 읽은 후에는 부모님도 포기했다는 아이들을 자신감과 실력을 겸비한 인재로 키워낸 조명석 교수님을 비롯한 강릉대 전자과 교수님들의 순수한 열정과 끈기에 감동하지 않을 수 없었습니다. &lt;br /&gt;&lt;br /&gt;조명석 교수님은 책에서 처음에 국내 대학원과 기업에서도 받아주지 않는 학생들에게 '할수있다'는 자신감을 심어주기 위해 역으로 해외대학원에 도전할 생각을 하셨다고 합니다. 97년 첫 제자가 University of Washington에 진학하자 이를 시스템으로 정착시켜 유학을 준비하는 제자들에게 여름방학때 하루 12시간씩 집중 훈련을 시켜 영어에 대한 두려움을 극복하게 하고, 유학간 선배들의 사진이 붙은 도서관을 운영하고 학사관리를 엄정하게 하여 탄탄한 전공 실력을 쌓을수 있도록 지도하셨다고 합니다.&lt;br /&gt;&lt;br /&gt;뜻있는 개인의 지속적인 노력이 얼마나 주변 및 사회에 큰 반향을 일으킬 수 있는지를 다시금 깨달았습니다. 학생을 지도하는 마음가짐에대해 조명석 교수님은 이렇게 이야기합니다.&lt;br /&gt;
&lt;blockquote&gt;어린아이는 눈빛만으로 부모가 자신을 얼마나 사랑하는지를 안다.&lt;br /&gt;하물며 대학생이 교수가 자신을 존중하는지 무시하는지를 모르겠는가?&lt;br /&gt;&lt;/blockquote&gt;지성이면 감천이라고 조 교수님의 지도를 받은 강릉대 전자과 학생들은 이런 반응을 보입니다. &lt;br /&gt;
&lt;blockquote&gt;다른 대학 출신과 전공실력을 겨룰 때 내가 대학시절에 정말 탄탄하게 실력을 기르고 왔다는 것을 피부로 느껴요.&lt;br /&gt;&lt;br /&gt;국립 강릉대, 그것도 전자공학과 진학이 생애 최고의 행운이었습니다.&lt;br /&gt;&lt;/blockquote&gt;서울대 전자과 졸업예정자로서 스스로의 대학생활을 돌이켜보게 되는 순간이었습니다. 과연 대학생활 및 출신학교에 대해 이정도 자신감을 가졌던가요?&lt;br /&gt;&lt;br /&gt;기회가 될때마다 후배들에게 학교이름만 믿고 나태하게 지내면 큰코다칠것이라고 경고해왔으나, 학벌사회의 붕괴가 머지않았음을 다시 실감합니다. 해외유학이라는 'Second Chance'의 가능성이 충분히 확인된 만큼 앞으로 실력있는 '비명문대' 학생들의 유학은 추세가 될 것이라고 예측됩니다. 장기적으로는 유학생 수의 증가에 따라 유학 자체가 주는 프리미엄은 깎이게 되겠군요. 자격보다 실력이 우선시되는 시대의 도래를 기대하며, 마지막으로 책에 인용된 로맹 롤랑의 명언을 옮깁니다.&lt;br /&gt;&lt;br /&gt;
&lt;blockquote&gt;운명은 일시적으로 결정되는 것이 아니라, 오랜 시간의 경험과 시련, 알려지지 않은 노력의 기초위에 쌓이는 것이다. &lt;br /&gt;그렇게 결정된 운명은 견고해서 흔들림이 없다. 왜나하면 자신이 스스로 노력해서 일궈낸 성과들은 반복될 수 있기 때문이다. &lt;br /&gt;- 로맹 롤랑&lt;br /&gt;&lt;/blockquote&gt;책에는 유학에 대한 현장감있는 조언이 가득한 만큼, 대학원 유학을 준비하시는 분들께 일독을 권합니다. 이와함께 제가 &lt;a href="http://lifart.com/tag/%EC%9C%A0%ED%95%99%EC%A4%80%EB%B9%84" target="_blank"&gt;LifArt.com에 연재중인 유학 준비 가이드도 &lt;/a&gt;참고하시기 바랍니다.&lt;br /&gt;&lt;br /&gt;
&lt;h2&gt;참고자료&lt;/h2&gt;&lt;a title="'강릉대 아이들' 관련기사" href="http://article.joins.com/article/article.asp?ctg=12&amp;amp;total_id=2648946" target="blank_"&gt;'강릉대 아이들' 관련기사&lt;/a&gt; &lt;br /&gt;&lt;a href="http://lifart.com/tag/%EC%9C%A0%ED%95%99%EC%A4%80%EB%B9%84" target="_blank"&gt;Jerry's 미국 대학원 유학 준비 가이드&lt;br /&gt;&lt;/a&gt;&lt;br /&gt;</description>
			<category>유학준비</category>
			<author>lifidea</author>
			<guid isPermaLink="false">http://lifidea.tistory.com/37</guid>
			<comments>http://lifidea.tistory.com/entry/%EA%B0%95%EB%A6%89%EB%8C%80-%EC%95%84%EC%9D%B4%EB%93%A4-%EB%AF%B8%EA%B5%AD-%EB%AA%85%EB%AC%B8%EB%8C%80%ED%95%99%EC%9B%90%EC%9D%84-%EC%A0%95%EB%B3%B5%ED%95%98%EB%8B%A4#entry37comment</comments>
			<pubDate>Tue, 10 Apr 2007 17:22:05 +0900</pubDate>
		<feedburner:origLink>http://lifidea.tistory.com/37</feedburner:origLink></item>
		<item>
			<title>향후 운영 계획입니다.</title>
			<link>http://feedproxy.google.com/~r/lifidea/~3/eclThO5lZ_s/36</link>
			<description>며칠간 몸과 마음을 가다듬는 시간을 보냈습니다. 성취에 대한 기쁨과 보람보다는 앞으로의 삶에 대한 책임과 각성이 기억에 남는 기간이었습니다. 새출발을 축하해주신 많은 분들께 감사드립니다.&lt;br /&gt;&lt;br /&gt;지난 20여일간 시험적으로 운영해 온 블로그에 대해서도 많은 생각을 했습니다. 처음에 단지 생각 및 지식의 정리 및 축적하는 도구로 생각했으나, 이를 통한 소통과 이를 통한 긍정적인 영향을 체험하였습니다. 블로그에 올릴 내용을 찾고 이를 공개할만한 수준으로 다듬는 과정을 통해, 혼자 배우고 연구할때와 비교도 안될 정도로 강한 에너지와 집중력을 끌어내는 자신을 발견한 것입니다. 쉽게 시작한 것이 아닌만큼 쉽게 운영해서도 안된다고 생각했습니다.&lt;br /&gt;&lt;br /&gt;스스로의 관심과 역량에 부합하며, 이를 다른 사람들에게 효과적으로 전달할 방법을 고민하는 와중에 한가지 결정을 내렸습니다. 블로그를 기술적인 내용과 인간 중심적인 내용으로 나누기로 한 것입니다. 첫 글에서 밝힌 바와 같이 저의 연구주제는 개인이 잠재력을 최대한 발휘하여 원하는 삶(Life as an Idea - LiFiDeA)을 실현하게 하는 정보시스템을 만드는 것이며, 여기에는 크게 인공지능, 정보검색 등을 중심으로 하는 기술적인 연구와, 인지과학 및 심리학 등의 인문학적 주제가 포함됩니다.&lt;br /&gt;&lt;br /&gt;평생 천착하기로 결심한 과업인만큼 여기서 뺄수도 더할수도 없지만 이를 하나의 블로그에 담기에는 너무 넓고 크다는 생각이었습니다. 일정한 구독자 및 방문자 층을 가지는 블로그의 특성상 컨텐츠의 폭은 제한되는 것이 바람직하기 때문입니다. 따라서 블로그를 아래처럼 독자층에 따라 기술측면-인간측면으로 나누기로 결심했습니다. 기술측면의 내용은 현 주소인 &lt;a href="http://www.lifidea.com" target="_blank"&gt;lif&lt;span style="font-weight: bold;"&gt;idea&lt;/span&gt;.com&lt;/a&gt;(LiFiDeA)에서, 그리고 인간측면의 내용은 &lt;a href="http://www.lifart.com/" target="_blank"&gt;lif&lt;span style="font-weight: bold;"&gt;art&lt;/span&gt;.com&lt;/a&gt;(LifArt)에서 다루게 됩니다. (LiFiDeA의 idea는 이상이라는 의미를, LifArt의 art는 방법/기술이라는 의미를 지닙니다.)&lt;br /&gt;&lt;div class="imageblock center" style="text-align: center; clear: both;"&gt;&lt;a href="http://cfs3.tistory.com/upload_control/download.blog?fhandle=YmxvZzQ1NTExQGZzMy50aXN0b3J5LmNvbTovYXR0YWNoLzAvNi5qcGc%3D" rel="lightbox" target="_blank"&gt;&lt;img src="http://cfs3.tistory.com/upload_control/download.blog?fhandle=YmxvZzQ1NTExQGZzMy50aXN0b3J5LmNvbTovYXR0YWNoLzAvNi5qcGc%3D" alt="사용자 삽입 이미지"/&gt;&lt;/a&gt;&lt;/div&gt;우선 &lt;a href="http://www.lifidea.com" target="_blank"&gt;LiFiDeA에서는&lt;/a&gt; 컴퓨터 분야 연구자 및 개발자, 폭넓게는 IT분야 종사자를 대상으로 주로 위 범주에 속하는 컨텐츠를 다루게 됩니다. 만만한 주제는 하나도 없지만, 각각에 대해 실용주의 관점에서 최소한의 배경지식을 갖고 이해 가능한 수준으로 작성하려 합니다. 현재 학계를 중심으로 연구되는 여러 주제를 개발자들이 현업에서 활용가능한 형태로 전달하려 하며, 특정 주제를 완벽하게(transparently) 이해하고 있다면 어린아이에게라도 설명할 수 있다는 것이 제 소신입니다.&lt;br /&gt;&lt;br /&gt;구체적으로는 당분간 시맨틱웹의 기반 기술인 Topic Map, RDF/OWL을 다룰 생각입니다. 이 주제를 제대로 접근하기 위해 전통적인 인공지능(Classical A.I.)분야의 지식 표현(Knowledge Representation)에 대한 부분적인 설명도 곁들입니다. 또한 현재 &lt;a href="http://beyond.daesan.com" target="_blank"&gt;황대산&lt;/a&gt;, &lt;a href="http://niceview.egloos.com" target="_blank"&gt;조정목&lt;/a&gt;(niceview)님과 'The Ruby Way'의 번역을 진행하고 있는 만큼 제가 가장 좋아하는 언어인 Ruby Programming Lanugage에 대한 내용도 올라갈 예정입니다. &lt;br /&gt;&lt;br /&gt;장기적으로 박사 과정의 중심 주제로 생각하고 있는 Machine Learning과 Information Retrieval에 대해, 또한 이 둘의 결합으로서 논문 및 웹페이지등 텍스트에서 유용한 정보를 추출해내는 기술인 Information Extraction (Text Mining)에 대해서 자세히 다루겠습니다. 이를 다루다보면 결국 자연어처리(Natural Language Processing)역시 어느정도 건드리게 됩니다.&lt;br /&gt;&lt;br /&gt;&lt;a href="http://www.lifart.com" target="_blank"&gt;LifArt에서는&lt;/a&gt; 인간의 정신에 대한 학문인 인지과학 및 심리학에 대한 교양 수준의 이해를 기초로, 자신 및 스스로의 삶을 개선하는 방법을 다룰 예정입니다. 이에 포함되는 세부주제로 지식 활동의 생산성을 극대화하는 방법(지식관리), 지식에 근거하여 목표를 설정하고 이를 다시 일정으로 옮기는 방법(목표관리), 목표 및 일정을 최대한 실천해내는 방법(행동관리)을 다루려 합니다. 몇 년간 고민한 주제인만큼 드릴 말씀이 있을 겁니다. 이와는 별도로, 제가 몸담고 있는 학계에 관련된 이야기를 경험에 근거하여 올릴 생각입니다.&lt;br /&gt;&lt;br /&gt;궁극적으로 기술적 주제들은 인간적인 주제와 맞닿아야 합니다. 인간에 대한 근본적인 이해는 인간을 위한, 인간과 상호작용하는 정보시스템을 제대로 설계하는데 필수적인 까닭입니다. 또한 삶을 이상의 차원으로 끌어올린다는 목표는 시스템만으로 달성되지 않기 때문입니다. 시스템을 사용함에 따라, 사용자의 의식구조 및 습관 역시 바뀌어야 합니다. 결국 LiFiDeA의 비전은 인간에서 출발하여 기술을 거쳐 다시 인간에게 돌아가야 하는 것입니다.&lt;br /&gt;&lt;br /&gt;긴 여정의 시작입니다. 천천히, 하지만 꾸준히 나아가겠습니다.</description>
			<category>LiFiDeA</category>
			<category>LiFiDeA</category>
			<author>lifidea</author>
			<guid isPermaLink="false">http://lifidea.tistory.com/36</guid>
			<comments>http://lifidea.tistory.com/entry/%ED%96%A5%ED%9B%84-%EC%9A%B4%EC%98%81-%EA%B3%84%ED%9A%8D%EC%9E%85%EB%8B%88%EB%8B%A4#entry36comment</comments>
			<pubDate>Thu, 05 Apr 2007 20:31:27 +0900</pubDate>
		<feedburner:origLink>http://lifidea.tistory.com/36</feedburner:origLink></item>
		<item>
			<title>University of Massachusetts, Amherst (UMass)로 진학합니다.</title>
			<link>http://feedproxy.google.com/~r/lifidea/~3/g6CNTAuYMsw/35</link>
			<description>&lt;P&gt;작년 1월, 유학을 처음 결심하던 때가 생각납니다. 3년간의 회사생활을 마치고 학교로 돌아올 무렵, 원하는 일을 평생 하기위한 출발점으로 대학원 공부를 생각했습니다. 하지만 무엇을 하고 싶은지도 몰랐고, 무엇을 준비해야 할지는 더더욱 막막했습니다. 단지, 적성과 관계없이 되는대로 골라잡은 직장을 다니고 싶지는 않았습니다. 또한 제대로 된 일을 하기에는 스스로 너무 부족하다는 점은 분명했습니다.&lt;/P&gt;
&lt;P&gt;막연히 유학을 결심했던 것은 유학 준비가 가장 방대하고 어렵게 느껴졌기 때문입니다. 전공 결정, 영어 시험, 추천서, 자기소개서, 관련 장학금 지원까지 해야할 일이 끝도 없었지만 설령 진학에 실패하더라도 평생 도움이 될만한 일들이라고 느꼈습니다. 사실, 평생 연구하고픈 분야를 찾아 계획서를 써보고, 이에 관련하여 전문가들을 만나뵙고 자신의 소신을 펼 기회를 갖는 사람이 몇이나 됩니까. 하고픈 일을 찾아 죽기살기로 매달리는 경험없이 어찌 후회없는 젊은날을 추억하겠습니까.&lt;/P&gt;
&lt;P&gt;&lt;div class="imageblock right" style="float: right; margin-left: 10px;"&gt;&lt;a href="http://cfs3.tistory.com/upload_control/download.blog?fhandle=YmxvZzQ1NTExQGZzMy50aXN0b3J5LmNvbTovYXR0YWNoLzAvNS5naWY%3D" rel="lightbox" target="_blank"&gt;&lt;img src="http://cfs3.tistory.com/upload_control/download.blog?fhandle=YmxvZzQ1NTExQGZzMy50aXN0b3J5LmNvbTovYXR0YWNoLzAvNS5naWY%3D" alt="사용자 삽입 이미지" height="117" width="117"/&gt;&lt;/a&gt;&lt;p class="cap1" style="width: 117px"&gt;UMass Amherst&lt;/p&gt;&lt;/div&gt;그렇게 시작된 1년간의 도전은 결국 결실을 맺었습니다. &lt;A href="hcp://www.umass.edu"&gt;University of Massachusetts, Amherst&lt;/A&gt; (UMass) &lt;A href="hcp://cs.umass.edu"&gt;Computer Science Department&lt;/A&gt;로 진학합니다. 석/박사 통합 과정이고 학비 전액, 의료혜택, 초기 생활비까지 포함된 재정 지원을 약속받았습니다. Computer Science 전체 랭킹은 20위 정도이지만 대가급 연구자인 &lt;A href="http://ciir.cs.umass.edu/personnel/croft.html"&gt;Bruce Croft&lt;/A&gt;, &lt;A href="http://www.cs.umass.edu/~mccallum/"&gt;Andrew McCallum&lt;/A&gt;을 필두로 정보 검색(Information Retrieval &amp;amp; Text Mining) 분야의 탑스쿨이며, 인공지능(Artificial Intelligence &amp;amp; Machine Learning) 분야에서 전미 랭킹 5~10위에 해당하는 학교입니다. 앰허스트는 메사추세츠주의 소도시로, 뉴욕과 보스턴중간쯤에 위치해 있습니다.&lt;/P&gt;&lt;br /&gt;
&lt;P&gt;시작과 끝만 언급했으나, 과정 역시 가시밭길이었습니다. 사실상의 유학 지원 하한선(3.5)을 간신히 상회하는 학점에, 추천서를 부탁드릴 교수님도 마땅치 않았으며 전공까지 전기에서 컴퓨터로 바꾸는 것이라 주변의 많은 우려가 있었습니다. 본격적인 준비도 2월부터 시작했기에 시간도 부족했습니다. 토플 시험은 늦게 등록한 탓에 결국 중간고사와 같은 날 쳐야 했습니다. 추천서를 염두에 두고 야심차게 시작한 졸업 프로젝트의 결과는 간신이 '졸업'이나 할 정도였으며, 장학재단 심사에서도 고배를 마셨습니다.&lt;/P&gt;
&lt;P&gt;여기서 접어야되나, 그저 안정적이고 돈 많이주는 회사 입사준비나 해야하나 싶었습니다. 하지만, 처음 유학 결심을 말씀드렸을 때 만류하시다가 나중에 잘 해보라고 격려해주시고, 나이 쉬흔에 다 큰 자식 뒷바라지를 위해 다시 힘든 일을 시작하신 어머니께 포기하겠다는 말은 꺼낼 수도 없었습니다. 자기소개서와 40장 분량의 연구계획서를 가지고 프리젠테이션을 했을때 초면에 선뜻 지원을 허락해주신 교수님들의 기대도 져버릴 수 없었습니다. 다 쏟아넣은 뒤에 안되더라도, 필생의 각오로 시작한 일은 어떤 식으로든 끝을 봐야 한다고 생각했습니다.&lt;/P&gt;
&lt;P&gt;여차여차해서 원서를 넣고 &lt;A href="http://www.ischool.washington.edu"&gt;Information School, University of Washington&lt;/A&gt;에서 인터뷰 초청까지 받아 꿈에 그리던 첫 미국 방문을 하게 되었으나, 10명 미만이 선발되는 Ph.D 프로그램의 1차 합격자 명단에 포함되지 않아 기약없는 기다림만 남았었습니다. UMass에서도 바로 합격하지는 못하여 며칠 전 연락을 받기 전까지 가슴을 졸여야 했습니다. 조금만 더 열심히 할걸하는 후회와, 시간을 갖고 한번 더 준비해보자는 결심이 교차하던 찰나에 합격 통보를 받았습니다. &lt;/P&gt;&lt;br /&gt;
&lt;P&gt;기쁨이 가시기도 전에 천근의 책임감이 느껴졌습니다. 하고싶은 일을 최상의 환경에서 해볼 기회가 주어질 때, 그만큼의 결과가 기대되는 것입니다. 학부생으로서 연구 실적도 없이 추천서를 부탁드리고 잠재력을 믿어달라며 박사과정에 지원했을 때, 그 잠재력을 보여야 할 의무도 지게 되는 것입니다. 한국인이 몇년에 한명꼴로 들어오는 프로그램에서 연구할 때, 나라 전체의 명예가 어깨에 걸린 것입니다.&lt;/P&gt;
&lt;P&gt;대학원 입학 허가가 바꾸는 것은 아무것도 없습니다. 몰랐던 것을 알게 되는 것도, 좋은 논문 주제가 쏟아지는 것도 아닙니다. 말하자면 자신이 원하던 경기에 출전하게 되는 것 뿐입니다. 아주 길고 험하며 끝이 보이지도 않는, 하지만 여정 자체에 배움과 창조의 희열이 있는 경기 말입니다. &lt;/P&gt;
&lt;P&gt;힘들게 출전하게된 경기, 나가서 비실거리면 곱절로 혼나는 것을 알고 있습니다. 그동안 도와주신 많은 분들, 진심으로 감사드리며 열과 성을 다해 정진하겠습니다. &lt;br /&gt;&lt;br /&gt;마지막으로 Steve Jobs의 말을 인용합니다. 'Stay Hungry, Stay Foolish'.&lt;/P&gt;&lt;br /&gt;
&lt;P&gt;P.S. 제가 준비과정에서 겪었던 시행착오가 되풀이되어서는 안된다는 생각에 &lt;A href="http://www.lifidea.com/entry/Jerrys-study-abroad-guide-유학-준비-가이드" target=_blank&gt;유학 준비의 전과정을 이곳에 정리하여 올릴 계획입니다&lt;/A&gt;. 유학이 모든 사람에게 옳은 선택이라고 생각하지 않지만, 준비하시는 분들께 작은 도움이 되었으면 합니다.&lt;/P&gt;</description>
			<category>결심</category>
			<category>유학준비</category>
			<author>lifidea</author>
			<guid isPermaLink="false">http://lifidea.tistory.com/35</guid>
			<comments>http://lifidea.tistory.com/entry/University-of-Massachusetts-Amherst-UMass-Computer-Science-PhD-Go#entry35comment</comments>
			<pubDate>Sat, 31 Mar 2007 12:19:33 +0900</pubDate>
		<feedburner:origLink>http://lifidea.tistory.com/35</feedburner:origLink></item>
	</channel>
</rss>
