<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
  <channel>
    <title>统计之都</title>
    <link>https://cosx.org/</link>
    <description>Recent content on 统计之都</description>
    <generator>Hugo -- gohugo.io</generator>
    <language>zh-CN</language>
    <lastBuildDate>Thu, 24 Oct 2024 00:00:00 +0000</lastBuildDate><atom:link href="https://cosx.org/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>关于</title>
      <link>https://cosx.org/about/</link>
      <pubDate>Sun, 23 Nov 2008 17:22:34 +0000</pubDate>
      
      <guid>https://cosx.org/about/</guid>
      <description>简介 统计之都（Capital of Statistics，简称 COS）成立于 2006 年 5 月 19 日，是一个旨在推广与应用统计学知识的网站和社区。统计之都网站</description>
    </item>
    
    <item>
      <title>视频</title>
      <link>https://cosx.org/videos/</link>
      <pubDate>Sun, 31 Jul 2022 14:20:50 +0000</pubDate>
      
      <guid>https://cosx.org/videos/</guid>
      <description>这里是我们的视频合集页面，目前暂时只上传了云讲堂部分，欢迎大家关注我们的B站账号。 云讲堂</description>
    </item>
    
    <item>
      <title>培训</title>
      <link>https://cosx.org/training/</link>
      <pubDate>Tue, 09 Apr 2013 10:50:47 +0000</pubDate>
      
      <guid>https://cosx.org/training/</guid>
      <description>为了让数据分析专业技术人员得到技术上的帮助，使个人的技术能力在短期内得到大的提高，在事业上更好地提升自我价值，统计之都联合雪晴数据网开展培训</description>
    </item>
    
    <item>
      <title>捐赠</title>
      <link>https://cosx.org/donate/</link>
      <pubDate>Sun, 15 Mar 2009 23:48:26 +0000</pubDate>
      
      <guid>https://cosx.org/donate/</guid>
      <description>统计之都需要您的帮助！ 捐赠帐号 “统计之都”网站是非营利型组织，为了本站更好地为大家服务，特设立如下捐赠方式： 支付宝 帐户：bank@cos.n</description>
    </item>
    
    <item>
      <title>搜索</title>
      <link>https://cosx.org/search/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/search/</guid>
      <description>空格表示 AND（如 R Markdown 表示搜索既包含 R 又包含 Markdown 的文章）；竖线 | 表示 OR（如 R | Markdown 表示搜索包含 R 或者 Markdown 的文章）；若要搜索完整的词组，可用半角双</description>
    </item>
    
    <item>
      <title>人工阅读 vs AI 阅读：以《苏东坡传》为例</title>
      <link>https://cosx.org/2024/10/reading-man-vs-ai/</link>
      <pubDate>Thu, 24 Oct 2024 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2024/10/reading-man-vs-ai/</guid>
      <description>去年五月，我在阅读林语堂的《苏东坡传》时，边读边整理了书中主要人物的关系。最后，借助图数据库 Neo4j 将这些人物关系存储在数据库中，并以可视化的方式</description>
    </item>
    
    <item>
      <title>统计月读（2024 年 10 月）</title>
      <link>https://cosx.org/2024/10/monthly/</link>
      <pubDate>Tue, 01 Oct 2024 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2024/10/monthly/</guid>
      <description>推荐语: 还在用静态统计图吗？不妨考虑一下Plotly，无论是Python还是R都有易用的方式。在Python中可以利用Plotly-expr</description>
    </item>
    
    <item>
      <title>统计月读（2024 年 8-9 月）</title>
      <link>https://cosx.org/2024/10/monthly/</link>
      <pubDate>Tue, 01 Oct 2024 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2024/10/monthly/</guid>
      <description>推荐语: 推荐一个小工具 jsonlines. python 中 json 包已经可以覆盖大部分场景，但是如果文件很大/读写多个同文件不同 json 可以尝试 jsonlines 推荐人: 任焱 链接: https://jsonlines.readthedocs.io/en/latest/ 推荐语: 看到一个</description>
    </item>
    
    <item>
      <title>挑战最快 SVM！ReHLine 算法诞生记</title>
      <link>https://cosx.org/2023/12/rehline-for-fastest-svm/</link>
      <pubDate>Fri, 22 Dec 2023 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2023/12/rehline-for-fastest-svm/</guid>
      <description>本文由邱怡轩主笔，内容素材源自邱怡轩和戴奔共同讨论的结果。 武林至尊，宝刀屠龙。长久以来，机器学习江湖中一直流传着两件神器——LibSVM 和 L</description>
    </item>
    
    <item>
      <title>统计之都访谈第49期：宾夕法尼亚大学李洪哲老师访谈</title>
      <link>https://cosx.org/2023/07/interview-of-hongzhe-li/</link>
      <pubDate>Mon, 24 Jul 2023 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2023/07/interview-of-hongzhe-li/</guid>
      <description>编辑部按：本文是统计之都访谈第49期。随着生物医学领域的发展以及科学技术不断进步，日益丰富的数据为生物统计带来新的机遇及挑战。生物统计内容广</description>
    </item>
    
    <item>
      <title>统计月读（2023 年 5-6 月）</title>
      <link>https://cosx.org/2023/07/monthly/</link>
      <pubDate>Sat, 01 Jul 2023 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2023/07/monthly/</guid>
      <description>推荐语：一些活跃的线上研讨会网站：Online Causal Inference Seminar是因果推断的研讨会，每周二晚上有研讨会，2020春季到现在已经举办了几十期报</description>
    </item>
    
    <item>
      <title>统计月读（2023 年 4 月）</title>
      <link>https://cosx.org/2023/05/monthly/</link>
      <pubDate>Mon, 01 May 2023 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2023/05/monthly/</guid>
      <description>推荐语：深度学习，但是Lasso？具有算法包和对应的原理论文，值得一试 推荐人：孔令仁 链接：https://lassonet.ml/ 推荐语：明</description>
    </item>
    
    <item>
      <title>统计月读（2023 年 3 月）</title>
      <link>https://cosx.org/2023/04/monthly/</link>
      <pubDate>Sat, 01 Apr 2023 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2023/04/monthly/</guid>
      <description>推荐语：想要把ChatGPT转化成实在的生产力吗？这个包把ChatGPT的一些功能嵌入到RStudio内，通过Add-In栏的按钮即可使用。</description>
    </item>
    
    <item>
      <title>畅谈 GhatGPT 在学界的应用</title>
      <link>https://cosx.org/2023/03/chatgpt-in-education/</link>
      <pubDate>Wed, 22 Mar 2023 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2023/03/chatgpt-in-education/</guid>
      <description>本文根据作者在 2023 年 2 月 18 日统计之都云讲堂的发言整理修改而成。 1 惊人的体验 最近试用了一下 ChatGPT。正如很多人描绘的那样，这个产品震撼人心</description>
    </item>
    
    <item>
      <title>Donoho: 数据科学50年</title>
      <link>https://cosx.org/2023/03/50-years-of-data-science-cn/</link>
      <pubDate>Tue, 21 Mar 2023 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2023/03/50-years-of-data-science-cn/</guid>
      <description>统计之都编辑部按：本文译自 Donoho (2017): 50 Years of Data Science，发表在 Journal of Computational and Graphical Statistics 杂志。在正式发表前数年，其初版就广为流传，引发了学术界深入、持续的讨</description>
    </item>
    
    <item>
      <title>统计月读（2023 年 2 月）</title>
      <link>https://cosx.org/2023/03/monthly/</link>
      <pubDate>Wed, 01 Mar 2023 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2023/03/monthly/</guid>
      <description>推荐语：Gurobi是由美国 Gurobi Optimization 公司开发新一代大规模优化器，能够处理很多优化问题，充分利用多核处理器优势，且支持并行计算。这篇博客提供了如何</description>
    </item>
    
    <item>
      <title>地震越来越频繁了吗？</title>
      <link>https://cosx.org/2023/02/earthquake/</link>
      <pubDate>Fri, 24 Feb 2023 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2023/02/earthquake/</guid>
      <description>1 写作背景 2 本文结构 3 地震背景信息 4 1973-2022 年全球地震变化 4.1 数据准备 4.2 震次趋势（年度） 4.3 震级分布（总体情况） 4.4 震级分布（按年分组） 4.4.1 抖动图 4.4.2 岭线图</description>
    </item>
    
    <item>
      <title>统计之都访谈第47期：斯坦福大学青椒--雷理骅访谈</title>
      <link>https://cosx.org/2023/02/interview-of-lihua-lei/</link>
      <pubDate>Wed, 22 Feb 2023 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2023/02/interview-of-lihua-lei/</guid>
      <description>统计之都访谈第47期。2022年8月初，正是北美一年一届的 Joint Statistical Meetings。统计之都在会议间隔对雷理骅进行了采访。在本文发布之际，雷理骅</description>
    </item>
    
    <item>
      <title>DT 包速查手册</title>
      <link>https://cosx.org/2023/02/dt-manual/</link>
      <pubDate>Fri, 10 Feb 2023 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2023/02/dt-manual/</guid>
      <description>1 静态样式 1.1 基本说明 1.1.1 术语约定 1.1.2 参数位置 1.1.3 回调函数 1.2 表格基础 1.2.1 高度（height）、宽度（width） 1.2.2 行名（rownames） 1.2.3 列名（co</description>
    </item>
    
    <item>
      <title>统计月读（2023 年 1 月）</title>
      <link>https://cosx.org/2023/02/monthly/</link>
      <pubDate>Wed, 01 Feb 2023 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2023/02/monthly/</guid>
      <description>推荐语：还在纠结数据特征如何进行正态化吗？这个包 bestNormalize 提供了多种变换方法的合并调用，并可以通过基于拟合优度的统计量来为你选出最好的方法。 推荐人：</description>
    </item>
    
    <item>
      <title>统计月读（2022 年 11-12 月）</title>
      <link>https://cosx.org/2023/01/monthly/</link>
      <pubDate>Sun, 01 Jan 2023 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2023/01/monthly/</guid>
      <description>推荐语：shiny 现在有 Python 版本了，这是一篇 Python 中使用 shiny 的教程 推荐人：孔令仁 链接：https://appsilon.com/shiny-for-</description>
    </item>
    
    <item>
      <title>统计之都访谈第46期：数据科学先驱John Tukey</title>
      <link>https://cosx.org/2022/12/interview-of-john-tukey/</link>
      <pubDate>Mon, 05 Dec 2022 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2022/12/interview-of-john-tukey/</guid>
      <description>编辑部按：统计之都访谈第46期为翻译作品。原文作者是Luisa T. Fernholz 和 Stephan Morgenthaler，标题为 A Conversation with John W. Tukey and Elizabeth Tukey，于2000</description>
    </item>
    
    <item>
      <title>统计月读（2022 年 10 月）</title>
      <link>https://cosx.org/2022/11/monthly/</link>
      <pubDate>Tue, 01 Nov 2022 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2022/11/monthly/</guid>
      <description>推荐语： “How to do statistical research&amp;quot; 包含了一些对统计科研新手的有益建议。更重要的是推荐这个ASA做的网站，虽然近年的更新不多，但是沉淀着不少有意思的文章</description>
    </item>
    
    <item>
      <title>北美博士项目申请经验</title>
      <link>https://cosx.org/2022/10/tutorial-on-phd-application/</link>
      <pubDate>Fri, 28 Oct 2022 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2022/10/tutorial-on-phd-application/</guid>
      <description>1. 前言 2. 时间线 3. 材料准备 3.1. 简历 3.2. 推荐信 3.3. 学位成绩单 3.4. GRE 3.5. TOEFL 3.6. 文书 4. 择校 5. 套磁 6. 面试 7. 钱与录取后 8. 信息渠道 9. 背景提升与思维转变 前言 我申请的是2</description>
    </item>
    
    <item>
      <title>因果推断的统计方法</title>
      <link>https://cosx.org/2022/10/causality-statistical-method/</link>
      <pubDate>Thu, 27 Oct 2022 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2022/10/causality-statistical-method/</guid>
      <description>本文出自《中国科学:数学》2018年12期上同名文章，获得作者授权后转载。 \[ \def\ind{{\perp\!\!\!\perp}} \def\nind{{\not\!\perp\!\!\!\perp}} \] 1 引言 探求事物之间的因果关系是哲学、自然科学和社会科学等众</description>
    </item>
    
    <item>
      <title>统计之都访谈第44期：统计遗传学之路——西湖大学杨剑老师</title>
      <link>https://cosx.org/2022/10/interview-of-jianyang/</link>
      <pubDate>Mon, 24 Oct 2022 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2022/10/interview-of-jianyang/</guid>
      <description>杨剑，西湖大学生命科学学院教授，2003年本科毕业于浙江大学，2008年于浙大取得博士学位，同年赴澳大利亚昆士兰医学研究所从事博士后研究工作</description>
    </item>
    
    <item>
      <title>统计月读（2022 年 9 月）</title>
      <link>https://cosx.org/2022/10/monthly/</link>
      <pubDate>Sat, 01 Oct 2022 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2022/10/monthly/</guid>
      <description>推荐语：这个Repo存储了一个Julia用户群体关于写好清洁科研代码的互助与讨论活动记录，适合对Julia感兴趣，或者对于这种活动形式感兴趣</description>
    </item>
    
    <item>
      <title>我的三次美国博士申请</title>
      <link>https://cosx.org/2022/09/my-phd-app/</link>
      <pubDate>Wed, 21 Sep 2022 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2022/09/my-phd-app/</guid>
      <description>序幕 上高二的时候，在家里自学，有一天晚上不知道怎么冒出的想法，想去美国留学。现在想想很可笑。我家里没钱，在国内上大学都算是一个不小的负担了，</description>
    </item>
    
    <item>
      <title>统计月读（2022 年 8 月）</title>
      <link>https://cosx.org/2022/09/monthly/</link>
      <pubDate>Thu, 01 Sep 2022 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2022/09/monthly/</guid>
      <description>推荐语： 关于贝叶斯统计的一门课程，有配套书籍和公开课视频（B站搜名称有搬运），数理内容比较少，侧重代码实战（官方R+stan，也有 Python 和 Julia 版）</description>
    </item>
    
    <item>
      <title>Erich L. Lehmann ：一份传记备忘录</title>
      <link>https://cosx.org/2022/08/lehmann-memoirs/</link>
      <pubDate>Wed, 17 Aug 2022 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2022/08/lehmann-memoirs/</guid>
      <description>统计学起源于物理学、生物学和社会科学的许多学科的汇合。粗略地说，它可以被认为是使用概率模型和随机变化的度量分析数据的理论和实践。统计学中出现</description>
    </item>
    
    <item>
      <title>R Markdown 制作 beamer 幻灯片</title>
      <link>https://cosx.org/2022/08/beamer-not-down/</link>
      <pubDate>Sun, 14 Aug 2022 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2022/08/beamer-not-down/</guid>
      <description>1 本文概览 2 本文背景 3 软件配置 3.1 安装 R 包 3.2 安装 TinyTeX 3.3 安装字体 3.4 安装主题 3.5 其他配置 4 制作 beamer 幻灯片 4.1 LaTeX 4.2 Pandoc’s Markdown 4.2.1 简单示例 4.2.2 LaTeX 模版 4.2.3 幻灯</description>
    </item>
    
    <item>
      <title>统计月读（2022 年 7 月）</title>
      <link>https://cosx.org/2022/08/monthly/</link>
      <pubDate>Mon, 01 Aug 2022 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2022/08/monthly/</guid>
      <description>推荐语：可以称得上划时代的几何学教学技术，通过网页实现交互式高亮，随着阅读流程一同标记文本和对于绘图的内容，把几何原本做成了一本网页上可以动</description>
    </item>
    
    <item>
      <title>R 语言制作地区分布图及其动画</title>
      <link>https://cosx.org/2022/07/choropleth-map-animation/</link>
      <pubDate>Wed, 06 Jul 2022 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2022/07/choropleth-map-animation/</guid>
      <description>1 本文概览 2 软件准备 3 制作地图 3.1 地区分布图 3.1.1 数据准备 3.1.2 数据展示 4 制作动画 4.1 GIF 动画 4.1.1 gganimate 包 4.1.2 tmap 包 4.2 Web 动画 4.2.1 echarts4r 包 5 本文小结 6 运行环境 7 参考文献 1 本</description>
    </item>
    
    <item>
      <title>统计月读（2022 年 6 月）</title>
      <link>https://cosx.org/2022/07/monthly/</link>
      <pubDate>Fri, 01 Jul 2022 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2022/07/monthly/</guid>
      <description>推荐语：一个比较好的可视化案例，作图的简洁和配色都挺美观（个人看法），动态效果也不错，最后给出的代码可以做参考。 推荐人：赵昊蛟 链接：http</description>
    </item>
    
    <item>
      <title>统计月读（2022 年 5 月）</title>
      <link>https://cosx.org/2022/06/monthly/</link>
      <pubDate>Wed, 01 Jun 2022 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2022/06/monthly/</guid>
      <description>推荐语：【体育爱好者专栏】足球番外篇。足球作为世界第一运动，值得再说道一下。提到足球数据科学，就不得不提一下awesome-soccer-a</description>
    </item>
    
    <item>
      <title>地区分布图及其应用</title>
      <link>https://cosx.org/2022/05/choropleth-map/</link>
      <pubDate>Sun, 22 May 2022 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2022/05/choropleth-map/</guid>
      <description>1 本文概览 2 单变量情形 2.1 美国各郡的年平均癌症死亡率分布 2.1.1 maps 2.1.2 latticeExtra 2.1.3 ggplot2 2.1.4 tmap 2.1.5 sf 2.1.6 ggplot2 + sf 2.1.7 mapsf 3 多变量情形 3.1 美国北卡州家庭年收入与白人占比的空间相关</description>
    </item>
    
    <item>
      <title>给初学者准备的 R 语言深度学习教程</title>
      <link>https://cosx.org/2022/05/deep-learning-with-r-for-beginners/</link>
      <pubDate>Sat, 21 May 2022 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2022/05/deep-learning-with-r-for-beginners/</guid>
      <description>简介 R 语言深度学习 配置工作环境 简单神经网络建模 加载包 加载数据 数据处理 构建模型 编译模型 拟合模型 评估模型 存储/加载模型 相关拓展 相关教程 相关案例 近</description>
    </item>
    
    <item>
      <title>因果推断的意义,困境及因果革命</title>
      <link>https://cosx.org/2022/05/causal-revolution/</link>
      <pubDate>Thu, 19 May 2022 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2022/05/causal-revolution/</guid>
      <description>首先，这里所指的因果不是道德意义上的，比如做好人能否有好报等，而是理性认识的界限内的因果关系，科学意义上的因果，比如吸烟是否导致肺癌。 因果推</description>
    </item>
    
    <item>
      <title>探索定西市的 Sci-Hub 流量之谜</title>
      <link>https://cosx.org/2022/05/scihub-traffic-analysis/</link>
      <pubDate>Thu, 05 May 2022 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2022/05/scihub-traffic-analysis/</guid>
      <description>1. 是否自然流量 2. 一天三个波峰是否正常 3. 定西流量来源 4. 定西流量的组成部分 4.1. 长期用户与短期用户 4.2. 自然流量与非自然流量 5. 结尾 6. 运行环境 7. 参考文献 某</description>
    </item>
    
    <item>
      <title>统计月读（2022 年 4 月）</title>
      <link>https://cosx.org/2022/05/monthly/</link>
      <pubDate>Sun, 01 May 2022 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2022/05/monthly/</guid>
      <description>推荐语：一个在线 LaTeX 公式编辑器，无需登陆即可使用，还为登录后的用户免费提供了有限的截图识别次数（mathpix 的 API） 推荐人：孔令仁 链接：h</description>
    </item>
    
    <item>
      <title>西南联大时期的许宝騄与戴世光</title>
      <link>https://cosx.org/2022/04/history-biography-statistician/</link>
      <pubDate>Fri, 29 Apr 2022 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2022/04/history-biography-statistician/</guid>
      <description>西南联大时期的许宝騄与戴世光 1.引言 许宝騄(1910－1970)与戴世光(1908－1999)是我国近现代统计学界的两面旗帜。许宝騄是中国数</description>
    </item>
    
    <item>
      <title>echarts4r 挥发化飞花</title>
      <link>https://cosx.org/2022/04/echarts4r-flower/</link>
      <pubDate>Thu, 28 Apr 2022 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2022/04/echarts4r-flower/</guid>
      <description>基础要点1：花瓣弧度 基础要点2：花瓣颜色 渐变色 纹理填充 纯色 给花瓣分配颜色 基础要点3：多重花瓣 改变花瓣边缘的形状 嵌套多层–各层颜色不同 嵌套多层</description>
    </item>
    
    <item>
      <title>核酸检测真阳性率是多少？</title>
      <link>https://cosx.org/2022/04/mle-tpr-covid19/</link>
      <pubDate>Tue, 12 Apr 2022 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2022/04/mle-tpr-covid19/</guid>
      <description>1 核酸检测之迷 当下，全国各地都出现新冠疫情反弹的迹象。有效遏制疫情蔓延的一个重要手段是全民核酸检测。以笔者所在的天津西青区为例，截止3月14</description>
    </item>
    
    <item>
      <title>统计之都访谈第43期：孤峰顶上求大道，红尘浪里取乾坤--张志华访谈</title>
      <link>https://cosx.org/2022/04/interview-of-zhihua-zhang/</link>
      <pubDate>Sun, 03 Apr 2022 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2022/04/interview-of-zhihua-zhang/</guid>
      <description>统计之都编辑部按：张志华老师是北京大学数学科学学院概率统计系和统计中心教授。之前曾经先后任教于浙江大学和上海交通大学，任计算机科学教授。张老</description>
    </item>
    
    <item>
      <title>统计月读（2022 年 2-3 月）</title>
      <link>https://cosx.org/2022/04/monthly/</link>
      <pubDate>Fri, 01 Apr 2022 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2022/04/monthly/</guid>
      <description>推荐语：耶鲁大学 Yihong Wu 的课程 Statistical inference on graphs。网页上有详细的课件和作业，适合自学。 推荐人：梁杰昊 链接：http://www.stat.yal</description>
    </item>
    
    <item>
      <title>龙芯可以做数据分析吗？</title>
      <link>https://cosx.org/2022/03/loongson-for-data-analysis/</link>
      <pubDate>Mon, 28 Mar 2022 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2022/03/loongson-for-data-analysis/</guid>
      <description>见龙在田 因为众所周知的原因，近几年来，计算机处理器芯片这个高科技产品受到了社会的广泛关注。一时间，一款名为“龙芯”的 CPU 好像突然成了“全村人的</description>
    </item>
    
    <item>
      <title>手把手带你搭建个人博客（基础版）</title>
      <link>https://cosx.org/2022/03/build-blog-step-by-step/</link>
      <pubDate>Mon, 07 Mar 2022 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2022/03/build-blog-step-by-step/</guid>
      <description>简介 你是不是特别想创建一个自己的私人博客？使用 blogdown 搭建博客难度大不大？与其他方式搭建博客相比又有什么优点？ 在使用过一段时间后，个人认为 blogdown 搭建博</description>
    </item>
    
    <item>
      <title>数据模型？算法模型？我们需要建模新文化</title>
      <link>https://cosx.org/2021/12/new-culture-of-modeling/</link>
      <pubDate>Mon, 27 Dec 2021 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2021/12/new-culture-of-modeling/</guid>
      <description>统计之都编辑部按：本文是纪念Leo Breiman《统计建模：两种文化》20周年活动的系列文章之一，作者何通。 算法文化的兴起 第一次读到Brei</description>
    </item>
    
    <item>
      <title>COS 访谈第 42 期：袁卫教授</title>
      <link>https://cosx.org/2021/12/interview-of-yuanwei/</link>
      <pubDate>Fri, 24 Dec 2021 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2021/12/interview-of-yuanwei/</guid>
      <description>简介： 袁卫，中国人民大学荣誉一级教授，国务院学位委员会学科发展战略咨询委员会委员，教育部社科委经济学部委员，国际统计学会（ISI）选举会员。</description>
    </item>
    
    <item>
      <title>echarts4r: 从入门到应用</title>
      <link>https://cosx.org/2021/12/introduction-to-echarts4r/</link>
      <pubDate>Sun, 12 Dec 2021 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2021/12/introduction-to-echarts4r/</guid>
      <description>1. 基本语法 1.1. 准备工作 1.2. 横轴（e_x_axis） 1.3. 纵轴（e_y_axis） 1.4. 多个变量 1.5. 双Y轴（y_index） 1.6. 堆叠（stack） 1.6.1. 数值的堆叠</description>
    </item>
    
    <item>
      <title>Tidyverse 优雅编程：从向量化、泛函式到数据思维</title>
      <link>https://cosx.org/2021/12/elegant-tidyverse/</link>
      <pubDate>Sun, 12 Dec 2021 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2021/12/elegant-tidyverse/</guid>
      <description>1 Tidyverse 简介 Tidyverse [1] 包是 Hadley Wickham 及团队的集大成之作，是专为数据科学而开发的一系列包的合集，基于整洁数据，提供了一致的底层设计哲学、一致的语法、一致的数据</description>
    </item>
    
    <item>
      <title>用R包gm生成音乐</title>
      <link>https://cosx.org/2021/12/make-music-with-gm/</link>
      <pubDate>Tue, 07 Dec 2021 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2021/12/make-music-with-gm/</guid>
      <description>一、初识gm 首先通过一个简单的例子来初步认识一下gm包。 这里有一段很简单的代码，它是用这个包写的。这段代码可以生成一段乐谱还有相应的音频。这</description>
    </item>
    
    <item>
      <title>统计月读（2021 年 11 月）</title>
      <link>https://cosx.org/2021/12/monthly/</link>
      <pubDate>Wed, 01 Dec 2021 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2021/12/monthly/</guid>
      <description>推荐语：数据科学家常常抱怨训练模型只占工作时间的 5%，而 95% 的时间花在处理产品使用 case，捣鼓数据和部署工作。本书的目标是分享方法和建议去更</description>
    </item>
    
    <item>
      <title>实践体会 | 质量大数据分析的挑战与范式</title>
      <link>https://cosx.org/2021/11/quality-big-data-analysis/</link>
      <pubDate>Fri, 26 Nov 2021 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2021/11/quality-big-data-analysis/</guid>
      <description>统计分析在质量管理中曾发挥了重大作用，特别是20世纪40年代，以休哈特的统计过程控制理论（Statistical Process Control, SPC）、道奇的质量抽样</description>
    </item>
    
    <item>
      <title>COS 访谈第 41 期：统计大师Donald B. Rubin教授</title>
      <link>https://cosx.org/2021/11/interview-of-rubin/</link>
      <pubDate>Mon, 22 Nov 2021 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2021/11/interview-of-rubin/</guid>
      <description>COS访谈注：原文访谈于2013-2014年，作者：Fan Li（李凡，现为杜克大学统计科学系教授） 和 Fabrizia Mealli（现为佛罗伦萨大学教授），</description>
    </item>
    
    <item>
      <title>统计月读（2021 年 10 月）</title>
      <link>https://cosx.org/2021/11/monthly/</link>
      <pubDate>Mon, 01 Nov 2021 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2021/11/monthly/</guid>
      <description>推荐语：Daily R 是一个很棒的基于 blogdown 包搭建的关于 R 的聚合博客，每天定时自动更新，每篇文章都会显示标题和摘要，点击标题后它会自动重定向到文章</description>
    </item>
    
    <item>
      <title>工业数据分析实战中的常见误区与对策</title>
      <link>https://cosx.org/2021/09/7-common-pitfalls-in-industrial-data-analytics-practices/</link>
      <pubDate>Thu, 02 Sep 2021 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2021/09/7-common-pitfalls-in-industrial-data-analytics-practices/</guid>
      <description>引言 近年来，数据驱动的转型升级在工业中取得了一些成绩，不仅被产业界广泛认可，也给企业带来了实实在在的效益。但工业大数据分析的发展也面临着许多</description>
    </item>
    
    <item>
      <title>统计月读（2021 年 8 月）</title>
      <link>https://cosx.org/2021/09/monthly/</link>
      <pubDate>Wed, 01 Sep 2021 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2021/09/monthly/</guid>
      <description>推荐语：不想使用繁琐的编辑工具“应付”工作中的微软家族（word, ppt）需求，那么使用 officedown 或许可以帮助你解放双手、帮助你更专注于内容产出。尽</description>
    </item>
    
    <item>
      <title>治学报国：民国时期的统计留学生</title>
      <link>https://cosx.org/2021/08/study-on-statistics-overseas-students-before-1949/</link>
      <pubDate>Mon, 16 Aug 2021 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2021/08/study-on-statistics-overseas-students-before-1949/</guid>
      <description>本文于2021年7月发表在《统计研究》第38卷第7期；此后，作者对文章内容又进行了扩充和修订，授权发布在统计之都。1 民国时期留学生对于引进西</description>
    </item>
    
    <item>
      <title>C.R.Rao: 统计学的一百年</title>
      <link>https://cosx.org/2021/08/a-century-in-statistical-science/</link>
      <pubDate>Thu, 12 Aug 2021 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2021/08/a-century-in-statistical-science/</guid>
      <description>编者按：本文首发于郭旭教授的个人公众号：郭老师统计小课堂。 近日，统计学知名期刊《International Statistical Review》发表了Nandin</description>
    </item>
    
    <item>
      <title>《现代统计图形》之《自序》与《后记》</title>
      <link>https://cosx.org/2021/08/msg-preface/</link>
      <pubDate>Tue, 10 Aug 2021 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2021/08/msg-preface/</guid>
      <description>自序 2019 年底，陈兴璐编辑给我写了封邮件，问我是否有兴趣写一本中文书。这问题可以说是问到我心坎上了。2018 年我在给赵鹏的《学 R》一书写推荐序时</description>
    </item>
    
    <item>
      <title>统计月读（2021 年 6-7 月）</title>
      <link>https://cosx.org/2021/08/monthly/</link>
      <pubDate>Sun, 01 Aug 2021 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2021/08/monthly/</guid>
      <description>推荐语：通常情况下，我们总相信大样本意味着准确，但在论文 More Data Can Hurt for Linear Regression: Sample-wise Double Descent 作者发现对于参数过量的回归模型，会得到有悖于常理的结果，链接的文</description>
    </item>
    
    <item>
      <title>现代统计学本科生培养的课程体系与路线图</title>
      <link>https://cosx.org/2021/06/modern-statistics/</link>
      <pubDate>Mon, 28 Jun 2021 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2021/06/modern-statistics/</guid>
      <description>统计学是一门与时俱进的应用学科，它的研究问题和研究手段是“常为新”的。统计学植根于早年的农牧业、后来生物医学、以及当今的IT互联网等领域，这</description>
    </item>
    
    <item>
      <title>因果推断——现代统计的思想飞跃</title>
      <link>https://cosx.org/2021/06/causal-inference-modern-statistics-leap/</link>
      <pubDate>Sun, 27 Jun 2021 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2021/06/causal-inference-modern-statistics-leap/</guid>
      <description>转载自《数学文化》2021/第12卷第2期 引言 探求事物的原因，是人类永恒的精神活动之一。从古希腊的哲学到中国先秦的诗歌，都充满了对原因的追问</description>
    </item>
    
    <item>
      <title>统计月读（2021 年 5 月）</title>
      <link>https://cosx.org/2021/06/monthly/</link>
      <pubDate>Tue, 01 Jun 2021 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2021/06/monthly/</guid>
      <description>推荐语：前两周刚用 blogdown 新建了自己的博客，本月则推荐一篇与此相关的内容——blogdown 相关的更新。这篇文章的目的是强调一些作者用来重建 他的网</description>
    </item>
    
    <item>
      <title>为什么用户不爱钱：一篇学术论文的诞生记</title>
      <link>https://cosx.org/2021/05/why-user-do-not-like-money-a-tdm-research/</link>
      <pubDate>Tue, 18 May 2021 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2021/05/why-user-do-not-like-money-a-tdm-research/</guid>
      <description>全文共计3869字，预计需要10分钟。 此文讲述一篇最近发表在 Transportation Research Part C [1] 期刊上的论文背后的故事。这篇方法论的论文始于一个实际数据问题的启发，在</description>
    </item>
    
    <item>
      <title>统计月读（2021 年 4 月）</title>
      <link>https://cosx.org/2021/05/monthly/</link>
      <pubDate>Sat, 01 May 2021 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2021/05/monthly/</guid>
      <description>推荐语：初学 R 时候日期/时间类型一直让我很头疼，lubridate 包解决了不少问题。这篇文章介绍了一个同样专注于处理时间类型的年轻的 R 包 clock 并</description>
    </item>
    
    <item>
      <title>R Markdown 入门教程</title>
      <link>https://cosx.org/2021/04/rmarkdown-introduction/</link>
      <pubDate>Sat, 10 Apr 2021 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2021/04/rmarkdown-introduction/</guid>
      <description>第一章：R Markdown 简介 R Markdown 是 R 语言环境中提供的 markdown 编辑工具，运用 R Markdown 撰写文章，既可以像一般的 markdown 编辑器一样编辑文本，也可以在 R Markdown 中插入代码块，并将代码</description>
    </item>
    
    <item>
      <title>用 R 包 gm 生成音乐</title>
      <link>https://cosx.org/2021/04/create-music-with-r-package-gm/</link>
      <pubDate>Fri, 09 Apr 2021 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2021/04/create-music-with-r-package-gm/</guid>
      <description>本文要介绍 R 包 gm，你可以用它来生成音乐。 具体来说，gm 有三大特点： 它设计了一套非常简单的语言，你可以用这个语言来描述音乐。 gm 会将你的描述转</description>
    </item>
    
    <item>
      <title>统计月读（2021 年 3 月）</title>
      <link>https://cosx.org/2021/04/monthly/</link>
      <pubDate>Thu, 01 Apr 2021 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2021/04/monthly/</guid>
      <description>推荐语：作者从 Eurostat, IMF (WEO 和 IFS), BIS, OECD 和 ECB 中收集了一些关于法国、德国、意大利、西班牙和欧元区的宏观经济数据，并定期自动更新，可以直接从 rdbnomics 包中获取，适用</description>
    </item>
    
    <item>
      <title>统计月读（2021 年 2 月）</title>
      <link>https://cosx.org/2021/03/monthly/</link>
      <pubDate>Mon, 01 Mar 2021 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2021/03/monthly/</guid>
      <description>推荐语：与客服对话“遭遇”聊天机器人的体验很神奇，但聊天机器人背后的机制并不复杂——在 R 中短短一段代码就可以完成文本匹配，就可以和聊天机器人</description>
    </item>
    
    <item>
      <title>为新手准备的现代化 R 包开发流程</title>
      <link>https://cosx.org/2021/02/writing-r-packages-a-modern-workflow-for-beginners/</link>
      <pubDate>Tue, 16 Feb 2021 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2021/02/writing-r-packages-a-modern-workflow-for-beginners/</guid>
      <description>1. 前言 现在的中文网络上其实并不缺乏教新手如何去创建和开发一个 R 包，大致有基于命令行和 RStudio 截图的方式两种方式手把手的把每一步都很好地传授给读者。</description>
    </item>
    
    <item>
      <title>广告界的因果推断挑战</title>
      <link>https://cosx.org/2021/02/cause-and-effect-in-ads/</link>
      <pubDate>Tue, 09 Feb 2021 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2021/02/cause-and-effect-in-ads/</guid>
      <description>声明：本文引用的所有信息均为公开信息，仅代表作者本人观点，与就职单位无关。 广告界有一句经久流传的话：“我知道我的广告费有一半浪费了，但遗憾的</description>
    </item>
    
    <item>
      <title>统计月读（2021 年 1 月）</title>
      <link>https://cosx.org/2021/02/monthly/</link>
      <pubDate>Mon, 01 Feb 2021 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2021/02/monthly/</guid>
      <description>推荐语：Thomas Lumley 博客的8篇年度最佳文章，涵盖了包括做正态分布检验必要性、统计权重、R 版俄勒冈之旅、数据科学实践课程设计、连续映射定理证</description>
    </item>
    
    <item>
      <title>data.table 与 pandas</title>
      <link>https://cosx.org/2021/01/dt-pd/</link>
      <pubDate>Tue, 19 Jan 2021 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2021/01/dt-pd/</guid>
      <description>数据分析项目通常可以分解为以下过程，数据加载-数据清洗-(特征处理、可视化、模型训练)-成果汇报1。其中，数据清洗与特征处理或者称为数据预处</description>
    </item>
    
    <item>
      <title>用Rmarkdown写毕业论文</title>
      <link>https://cosx.org/2021/01/writing-the-thesis-with-rmarkdown/</link>
      <pubDate>Sat, 16 Jan 2021 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2021/01/writing-the-thesis-with-rmarkdown/</guid>
      <description>博士生涯终于走到了最后一步了。这次全程用 R 和 Rmarkdown 相关的包完整写完了论文，现在总结一下个人经验和踩过的坑，希望给后来人提供参考经验，同时安利一下</description>
    </item>
    
    <item>
      <title>统计月读（2020 年 9-12 月）</title>
      <link>https://cosx.org/2021/01/monthly/</link>
      <pubDate>Fri, 01 Jan 2021 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2021/01/monthly/</guid>
      <description>推荐语：关于 R 语言教学，作者针对学生是编程初学者的情况提出了 Tidy 存在的多种问题。 推荐人：Song Li 链接：https://github.com/</description>
    </item>
    
    <item>
      <title>第13届中国R会(杭州)暨移动营销分析与应用论坛会议纪要</title>
      <link>https://cosx.org/2020/12/13th-china-r-hangzhou-summary/</link>
      <pubDate>Fri, 25 Dec 2020 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2020/12/13th-china-r-hangzhou-summary/</guid>
      <description>中国R会（The China-R Conference）始于2008 年，由统计之都（Capital of Statistics, COS）发起，并在中国人民大学举办了第一届中国R会。 1</description>
    </item>
    
    <item>
      <title>第十三届中国R会议（北京）纪要</title>
      <link>https://cosx.org/2020/12/13th-china-r-beijing-summary/</link>
      <pubDate>Fri, 25 Dec 2020 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2020/12/13th-china-r-beijing-summary/</guid>
      <description>中国 R 会（The China-R Conference）始于2008 年，由统计之都（Capital of Statistics, COS）发起，并在中国人民大学举办了第一届中国 R 会。R</description>
    </item>
    
    <item>
      <title>从另一个视角看R语言的方言Tidyverse</title>
      <link>https://cosx.org/2020/10/alternative-view-tidyverse-r/</link>
      <pubDate>Tue, 13 Oct 2020 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2020/10/alternative-view-tidyverse-r/</guid>
      <description>从另一个视角看R语言的“方言”Tidyverse，以及 RStudio 对 Tidyverse 的提倡。 作者简介 作者 Norm Matloff 为 UC Davis 计算机科学教授（曾任 UCD 统计学教授）。中文翻译及投稿</description>
    </item>
    
    <item>
      <title>一个访问量高达1300万的shiny应用的诞生故事</title>
      <link>https://cosx.org/2020/09/covid19-bulletin-board/</link>
      <pubDate>Mon, 14 Sep 2020 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2020/09/covid19-bulletin-board/</guid>
      <description>本文主要简要分享一下我从1月底开始的一个用shiny制作的关注日本疫情动态的仪表盘应用项目。 可能有的读者对这篇文章有既视感，是因为在5月份的</description>
    </item>
    
    <item>
      <title>统计月读（2020 年 5-8 月）</title>
      <link>https://cosx.org/2020/09/monthly/</link>
      <pubDate>Tue, 01 Sep 2020 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2020/09/monthly/</guid>
      <description>推荐语：同行评议是学术论文发表过程中很重要的一环，当前科研用软件的发表通常依附于学术论文但却缺少对软件本身的同行评议过程，rOpenSci 目</description>
    </item>
    
    <item>
      <title>R语言中的网络可视化</title>
      <link>https://cosx.org/2020/07/r-network-visualization/</link>
      <pubDate>Wed, 15 Jul 2020 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2020/07/r-network-visualization/</guid>
      <description>网络分析适合用来研究多样本或特性间的关系，这类关系通常用互相连接的节点来表示，在可视化中节点一般指代一个样本或特性，连线则代表了样本间或特性</description>
    </item>
    
    <item>
      <title>发邮件这事你可以认真一点优雅一点</title>
      <link>https://cosx.org/2020/07/send-email-serious-elegant/</link>
      <pubDate>Mon, 06 Jul 2020 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2020/07/send-email-serious-elegant/</guid>
      <description>之前在我的博客里介绍了一个利用R发邮件的方法 (https://cxy.rbind.io/post/mailr/)，这次我要推荐一个发邮件的包</description>
    </item>
    
    <item>
      <title>从 R 连接 MySQL</title>
      <link>https://cosx.org/2020/06/connect-mysql-from-r/</link>
      <pubDate>Mon, 22 Jun 2020 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2020/06/connect-mysql-from-r/</guid>
      <description>Code should be written to minimize the time it would take for someone else to understand it. &amp;mdash; The Art of Readable Code, Boswell, D. / Foucher, T. 本文首先介绍如何在 Fedora 29 系统上安装配置 MySQL 数据库管理系统，然后介绍如何从 R 连接 MySQL</description>
    </item>
    
    <item>
      <title>COS 访谈第 38 期：黄建华老师</title>
      <link>https://cosx.org/2020/06/interview-of-huangjianhua/</link>
      <pubDate>Tue, 02 Jun 2020 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2020/06/interview-of-huangjianhua/</guid>
      <description>简介 黄建华教授现任美国德州A&amp;amp;M大学统计系教授及数据科学研究所副主任，并为Arseven/Mitchell Astronomical Statistics讲席</description>
    </item>
    
    <item>
      <title>B站1000多集的柯南，该怎么追？</title>
      <link>https://cosx.org/2020/05/bilibili-conan-danmu/</link>
      <pubDate>Sat, 09 May 2020 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2020/05/bilibili-conan-danmu/</guid>
      <description>是的你没有看错，这里真的是一个正经的关于统计和数据科学的网站，本文作者也绝对没有在跑程序的时候偷偷溜去 B 站追番。嗯，大概没有吧。没有吧。有吧</description>
    </item>
    
    <item>
      <title>COS 访谈第 37 期：俞声老师 —— 践行医学信息学的统计人</title>
      <link>https://cosx.org/2020/05/interview-of-yusheng/</link>
      <pubDate>Sat, 09 May 2020 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2020/05/interview-of-yusheng/</guid>
      <description>简介 俞声博士的研究方向是医学信息学，主要研究内容包括自动术语识别、关系提取、表示学习等自然语言处理问题，以及大规模医学知识图谱构建、表型提取</description>
    </item>
    
    <item>
      <title>统计月读（2020 年 3-4 月）</title>
      <link>https://cosx.org/2020/05/monthly/</link>
      <pubDate>Fri, 01 May 2020 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2020/05/monthly/</guid>
      <description>推荐语：机器学习算法常常带有“黑箱”的特性，因此一些学者开始致力于可解释性机器学习的研究。Christoph Molnar 的新书 Interpretable Machine Learning 对此领域有较为全面</description>
    </item>
    
    <item>
      <title>所造之境，必合乎自然——探讨数据科学与人工智能学科的发展</title>
      <link>https://cosx.org/2020/03/what-it-creates-is-natural-ds-ai-development/</link>
      <pubDate>Mon, 09 Mar 2020 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2020/03/what-it-creates-is-natural-ds-ai-development/</guid>
      <description>大数据和人工智能是当今最为热门的科技术语。我国相关部门下发了一系列重要的指导性、纲领性文件，也启动了一大批大数据和人工智能相关的重大科技专项</description>
    </item>
    
    <item>
      <title>统计月读（2020 年 1-2 月）</title>
      <link>https://cosx.org/2020/03/monthly/</link>
      <pubDate>Sun, 01 Mar 2020 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2020/03/monthly/</guid>
      <description>推荐语： Larry Wasserman在圣诞节时挂了篇文章“Universal Inference Using the Split Likelihood Ratio Test”，看到Universal我就想起了神经网络的Uni</description>
    </item>
    
    <item>
      <title>政府统计应该“统”什么</title>
      <link>https://cosx.org/2020/02/what-is-gov-stats-2/</link>
      <pubDate>Wed, 12 Feb 2020 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2020/02/what-is-gov-stats-2/</guid>
      <description>关于政府统计有两个比喻。一个比喻是眼睛，政府统计像一双可以将经济社会发展状况尽收眼底的眼睛，通过这双眼睛识别当前状况，然后将信息传送给大脑（</description>
    </item>
    
    <item>
      <title>十字路口的统计学: 谁在应对挑战？（三）</title>
      <link>https://cosx.org/2020/01/crossroad-statistics-who-meet-challenge-3/</link>
      <pubDate>Wed, 22 Jan 2020 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2020/01/crossroad-statistics-who-meet-challenge-3/</guid>
      <description>本文翻译自 2018 年 10 月 15 日至 10 月 17 日在弗吉尼亚州举行的“十字路口的统计:数据科学时代的挑战和机遇”研讨会报告。该报告由 Xuming He 组织并由指导委员会（成</description>
    </item>
    
    <item>
      <title>十字路口的统计学: 谁在应对挑战？（二）</title>
      <link>https://cosx.org/2020/01/crossroad-statistics-who-meet-challenge-2/</link>
      <pubDate>Mon, 20 Jan 2020 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2020/01/crossroad-statistics-who-meet-challenge-2/</guid>
      <description>编者按：本文翻译自2018年10月15日至10月17日在弗吉尼亚州举行的“十字路口的统计:数据科学时代的挑战和机遇”研讨会报告。该报告由Xu</description>
    </item>
    
    <item>
      <title>十字路口的统计学: 谁在应对挑战？（一）</title>
      <link>https://cosx.org/2020/01/crossroad-statistics-who-meet-challenge-1/</link>
      <pubDate>Thu, 02 Jan 2020 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2020/01/crossroad-statistics-who-meet-challenge-1/</guid>
      <description>编者按：本系列推送为2018年10月15日至10月17日在弗吉尼亚州举行的“十字路口的统计:数据科学时代的挑战和机遇”研讨会的报告，该报告由</description>
    </item>
    
    <item>
      <title>统计月读（2019 年 11-12 月）</title>
      <link>https://cosx.org/2020/01/monthly/</link>
      <pubDate>Wed, 01 Jan 2020 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2020/01/monthly/</guid>
      <description>推荐语：一本开源的使用R的计量经济学书籍《Introduction to Econometrics with R》。涵盖了基础的计量经济学知识（无偏估计、假设检验、因果推断、时间</description>
    </item>
    
    <item>
      <title>我国首位有重大国际影响的统计学家：吴定良</title>
      <link>https://cosx.org/2019/11/wu-ding-liang/</link>
      <pubDate>Wed, 27 Nov 2019 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2019/11/wu-ding-liang/</guid>
      <description>摘要： 吴定良先生是我国著名的生物统计学家、体质人类学家，中央研究院首届院士。他1927年师从卡尔·皮尔逊, 分别获得统计学博士学位和人类学博士</description>
    </item>
    
    <item>
      <title>采菊东篱下，悠然见南山</title>
      <link>https://cosx.org/2019/11/machine-learning/</link>
      <pubDate>Fri, 22 Nov 2019 19:37:02 +0000</pubDate>
      
      <guid>https://cosx.org/2019/11/machine-learning/</guid>
      <description>机器学习是经典而又现代的学科，它的发展过程交织着理想和务实。机器学习期待着机器具有人一样的自主学习能力，其名称本身就充满着理想主义色彩；许多</description>
    </item>
    
    <item>
      <title>统计月读（2019 年 10 月）</title>
      <link>https://cosx.org/2019/11/monthly/</link>
      <pubDate>Fri, 01 Nov 2019 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2019/11/monthly/</guid>
      <description>推荐语：使用网页互动可视化方式介绍统计的基础概念。其中统计推断两章尤为惊艳。中文、英文、西班牙文皆有。 推荐人：黄俊文 链接：https://s</description>
    </item>
    
    <item>
      <title>从贝叶斯视角看多层模型</title>
      <link>https://cosx.org/2019/10/bayesian-multilevel-model/</link>
      <pubDate>Thu, 24 Oct 2019 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2019/10/bayesian-multilevel-model/</guid>
      <description>多层模型 多层模型常被用于处理嵌套数据(即，具有层次结构的数据)，如，从不同的学校中抽取学生样本(第一层为学生，第二层为学校，学生样本嵌套于学</description>
    </item>
    
    <item>
      <title>基于 Prettydoc 包的模板改造</title>
      <link>https://cosx.org/2019/10/prettydoc-internals-ljj/</link>
      <pubDate>Sat, 05 Oct 2019 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2019/10/prettydoc-internals-ljj/</guid>
      <description>背景 在之前我的文章中，概括地介绍了修改 R Markdown模板的思路。本文希望基于一个创作 R Markdown文档的例子 （在电脑上看效果比较好）</description>
    </item>
    
    <item>
      <title>翻译：常见统计检验的本质都是线性模型（或：如何教统计学）</title>
      <link>https://cosx.org/2019/09/common-tests-as-linear-models/</link>
      <pubDate>Sun, 29 Sep 2019 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2019/09/common-tests-as-linear-models/</guid>
      <description>本文翻译自 Jonas Kristoffer Lindeløv 的 Common statistical tests are linear models (or: how to teach stats)，翻译工作已获得原作授权。本翻译工作首发于统计之都网站和微信公众号上。 本文将</description>
    </item>
    
    <item>
      <title>统计月读（2019年8月）</title>
      <link>https://cosx.org/2019/08/monthly/</link>
      <pubDate>Thu, 29 Aug 2019 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2019/08/monthly/</guid>
      <description>推荐语：谷歌浏览器已经不让用户关闭点击追踪了，因为禁用点击追踪已经事实上威胁了他们的核心商业利益，也就是广告投放，虽然这变相损害了用户隐私。</description>
    </item>
    
    <item>
      <title>什么是政府统计</title>
      <link>https://cosx.org/2019/08/what-is-gov-stats/</link>
      <pubDate>Tue, 13 Aug 2019 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2019/08/what-is-gov-stats/</guid>
      <description>编者按：政府统计是统计学最重要应用领域之一，所提供的数据是我们了解国情国力和经济社会发展进程的基本依据，是在宏观背景下进行微观决策和科学研究</description>
    </item>
    
    <item>
      <title>统计学上的创造力</title>
      <link>https://cosx.org/2019/08/creativity-in-statistics/</link>
      <pubDate>Sun, 11 Aug 2019 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2019/08/creativity-in-statistics/</guid>
      <description>本文翻译自 Terence Speed 发表在 IMS 主席专栏上的文章 Creativity in Statistics。本文已获得原作者授权。 你可能听说过那句老话 : 有的人虽然在做数据分析，但却好像</description>
    </item>
    
    <item>
      <title>从统计地显著到显著地统计</title>
      <link>https://cosx.org/2019/08/significantly-statistical/</link>
      <pubDate>Thu, 08 Aug 2019 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2019/08/significantly-statistical/</guid>
      <description>文章翻译自孟晓犁在 IMS 主席专栏上的文章 http://bulletin.imstat.org/2019/05/presidents-column-statistical-significance/ 翻译工作已经获得原作授权 我们统计学家已经成功地说服每个人：样本量越大，拒绝原假设的依据就愈加坚实有力。</description>
    </item>
    
    <item>
      <title>重要的不是谁获 COPSS 奖，而是它给我们的启发和思考</title>
      <link>https://cosx.org/2019/08/copss-hadley-special-comment/</link>
      <pubDate>Tue, 06 Aug 2019 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2019/08/copss-hadley-special-comment/</guid>
      <description>编者按：在前文中我们刊登了收集到的各方评论。本文刊登的是统计之都邀请的一位特约评论员的长文评论。 在谈 Hadley 获奖这个问题之前，我想拿另外一件事作对</description>
    </item>
    
    <item>
      <title>统计最高奖，花落码农家。意料之外？情理之中？</title>
      <link>https://cosx.org/2019/08/copss-hadley-comments/</link>
      <pubDate>Mon, 05 Aug 2019 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2019/08/copss-hadley-comments/</guid>
      <description>2019年7月31日，在国际统计学年会（JSM）上，统计学会会长委员会（Committee of Presidents of Statistical Societies，简称 COPSS）将当年</description>
    </item>
    
    <item>
      <title>作者访谈 | 数据资产论</title>
      <link>https://cosx.org/2019/07/data-asset-theory/</link>
      <pubDate>Thu, 04 Jul 2019 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2019/07/data-asset-theory/</guid>
      <description>《数据资产论》作者王汉生简介 王汉生，北京大学光华管理学院商务统计与经济计量系,嘉茂荣聘讲席教授，博导，系主任。北京大学商务智能研究中心主任。</description>
    </item>
    
    <item>
      <title>统计月读（2019 年 6 月）</title>
      <link>https://cosx.org/2019/07/monthly/</link>
      <pubDate>Mon, 01 Jul 2019 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2019/07/monthly/</guid>
      <description>推荐语：这个仓给出了常见算法的 python 实现，其实对其他语言也做了汇总，不过 python 的这个算是最完整的。R 的话 caret 包的文档可能对机器学习的包总结比较全些，至</description>
    </item>
    
    <item>
      <title>倒数的诚信与消失的变量</title>
      <link>https://cosx.org/2019/06/civic-honesty-and-ignored-variable/</link>
      <pubDate>Tue, 25 Jun 2019 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2019/06/civic-honesty-and-ignored-variable/</guid>
      <description>今天朋友之间分享了一篇发表在《科学》杂志上的论文，《Civic honesty around the globe》，意即全球各地的公民诚信度。这篇论文的作者在全世界的40个国</description>
    </item>
    
    <item>
      <title>基于 R Markdown 的演示文稿和报告模板使用经验</title>
      <link>https://cosx.org/2019/06/r-markdown-slides-ljj/</link>
      <pubDate>Wed, 19 Jun 2019 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2019/06/r-markdown-slides-ljj/</guid>
      <description>背景介绍 英语演讲课曾说，幻灯片只是辅助工具，而内容才是演讲的核心和本质。报告和幻灯片，其本质都是服务于“展示知识”这个过程，两者有着相通之处</description>
    </item>
    
    <item>
      <title>女士品茶的实验、假设和检验</title>
      <link>https://cosx.org/2019/05/recheck-the-lady-tasting-tea/</link>
      <pubDate>Thu, 30 May 2019 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2019/05/recheck-the-lady-tasting-tea/</guid>
      <description>R. A. Fisher 的名著《实验设计；第八版，1971年》第二部分有十六页，仅仅讲了一个最简单的实验：女士品茶。这个故事非常有名，以至于 Salsburg 的统计学通俗读物</description>
    </item>
    
    <item>
      <title>中国传统中的统计思维</title>
      <link>https://cosx.org/2019/05/beauty-of-statistics/</link>
      <pubDate>Wed, 08 May 2019 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2019/05/beauty-of-statistics/</guid>
      <description>这是拙作《统计之美：人工智能时代的科学思维》的序言，虽然这本书是在讲一些统计相关的小故事，也试图用轻松的语言介绍数据科学领域的一些理论和应用</description>
    </item>
    
    <item>
      <title>统计月读（2019 年 5 月）</title>
      <link>https://cosx.org/2019/05/monthly/</link>
      <pubDate>Wed, 01 May 2019 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2019/05/monthly/</guid>
      <description>推荐语：2019年，第十二届中国R会议(北京)将于5月24-26日在中国人民大学举办。2019年，是中国R会议值得纪念的第12个年头，12年</description>
    </item>
    
    <item>
      <title>统计月读（2019 年 4 月）</title>
      <link>https://cosx.org/2019/04/monthly/</link>
      <pubDate>Mon, 01 Apr 2019 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2019/04/monthly/</guid>
      <description>推荐语：PAC学习理论是统计机器学习中最最重要的基础理论之一，它解答了机器学习机制、可学习性等一系列问题，衍生出了计算学习理论这一机器学习的</description>
    </item>
    
    <item>
      <title>第12届中国R会议（北京）通知</title>
      <link>https://cosx.org/2019/03/12th-china-r-beijing-announcement/</link>
      <pubDate>Mon, 25 Mar 2019 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2019/03/12th-china-r-beijing-announcement/</guid>
      <description>第12届中国R会议（北京）通知 2019年，第12届中国R会议(北京)将于5月24-26日在中国人民大学举办。2019年，是中国R会议值得纪念</description>
    </item>
    
    <item>
      <title>统计月读（2019 年 3 月）</title>
      <link>https://cosx.org/2019/03/monthly/</link>
      <pubDate>Fri, 01 Mar 2019 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2019/03/monthly/</guid>
      <description>推荐语：传感技术是数据收集的底层支撑，当开放数据不能满足需求时，使用开源硬件搭建传感平台收集展示数据就成了天然需求。开源硬件平台目前比较流行</description>
    </item>
    
    <item>
      <title>统计月读（2019 年 2 月）</title>
      <link>https://cosx.org/2019/02/monthly/</link>
      <pubDate>Fri, 01 Feb 2019 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2019/02/monthly/</guid>
      <description>推荐语： FlowingData 是一个关注数据可视化的博客，这是其2018年的总结及文章推荐，这个博客很多可视化直接用的开放数据，同一数据通过不同可视化方式就会表</description>
    </item>
    
    <item>
      <title>大规模地理数据可视化入门：Deck.gl 和 H3</title>
      <link>https://cosx.org/2019/01/deck-gl-and-h3/</link>
      <pubDate>Sat, 05 Jan 2019 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2019/01/deck-gl-and-h3/</guid>
      <description>背景介绍 如何大规模可视化地理数据一直都是一个业界的难点，随着2015年起 Uber 在这一领域的发力，构建了基于 Deck.gl + H3 (deckgl,h3r) 的大规模数据可视化方案。一方面</description>
    </item>
    
    <item>
      <title>统计月读（2019 年 1 月）</title>
      <link>https://cosx.org/2019/01/monthly/</link>
      <pubDate>Tue, 01 Jan 2019 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2019/01/monthly/</guid>
      <description>推荐语：用 markdown 同时进行统计分析、画图、制表、写作学术论文并输出符合期刊格式的手稿已经不新鲜了，但更大胆的想法则是跳过期刊编辑直接生成带有交互的</description>
    </item>
    
    <item>
      <title>R语言实战之模型部署</title>
      <link>https://cosx.org/2018/12/model-deployment-in-action-with-r/</link>
      <pubDate>Thu, 20 Dec 2018 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2018/12/model-deployment-in-action-with-r/</guid>
      <description>引言 如果此时你对何谓模型部署仍然一无所知的话，不必有任何焦虑的心情，带你入门正是本文的目标所在。请相信我，这篇介绍将会是十分新手友好的，怀着</description>
    </item>
    
    <item>
      <title>可视化的另一种选择，Processing.R</title>
      <link>https://cosx.org/2018/12/processing-r/</link>
      <pubDate>Tue, 11 Dec 2018 00:10:32 +0000</pubDate>
      
      <guid>https://cosx.org/2018/12/processing-r/</guid>
      <description>Processing 是一门运行在 Java 虚拟机（Java Virtual Machine，简称 JVM ）上的编程语言，其最初目标是用来形象地教授计算机科学的基础知识。之后，它逐渐演变成了</description>
    </item>
    
    <item>
      <title>用R分析光荣《三国志》系列人物数据</title>
      <link>https://cosx.org/2018/11/rotk-analysis/</link>
      <pubDate>Fri, 30 Nov 2018 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2018/11/rotk-analysis/</guid>
      <description>前言 写这篇文章有两个原因，第一个是最近在看吴秀波演的《军师联盟》，这部剧剧情紧凑，演员演技精湛，有很多令人惊艳的细节， 再一次勾起了我对三国的</description>
    </item>
    
    <item>
      <title>第十一届中国R会议（广州）暨华南地区数据科学会议通知</title>
      <link>https://cosx.org/2018/10/chinar-2018-gz-announcement/</link>
      <pubDate>Sat, 20 Oct 2018 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2018/10/chinar-2018-gz-announcement/</guid>
      <description>一、会议概况 R语言作为统计和数据挖掘界广泛应用的统计分析编程语言和操作环境，是一个基于GNU系统的自由、免费、源代码开放的软件。每年R的官方</description>
    </item>
    
    <item>
      <title>gcForest算法原理及Python与R实现</title>
      <link>https://cosx.org/2018/10/python-and-r-implementation-of-gcforest/</link>
      <pubDate>Fri, 12 Oct 2018 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2018/10/python-and-r-implementation-of-gcforest/</guid>
      <description>1.背景介绍 从目前来看深度学习大多建立在多层的神经网络基础上，即一些参数化的多层可微的非线性模块，这样就可以通过后向传播去训练，Zhi-Hu</description>
    </item>
    
    <item>
      <title>电子表格中的数据整理</title>
      <link>https://cosx.org/2018/07/data-organization-in-spreadsheets/</link>
      <pubDate>Sat, 28 Jul 2018 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2018/07/data-organization-in-spreadsheets/</guid>
      <description>本文翻译自Karl W. Broman和Kara H. Woo发表的Data organization in spreadsheets。作者Karl W. Broman，工作于威斯康星大学</description>
    </item>
    
    <item>
      <title>飓风过后的波多黎各</title>
      <link>https://cosx.org/2018/07/puerto-rico-hurricane-maria/</link>
      <pubDate>Wed, 25 Jul 2018 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2018/07/puerto-rico-hurricane-maria/</guid>
      <description>2017年9月20日，超级飓风“玛利亚”袭击了美属波多黎各自治邦，这场近90年来最强的飓风造成当地的基础设施严重损毁。同年12月9日，波多黎</description>
    </item>
    
    <item>
      <title>文献管理的三个阶段</title>
      <link>https://cosx.org/2018/07/literature-phase-three/</link>
      <pubDate>Sat, 14 Jul 2018 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2018/07/literature-phase-three/</guid>
      <description>文献管理是科研生活中很重要的一环，主要包括文献收集、整理、分析与追踪，目的是获取当前研究趋势。这个过程可以分成三个阶段：从无到有、从有到精与</description>
    </item>
    
    <item>
      <title>探索直方图</title>
      <link>https://cosx.org/2018/06/exploring-histograms/</link>
      <pubDate>Wed, 27 Jun 2018 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2018/06/exploring-histograms/</guid>
      <description>本文翻译自Aran Lunzer 和 Amelia McNamara发布的文章Exploring Histograms。翻译工作已获得作者授权同意。文中描述的交互式直方图</description>
    </item>
    
    <item>
      <title>R代码模拟世界杯1000次，足球小白速成世界杯预言姐</title>
      <link>https://cosx.org/2018/06/use-r-to-predict-the-2018-world-cup/</link>
      <pubDate>Sun, 24 Jun 2018 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2018/06/use-r-to-predict-the-2018-world-cup/</guid>
      <description>本文翻译自Mango Solution的博客，作者杨环，就职于Mango Solutions，担任数据科学咨询顾问。本文已获得原作者授权。 几周前</description>
    </item>
    
    <item>
      <title>第十一届中国R会议（北京）纪要</title>
      <link>https://cosx.org/2018/05/11th-china-r-beijing-summary/</link>
      <pubDate>Fri, 25 May 2018 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2018/05/11th-china-r-beijing-summary/</guid>
      <description>中国R会议（The China-R Conference）始于2008年，由统计之都（Capital of Statistics, COS）发起，并在中国人民大学举办了第一届中国R会议</description>
    </item>
    
    <item>
      <title>深入对比数据科学工具箱: SparkR vs Sparklyr</title>
      <link>https://cosx.org/2018/05/sparkr-vs-sparklyr/</link>
      <pubDate>Fri, 11 May 2018 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2018/05/sparkr-vs-sparklyr/</guid>
      <description>背景介绍 SparkR 和 Sparklyr 是两个基于Spark的R语言接口，通过简单的语法深度集成到R语言生态中。SparkR 由 Spark 社区维护，通过源码级别更新SparkR</description>
    </item>
    
    <item>
      <title>COS 访谈第 36 期：邵军老师</title>
      <link>https://cosx.org/2018/05/interview-of-jun-shao/</link>
      <pubDate>Wed, 02 May 2018 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2018/05/interview-of-jun-shao/</guid>
      <description>简介 邵军教授1987年8月获美国威斯康星-麦迪逊分校统计学博士学位，1996年获美国数理统计学会Fellow，1999年获美国统计学会Fel</description>
    </item>
    
    <item>
      <title>第十一届中国R会议（北京）参会报名通知</title>
      <link>https://cosx.org/2018/04/chinar-2018-bj-announcement/</link>
      <pubDate>Wed, 11 Apr 2018 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2018/04/chinar-2018-bj-announcement/</guid>
      <description>2018年，第十一届中国R会议(北京)将于5月25-27日在中国人民大学举办。本次会议由中国人民大学统计学院、北京大学光华管理学院与统计之都</description>
    </item>
    
    <item>
      <title>COS访谈第39期：吴建福教授</title>
      <link>https://cosx.org/2018/04/interview-of-jeff-wu/</link>
      <pubDate>Tue, 03 Apr 2018 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2018/04/interview-of-jeff-wu/</guid>
      <description>作者： Hugh A. Chipman是阿卡迪亚（Acadia）大学数学与统计学系教授。 电子邮件：hugh.chipman@acadiau.ca V. Roshan Jos</description>
    </item>
    
    <item>
      <title>叠嶂图的前世今生</title>
      <link>https://cosx.org/2018/04/ridgeline-story/</link>
      <pubDate>Tue, 03 Apr 2018 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2018/04/ridgeline-story/</guid>
      <description>1979年，英国乐队快乐小分队（Joy Division）发行了自己的首张唱片《Unknown Pleasuers》，这张专辑发行两周内就卖了5</description>
    </item>
    
    <item>
      <title>COS访谈第35期：Roger Peng</title>
      <link>https://cosx.org/2018/02/interview-of-roger-peng/</link>
      <pubDate>Fri, 23 Feb 2018 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2018/02/interview-of-roger-peng/</guid>
      <description>COS编辑部按 本文是Earo Wang对Roger Peng的采访稿，原文传送门点击此处，翻译工作已经得到作者授权。 简介 Roger Peng是约翰霍普金斯</description>
    </item>
    
    <item>
      <title>作为世界观的统计学</title>
      <link>https://cosx.org/2018/02/statistical-world-view/</link>
      <pubDate>Sat, 17 Feb 2018 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2018/02/statistical-world-view/</guid>
      <description>很多事很多人在做也知道怎么做能做好，这是工程师思维；但只有知道为什么去做才能从更深层次的改造现有的方法或手段，这就是科学家思维了。现在的大学</description>
    </item>
    
    <item>
      <title>用R语言的blogdown&#43;hugo&#43;netlify&#43;github建博客</title>
      <link>https://cosx.org/2018/01/build-blog-with-blogdown-hugo-netlify-github/</link>
      <pubDate>Wed, 17 Jan 2018 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2018/01/build-blog-with-blogdown-hugo-netlify-github/</guid>
      <description>目标 用R语言的blogdown + hugo + netlify + github搭建静态博客系统，用rstudio专注于写作。 优点 个性域名 免费，无限流量 静态网页，速度快</description>
    </item>
    
    <item>
      <title>COS访谈第34期：刘霁老师</title>
      <link>https://cosx.org/2017/12/interview-ji-liu/</link>
      <pubDate>Thu, 21 Dec 2017 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2017/12/interview-ji-liu/</guid>
      <description>刘霁，刘霁，罗切斯特大学计算机科学系、电子与计算机工程系助理教授。刘霁教授毕业于中国科学技术大学，并于亚利桑那州立大学与威斯康星麦迪逊分校取</description>
    </item>
    
    <item>
      <title>远见：加州大学伯克利数据科学发展规划</title>
      <link>https://cosx.org/2017/12/ucb-data-science-plan-summary/</link>
      <pubDate>Fri, 15 Dec 2017 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2017/12/ucb-data-science-plan-summary/</guid>
      <description>COS编辑部按：原文由Cathryn Carson作为主任的加州大学伯克利分校数据科学规划教授顾问委员会共同撰写，由统计之都翻译组成员王健桥、</description>
    </item>
    
    <item>
      <title>第十届中国R会议（上海）暨华东地区数据科学会议纪要</title>
      <link>https://cosx.org/2017/12/10th-china-r-shanghai-summary/</link>
      <pubDate>Mon, 04 Dec 2017 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2017/12/10th-china-r-shanghai-summary/</guid>
      <description>一、会议概况 第十届中国R会议（上海）暨华东地区数据科学会议于2017年12月2日至3日在华东师范大学中山北路校区成功举办。本次会议由华东师范</description>
    </item>
    
    <item>
      <title>基于深度学习和迁移学习的识花实践</title>
      <link>https://cosx.org/2017/10/transfer-learning/</link>
      <pubDate>Mon, 16 Oct 2017 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2017/10/transfer-learning/</guid>
      <description>深度学习是人工智能领域近年来最火热的话题之一，但是对于个人来说，以往想要玩转深度学习除了要具备高超的编程技巧，还需要有海量的数据和强劲的硬件</description>
    </item>
    
    <item>
      <title>漫谈条形图</title>
      <link>https://cosx.org/2017/10/discussion-about-bar-graph/</link>
      <pubDate>Sun, 15 Oct 2017 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2017/10/discussion-about-bar-graph/</guid>
      <description>这篇文章的起因是源于COS论坛中的下图，该图引起了热烈的讨论，具体的探讨细节见此。 图0：起因条形图 图中这五颜六色着实是“乱花渐欲迷人眼”，有</description>
    </item>
    
    <item>
      <title>谈品质（下）：品质与前路</title>
      <link>https://cosx.org/2017/10/conversation-about-quality-2/</link>
      <pubDate>Sat, 07 Oct 2017 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2017/10/conversation-about-quality-2/</guid>
      <description>原文刊载于中国美术学院“商道与艺道”2017论坛专刊。转载请注明出处 本文为《谈品质》一文的下篇，前情提要请见谈品质（上）：品质溯源。 质量大数</description>
    </item>
    
    <item>
      <title>心理学的危机</title>
      <link>https://cosx.org/2017/09/psychology-in-crisis/</link>
      <pubDate>Sat, 30 Sep 2017 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2017/09/psychology-in-crisis/</guid>
      <description>NBA总决赛刚结束不久，今年最幸福的肯定就是勇士球迷了。宇宙勇的球迷一定很关心一个东西，因为它决定着你看到的是海啸组合还是铁花兄弟——它就是</description>
    </item>
    
    <item>
      <title>第十届中国R会议（兰州）暨西北地区数据科学会议纪要</title>
      <link>https://cosx.org/2017/09/10th-chinar-lanzhou-summary/</link>
      <pubDate>Sat, 16 Sep 2017 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2017/09/10th-chinar-lanzhou-summary/</guid>
      <description>第十届中国R语言会议（兰州会场）暨西北地区数据科学会议于2017年9月16日在兰州财经大学和平校区成功举办。主会场位于兴隆讲堂。 一、会议概况</description>
    </item>
    
    <item>
      <title>谈品质（上）：品质溯源</title>
      <link>https://cosx.org/2017/09/conversation-about-quality-1/</link>
      <pubDate>Wed, 13 Sep 2017 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2017/09/conversation-about-quality-1/</guid>
      <description>原文刊载于中国美术学院“商道与艺道”2017论坛专刊。转载请注明出处。 品质与品味 “品”这个字很有趣。品茶是品，品酒是品，品评人物也是品。我这</description>
    </item>
    
    <item>
      <title>COS访谈第33期：刘三震老师</title>
      <link>https://cosx.org/2017/09/interview-sanzhen-liu/</link>
      <pubDate>Thu, 07 Sep 2017 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2017/09/interview-sanzhen-liu/</guid>
      <description>这篇访谈的形式很特别，是在论坛回帖中完成的，整理得以下对话。原帖见这里。 谢：今天我们有幸请到了堪萨斯州立大学植物病理学系的刘三震老师为大家分</description>
    </item>
    
    <item>
      <title>编辑部指南</title>
      <link>https://cosx.org/reviewer/</link>
      <pubDate>Mon, 04 Sep 2017 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/reviewer/</guid>
      <description>审稿是统计之都主站工作的一个重要组成部分，在由作者或者编辑完成基本的编辑任务之后，编辑部会邀请专业的技术相关者进行文章的审核。本指南整理了一</description>
    </item>
    
    <item>
      <title>COS访谈第32期：合肥R会议主席—林枫</title>
      <link>https://cosx.org/2017/08/interview-linfeng/</link>
      <pubDate>Wed, 30 Aug 2017 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2017/08/interview-linfeng/</guid>
      <description>写这篇访谈很难，原因如下： 合肥R会结束的那天晚上，我跟林枫聊了半天。聊完以后已经很晚了，我便没来得及做点笔记。之后在西安长沙北京等地转了几天</description>
    </item>
    
    <item>
      <title>为什么统计学家也应该学学 TensorFlow</title>
      <link>https://cosx.org/2017/08/tensorflow-for-statisticians/</link>
      <pubDate>Tue, 22 Aug 2017 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2017/08/tensorflow-for-statisticians/</guid>
      <description>（先啰嗦一句：本文的标题和内容牵涉到 TensorFlow，只是因为它是可用的工具之一，我相信很多其他的框架都可以做到文中我想要实现的功能。我</description>
    </item>
    
    <item>
      <title>数据通灵术之爬虫技巧</title>
      <link>https://cosx.org/2017/08/web-scrap-tools/</link>
      <pubDate>Sun, 20 Aug 2017 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2017/08/web-scrap-tools/</guid>
      <description>俗话说&amp;quot;巧妇难为无米之炊&amp;quot;。如果你是一个数据忍者，却因为没有数据而烦恼，这卷&amp;quot;数据通灵术&amp;quot;或许是你需</description>
    </item>
    
    <item>
      <title>Julia 中的分布式计算</title>
      <link>https://cosx.org/2017/08/distributed-learning-in-julia/</link>
      <pubDate>Fri, 18 Aug 2017 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2017/08/distributed-learning-in-julia/</guid>
      <description>&lt;p&gt;&lt;img src=&#34;https://user-images.githubusercontent.com/19310150/28401762-c5576c4a-6d4e-11e7-9427-4186e8653f00.png&#34; alt=&#34;julia_prog_language&#34;&gt;&lt;/p&gt;
&lt;h1 id=&#34;引子&#34;&gt;引子&lt;/h1&gt;
&lt;p&gt;&lt;a href=&#34;https://julialang.org/&#34;&gt;Julia&lt;/a&gt; 是一门相对比较新的着眼于科学计算的语言，语法上看起来有点类似于 Matlab 的脚本语言，但是实际上从 Ruby、Python、Lisp 之类的语言里吸收了许多有趣的特性。在这篇文章中，我想介绍一下 Julia 的分布式计算机制，它方便的并行和分布式计算的能力，结合优质的数值计算能力，其实让它非常方便用于做分布式数据处理——比如 distributed optimization、learning 之类的任务。虽然 Julia 这些年一直在稳步发展并且每个版本都会不兼容旧版本中的一些东西，让人需要不断地维护和修改代码有点心累，同时社区里的第三方库也还不够强大，不过最近在做一点点 distributed optimization 相关的东西中体会到它在这方面的好处，在这里简单分享一下。一方面因为 Julia 的文档虽然比较全，但是似乎还是比较难找到一个完整的例子。本文相关的完整代码会放在&lt;a href=&#34;https://github.com/pluskid/DistLearn.jl&#34;&gt;这里&lt;/a&gt;。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>COS访谈第31期：Charles Stein</title>
      <link>https://cosx.org/2017/07/interview-charles-stein/</link>
      <pubDate>Fri, 21 Jul 2017 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2017/07/interview-charles-stein/</guid>
      <description>COS编辑部按：本文是Morris DeGroot对Charles Stein的采访稿，原文见 http://statweb.stanford.e</description>
    </item>
    
    <item>
      <title>2017年统计之都网站改版说明</title>
      <link>https://cosx.org/2017/07/cos-new-site/</link>
      <pubDate>Tue, 18 Jul 2017 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2017/07/cos-new-site/</guid>
      <description>如小轩哥所说：是的，没有错，我们又双叒叕改版换系统了。我都快记不清统计之都从 2006 年成立至今到底改过几次版了，于是我去万能的时光机器上看了一眼，</description>
    </item>
    
    <item>
      <title>第十届中国R会议（合肥）纪要</title>
      <link>https://cosx.org/2017/07/10th-china-r-hefei-summary/</link>
      <pubDate>Sat, 15 Jul 2017 00:10:32 +0000</pubDate>
      
      <guid>https://cosx.org/2017/07/10th-china-r-hefei-summary/</guid>
      <description>第十届中国R会议（合肥会场）于2017年6月17日至18日在中国科学技术大学成功举办。会议的主会场位于西区大礼堂，各个分会场分别位于西活学术</description>
    </item>
    
    <item>
      <title>统计之都成员介绍</title>
      <link>https://cosx.org/members/</link>
      <pubDate>Fri, 14 Jul 2017 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/members/</guid>
      <description>统计之都由如下成员构成：文章作者、论坛管理人员、编辑部、理事会、COS 八卦群（微信）。 编辑部及作者 王小宁现任编辑部主编，中国传媒大学数据科学</description>
    </item>
    
    <item>
      <title>第十届中国R会议（太原）暨山西省大数据产业创新发展论坛纪要</title>
      <link>https://cosx.org/2017/07/10th-chinar-taiyuan-summary/</link>
      <pubDate>Wed, 12 Jul 2017 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2017/07/10th-chinar-taiyuan-summary/</guid>
      <description>R语言是在统计和数据科学界广泛应用的编程语言和开发环境，其免费、开源、灵活的特点，使其受到越来越多的关注。中国R会议(The China-R Conference) 正起始于对R</description>
    </item>
    
    <item>
      <title>郁彬老师在2017北大数学科学学院毕业典礼上的讲话</title>
      <link>https://cosx.org/2017/07/graduation-talk-yubin/</link>
      <pubDate>Sun, 09 Jul 2017 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2017/07/graduation-talk-yubin/</guid>
      <description>编者按 本文是2017年7月2日郁彬院友在2017北大数院毕业典礼上的讲话。 尊敬的北大数科院的老师，同学, 尊敬的家长亲友： 首先衷心祝贺2013</description>
    </item>
    
    <item>
      <title>COS访谈第30期：宗福季老师</title>
      <link>https://cosx.org/2017/06/interview-fugee-tsung/</link>
      <pubDate>Mon, 19 Jun 2017 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2017/06/interview-fugee-tsung/</guid>
      <description>&lt;p&gt;&lt;strong&gt;宗福季&lt;/strong&gt;，现任香港科技大学工业工程与物流管理系教授，前系主任，及质量实验室主任，国际质量科学院（IAQ）院士，美国统计学会（ASA）会士, 美国工业工程师学会（IIE）会士，美国质量学会（ASQ）会士，国际统计协会（ISI）当选会员，香港工程学会（HKIE）会士。
任职科大后，宗福季教授积极参与有关质量改善和管理的教育及研究工作，也为不同行业提供咨询及培训服务，包括制造、银行、电讯及医疗等行业。宗教授目前是美国质量学会旗舰期刊Journal of Quality Technology (JQT)的主编，工业工程学会期刊IISE Transactions及Technometrics的副编辑。宗教授于国立台湾大学取得机械工程学士学位，其后于美国密歇根大学获工业工程硕士及博士学位。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>COS访谈第29期：出国申请经验分享（下）</title>
      <link>https://cosx.org/2017/06/cos-interview-29/</link>
      <pubDate>Sun, 18 Jun 2017 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2017/06/cos-interview-29/</guid>
      <description>缘来胸怀求索术，相逢即有统计魂。 年少书影心中论，功成须为远行人。 大家好，经历一个多月的沉淀，我们针对大四毕业生出国访谈的下篇已经新鲜出炉啦！</description>
    </item>
    
    <item>
      <title>随机数生成及其在统计模拟中的应用</title>
      <link>https://cosx.org/2017/05/random-number-generation/</link>
      <pubDate>Fri, 26 May 2017 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2017/05/random-number-generation/</guid>
      <description>揭秘统计软件如R，Octave，Matlab等使用的随机数发生器，然后做一些统计检验，再将其应用到独立随机变量和的模拟中，最后与符号计算得到</description>
    </item>
    
    <item>
      <title>第十届中国R会议（北京）纪要</title>
      <link>https://cosx.org/2017/05/10th-china-r-beijing-summary/</link>
      <pubDate>Thu, 25 May 2017 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2017/05/10th-china-r-beijing-summary/</guid>
      <description>中国R会议（The China-R Conference）始于2008 年，由统计之都（Capital of Statistics, COS）发起，联合各地高校、企业共同举办。会议旨在提</description>
    </item>
    
    <item>
      <title>十行代码预测插旗西雅图</title>
      <link>https://cosx.org/2017/05/rdota2-seattle-prediction/</link>
      <pubDate>Fri, 19 May 2017 12:06:00 +0000</pubDate>
      
      <guid>https://cosx.org/2017/05/rdota2-seattle-prediction/</guid>
      <description>&lt;h2 id=&#34;背景故事&#34;&gt;背景故事&lt;/h2&gt;
&lt;p&gt;我错了，我承认我是标题党，怎么可能用十行代码完成 &lt;strong&gt;Dota2 &lt;del&gt;信仰2&lt;/del&gt; 比赛数据的抓取, 清洗与预测建模呢&lt;/strong&gt;。
不过为了发扬继承郎大为“十行代码”系列的优良传统，我决定沿用这个名字，希望能把品牌做大做强，走出亚洲，面向世界。。。&lt;/p&gt;
&lt;p&gt;事情的起因是这样的：上周与同为信仰粉的大为接上头之后，被安利了一个叫 &lt;code&gt;RDota2&lt;/code&gt; 的 R pacakge。
这个工具包使用 Steam API，可以让 R 直接提取有关 Dota2 的各种数据：除了每一场游戏的具体信息，还可以提取英雄，物品，战队，和联赛的资料。
所以我就萌生了用 &lt;code&gt;RDota2&lt;/code&gt; 抓一批比赛数据，然后建模预测比赛胜负的想法。结果还是相当有趣的，且听我慢慢道来。
不过在此之前，我想先为对建模感兴趣但不知道什么是 Dota2 的同学，简单介绍一下这款游戏。&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://cloud.githubusercontent.com/assets/11251354/26287701/050b8c4c-3e4f-11e7-8bba-05edd84f4614.JPG&#34; alt=&#34;&#34;&gt;&lt;br&gt;
Dota2众型男&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>统计之都投稿指南</title>
      <link>https://cosx.org/contribute/</link>
      <pubDate>Fri, 19 May 2017 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/contribute/</guid>
      <description>整个 COS 主站的源代码托管在 Github 库 cosname/cosx.org 中，其中多数文章都使用 Markdown 文档格式。如果您熟悉 Github 和 Markdown，请直接给该库提交合并请求（Pull Reque</description>
    </item>
    
    <item>
      <title>COS访谈第28期：陈松蹊老师</title>
      <link>https://cosx.org/2017/05/interview-songxi-chen/</link>
      <pubDate>Wed, 17 May 2017 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2017/05/interview-songxi-chen/</guid>
      <description>陈松蹊，国家特聘专家， 北京大学讲席教授，商务统计与经济计量系联合系主任、北京大学统计科学中心联席主任 国家首批“千人计划”入选者，加盟北大后主</description>
    </item>
    
    <item>
      <title>Bandit算法与推荐系统</title>
      <link>https://cosx.org/2017/05/bandit-and-recommender-systems/</link>
      <pubDate>Thu, 04 May 2017 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2017/05/bandit-and-recommender-systems/</guid>
      <description>注:本文首发于《程序员》杂志 0.导语 推荐系统里面有两个经典问题：EE问题和冷启动问题。前者涉及到平衡准确和多样，后者涉及到产品算法运营等一系</description>
    </item>
    
    <item>
      <title>COS访谈第27期：出国申请经验分享（上）</title>
      <link>https://cosx.org/2017/05/cos-interview-27/</link>
      <pubDate>Mon, 01 May 2017 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2017/05/cos-interview-27/</guid>
      <description>百战尤勇力不衰，大浪淘尽识英才。 今朝吾辈仗剑去，共留明灯照后侪。 世上本没有出国申请的道路，走的师兄师姐多了，自然便成了路。所谓前人栽树，后人</description>
    </item>
    
    <item>
      <title>谷歌为什么创造了幽灵广告？</title>
      <link>https://cosx.org/2017/04/google-ghost-ads/</link>
      <pubDate>Thu, 27 Apr 2017 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2017/04/google-ghost-ads/</guid>
      <description>&lt;p&gt;说起广告大家肯定都知道，可是什么是幽灵广告？其实幽灵广告的英文是ghost ads，源自Google的一篇论文，Johnson, Garrett A., Randall A. Lewis, and Elmar I. Nubbemeyer. &amp;ldquo;Ghost Ads: Improving the Economics of Measuring Online Ad Effectiveness.&amp;rdquo; (2016)。幽灵广告是他们创造出来用来提高衡量在线广告效果的一套系统。由于实施过程中某些广告会化作用户看不到的幽灵，所以称之为“幽灵广告”系统，专门用于线上广告的随机对照实验。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>第十届中国R会议（北京）会议通知</title>
      <link>https://cosx.org/2017/04/chinar-2017-bj-announcement/</link>
      <pubDate>Wed, 05 Apr 2017 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2017/04/chinar-2017-bj-announcement/</guid>
      <description>2017年，是中国R会议值得纪念的第10个年头，本届R会议将于5月19-21日在美丽的清华大学举办。在这样一个值得纪念的时刻，让我们相聚清华</description>
    </item>
    
    <item>
      <title>ggimage：ggplot2中愉快地使用图片</title>
      <link>https://cosx.org/2017/03/ggimage/</link>
      <pubDate>Wed, 29 Mar 2017 21:58:23 +0000</pubDate>
      
      <guid>https://cosx.org/2017/03/ggimage/</guid>
      <description>&lt;blockquote&gt;
&lt;p&gt;作者简介：余光创，香港大学公共卫生学院，生物信息学博士生。&lt;/p&gt;
&lt;p&gt;博客：&lt;a href=&#34;https://guangchuangyu.github.io&#34;&gt;https://guangchuangyu.github.io&lt;/a&gt;， 公众号：biobabble&lt;/p&gt;
&lt;/blockquote&gt;
&lt;h1 id=&#34;导言&#34;&gt;导言&lt;/h1&gt;
&lt;p&gt;本文介绍了&lt;strong&gt;ggimage&lt;/strong&gt;包，允许在&lt;strong&gt;ggplot2&lt;/strong&gt;作图时嵌入图片，并支持&lt;code&gt;aes&lt;/code&gt;映射，可以把离散型变量映射到不同图片。目前有几个包可以使用图片嵌入做图，但都是针对特定的场景，这里使用&lt;strong&gt;ggimage&lt;/strong&gt;来展示在这些特定领域里的应用，&lt;strong&gt;ggimage&lt;/strong&gt;的设计是通用的，并不被特定场景所限定，文末又介绍了用R图标来画出R、用饼图来画气泡图等实例。&lt;/p&gt;
&lt;h1 id=&#34;图上嵌图片&#34;&gt;图上嵌图片&lt;/h1&gt;
&lt;p&gt;R 基础图形库（base graphics）可以在做图的时候嵌入图片，使用的是&lt;code&gt;graphics::rasterImage&lt;/code&gt;：&lt;/p&gt;
&lt;pre&gt;&lt;code class=&#34;language-r&#34;&gt;imgurl &amp;lt;- &amp;quot;http://phylopic.org/assets/images/submissions/295cd9f7-eef2-441e-ba7e-40c772ca7611.256.png&amp;quot;
library(EBImage)
x &amp;lt;- readImage(imgurl)
plot(1, type = &amp;quot;n&amp;quot;, xlab = &amp;quot;&amp;quot;, ylab = &amp;quot;&amp;quot;, xlim = c(0, 8), ylim = c(0, 8))
rasterImage(x, 2, 2, 6, 4)
&lt;/code&gt;&lt;/pre&gt;
&lt;p&gt;&lt;img src=&#34;https://raw.githubusercontent.com/Lchiffon/ggimage-md-for-COS/master/figures/raster.png&#34; alt=&#34;R绘图嵌入图片演示&#34;&gt;&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>聊聊美国保险业</title>
      <link>https://cosx.org/2017/03/thoughts-on-insurance/</link>
      <pubDate>Sat, 18 Mar 2017 13:01:00 +0000</pubDate>
      
      <guid>https://cosx.org/2017/03/thoughts-on-insurance/</guid>
      <description>&lt;p&gt;&lt;strong&gt;作者简介&lt;/strong&gt;：侯澄钧，俄亥俄州立大学运筹学博士，
目前在美国从事财产事故险（Property &amp;amp; Casualty）领域的保险产品开发，涉及数据分析、统计建模和产品算法优化等方面的工作。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;只有想不到，没有保不了&lt;/strong&gt;。这就是我对美国保险行业最深刻的认识。
大到地震，小到球票，加上平时开车，租房，看病，旅游，保险无时不刻的出现在了美国人生活工作的方方面面。
除了没有住所，没有工作，没有任何财产的流浪人员，每个美国人都不可避免得需要与保险打交道。
如果银行是厚重的少林，证券是玄妙的武当，那保险作为弟子遍布江湖的丐帮确实当之无愧。
下面我想从房屋火灾险，医疗责任险，自然灾害险，聊聊美国人是怎么开始玩保险，然后玩出各种花样，甚至玩坏的。
之后我会写写数据科学是如何应用于保险行业的，同时介绍一些常用的预测模型，只对这方面内容感兴趣的朋友可以直接跳过之前的内容。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>十行代码看到空气质量指数</title>
      <link>https://cosx.org/2017/03/air-quality-visualization/</link>
      <pubDate>Wed, 15 Mar 2017 22:25:09 +0000</pubDate>
      
      <guid>https://cosx.org/2017/03/air-quality-visualization/</guid>
      <description>&lt;h1 id=&#34;故事部分&#34;&gt;故事部分&lt;/h1&gt;
&lt;p&gt;我错了, 我承认我是标题党, 怎么可能用十行代码完成全国三百个多个城市AQI的&lt;strong&gt;抓取, 清洗与可视化呢&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;我仔细数了数, 去掉注释, 一共是9行, 凑个整才是10行 耶~&lt;/p&gt;
&lt;p&gt;空气质量指数（Air Quality Index，简称AQI）是定量描述空气质量状况的无量纲指数.&lt;/p&gt;
&lt;p&gt;关于空气质量的段子已经层出不穷， 连呆在上海的我都已经开始关注北京的天气了:&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>一款新的 R Markdown 幻灯片制作工具：xaringan</title>
      <link>https://cosx.org/2017/02/xaringan-presentation/</link>
      <pubDate>Mon, 13 Feb 2017 13:17:47 +0000</pubDate>
      
      <guid>https://cosx.org/2017/02/xaringan-presentation/</guid>
      <description>今天小编给大家介绍一款新的幻灯片神器：xaringan（中文名：幻灯忍者）。它基于大家都熟悉的 R Markdown 语法，幻灯片中能嵌入 R 代码动态生成输出结果</description>
    </item>
    
    <item>
      <title>假新闻引发的愤怒——非算法视角对自我学习的搜索排序算法和选择偏差的一些解读</title>
      <link>https://cosx.org/2017/01/learning-to-rank/</link>
      <pubDate>Mon, 16 Jan 2017 14:59:16 +0000</pubDate>
      
      <guid>https://cosx.org/2017/01/learning-to-rank/</guid>
      <description>&lt;p&gt;本文作者陈丽云，落园园主。&lt;/p&gt;
&lt;p&gt;声明：本文与作者工作单位及工作内容无关，完全出于个人兴趣爱好。&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://uploads.cosx.org/2017/01/17784079_1200x1000_0.jpg&#34; alt=&#34;&#34;&gt;&lt;/p&gt;
&lt;p&gt;最近有条很火的新闻。美国大选刚刚落下帷幕，却余波不断。其中一条新闻就是，Google被指责利用搜索结果（假新闻）左右民意。可是事情到底是怎么回事呢？&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;SAN, FRANCISCO/WASHINGTON – Google’s search engine is highlighting an inaccurate story claiming that President-elect Donald Trump won the popular vote in last week’s election, the latest example of bogus information spread by the internet’s gatekeepers.&lt;/p&gt;
&lt;/blockquote&gt;
&lt;blockquote&gt;
&lt;p&gt;The incorrect results are shown in a two-day-old story posted on the pro-Trump “70 News” site. On Monday, a link to the site appeared at or near the top of Google’s influential rankings of relevant news stories for searches on the final election results.&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;原文不翻译了，大意是，在Google搜索大选相关信息的时候，“popularity vote”第一条结果是一个“洋葱新闻”网站70News。显然Google的算法认为这个网站是最相关的，结果无数的网民就天真地点击过去了，然后愤怒地发现这是一条假新闻（相似的例子可能还有百度医疗广告问题…）。可见人们潜意识里对搜索引擎有一种莫名的信任——排在前面的应该就是我想要的信息。可是，搜索引擎背后也只是一堆堆的机器学习模型，而模型也是需要不断改进的。要改进模型就要告诉模型什么时候判断错了，然后进行参数修正。&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://uploads.cosx.org/2017/01/Google-e1457156368841.jpg&#34; alt=&#34;&#34;&gt;&lt;/p&gt;
&lt;p&gt;最近看到Google research放出来的一篇论文：&lt;a href=&#34;http://research.google.com/pubs/pub45286.html&#34;&gt;Learning to Rank with Selection Bias in Personal Search&lt;/a&gt;。这篇论文是跟排序算法相关的，虽然跟上面的“假新闻”事件没啥直接关系，但殊途同归之处不少。正巧园主前些时日涉足了一些相关的问题，加之标题中的选择偏差（selection bias），一下子引起园主的好奇心，遂通读此文。读完之后感觉有些想法很新颖，只是术语习惯等等和园主习惯的方式有所区别，所以打算以一个非算法的视角来解读一下这篇文章，谈谈园主的一些理解。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>利用R语言对用户进行深度挖掘</title>
      <link>https://cosx.org/2017/01/deep-mining-users-r/</link>
      <pubDate>Fri, 13 Jan 2017 22:36:55 +0000</pubDate>
      
      <guid>https://cosx.org/2017/01/deep-mining-users-r/</guid>
      <description>作者简介：谢佳标 乐逗游戏高级数据分析师，负责大数据挖掘及可视化。资深R语言用户，有九年以上数据挖掘工作实战经验，多次在中国R语言大会上作主题</description>
    </item>
    
    <item>
      <title>COS访谈第26期：寇强</title>
      <link>https://cosx.org/2017/01/cos-interview-26-kouqiang/</link>
      <pubDate>Wed, 11 Jan 2017 23:51:49 +0000</pubDate>
      
      <guid>https://cosx.org/2017/01/cos-interview-26-kouqiang/</guid>
      <description>【COS编辑者按】受访者：寇强 采访者：王小宁 审稿：成慧敏 寇强，Rcpp 核心团队成员。本科就读于中山大学，现为印第安纳大学博士在读。 **小宁：</description>
    </item>
    
    <item>
      <title>[译]量化投资教程：投资组合优化与R实践（上）</title>
      <link>https://cosx.org/2016/12/portfolio-optimization-1/</link>
      <pubDate>Fri, 30 Dec 2016 09:19:43 +0000</pubDate>
      
      <guid>https://cosx.org/2016/12/portfolio-optimization-1/</guid>
      <description>译者简介: Harry Zhu, R语言爱好者, FinanceR 专栏作者 概述 最近，在研究投资组合优化的问题，主要针对的是股票持仓的组合优化，会在这个分析过程中发现一些有意思的</description>
    </item>
    
    <item>
      <title>COS访谈第25期：李东老师</title>
      <link>https://cosx.org/2016/12/cos-interview-25-dong-li/</link>
      <pubDate>Mon, 19 Dec 2016 09:55:11 +0000</pubDate>
      
      <guid>https://cosx.org/2016/12/cos-interview-25-dong-li/</guid>
      <description>受访人：李东老师 采访人：张心雨 个人简介 李东，清华大学统计学研究中心助理教授。2005年在中科院数学与系统科学研究院获得硕士学位，2010年在</description>
    </item>
    
    <item>
      <title>COS沙龙第40期(北京)纪要</title>
      <link>https://cosx.org/2016/12/20161210salon/</link>
      <pubDate>Sun, 18 Dec 2016 22:03:47 +0000</pubDate>
      
      <guid>https://cosx.org/2016/12/20161210salon/</guid>
      <description>数据科学三原则：可预测性，稳定性和可计算性 嘉宾：郁彬 主办：统计之都、中国人民大学统计学院、中国人民大学统计与大数据研究院 场地：中国人民大学逸</description>
    </item>
    
    <item>
      <title>COS访谈第24期：郭绍俊老师</title>
      <link>https://cosx.org/2016/12/cos-interview-24-shaojun-guo/</link>
      <pubDate>Tue, 13 Dec 2016 11:05:41 +0000</pubDate>
      
      <guid>https://cosx.org/2016/12/cos-interview-24-shaojun-guo/</guid>
      <description>【COS编辑者按】受访者：郭绍俊 采访者：冯璟烁、于嘉傲 校对：于嘉傲 郭绍俊 2003年毕业于山东师范大学，2008年获得中国科学院数学与系统科学</description>
    </item>
    
    <item>
      <title>3张图 解释我的数据价值观</title>
      <link>https://cosx.org/2016/12/three-pictures-date-value/</link>
      <pubDate>Mon, 05 Dec 2016 20:45:39 +0000</pubDate>
      
      <guid>https://cosx.org/2016/12/three-pictures-date-value/</guid>
      <description>作者简介：张翔，车轮互联数据副总裁，COS9年老水友 做数据的人现在越来越强调价值，那么在商业世界里，什么数据价值最高？我们先看几个例子： 一张</description>
    </item>
    
    <item>
      <title>COS访谈第40期：Breiman</title>
      <link>https://cosx.org/2016/12/a-conversaton-with-leo-breiman/</link>
      <pubDate>Fri, 02 Dec 2016 12:01:16 +0000</pubDate>
      
      <guid>https://cosx.org/2016/12/a-conversaton-with-leo-breiman/</guid>
      <description>COS编辑部按：本文是一篇Richard Olshen对Leo Breiman的采访稿（原文发表在Statistical Science）。翻译工</description>
    </item>
    
    <item>
      <title>降维攻击：目标，比率指标</title>
      <link>https://cosx.org/2016/11/discussion-about-ratio-metric/</link>
      <pubDate>Mon, 28 Nov 2016 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2016/11/discussion-about-ratio-metric/</guid>
      <description>&lt;blockquote&gt;
&lt;p&gt;&lt;strong&gt;作者简介&lt;/strong&gt;：陈丽云，在eBay从事 Experimentation Analytics Research。网络上素来自黑为“落园园主”。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;在这个互联网数据唾手可得的时代，但凡有数据的地方，就有战争。一场战役，有人登高摇旗呐喊，有人趁夜暗度陈仓。在以浩瀚数据为目标的战场上，大家费尽心思用尽招数，各种降维攻击，只是没有《三体》里面的体外文明那种强行把三维生物体打击到二维空间的那么残忍罢了。实践中，我们利用各种统计模型对数据进行一而再、再而三的降维，最终获得屈指可数的统计量来做进一步判断。园主一时起意，打算记录一下一场针对比率指标的降维攻击，以飨读者。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>COS访谈第23期:尹建鑫老师</title>
      <link>https://cosx.org/2016/11/interview-jianxin-yin/</link>
      <pubDate>Fri, 25 Nov 2016 21:14:51 +0000</pubDate>
      
      <guid>https://cosx.org/2016/11/interview-jianxin-yin/</guid>
      <description>&lt;blockquote&gt;
&lt;p&gt;【COS编辑者按】受访者：尹建鑫  采访者：王小宁  校对：王佳&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;&lt;strong&gt;尹建鑫&lt;/strong&gt; 中国人民大学副教授，2009年在北京大学获得博士学位。2009年至2011年在美国宾夕法尼亚大学医学院生物统计系做博士后研究。2011年8月回国到中国人民大学任教。从事高维变量选择、图模型估计、结构学习算法、自适应实验设计、非参数统计等方面的研究。研究成果发表在国际知名统计杂志上（Annals of Applied Statistics, Journal ofMultivariate Analysis，Statistica Sinica）及Journal of Machine Learning Research的W&amp;amp;CP系列中。曾多次参加国际、国内学术会议，做演讲、邀请报告。并曾作为参赛队代表获因果与预测国际挑战赛“最佳整体贡献奖”。目前主持一项国家自然科学基金青年项目、一项教育部博士点基金项目。2015年获教育部第七届高等学校科学研究优秀成果奖（人文社会科学）统计学三等奖&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>共轭梯度法计算回归</title>
      <link>https://cosx.org/2016/11/conjugate-gradient-for-regression/</link>
      <pubDate>Wed, 23 Nov 2016 23:01:54 +0000</pubDate>
      
      <guid>https://cosx.org/2016/11/conjugate-gradient-for-regression/</guid>
      <description>&lt;p&gt;&lt;img src=&#34;https://uploads.cosx.org/2016/11/CG.png&#34; alt=&#34;共轭梯度示意图（图片来源：维基百科）&#34;&gt;&lt;/p&gt;
&lt;p&gt;&lt;del&gt;轮回眼&lt;/del&gt; 共轭梯度示意图（图片来源：&lt;a href=&#34;https://en.wikipedia.org/wiki/Conjugate_gradient_method&#34;&gt;维基百科&lt;/a&gt;）&lt;/p&gt;
&lt;h1 id=&#34;引子&#34;&gt;引子&lt;/h1&gt;
&lt;p&gt;之所以写这篇文章，是因为前几天统计之都的微信群里有同学提了一个问题，想要对一个很大的数据集做回归。然后大家纷纷给出了自己的建议，而我觉得共轭梯度算回归的方法跟这个背景比较契合，所以就正好写成一篇小文，与大家分享一下。&lt;/p&gt;
&lt;p&gt;说到算回归，或许大家都会觉得这个问题太过简单了，如果用 &lt;code&gt;$X$&lt;/code&gt; 表示自变量矩阵，&lt;code&gt;$y$&lt;/code&gt; 表示因变量向量，那么回归系数的最小二乘解就是 &lt;code&gt;$\hat{\beta}=(X&#39;X)^{-1}X&#39;y$&lt;/code&gt;。（本文完）&lt;/p&gt;
&lt;p&gt;。&lt;/p&gt;
&lt;p&gt;。&lt;/p&gt;
&lt;p&gt;。&lt;/p&gt;
&lt;p&gt;哎等等，别真走啊，我们的主角共轭梯度还没出场呢。前面的这个算系数的公式确实非常简洁、优雅、纯天然、不做作，但要往里面深究的话，还是有很多问题值得挖掘的。&lt;/p&gt;
&lt;p&gt;最简单暴力的方法，就是从左向右，依次计算矩阵乘法，矩阵求逆，又一个矩阵乘法，最后是矩阵和向量的乘法。如果你就是这么算的，那么可以先默默地去面壁两分钟了。&lt;/p&gt;
&lt;p&gt;更合理的方法，要么是对 &lt;code&gt;$X&#39;X$&lt;/code&gt; 进行 Cholesky 分解，要么是对 &lt;code&gt;$X$&lt;/code&gt; 进行 QR 分解，它们基本上是现在算回归的软件中最常见的方法。关于暴力方法和矩阵分解方法的介绍和对比，可以参见这个&lt;a href=&#34;http://www.bilibili.com/video/av3769449/index_1.html&#34;&gt;B站上的视频&lt;/a&gt;。（什么？你问我这么严肃的话题为什么要放B站上？因为大部分时间都是在吐槽啊）&lt;/p&gt;
&lt;p&gt;好，刚才去面壁的同学现在应该已经回来了，我们继续。前面这些通过矩阵运算求回归系数的方法，我们可以统称为直接法。叫这个名字，是因为它们都可以在确定数目的步骤内得到最终的结果。而与之相对的，则叫做迭代法，意思是通过不断更新已经得到的结果，来逐渐逼近真实的取值。打个比方，你想要知道一瓶82年的拉菲值多少钱，直接法就是去做调研，原料值多少，品牌值多少，加工费多少，运输费多少……然后加总起来得到最终的定价；而迭代法就是去问酒庄老板，你先随便蒙一个数，然后老板告诉你高了还是低了，反复循环，总能猜个八九不离十。&lt;/p&gt;
&lt;p&gt;说到这里，你自然要问了，既然算回归的软件大都是用直接法，为什么还要考虑迭代法？莫非直接法有什么不好的地方？这就说到问题的点子上了。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>COS访谈第22期:李丰老师</title>
      <link>https://cosx.org/2016/11/interview-feng-li/</link>
      <pubDate>Mon, 21 Nov 2016 17:13:37 +0000</pubDate>
      
      <guid>https://cosx.org/2016/11/interview-feng-li/</guid>
      <description>&lt;p&gt;李丰，博士，中央财经大学统计与数学学院，副院长，硕士研究生导师, 主要研究方向为大数据与复杂模型、贝叶斯推断与统计计算、计量经济与预测方法以及多元模型。现任北京大数据协会理事,中国统计教育学会高等教育分会副秘书长,曾任2014 年金融工程与风险管理国际研讨会执行秘书。李丰老师是多个国家项目的项目负责人及主要参加人，曾获得The 2014 Cramér Prize等重要奖项。著有《大数据分布式计算与案例》等书籍。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>RStudio的前世今生——RStudio创始人专访</title>
      <link>https://cosx.org/2016/11/interview-j-j-allaire/</link>
      <pubDate>Sun, 13 Nov 2016 22:33:57 +0000</pubDate>
      
      <guid>https://cosx.org/2016/11/interview-j-j-allaire/</guid>
      <description>&lt;p&gt;本文是一篇Joseph B. Rickert（简称JBR）对J.J. Allaire（RStudio的创始人和首席执行官）的采访稿，&lt;a href=&#34;https://www.rstudio.com/rviews/2016/10/12/interview-with-j-j-allaire/&#34;&gt;原文在此&lt;/a&gt;。统计之都与作者沟通后得到授权将其翻译为中文，希望可以让广大读者能够更多了解在R的世界中这个叫RStudio的地方。在这次采访中讨论了RStudio的历史、使命和J.J.的未来愿景。 短暂的交谈中讨论了各种各样的主题，包括RStudio的业务、R语言的发展、R联盟对R社群的重要性以及J.J.对R新手们的建议。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>第九届中国R语言会议（武汉） 暨华中地区数据科学会议通知</title>
      <link>https://cosx.org/2016/11/china-r-2016wuhan/</link>
      <pubDate>Wed, 09 Nov 2016 14:37:46 +0000</pubDate>
      
      <guid>https://cosx.org/2016/11/china-r-2016wuhan/</guid>
      <description>&lt;p&gt;R语言作为统计和数据挖掘界广泛应用的统计分析、绘图的语言和操作环境，是一个基于GNU系统自由、免费、源代码开放的软件。每年R的官方机构都会举办useR!会议，各个国家及地区也定期有R用户的交流活动。在中国，自2008年起，北京、上海、杭州、广州等地已经成功举办了八届R语言会议，前后报名参与人数超过万人。会议内容覆盖数据科学在各行各业的应用，包括天文、地理、医疗、生物、金融、能源、互联网等领域，在高校和业界均形成了深远影响，促进了R语言乃至数据科学在中国的推广和发展。如今R语言会议已成为R语言社区在国内影响力最大的交流盛会，聚学术专家、业界精英、技术大咖于一堂，让更多的数据人参与其中，促进社区内部的交流和进步。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>COS沙龙第39期(北京)纪要</title>
      <link>https://cosx.org/2016/11/cos-salon-bj-39/</link>
      <pubDate>Mon, 07 Nov 2016 19:38:57 +0000</pubDate>
      
      <guid>https://cosx.org/2016/11/cos-salon-bj-39/</guid>
      <description>主题：金融风险管理及其实践 嘉宾：李翛然 主办：统计之都 场地：中国人民大学 组织：张心雨 主持：杨舒仪 纪要：李宇轩 简介： 第39期沙龙（北京）于201</description>
    </item>
    
    <item>
      <title>第九届中国R语言会议（贵阳）暨西南地区数据科学会议通知</title>
      <link>https://cosx.org/2016/11/china-r-2016guizhou/</link>
      <pubDate>Thu, 03 Nov 2016 16:49:15 +0000</pubDate>
      
      <guid>https://cosx.org/2016/11/china-r-2016guizhou/</guid>
      <description>&lt;h1 id=&#34;一会议概况&#34;&gt;一、会议概况&lt;/h1&gt;
&lt;p&gt;R语言是一种在统计和数据挖掘界广泛应用的统计分析、绘图的语言和操作环境，其官方机构每年都会举办中国R语言会议，各个国家及地区也定期有R用户的交流活动。中国R语言会议自2008年在中国人民大学举办第一届起，至今为止已经在全国七个城市成功举办，前后报名参与人数已过万人。会议内容覆盖数据科学在各行各业的应用，包括天文、地理、医疗、生物、金融、能源、互联网等领域，在高校和业界均形成了深远影响。&lt;/p&gt;
&lt;p&gt;R语言在各行各业的广泛应用，受到了西南地区数据人的高度重视，因此西南地区数据科学的各类用户需要一个可以交流技术，碰撞思维的平台。为了适应这种需求，中国R语言会议首次走入贵州。本届中国R语言会议（贵阳）暨西南地区数据科学会议将由贵州大学数学与统计学院、贵州省博弈决策与控制系统重点实验室和统计之都联合主办，诚邀学界和业界精英同台演讲交流，共同进步提高！&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;第九届中国R语言会议（贵阳）暨西南地区数据科学会议欢迎您！&lt;/strong&gt;&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>第九届中国R语言会议（广州） 暨华南地区数据科学会议通知</title>
      <link>https://cosx.org/2016/10/9th-r-conference-guangzhou/</link>
      <pubDate>Sun, 23 Oct 2016 20:53:52 +0000</pubDate>
      
      <guid>https://cosx.org/2016/10/9th-r-conference-guangzhou/</guid>
      <description>&lt;h1 id=&#34;一会议概况&#34;&gt;一、会议概况&lt;/h1&gt;
&lt;p&gt;R语言作为统计和数据挖掘界广泛应用的统计分析、绘图的语言和操作环境，是一个基于GNU系统自由、免费、源代码开放的软件。每年R的官方机构都会举办useR!会议，各个国家及地区也定期有R用户的交流活动。在中国，自2008年起，北京、上海、杭州、广州等地已经成功举办了八届R语言会议，前后报名参与人数超过万人。会议内容覆盖数据科学在各行各业的应用，包括天文、地理、医疗、生物、金融、能源、互联网等领域，在高校和业界均形成了深远影响，促进了R语言乃至数据科学在中国的推广和发展。如今R语言会议已成为R语言社区在国内影响力最大的交流盛会，聚学术专家、业界精英、技术大咖于一堂，让更多的数据人参与其中，促进社区内部的交流和进步。&lt;/p&gt;
&lt;p&gt;R语言在电商、互联网、金融、医疗、生物医学等领域广泛的应用前景吸引着越来越多华南地区数据人开始关注R与数据科学，来自各行各业的R用户需要这样一个平台交流技术，碰撞思想，广州R语言会议正是适应这种需求而举办。2014年11月，在华南统计科学研究中心、中山大学数学学院以及统计之都的多方努力下， R语言会议首次在华南地区主办，随后，2015年5月，华南地区第二次R语言会议也在中山大学成功召开，报名情况火爆，约有1400多人报名参会。 2016年中国R语言会议（广州）将由华南统计科学研究中心、中山大学数学学院与统计之都联合主办，将在往届会议的基础上进一步扩大R语言和数据科学的影响力，诚邀学界和业界精英同台演讲交流，愿与更多的数据爱好者探讨数据科学，共同进步提高！第九届中国R语言会议（广州），欢迎各位的到来！&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>热门数据挖掘模型应用入门（一）: LASSO回归</title>
      <link>https://cosx.org/2016/10/data-mining-1-lasso/</link>
      <pubDate>Mon, 10 Oct 2016 20:01:59 +0000</pubDate>
      
      <guid>https://cosx.org/2016/10/data-mining-1-lasso/</guid>
      <description>模型简介 Kaggle网站（https://www.kaggle.com/）成立于2010年，是当下最流行的进行数据发掘和预测模型竞赛的在线平</description>
    </item>
    
    <item>
      <title>Python的七种武器</title>
      <link>https://cosx.org/2016/10/python-seven-weapons/</link>
      <pubDate>Thu, 06 Oct 2016 19:30:41 +0000</pubDate>
      
      <guid>https://cosx.org/2016/10/python-seven-weapons/</guid>
      <description>&lt;p&gt;君子生非异也，善假于物也。&lt;/p&gt;
&lt;p&gt;“物”能够延展英雄的能力。它是吕布的赤兔马，杨过的玄铁重剑，CS中的沙漠之鹰，曹操传中的凤凰羽衣。“物”也可用以治愈英雄，例如张无忌的黑玉断续膏，李逍遥的天香续命露，还有深夜里TVB的一碗面。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>R与并行计算</title>
      <link>https://cosx.org/2016/09/r-and-parallel-computing/</link>
      <pubDate>Thu, 08 Sep 2016 23:40:01 +0000</pubDate>
      
      <guid>https://cosx.org/2016/09/r-and-parallel-computing/</guid>
      <description>&lt;p&gt;作者简介&lt;/p&gt;
&lt;p&gt;赵鹏，世界知名IT企业性能分析师。在包括多核、分布式以及GPU通用计算方面具有丰富的研究和实践经验，善于帮助客户解决性能问题以及提供并行化方案。R语言爱好者，业余时间创建了ParallelR网站&amp;lt;www.parallelr.com&amp;gt;，以此来分享R和并行计算相关内容。&lt;/p&gt;
&lt;h1 id=&#34;文章摘要&#34;&gt;文章摘要&lt;/h1&gt;
&lt;p&gt;本文首先介绍了并行计算的基本概念，然后简要阐述了R和并行计算的关系。之后作者从R用户的使用角度讨论了隐式和显示两种并行计算模式，并给出了相应的案例。隐式并行计算模式不仅提供了简单清晰的使用方法，而且很好的隐藏了并行计算的实现细节。因此用户可以专注于问题本身。显示并行计算模式则更加灵活多样，用户可以按照自己的实际问题来选择数据分解，内存管理和计算任务分配的方式。最后，作者探讨了现阶段R并行化的挑战以及未来的发展。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>第九届中国R语言会议（厦门）会议通知</title>
      <link>https://cosx.org/2016/09/9th-r-conference-xiamen/</link>
      <pubDate>Mon, 05 Sep 2016 22:48:44 +0000</pubDate>
      
      <guid>https://cosx.org/2016/09/9th-r-conference-xiamen/</guid>
      <description>第九届中国R语言会议（厦门） 暨厦门大学数据科学与量化金融研讨会 一、会议概况 随着现代科学技术尤其是计算机、网络信息、生物工程等技术的快速发展，</description>
    </item>
    
    <item>
      <title>为什么我不是R方的粉丝</title>
      <link>https://cosx.org/2016/09/why-im-not-a-fan-of-r-squared/</link>
      <pubDate>Thu, 01 Sep 2016 09:29:21 +0000</pubDate>
      
      <guid>https://cosx.org/2016/09/why-im-not-a-fan-of-r-squared/</guid>
      <description>&lt;blockquote&gt;
&lt;p&gt;本文翻译自 &lt;a href=&#34;http://www.johnmyleswhite.com/&#34;&gt;John Myles White&lt;/a&gt; 的博客 &lt;a href=&#34;http://www.johnmyleswhite.com/notebook/2016/07/23/why-im-not-a-fan-of-r-squared/&#34;&gt;Why I’m Not a Fan of R-Squared&lt;/a&gt;。翻译工作已经获得作者授权同意。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;h1 id=&#34;本文大意&#34;&gt;本文大意&lt;/h1&gt;
&lt;p&gt;人们通常喜欢用 &lt;a href=&#34;https://en.wikipedia.org/wiki/Coefficient_of_determination&#34;&gt;&lt;code&gt;$R^2$&lt;/code&gt;&lt;/a&gt; 作为评判模型拟合好坏的标准。与 &lt;a href=&#34;https://en.wikipedia.org/wiki/Mean_squared_error&#34;&gt;MSE&lt;/a&gt; 和 &lt;a href=&#34;https://en.wikipedia.org/wiki/Average_absolute_deviation&#34;&gt;MAD&lt;/a&gt; 不同，&lt;code&gt;$R^2$&lt;/code&gt; 不只是模型误差的函数，它的定义中还隐含了两个模型的比较：一个是当前被分析的模型，一个是所谓的常数模型，即只利用因变量均值进行预测的模型。基于此，&lt;code&gt;$R^2$&lt;/code&gt; 回答的是这样一个问题：“&lt;strong&gt;我的模型是否比一个常数模型更好？&lt;/strong&gt;”，然而我们通常想要回答的是另一个完全不同的问题：“&lt;strong&gt;我的模型是否比真实的模型更差？&lt;/strong&gt;”&lt;/p&gt;
&lt;p&gt;通过一些人为构造的例子我们可以很容易发现，对这两个问题的回答是不可互换的。我们可以构造一个这样的例子，其中我们的模型并不比常数模型好多少，但同时它也并不比真实的模型差多少。同样，我们也可以构造出另一个例子，使得我们的模型远比常数模型要好，但也远比真实模型要差。&lt;/p&gt;
&lt;p&gt;与所有的模型比较方法一样，&lt;code&gt;$R^2$&lt;/code&gt; 不单是被比较模型的函数，它也是观测数据的函数。几乎对于所有的模型，都存在一个数据集，使得常数模型与真实模型之间是无法区分开的。具体来说，当使用一个模型区分效能很低的数据集时，&lt;code&gt;$R^2$&lt;/code&gt; 可以任意地向零趋近——即使我们对真实模型计算 &lt;code&gt;$R^2$&lt;/code&gt; 也是如此。因此，我们必须始终记住，&lt;code&gt;$R^2$&lt;/code&gt; 并不能告诉我们模型是否是对真实模型的一个良好近似：&lt;code&gt;$R^2$&lt;/code&gt; 只告诉我们，我们的模型在当前的数据下是否远比一个常数模型要好。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>用交互式图形探索一个五百年前的脑洞</title>
      <link>https://cosx.org/2016/08/the-ambassadors/</link>
      <pubDate>Thu, 18 Aug 2016 13:39:21 +0000</pubDate>
      
      <guid>https://cosx.org/2016/08/the-ambassadors/</guid>
      <description>&lt;p&gt;按惯例先跑几段火车，赶时间的请直接从下面油画处开读。我很少看电影，欠的稿子都写不完还看毛线电影，不过前段时间《大鱼海棠》的精美海报画面还是吸引了我的注意力（又是从涛妹的票圈看到的），深为赞叹现在国内的动画制作技术。然而过了几天，好像评论的风向就变了。可惜了情怀这个词，现在也成了为人不齿的陈词滥调了：情怀，情你个锤子的怀，你才情怀，你全家都情怀。遥想当年，萌主（周扬）在明德楼地下咖啡厅的小房间里给我们展示 R/ECharts/Shiny 的时候，第一次提到情怀一词，小板凳上的我们都感受到了内心的一团火。“厉害啊！”萌主洋洋自得。&lt;/p&gt;
&lt;p&gt;据说《大鱼海棠》可惜在用了辣么精良的画面，却愣是没讲好一个故事（重申一遍：我没看，只是&lt;a href=&#34;http://d.news.163.com/article/BRUJ9QGU000155K8&#34;&gt;据说&lt;/a&gt;）；相比之下，人家徐克老爷子二十年前用简陋的技术却做出动画片《小倩》，同样是用中国传统故事素材，但比《大鱼海棠》不知道高到哪里去了。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>第九届中国R语言会议（杭州）</title>
      <link>https://cosx.org/2016/08/9th-r-conference-hangzhou/</link>
      <pubDate>Wed, 17 Aug 2016 13:54:21 +0000</pubDate>
      
      <guid>https://cosx.org/2016/08/9th-r-conference-hangzhou/</guid>
      <description>&lt;p&gt;中国R语言会议是由统计之都发起，并同国内高校共同举办的R语言与数据科学会议。本次中国R语言会议（杭州）将由统计之都与浙江财经大学联合主办，浙江财经大学数据科学学院承办。中国R语言会议再次走进中国电子商务之都、长江三角洲中心城市、享有“人间天堂”美誉的魅力之都——杭州，愿与更多的数据爱好者与研究者探讨数据科学，共同进步提高！中国R语言会议，欢迎各位的到来！&lt;/p&gt;
&lt;p&gt;自2008年在中国人民大学举办第一届中国R语言会议起，到2016年中国R语言会议已经成功地走过了第九年，先后在全国七个城市举办，影响日渐扩大，前后报名参与人数已过万人。会议内容覆盖数据科学及R语言在各行各业的应用，包括天文、地理、医疗、生物、金融、能源、互联网等领域。十年磨一剑，破鞘天下惊。在R语言会议发展壮大的同时，统计之都也已走过十年风雨。十年间，统计之都服务着广大统计学爱好者，推动着R语言在中国的传播和发展，见证着数据科学时代的逐渐崛起。迄今为止，统计之都已先后出版八本R语言相关图书，举行五十余期海内外沙龙；未来，我们将再接再厉，继续为国内统计学和数据科学的发展贡献自己的力量。&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://uploads.cosx.org/2016/08/2.jpg&#34; alt=&#34;2&#34;&gt;&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>可能是目前最好的词云解决方案wordcloud2</title>
      <link>https://cosx.org/2016/08/wordcloud2/</link>
      <pubDate>Wed, 10 Aug 2016 18:47:55 +0000</pubDate>
      
      <guid>https://cosx.org/2016/08/wordcloud2/</guid>
      <description>注：广大的段子手朋友们，下次再用R做词云的时候，记得在wordcloud后面加个2 无论是install.packages(&amp;ldquo;wo</description>
    </item>
    
    <item>
      <title>中药、西药及统计学</title>
      <link>https://cosx.org/2016/08/chinese-medicine-western-medicine-statistics/</link>
      <pubDate>Thu, 04 Aug 2016 22:34:14 +0000</pubDate>
      
      <guid>https://cosx.org/2016/08/chinese-medicine-western-medicine-statistics/</guid>
      <description>&lt;p&gt;&lt;strong&gt;作者简介：&lt;/strong&gt; 李舰，现任九峰移动医疗 CTO，曾任 Mango Solutions 中国区数据总监。专注于数据科学在行业里的应用。
擅长R语言的工程开发与分析建模，是 Rweibo、Rwordseg、tmcn 等 R 包的作者。与肖凯合著了《数据科学中的R语言》，
参与翻译了《R语言核心技术手册》、《机器学习与R语言》。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>互联网金融中的数据科学</title>
      <link>https://cosx.org/2016/08/data-science-in-itfin/</link>
      <pubDate>Mon, 01 Aug 2016 11:53:01 +0000</pubDate>
      
      <guid>https://cosx.org/2016/08/data-science-in-itfin/</guid>
      <description>作者简介： 张云松，毕业于中科院，多年咨询公司和互联网公司从事数据算法、决策分析、风险管理和产品设计的工作，目前是融360风控总监，负责纯线上</description>
    </item>
    
    <item>
      <title>第九届中国R语言会议（成都）会议通知</title>
      <link>https://cosx.org/2016/07/9th-r-conference-chengdu/</link>
      <pubDate>Sat, 30 Jul 2016 20:28:16 +0000</pubDate>
      
      <guid>https://cosx.org/2016/07/9th-r-conference-chengdu/</guid>
      <description>&lt;p&gt;2016年是统计之都发起主办的中国R语言会议第九年，也是统计之都成立十周年。本届中国R语言会议（成都）将由统计之都与西南交通大学联合主办，西南交通大学经济管理学院智慧营销实验室协办。这次R会议首次走进西南地区，愿与更多的数据爱好者探讨数据科学，共同进步提高！中国R语言会议，欢迎各位的到来！&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>有效统计实践的十项简明原则</title>
      <link>https://cosx.org/2016/07/ten-simple/</link>
      <pubDate>Tue, 26 Jul 2016 14:54:41 +0000</pubDate>
      
      <guid>https://cosx.org/2016/07/ten-simple/</guid>
      <description>&lt;p&gt;&lt;strong&gt;原文作者：Robert E. Kass; Brian S. Caffo; Marie Davidian; Xiao-Li Meng; Bin Yu; Nancy Reid&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;原文出处：&lt;/strong&gt;
&lt;a href=&#34;http://journals.plos.org/ploscompbiol/article?id=10.1371%2Fjournal.pcbi.1004961&#34;&gt;Ten Simple Rules for Effective Statistical Practice.&lt;/a&gt;
Kass RE, Caffo BS, Davidian M, Meng X-L, Yu B, Reid N (2016) PLoS Comput Biol 12(6): e1004961. doi:10.1371/journal.pcbi.1004961.&lt;/p&gt;
&lt;h1 id=&#34;引言&#34;&gt;引言&lt;/h1&gt;
&lt;p&gt;数月前，广受好评的“十项简则”系列（&amp;ldquo;Ten Simple Rules&amp;rdquo; series）的创始人和长期作者 Phil Bourne 建议一些统计学家写一篇关于统计学“十项简则”的文章。
（既然如何写好PLOS“十项简则”文章的原则之一就是请 Phil Bourne 加入作者群[6], 我们希望在这对 Phil 的热情赞美也能达到足够的效果。)&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>第二届融360“天机”金融风控大数据竞赛通知</title>
      <link>https://cosx.org/2016/07/rong360/</link>
      <pubDate>Mon, 25 Jul 2016 17:44:02 +0000</pubDate>
      
      <guid>https://cosx.org/2016/07/rong360/</guid>
      <description>&lt;p&gt;&lt;img src=&#34;https://uploads.cosx.org/2016/07/360.png&#34; alt=&#34;360&#34;&gt;&lt;/p&gt;
&lt;p&gt;炎炎夏日正好是提升数据分析能力，成为数据科学家的好机会。&lt;/p&gt;
&lt;p&gt;由融360和统计之都共同主办的第二届融360“天机”金融风控大数据竞赛开始报名啦！
不论你是什么学校什么专业，只要你对大数据和互联网金融感兴趣，都可以组队报名参赛。本次大赛奖金共计十万元，优秀者还可获得实习offer！&lt;/p&gt;
&lt;p&gt;初赛报名时间为2016年6月21日至10月8日。&lt;/p&gt;
&lt;p&gt;详情可见：&lt;a href=&#34;http://openresearch.rong360.com/&#34;&gt;http://openresearch.rong360.com/&lt;/a&gt;&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>R语言做符号计算</title>
      <link>https://cosx.org/2016/07/r-symbol-calculate/</link>
      <pubDate>Fri, 08 Jul 2016 19:48:37 +0000</pubDate>
      
      <guid>https://cosx.org/2016/07/r-symbol-calculate/</guid>
      <description>引言 谈起符号计算，大家首先想到的可能就是大名鼎鼎的Maple，其次是Mathematica，但是他们都是商业软件，除了其自身昂贵的价格外，对</description>
    </item>
    
    <item>
      <title>股市稳赚不亏？标普500的40年的投资回报</title>
      <link>https://cosx.org/2016/07/investing-returns-on-s-and-p-500/</link>
      <pubDate>Sun, 03 Jul 2016 22:09:31 +0000</pubDate>
      
      <guid>https://cosx.org/2016/07/investing-returns-on-s-and-p-500/</guid>
      <description>&lt;blockquote&gt;
&lt;p&gt;本文翻译自 GitHub 项目 &lt;a href=&#34;https://github.com/zonination/investing&#34;&gt;&lt;code&gt;zonination/investing&lt;/code&gt;&lt;/a&gt; 的描述文件 &lt;code&gt;README.md&lt;/code&gt;。译者对原文顺序有所改动。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;blockquote&gt;
&lt;p&gt;原文以 MIT 协议发布，已征得作者  Zoni Nation 许可进行翻译。译文版权归统计之都所有，转载请注明出处。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;很多人是从 Reddit 上的 “个人理财”（/r/personalfinance）板块的贴子和评论里认识我的。
我最近也经常逛“美丽数据”（/r/dataisbeautiful）板块。
（译者注：Reddit 是一个在美国受众广泛的娱乐、社交及新闻网站。它与论坛类似，注册用户可以在网站上发布文字和链接。）&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>标题党统计学</title>
      <link>https://cosx.org/2016/07/statistics-on-article-titles/</link>
      <pubDate>Sat, 02 Jul 2016 19:25:51 +0000</pubDate>
      
      <guid>https://cosx.org/2016/07/statistics-on-article-titles/</guid>
      <description>&lt;p&gt;如果你是被这个标题骗进来的，那么说明标题党的存在的确是有原因的。
在网络高度发达（以及“大数据”泛滥）的今天，数据动不动就是以 GB 和 TB 的级别存储，然而相比之下，人类接受信息的速度却慢得可怕（参见大刘《乡村教师》）。
试想一下，你一分钟能阅读多少文字？一千？五千？总之是在 KB 的量级。
所以可以说，人们对文字的“下载速度”基本上就是 1~10KB/min。如果拿这个速度去上网的话你还能忍？&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>REmap入门示例</title>
      <link>https://cosx.org/2016/06/introduction-to-remap/</link>
      <pubDate>Wed, 29 Jun 2016 09:57:01 +0000</pubDate>
      
      <guid>https://cosx.org/2016/06/introduction-to-remap/</guid>
      <description>&lt;p&gt;&lt;img src=&#34;https://lchiffon.github.io/REmap/REmapExamples/Nanchang/pic/remap.png&#34; alt=&#34;&#34;&gt;&lt;/p&gt;
&lt;p&gt;REmap是一个基于Echarts2.0 &lt;a href=&#34;http://echarts.baidu.com/echarts2/&#34;&gt;http://echarts.baidu.com/echarts2/&lt;/a&gt;的一个R包。主要的目的是为广大数据玩家提供一个简便的，可交互的地图数据可视化工具。目前托管在github，&lt;a href=&#34;https://github.com/lchiffon/REmap&#34;&gt;https://github.com/lchiffon/REmap&lt;/a&gt;。&lt;/p&gt;
&lt;p&gt;使用如下步骤安装：&lt;/p&gt;
&lt;pre&gt;&lt;code class=&#34;language-r&#34;&gt;library(devtools)
install_github(&#39;lchiffon/REmap&#39;)
&lt;/code&gt;&lt;/pre&gt;
&lt;p&gt;REmap目前更新到V0.3，提供百度迁徙，分级统计，百度地图，热力图等功能的实现。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;提示:请使用Chrome或者Firefox来作为默认浏览器&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;最后要声明的一点：这个包的目的是简化使用和学习的流程，如果你是一个好学的geek，请深入的学习Echarts！&lt;/p&gt;
&lt;h1 id=&#34;特性&#34;&gt;特性&lt;/h1&gt;
&lt;ol&gt;
&lt;li&gt;使用Echarts2.0封包，地图绘制使用的是SVG图形&lt;/li&gt;
&lt;li&gt;采用百度API来自动获取城市的经纬度数据&lt;/li&gt;
&lt;li&gt;支持Windows！&lt;/li&gt;
&lt;/ol&gt;</description>
    </item>
    
    <item>
      <title>浅谈深度学习中潜藏的稀疏表达</title>
      <link>https://cosx.org/2016/06/discussion-of-sparse-coding-in-deep-learning/</link>
      <pubDate>Fri, 24 Jun 2016 21:36:05 +0000</pubDate>
      
      <guid>https://cosx.org/2016/06/discussion-of-sparse-coding-in-deep-learning/</guid>
      <description>&lt;blockquote&gt;
&lt;p&gt;“王杨卢骆当时体，轻薄为文哂未休。 尔曹身与名俱灭，不废江河万古流。”&lt;/p&gt;
&lt;p&gt;— 唐 杜甫《戏为六绝句》（其二）&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;【不要问我为啥放这首在开头，千人千面千理解吧】&lt;/p&gt;
&lt;h1 id=&#34;深度学习概述和一孔之见&#34;&gt;深度学习：概述和一孔之见&lt;/h1&gt;
&lt;p&gt;深度学习（DL），或说深度神经网络（DNN），作为传统机器学习中神经网络（NN）、感知机（perceptron）模型的扩展延伸，正掀起铺天盖地的热潮。DNN火箭般的研究速度，在短短数年内带来了能“读懂”照片内容的图像识别系统，能和人对话到毫无PS痕迹的语音助手，能击败围棋世界冠军、引发滔滔议论的AlphaGo……DNN在众多应用领域的成功无可置疑。然而，在众多（负责任的和不负责任的）媒体宣传推波助澜下，一部分人过于乐观，觉得攻克智能奇点堡垒近在眼前；另一部分则惶惶不可终日，觉得天网统治人类行将实现。作者君对此的态度如下图所示：&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://uploads.cosx.org/2016/06/1.png&#34; alt=&#34;1&#34;&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;小品里，黑土老大爷对头脑发热的白云大妈说过：“什么名人，不就是个人名？”&lt;/li&gt;
&lt;li&gt;对于DNN，作者君也想说：“什么怪力乱神，不就是个计算模型？”&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;言归正传，如果不把DNN看成上帝/天网/人工智能终点etc.，也暂不考虑当前DL和人脑思维之间若有若无的联系，那么DNN和K-Means、主成分分析（PCA）、稀疏编码（sparse  coding或Lasso）等众多耳熟能详的模型并无二致，都属于机器学习中**特征学习（feature learning）&lt;strong&gt;范畴。假如硬说DNN有什么不同，那么大概就在一个“深”字上。从数据x中学习特征y，如果（绝大多数）传统模型写成&lt;code&gt;$y = f(x)$&lt;/code&gt;（即学习&lt;/strong&gt;“一个”&lt;strong&gt;特征变换），DNN则可以写成&lt;code&gt;$y = f_N(\cdots(f_2(f_1(x))))$&lt;/code&gt; （即学习&lt;/strong&gt;“若干个级联”**的特征变换）。那么究竟什么使得DNN如此效果拔群？作者君本人归纳了三点：&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>张志华教授：机器学习——统计与计算之恋</title>
      <link>https://cosx.org/2016/06/machine-learning-statistics-and-computation/</link>
      <pubDate>Thu, 23 Jun 2016 00:24:21 +0000</pubDate>
      
      <guid>https://cosx.org/2016/06/machine-learning-statistics-and-computation/</guid>
      <description>&lt;p&gt;编辑部按：本文是从张志华老师在&lt;a href=&#34;http://china-r.org/bj2016/&#34;&gt;第九届中国R语言会议&lt;/a&gt;和上海交通大学的两次讲座中整理出来的，&lt;a href=&#34;http://server.9yuntu.cn/services/document?token=CJ4FzuQC6GFA2syNhYZIsC&amp;amp;code=011M8o6J0cW3642ZdT3J0nIp6J0M8o6Q&amp;amp;state=bindingYuntu&#34;&gt;点击此处观看幻灯片&lt;/a&gt;。&lt;a href=&#34;http://bcmi.sjtu.edu.cn/~zhzhang/&#34;&gt;张志华&lt;/a&gt;老师是上海交通大学计算机科学与工程系教授，上海交通大学数据科学研究中心兼职教授，计算机科学与技术和统计学双学科的博士生指导导师。在加入上海交通大学之前，是浙江大学计算机学院教授和浙江大学统计科学中心兼职教授。张老师主要从事人工智能、机器学习与应用统计学领域的教学与研究，迄今在国际重要学术期刊和重要的计算机学科会议上发表70余篇论文，是美国“数学评论”的特邀评论员，国际机器学习旗舰刊物Journal of Machine Learning Research 的执行编委，其公开课《机器学习导论》和《统计机器学习》受到广泛关注。&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://uploads.cosx.org/2016/06/%E5%BC%A0%E5%BF%97%E5%8D%8E.png&#34; alt=&#34;张志华&#34;&gt;&lt;/p&gt;
&lt;p&gt;张志华老师和他的学生们&lt;/p&gt;
&lt;p&gt;大家好，今天我演讲的主题是 &lt;a href=&#34;http://server.9yuntu.cn/services/document?token=CJ4FzuQC6GFA2syNhYZIsC&amp;amp;code=011M8o6J0cW3642ZdT3J0nIp6J0M8o6Q&amp;amp;state=bindingYuntu&#34;&gt;“&lt;strong&gt;机器学习：统计与计算之恋&lt;/strong&gt;”&lt;/a&gt;。我用了一个很浪漫的名字，但是我的心情是诚惶诚恐的。一则我担心自己没有能力驾驭这么大的主题，二则我其实是一个不解风情之人，我的观点有些可能不符合国内学术界的主流声音。&lt;/p&gt;
&lt;p&gt;最近人工智能或者机器学习的强势崛起，特别是刚刚过去的AlphaGo和韩国棋手李世石九段的人机大战，再次让我们领略到了人工智能或机器学习技术的巨大潜力，同时也深深地触动了我。面对这一前所未有的技术大变革，作为10多年以来一直从事统计机器学习一线教学与研究的学者，希望借此机会和大家分享我个人的一些思考和反思。&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://venturebeat.com/wp-content/uploads/2016/03/Google-Go-Lee-Sedol-Game-3.jpg&#34; alt=&#34;Google-Go-Lee-Sedol-Game-3&#34;&gt;&lt;/p&gt;
&lt;p&gt;在这场人工智能发展的盛事里，我突然发现，对我们中国的学者来说，好像是一群看热闹的旁观者。不管你承认还是不承认，事实就是和我一代的或者更早的学者也只能作为旁观者了。我们能做的事情是帮助你们—中国年轻的一代，让你们在人工智能发展的大潮中有竞争力，做出标杆性的成就，创造人类文明价值，也让我有个加油欢呼的主队。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>利用shiny包快速搭建可视化原型系统</title>
      <link>https://cosx.org/2016/06/use-shiny-fleetly-set-up-visual-prototype-system/</link>
      <pubDate>Thu, 16 Jun 2016 12:07:03 +0000</pubDate>
      
      <guid>https://cosx.org/2016/06/use-shiny-fleetly-set-up-visual-prototype-system/</guid>
      <description>&lt;p&gt;前几周给大家分享了一篇&lt;a href=&#34;https://cosx.org/2016/06/using-r-for-interactive-data-visualization/&#34;&gt;《利用R语言进行交互数据可视化》&lt;/a&gt;的文章。文章末尾提到的在R的环境中，动态交互图形的优势在于能和knitr、shiny等框架整合在一起，能迅速建立一套可视化原型系统。今天接着给大家分享如何将动态交互图形与shiny框架整合在一起，迅速建立一套可视化原型系统。&lt;/p&gt;
&lt;p&gt;Shiny是R中的一种Web开发框架，使得R的使用者不必太了解css、js只需要了解一些html的知识就可以快速完成web开发，且shiny包集成了bootstrap、jquery、ajax等特性，极大解放了作为统计语言的R的生产力。&lt;/p&gt;
&lt;p&gt;Shiny应用包含连个基本的组成部分：一个是用户界面脚本（a user-interface script），另一个是服务器脚本(a server script)。&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://uploads.cosx.org/2016/06/M_86@S224HFW_AKSLVEN.png&#34; alt=&#34;Shiny应用包含连个基本的组成部分&#34;&gt;&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>2016年“大数据时代的统计学”教学研讨会通知</title>
      <link>https://cosx.org/2016/06/2016-big-data-workshop/</link>
      <pubDate>Tue, 14 Jun 2016 12:10:02 +0000</pubDate>
      
      <guid>https://cosx.org/2016/06/2016-big-data-workshop/</guid>
      <description>&lt;p&gt;2016年“大数据时代的统计学”教学研讨会暨第五届全国高校统计类专业骨干教师研修班，由应用统计硕士教指委与五校联合大数据分析硕士培养协同创新平台联合推出。&lt;/p&gt;
&lt;h1 id=&#34;主办单位&#34;&gt;主办单位&lt;/h1&gt;
&lt;p&gt;全国应用统计专业学位研究生教育指导委员会秘书处&lt;/p&gt;
&lt;p&gt;五校联合大数据分析硕士培养协同创新平台（中国人民大学 北京大学 中国科学院大学 中央财经大学 首都经济贸易大学）&lt;/p&gt;
&lt;h1 id=&#34;协办单位&#34;&gt;协办单位&lt;/h1&gt;
&lt;p&gt;中国人民大学出版社&lt;/p&gt;
&lt;h1 id=&#34;会议介绍&#34;&gt;会议介绍&lt;/h1&gt;
&lt;p&gt;2016年“大数据时代的统计学”教学研讨会，定于2016年7月16-18日在北京举办。 届时我们将邀请国内知名专家示范教学方法，介绍大数据统计分析方法与技术的前沿理论和最新发展。探讨大数据时代统计学的教学创新与改革，交流教学中遇到的新问题与疑难点，分享案例教学法以及前沿发展。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>第九届中国R语言会议（北京）纪要</title>
      <link>https://cosx.org/2016/06/9th-china-r-beijing-summary/</link>
      <pubDate>Fri, 10 Jun 2016 11:15:29 +0000</pubDate>
      
      <guid>https://cosx.org/2016/06/9th-china-r-beijing-summary/</guid>
      <description>&lt;p&gt;第九届中国R语言会议（北京会场）、第七届中国人民大学国际统计论坛与2016百分点数据与价值国际论坛共同组成的大统计与数据科学联合会议于2016年5月27日至29日在中国人民大学成果举办。5月27日主会场位于世纪馆，5月28、29日各个分会场分别位于逸夫报告厅、国学馆报告厅及第一教学楼。&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://uploads.cosx.org/2016/06/DSC04026.jpg&#34; alt=&#34;DSC04026&#34;&gt;&lt;/p&gt;
&lt;h1 id=&#34;一会议概况&#34;&gt;一、会议概况&lt;/h1&gt;
&lt;p&gt;今年是中国R语言会议举办的第九年。本次会议由统计之都与中国人民大学、北京大学、伦敦政治经济学院、百分点集团联合主办，并得到了考拉征信和量邦科技等战略合作伙伴的鼎力支持协办，以及微软、Tableau、懒投资、RStudio、记健康和纽约数据科学学院等友情合作伙伴的大力支持。在三天的会议时间里，数据科学各行各业的同仁们欢聚一堂，共襄盛举，畅所欲言。在大会会务组的不懈努力下，本次会议比往届有了更大的突破。会议共设有22个分会场，126场主题报告，覆盖大数据技术、互联网金融、量化投资、人网物联、生物信息等诸多当下热门话题。报名非常火爆，人数突破5000人，报名单位超过1500个。不仅创下历届之最，也使本次会议成为亚洲地区规模最大的数据科学盛会之一。&lt;/p&gt;
&lt;h1 id=&#34;二会议内容&#34;&gt;二、会议内容&lt;/h1&gt;
&lt;p&gt;本次会议分为第一天的主会场和其后两天的22个分会场。主会场演讲嘉宾包括学界杰出代表、业界大咖等。分会场包括互联网征信专场（考拉征信专场）、可视分析专场（Tableau冠名）、量化金融专场（量邦科技冠名）、软件工具专场（微软冠名）、经济金融专场（懒投资冠名）、汽车联网专场、自然语言专场、概率统计专场、医疗健康专场、智能制造专场、计算平台专场、生物医疗专场、商务分析专场、生物统计专场、生物信息专场、机器学习专场、智慧城市专场、计算广告专场、社交网络专场、时空数据专场，涵盖了数据科学的各个领域，讨论了数据科学在诸多领域的最新进展。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>利用R语言进行交互数据可视化</title>
      <link>https://cosx.org/2016/06/using-r-for-interactive-data-visualization/</link>
      <pubDate>Sun, 05 Jun 2016 14:18:51 +0000</pubDate>
      
      <guid>https://cosx.org/2016/06/using-r-for-interactive-data-visualization/</guid>
      <description>&lt;p&gt;上周在中国R语言大会北京会场上，给大家分享了如何利用R语言交互数据可视化。现场同学对这块内容颇有兴趣，故今天把一些常用的交互可视化的R包搬出来与大家分享。&lt;/p&gt;
&lt;h1 id=&#34;rcharts包&#34;&gt;rCharts包&lt;/h1&gt;
&lt;p&gt;说起R语言的交互包，第一个想到的应该就是rCharts包。该包直接在R中生成基于D3的Web界面。&lt;/p&gt;
&lt;p&gt;rCharts包的安装&lt;/p&gt;
&lt;pre&gt;&lt;code class=&#34;language-r&#34;&gt;require(devtools)
install_github(&#39;rCharts&#39;, &#39;ramnathv&#39;)
&lt;/code&gt;&lt;/pre&gt;
&lt;p&gt;rCharts函数就像lattice函数一样，通过formula、data指定数据源和绘图方式，并通过type指定图表类型。&lt;/p&gt;
&lt;p&gt;下面通过例子来了解下其工作原理。我们以鸢尾花数据集为例，首先通过name函数对列名进行重新赋值（去掉单词间的点），然后利用rPlot函数绘制散点图(type=“point”)，并利用颜色进行分组（color=“Species”）。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>数据江湖，回归5式</title>
      <link>https://cosx.org/2016/06/five-useful-regression-models/</link>
      <pubDate>Sat, 04 Jun 2016 00:15:20 +0000</pubDate>
      
      <guid>https://cosx.org/2016/06/five-useful-regression-models/</guid>
      <description>&lt;p&gt;今天要跟大家分享的主题叫做：数据江湖，回归5式！&lt;/p&gt;
&lt;p&gt;如今啊，大数据时代，群雄割据，天下大乱。各位童鞋，闯荡江湖，凶险难测。没一些必备的看家的本领，就想从数据出发，直达价值的彼岸，恐怕很难。&lt;/p&gt;
&lt;p&gt;为此呢，熊大教大家几招防身绝技，叫做：&lt;strong&gt;回归5式&lt;/strong&gt;！简单的说，就是5种最常见的回归模型。这5个招式，看似简单，却是熊大行走江湖的看家本领。回归5式，就如同少林长拳，看似平淡无奇，但是如果辅以深厚的内力，就能威力无比。&lt;/p&gt;
&lt;p&gt;所以呀，今天除了要教给大家这回归5式以外，熊大还要跟大家说道说道这&lt;strong&gt;内力的修为&lt;/strong&gt;。没有深厚的内力修为，任何绝妙的功夫，都是花拳绣腿。&lt;/p&gt;
&lt;p&gt;好了，闲话少说，先从回归5式开始。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>数据告诉你：高信誉的卖家应该收高价，还是收低价？</title>
      <link>https://cosx.org/2016/05/value-of-the-reputation-from-the-data/</link>
      <pubDate>Tue, 31 May 2016 23:03:14 +0000</pubDate>
      
      <guid>https://cosx.org/2016/05/value-of-the-reputation-from-the-data/</guid>
      <description>&lt;p&gt;看到这个题目，各位看官不妨想一想，淘宝上的信誉高的卖家会收高价，还是会收低价呢？根据我多年的教学经验，这里有四种可能的答案：（A）收高价、（B）收低价、（C）不好说、（D）不知道。您选哪一种？为什么？&lt;/p&gt;
&lt;p&gt;且听我慢慢道来。&lt;/p&gt;
&lt;h1 id=&#34;1-ebay说卖家信誉越高最终成交价格越高&#34;&gt;1 eBay说：卖家信誉越高，最终成交价格越高&lt;/h1&gt;
&lt;p&gt;&lt;img src=&#34;https://uploads.cosx.org/2016/05/1.jpg&#34; alt=&#34;1&#34;&gt;&lt;/p&gt;
&lt;p&gt;从2000年开始，以eBay为代表的电子商务发展势头迅猛，养活了一大票科研人员。eBay以网上拍卖为主要的营业方式，因此，当时科研人员的一个主要的研究题目，就是网上拍卖的卖家的信誉如何影响拍卖结果（如成交率、竞拍次数、最终成交价格等）。那么卖家的信誉和最终成交价格是什么关系呢？**答案是显著的正相关关系：**对于同质商品，&lt;strong&gt;高信誉的卖家，其最终成交价格普遍更高。&lt;/strong&gt;&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>从搜索序列文本看高端商务车</title>
      <link>https://cosx.org/2016/05/search-sequence-see-high-end-business-cars/</link>
      <pubDate>Fri, 27 May 2016 14:20:54 +0000</pubDate>
      
      <guid>https://cosx.org/2016/05/search-sequence-see-high-end-business-cars/</guid>
      <description>&lt;p&gt;摘要：本文对100万搜索引擎用户的13亿搜索序列文本进行探索分析，对高端车用户以及商学院人群做了描述对比，并针对用户搜索高端车品牌过程中的动态选择行为进行建模。首先，我们发现，在人群划分上，高端车用户和商学院用户表现出更加高端的属性，这主要表现在他们对生活、事业、学业上更卓越的追求。接下来，本文利用逻辑回归构建了忠诚模型，对用户在搜索过程中表现的忠诚和叛变行为进行了刻画，并对影响其忠诚行为的关键因素进行了逐一分析。根据模型的估计结果，我们发现，用户的搜索时间间隔、搜索关键词长度、搜索点击数等指标对用户忠诚行为有显著影响^[由数据保密性需求，本文使用数据均为虚拟数据]。最后，我们利用成本收益曲线对模型进行了评价，并得到了良好的效果。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>电子商务顾客评论的热点话题分析</title>
      <link>https://cosx.org/2016/05/e-commerce-customer-reviews-hot-topic-analysis/</link>
      <pubDate>Thu, 26 May 2016 10:27:39 +0000</pubDate>
      
      <guid>https://cosx.org/2016/05/e-commerce-customer-reviews-hot-topic-analysis/</guid>
      <description>&lt;blockquote&gt;
&lt;p&gt;**作者：**蔡越&lt;span style=&#34;font-size: 12px; line-height: 0px;&#34;&gt; &lt;/span&gt;(厦门大学经济学院统计系)，郭鹏（厦门数析信息科技有限公司），	方匡南（厦门大学经济学院统计系，厦门大学数据挖掘研究中心）&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;&lt;strong&gt;摘要&lt;/strong&gt;: 买家的评论文本数据是电子商务领域一种重要的数据形式，通过对其分析，电商卖家可以直接了解顾客对产品的态度与建议，提取顾客关注的热点问题，也可以进行顾客分类，实现精准营销，改进和提高生产和服务等；买家可以提取所关注属性的相关评价，了解舆论情感倾向，提高购物决策效率。但是大数据环境下海量文本的出现给文本数据的有效利用带来了一定的困难，比如结构化处理后的文本数据的高维特性给电子商务文本聚类等分析带来了新的挑战。本文主要研究当词条数目（变量数）远远大于评论文本数（样本数）时如何归纳顾客评论以及提取热点话题。本文抓取了亚马逊中国站热门产品kindle的评论文本，通过惩罚高斯混合模型聚类方法，同时进行文本聚类和有效词条的筛选，实现了大规模评论文本的有效、快速、自动聚类，为后续更加精细的商业分析提供了良好的基础。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;关键词&lt;/strong&gt;：顾客评论；文本分析；聚类；热点话题&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>互联网征信中的信用评分模型</title>
      <link>https://cosx.org/2016/05/credit-scoring-model-in-internet-credit-reporting/</link>
      <pubDate>Tue, 24 May 2016 23:03:20 +0000</pubDate>
      
      <guid>https://cosx.org/2016/05/credit-scoring-model-in-internet-credit-reporting/</guid>
      <description>&lt;p&gt;摘要：面向小微商户以及个人消费的小微信贷是当前互联网金融的重要发展方向，并且正在经历爆发式增长。在这个增长过程中，如何在没有实物抵押的情况下，通过互联网大数据分析实现快速准确征信是一个非常重要的问题。为此，不同的数据来源将各显神通地为信用评估提供依据。本文将通过一个真实的案例出发，进行分析和探讨，针对用户历史行为数据建立信用评分模型，并通过该模型改进信用评估的预测效果。&lt;/p&gt;
&lt;p&gt;关键词: 小微信贷；互联网征信；信用评分；Logistic回归模型&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://uploads.cosx.org/2016/05/huang_1.png&#34; alt=&#34;&#34;&gt;&lt;/p&gt;
&lt;h1 id=&#34;一业务介绍&#34;&gt;一、业务介绍&lt;/h1&gt;
&lt;h2 id=&#34;1-行业介绍&#34;&gt;1. 行业介绍&lt;/h2&gt;
&lt;p&gt;小微信贷，我们定义为金额较小，并且没有抵押担保，完全靠信用的借贷行为。小微信贷可以面向个人（2C），也可以面向小微企业（2B）。对于2C类业务而言，常常是小额短期信用贷款，这是贷款是为解决借款人临时性的消费需要而发放的期限在1年以内、金额在20万元及以下的、毋需提供担保的人民币信用贷款。对于2B类业务而言，由于小微企业的信贷需求特点是 “短、小、频、急”，这种小额、短期、分散的特征更类似于零售贷款，对资金流动性的要求更高。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>天气驱动行业销售大数据</title>
      <link>https://cosx.org/2016/05/weather-driven-industry-sales-big-data/</link>
      <pubDate>Tue, 24 May 2016 22:46:20 +0000</pubDate>
      
      <guid>https://cosx.org/2016/05/weather-driven-industry-sales-big-data/</guid>
      <description>&lt;blockquote&gt;
&lt;p&gt;**作者：**罗应琏(北京维艾思气象信息科技有限公司)，朱珊（中山大学华南统计科学研究中心) ，何顺(中山大学华南统计科学研究中心)，周翔(中山大学华南统计科学研究中心)，李昶(北京维艾思气象信息科技有限公司) ，王学钦(中山大学华南统计科学研究中心)&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;摘要：自建国以来我国的气象系统已经十分完备，2015年中国气象局发布27号令后使得气象数据迈向开放数据（Open Data）新阶段，行业与公众可以使用海量气象数据助力企业，目前行业数据和海量气象数据还没有得到完全应用。本文主要研究气象数据对销售的影响，进而利用气象数据特性完成天气驱动行业销售的预测。我们以两个零售行业的销售数据为例，结合气象局提供的天气数据进行分析。同时，我们在分析中加入了经济因素，如上证指数和CPI数据来提供外部环境支持。与传统的预测不同，在气象数据中，我们不仅知道目前时间点的数据，也有目前公众唾手可得的未来七天精确天气预报。我们采用目前流行的机器学习算法随机森林来建模，得到了很好的泛化结果。我们的预测模型可以解决销售行业传统通过从业人员的主观判断进行销售预测的局限，利用大数据分析实现更加精确可靠的指导。&lt;/p&gt;
&lt;p&gt;关键词：气象数据、销售预测、随机森林、大数据分析&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>统计之都十周年感言</title>
      <link>https://cosx.org/2016/05/cos10-anniversery-yihui/</link>
      <pubDate>Tue, 24 May 2016 22:36:03 +0000</pubDate>
      
      <guid>https://cosx.org/2016/05/cos10-anniversery-yihui/</guid>
      <description>呐，统计之都已经创建十周年。作为所谓的创始人，自然也是时候卷起袖子跟大家一起干一大碗鸡汤，毕竟十年这个时间长度听起来好像还蛮厉害的。不巧最近</description>
    </item>
    
    <item>
      <title>基于驾驶行为数据的UBI车险模型</title>
      <link>https://cosx.org/2016/05/driving-action-date-ubi-model/</link>
      <pubDate>Tue, 24 May 2016 22:35:29 +0000</pubDate>
      
      <guid>https://cosx.org/2016/05/driving-action-date-ubi-model/</guid>
      <description>&lt;p&gt;作者：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;陈星(中央财经大学统计与数学学院，北京)&lt;/li&gt;
&lt;li&gt;潘蕊(中央财经大学统计与数学学院，北京）&lt;/li&gt;
&lt;li&gt;黄亮(彩虹无线(北京)新技术有限公司，北京)&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;摘要：本文的研究内容为UBI车险业务。本文通过车辆前装设备采集驾驶行为数据，并与同期车辆出险情况建立Logistic回归模型，通过该模型挖掘对车辆出险情况具有显著影响的驾驶行为变量，并对其影响程度进行分析。根据分析结果，本文对其在行程打分与车险保费定价两部分业务的实施进行了分析，并对其预期效果与可能存在的问题展开了进一步讨论。&lt;/p&gt;
&lt;p&gt;关键词：车联网大数据；驾驶行为；Logistic 回归模型；UBI车险&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>丑图百讲｜好看的统计图都是相似的，难看的统计图各有各的丑</title>
      <link>https://cosx.org/2016/05/talking-about-ugly-picture-1/</link>
      <pubDate>Tue, 24 May 2016 10:46:18 +0000</pubDate>
      
      <guid>https://cosx.org/2016/05/talking-about-ugly-picture-1/</guid>
      <description>&lt;p&gt;大家好，我是水妈，在大学工作，主要教统计学。今天代表狗熊会，发起一个新的系列，&lt;strong&gt;丑图百讲&lt;/strong&gt;。这个系列不讲炫酷的、高大上的统计图，而是给大家分享如何画好&lt;strong&gt;最基础的统计图&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;读者可能会问，为什么要分享统计画图？熊大说了，数据分析的第一步，是梳理业务目标，接下来才是分析数据。水妈认为，在分析数据环节，第一步是做描述分析。这里的描述分析，包括三个内容：一、明确行业背景和变量含义；二、用统计图、统计表以及各种统计指标对数据进行描述；三、适当的解读描述的结果，发现问题，支撑后续的建模。其中，第二个环节尤为重要，因为&lt;strong&gt;统计图是最容易给人留下深刻印象的&lt;/strong&gt;。做好了，能给你的报告或者展示加分，帮助你发现数据当中的问题。做不好，那就是一场灾难。&lt;/p&gt;
&lt;p&gt;读者可能又要问，最基础的统计图有什么好讲的啊。我看过太多学生的报告，学生看自己画的图，就像是看自己家孩子，越看越喜欢，殊不知别人早就受不了你在朋友圈天天晒娃娃了。大家不要觉得画最最基础的统计图这件事情非常简单容易，可谓不画不知道，一画吓一跳。真的自己动手去画，才知道自己画出来的图有多丑。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>某智能手机新机上市营销策略应用分析</title>
      <link>https://cosx.org/2016/05/analysis-of-a-smart-phone-application-listed-new-marketing-strategies/</link>
      <pubDate>Mon, 23 May 2016 23:30:51 +0000</pubDate>
      
      <guid>https://cosx.org/2016/05/analysis-of-a-smart-phone-application-listed-new-marketing-strategies/</guid>
      <description>**作者：**杜晓梦(百分点信息科技)，唐晓密(百分点信息科技)，张文学(百分点信息科技) 摘要：近年来，深耕国产手机市场多年的某手机及家电品</description>
    </item>
    
    <item>
      <title>基于机器学习的高价值用户自动发现</title>
      <link>https://cosx.org/2016/05/machine-learning-user-high-figure/</link>
      <pubDate>Sun, 22 May 2016 21:57:27 +0000</pubDate>
      
      <guid>https://cosx.org/2016/05/machine-learning-user-high-figure/</guid>
      <description>作者：迟保昉(猎聘大数据研究院) 苏铖(猎聘大数据研究院) 单艺(猎聘大数据研究院) 摘要：猎聘每天有数万新用户注册。但是，其中有的用户只是填写了</description>
    </item>
    
    <item>
      <title>一种使用SEM广告展现数据优化投放策略的方法</title>
      <link>https://cosx.org/2016/05/sem-data-optimization-strategy/</link>
      <pubDate>Thu, 19 May 2016 23:22:52 +0000</pubDate>
      
      <guid>https://cosx.org/2016/05/sem-data-optimization-strategy/</guid>
      <description>作者:常莹 (北京博雅立方科技有限公司) 摘要：本文主要介绍了一种使用公开的SEM广告展现数据，判断行业竞争态势及竞争对手动向、并进而优化SEM</description>
    </item>
    
    <item>
      <title>第九届中国R语言会议（北京）</title>
      <link>https://cosx.org/2016/05/china-r-bj2016/</link>
      <pubDate>Thu, 12 May 2016 20:00:32 +0000</pubDate>
      
      <guid>https://cosx.org/2016/05/china-r-bj2016/</guid>
      <description>2016年，是统计之都倡导的中国R语言会议第九年，也是统计之都成立十周年。本届R语言会议将与第七届中国人民大学国际统计论坛、2016百分点数</description>
    </item>
    
    <item>
      <title>生物医学大数据分析方法研讨会</title>
      <link>https://cosx.org/2016/05/seminar-on-biomedical-data-analysis-methods/</link>
      <pubDate>Mon, 09 May 2016 10:12:07 +0000</pubDate>
      
      <guid>https://cosx.org/2016/05/seminar-on-biomedical-data-analysis-methods/</guid>
      <description>当前生物医学研究面临着大数据时代的挑战与机遇，统计学习、数据挖掘等大数据技术在医疗实践、临床研究中得到了广泛应用。其中，基因研究、临床治疗等</description>
    </item>
    
    <item>
      <title>COS沙龙第37期（北京）纪要</title>
      <link>https://cosx.org/2016/05/20160417salon/</link>
      <pubDate>Tue, 03 May 2016 12:30:41 +0000</pubDate>
      
      <guid>https://cosx.org/2016/05/20160417salon/</guid>
      <description>主题：癌症液体活检简介 嘉宾：颜林林 主办：统计之都 场地：北京大学 组织：吕翔 魏太云 高涛 于嘉傲 杨舒仪 纪要：于嘉傲 简介：第37期沙龙（北京）于201</description>
    </item>
    
    <item>
      <title>COS每周精选：机器学习</title>
      <link>https://cosx.org/2016/05/weekly-digest-machine-learning/</link>
      <pubDate>Sun, 01 May 2016 13:59:25 +0000</pubDate>
      
      <guid>https://cosx.org/2016/05/weekly-digest-machine-learning/</guid>
      <description>本期投稿：冯凌秉 王威廉 王小宁 机器学习 非平衡样本的分类问题是机器学习的经典问题之一，困扰着不少童鞋。这篇博文提供在R中解决该问题的实用指南。 G</description>
    </item>
    
    <item>
      <title>COS每周精选：名家名言</title>
      <link>https://cosx.org/2016/04/famous-sayings/</link>
      <pubDate>Sun, 17 Apr 2016 21:03:44 +0000</pubDate>
      
      <guid>https://cosx.org/2016/04/famous-sayings/</guid>
      <description>&lt;p&gt;本期投稿：朱雪宁、&lt;a href=&#34;http://weibo.com/u/1657470871?from=feed&amp;amp;loc=avatar&#34;&gt;王威廉&lt;/a&gt;、王小宁。&lt;/p&gt;
&lt;h1 id=&#34;名家名言&#34;&gt;名家名言&lt;/h1&gt;
&lt;p&gt;王汉生：&lt;a href=&#34;http://mp.weixin.qq.com/s?__biz=MzI4NzE4NzAxMg==&amp;amp;mid=2650285035&amp;amp;idx=1&amp;amp;sn=8da6ead967cdbd05ba7a83fb3376e504&amp;amp;3rd=MzA3MDU4NTYzMw==&amp;amp;scene=6#rd&#34;&gt;传统制造业才是大数据的金矿&lt;/a&gt;&lt;/p&gt;
&lt;h1 id=&#34;r-包&#34;&gt;R 包&lt;/h1&gt;
&lt;p&gt;突破数据框读写瓶颈，又一个造轮子的工作，&lt;a href=&#34;https://blog.rstudio.org/2016/03/29/feather/&#34;&gt; Feather包&lt;/a&gt;值得一试。&lt;/p&gt;
&lt;h1 id=&#34;行业应用&#34;&gt;行业应用&lt;/h1&gt;
&lt;p&gt;Airbnb使用&lt;a href=&#34;https://medium.com/airbnb-engineering/using-r-packages-and-education-to-scale-data-science-at-airbnb-906faa58e12d#.k9o4q7q98&#34;&gt;R做数据分析&lt;/a&gt;。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>mxnet：结合R与GPU加速深度学习</title>
      <link>https://cosx.org/2016/04/mxnet-r/</link>
      <pubDate>Thu, 07 Apr 2016 10:13:38 +0000</pubDate>
      
      <guid>https://cosx.org/2016/04/mxnet-r/</guid>
      <description>&lt;p&gt;近年来，深度学习可谓是机器学习方向的明星概念，不同的模型分别在图像处理与自然语言处理等任务中取得了前所未有的好成绩。在实际的应用中，大家除了关心模型的准确度，还常常希望能比较快速地完成模型的训练。一个常用的加速手段便是将模型放在GPU上进行训练。然而由于种种原因，R语言似乎缺少一个能够在GPU上训练深度学习模型的程序包。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>COS每周精选：深度学习</title>
      <link>https://cosx.org/2016/04/deep-learning/</link>
      <pubDate>Sun, 03 Apr 2016 14:00:33 +0000</pubDate>
      
      <guid>https://cosx.org/2016/04/deep-learning/</guid>
      <description>&lt;p&gt;本期投稿：&lt;a href=&#34;http://weibo.com/u/1657470871?from=feed&amp;amp;loc=avatar&#34;&gt;王威廉&lt;/a&gt;、王小宁&lt;/p&gt;
&lt;h1 id=&#34;深度学习&#34;&gt;深度学习&lt;/h1&gt;
&lt;p&gt;2006年Hinton 等人的深度学习论文在当时掀起了一股深度学习的研究浪潮，今年的人机围棋大战（AlphaGo 对战李世石）更是赚足了大众的眼球，相关的论文更是被更多的人拿来研读，小编为大家&lt;a href=&#34;http://www.nature.com/nature/journal/v529/n7587/full/nature16961.html&#34;&gt;整理了一下&lt;/a&gt;，供大家学习交流。&lt;/p&gt;
&lt;p&gt;AlphaGo是一款围棋人工智能程序，由位于英国伦敦的谷歌（Google）旗下DeepMind公司的戴维·西尔弗、艾佳·黄和戴密斯·哈萨比斯与他们的团队开发，这个程序利用“价值网络”去计算局面，用“策略网络”去选择下子。更多信息可去&lt;a href=&#34;http://www.deepmind.com/alpha-go.html&#34;&gt;官网查阅&lt;/a&gt;。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>美国统计协会开始正式吐槽（错用）P值啦</title>
      <link>https://cosx.org/2016/03/asa-statement-on-p-value/</link>
      <pubDate>Tue, 08 Mar 2016 08:48:56 +0000</pubDate>
      
      <guid>https://cosx.org/2016/03/asa-statement-on-p-value/</guid>
      <description>（图片来源：[https://xkcd.com/1478](https://xkcd.com/1478)，一幅讽刺滥用P值的漫画） 今天美国统</description>
    </item>
    
    <item>
      <title>COS访谈第21期：史建军：饱学致用育桃李，锦袍换酒傲江湖</title>
      <link>https://cosx.org/2016/02/cos-interview-21-jianjun-shi/</link>
      <pubDate>Fri, 05 Feb 2016 11:27:36 +0000</pubDate>
      
      <guid>https://cosx.org/2016/02/cos-interview-21-jianjun-shi/</guid>
      <description>&lt;p&gt;史建军老师是工业工程领域的知名教授和学术带头人，现任佐治亚理工学院（Georgia Institute of Technology，后文简称Georgia Tech）工业工程系（后文简称IE，该系在美国连续28年专业排名第一）冠名教授，同时兼任机械工程系教授。史老师开创了系统信息学和控制（system informatics and control）这一新的博士研究培养方向，是美国工业工程学会（IIE）会士，美国机械工程学会（ASME）会士，运筹学和管理科学学会（INFORMS）会士，国际统计学会（ISI）会士，国际质量研究院（IAQ）院士，也是美国INFORMS的质量统计与可靠性分会的founding Chair，曾获得 the IIE Albert G. Holzman Distinguished Educator Award 等重要奖项。他是多个国际期刊的编委，包括主编管理工程国际顶尖期刊“IIE Transactions”的 Quality and Reliability Engineering 子刊等。史建军教授是使用系统控制和多元统计相结合研究多工位误差建模与分析理论的创始人。他培养的博士生已经有二十几位在国际一流大学任教，其中有7名获得美国自然科学基金委NSF Career奖，1名获得美国总统奖，多名学生在工业公司担任副总或资深管理人员。史老师一直与工业界紧密合作，他的研究小组中开发出的技术已经应用到各种生产系统并带来重大的经济效益，被广泛用在了汽车组装、飞机制造、钢铁冶炼等诸多领域。史老师也是国内多处高校的客座教授，是中科院质量研究中心的创始人之一和海外主任，也是北京大学工业工程系的访问首席教授。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>标准正态分布函数的快速计算方法</title>
      <link>https://cosx.org/2016/01/fast-normal-cdf/</link>
      <pubDate>Sat, 30 Jan 2016 21:27:19 +0000</pubDate>
      
      <guid>https://cosx.org/2016/01/fast-normal-cdf/</guid>
      <description>&lt;p&gt;标准正态分布的分布函数 &lt;code&gt;$\Phi(x)$&lt;/code&gt; 可以说是统计计算中非常重要的一个函数，基本上有正态分布的地方都或多或少会用上它。在一些特定的问题中，我们需要大量多次地计算这个函数的取值，比如我经常需要算正态分布与另一个随机变量之和的分布，这时候就需要用到数值积分，而被积函数就包含 &lt;code&gt;$\Phi(x)$&lt;/code&gt;。如果 &lt;code&gt;$Z\sim N(0,1), X\sim f(x)$&lt;/code&gt;，&lt;code&gt;$f$&lt;/code&gt; 是 &lt;code&gt;$X$&lt;/code&gt; 的密度函数，那么 &lt;code&gt;$Z+X$&lt;/code&gt; 的分布函数就是&lt;/p&gt;
&lt;p&gt;&lt;code&gt;$$P(Z+X\le t)=\int_{-\infty}^{+\infty} \Phi(t-x)f(x)\mathrm{d}x$$&lt;/code&gt;&lt;/p&gt;
&lt;p&gt;我们知道，&lt;code&gt;$\Phi(x)$&lt;/code&gt; 没有简单的显式表达式，所以它需要用一定的数值方法进行计算。在大部分的科学计算软件中，计算的精度往往是第一位的，因此其算法一般会比较复杂。当这个函数需要被计算成千上万次的时候，速度可能就成为了一个瓶颈。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>COS沙龙第35期（北京）纪要</title>
      <link>https://cosx.org/2016/01/20160109salon/</link>
      <pubDate>Sat, 23 Jan 2016 17:18:03 +0000</pubDate>
      
      <guid>https://cosx.org/2016/01/20160109salon/</guid>
      <description>&lt;h1 id=&#34;主题工业系统大数据分析方法及其应用案例&#34;&gt;主题：工业系统大数据分析方法及其应用案例&lt;/h1&gt;
&lt;p&gt;嘉宾：  刘恺博&lt;/p&gt;
&lt;p&gt;主办：统计之都&lt;/p&gt;
&lt;p&gt;场地：北京大学&lt;/p&gt;
&lt;p&gt;组织：闫晗 常象宇 王高斌&lt;/p&gt;
&lt;p&gt;纪要：王高斌&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;简介&lt;/strong&gt;：第35期沙龙（北京）与2016年1月9日在北京大学顺利举办。主持人为人大本科生闫晗，嘉宾刘恺博，现任美国威士康星大学麦迪逊分校的助理教授。刘恺博于2009年毕业于香港科技大学工业与工程管理专业，2011年和2013年分别获得美国佐治亚理工学院（Georgia Tech）统计学硕士、工业与系统工程博士学位（系统信息学和控制方向）。刘恺博博士的研究兴趣主要是工业工程背景下的系统信息学和大数据分析，重点通过数据融合的方法研究制造业、服务系统中的系统过程建模、质量监测、诊断与寿命预测等。他的三篇文章曾先后获得运筹学和管理科学学会（INFORMS）、工业与系统工程研究学会（ISERC）的最佳论文。他于2012年获得了美国工业工程学会（IIE）的学术奖金（the Gilbreth Memorial Fellowship）， 2013年获得了美国质量协会(ASQ) 的奖学金（the Richard A. Freund International Scholarship）， 2014年获得了美国工业工程学会（IIE）的最佳博士论文奖（第二名）。他的研究获得了美国和中国国家自然科学基金 (National Science Foundation)的资助。有关于刘恺博博士的其他信息，可以从他的主页了解更多: &lt;a href=&#34;http://kaibo.ie.wisc.edu/index.html&#34;&gt;http://kaibo.ie.wisc.edu/index.html&lt;/a&gt;&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>COS沙龙第36期（北京）纪要</title>
      <link>https://cosx.org/2016/01/20160110salon/</link>
      <pubDate>Wed, 20 Jan 2016 22:11:29 +0000</pubDate>
      
      <guid>https://cosx.org/2016/01/20160110salon/</guid>
      <description>&lt;h1 id=&#34;主题利用开放数据重新定义中国的城市系统&#34;&gt;主题：利用开放数据重新定义中国的城市系统&lt;/h1&gt;
&lt;p&gt;嘉宾：龙瀛&lt;/p&gt;
&lt;p&gt;主办：统计之都&lt;/p&gt;
&lt;p&gt;场地：中国人民大学&lt;/p&gt;
&lt;p&gt;组织：张心雨 魏太云&lt;/p&gt;
&lt;p&gt;纪要：张心雨&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;简介&lt;/strong&gt;：第36期沙龙（北京）与2015年1月10日在中国人民大学顺利举办。本次沙龙由人大统院本科生张心雨主持，嘉宾龙瀛老师现任职于清华大学建筑学院。龙瀛博士是清华大学城市规划工学博士，&lt;a href=&#34;http://www.beijingcitylab.com/&#34;&gt;北京城市实验室&lt;/a&gt;（The Beijing City Lab (BCL)），创始人和执行主任，剑桥大学国家公派访问学者。他主要从事区域与城市规划、定量城市研究和城市模型等方面的研究工作。他在城市规划相关领域的国际期刊（SSCI）共发表24篇论文，他还在国内期刊有良好的发表记录，著有Springer英文专著《Geospatial Analysis to Support Urban Planning in Beijing》，他还是多个国内外刊物的客座编辑和国内大学的客座教授/研究员，曾受邀在多所大学和研究机构讲学。他的研究方向注重了国际规划理论与中国规划实践的结合，研究成果曾多次被New Scientist、参考消息、中央电视台、北京电视台、澎湃新闻、南方周末、凤凰周刊等报道。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>《Rcpp：R与C&#43;&#43;的无缝整合》</title>
      <link>https://cosx.org/2016/01/seamless-r-and-c-integration-with-rcpp/</link>
      <pubDate>Sun, 10 Jan 2016 12:29:09 +0000</pubDate>
      
      <guid>https://cosx.org/2016/01/seamless-r-and-c-integration-with-rcpp/</guid>
      <description>Seamless R and C++ Integration with Rcpp [法] 德克·埃德比特尔 著 寇强 张晔 译 内容简介 Rcpp是R应用最为广泛的语言扩展包，它被应用于超过100个CRAN和BioCond</description>
    </item>
    
    <item>
      <title>中文文本处理简要介绍</title>
      <link>https://cosx.org/2016/01/intro-to-chinese-nlp/</link>
      <pubDate>Thu, 07 Jan 2016 03:50:18 +0000</pubDate>
      
      <guid>https://cosx.org/2016/01/intro-to-chinese-nlp/</guid>
      <description>本文作者李绳，博客地址 http://acepor.github.io/。作者自述： 一位文科生曾励志成为语言学家 出国后阴差阳错成了博士候选人 三</description>
    </item>
    
    <item>
      <title>COS访谈第20期:千秋邈矣独留我，百战归来再读书：谢益辉</title>
      <link>https://cosx.org/2016/01/interview-of-xieyihui/</link>
      <pubDate>Sun, 03 Jan 2016 16:37:47 +0000</pubDate>
      
      <guid>https://cosx.org/2016/01/interview-of-xieyihui/</guid>
      <description>【COS编辑部按】 受访者：谢益辉 采访者：冯俊晨 他站在技术与艺术的交界点。 ——沃尔特·华森《乔布斯传》 “误打误撞”的成功 2002年，谢益辉报考</description>
    </item>
    
    <item>
      <title>第八届中国R语言会议（武汉）暨华中地区数据科学会议</title>
      <link>https://cosx.org/2015/12/8th-china-r-wuhan-summary/</link>
      <pubDate>Fri, 25 Dec 2015 23:12:07 +0000</pubDate>
      
      <guid>https://cosx.org/2015/12/8th-china-r-wuhan-summary/</guid>
      <description>&lt;p&gt;第八届中国R语言会议（武汉会场）暨华中地区数据科学会议于2015年11月7日在湖北经济学院大学生活动中心二号报告厅顺利举行。会议由湖北经济学院统计学院和统计之都主办，湖北数据与分析中心协办，优酷土豆和辰智咨询提供了赞助。会议当天，众多R语言兴趣爱好者齐聚一堂，就R语言在行业中的应用进行了交流探讨。经过大家的努力，R语言的火种顺利传到了武汉，接下来还会一直传递下去。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>COS沙龙第34期（北京）纪要</title>
      <link>https://cosx.org/2015/12/20151219salon/</link>
      <pubDate>Sun, 20 Dec 2015 23:27:42 +0000</pubDate>
      
      <guid>https://cosx.org/2015/12/20151219salon/</guid>
      <description>&lt;h1 id=&#34;主题医疗问题中复杂系统的建模检测优化以及控制问题&#34;&gt;主题：医疗问题中复杂系统的建模，检测，优化以及控制问题&lt;/h1&gt;
&lt;p&gt;嘉宾：黄帅&lt;/p&gt;
&lt;p&gt;主办：统计之都&lt;/p&gt;
&lt;p&gt;场地：中国人民大学&lt;/p&gt;
&lt;p&gt;组织：蔡锐 魏太云 王建桥&lt;/p&gt;
&lt;p&gt;纪要：钟琰&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;简介&lt;/strong&gt;：第34期沙龙（北京）与2015年12月19日在北京大学顺利举办。本次沙龙由人大统院本科生王健桥主持，嘉宾黄帅老师现任职美国华盛顿大学-西雅图分校的工业工程系助理教授。黄老师于2007年在中国科技大学少年班系获得统计学位，于2012年在美国亚利桑那州立大学工业工程系获得博士学位。其主要研究方向是结合统计、机器学习、运筹方法，去研究一些医疗管理以及工程领域里面的复杂决策问题。具体应用比如老年痴呆、青少年糖尿病、手术感染等问题的监测和预防等等。从医疗问题出发，这些研究成果可以被广泛的应用在其他各类复杂系统之上，比如制造业或者供应链管理。他的研究获得了美国自然科学基金（National Science Foundation），Juvenile Diabetes Research Foundation 以及其他一些医学基金会以及医学机构的资助。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>第八届中国R语言会议（上海）纪要</title>
      <link>https://cosx.org/2015/12/8th-china-r-shanghai-summary/</link>
      <pubDate>Wed, 16 Dec 2015 15:07:01 +0000</pubDate>
      
      <guid>https://cosx.org/2015/12/8th-china-r-shanghai-summary/</guid>
      <description>&lt;p&gt;第八届中国R语言会议（上海会场）于2015年11月21日至22日在华东师范大学中山北路校区成功举办。会议分为第一天的主会场和第二天的四个分会场，第一天主会场位于大礼堂（思群堂），第二天分会场位于科学会堂报告厅和逸夫楼一楼报告厅。&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://uploads.cosx.org/2015/12/r.png&#34; alt=&#34;&#34;&gt;&lt;/p&gt;
&lt;h1 id=&#34;一会议概况&#34;&gt;一、会议概况&lt;/h1&gt;
&lt;p&gt;第八届中国R语言会议（上海会场）由华东师范大学经济与管理学部统计学院和统计之都联合主办，并得到了华院数据、辰智咨询、永洪科技、优酷土豆集团等战略合作伙伴的鼎力协助。在华东师范大学统计学院、统计之都各位同仁的不懈努力下，本次会议比往届有了更大的突破。会议共设有5个会场，32场主题报告，覆盖金融大数据、工具与可视化、互联网、统计与机器学习等诸多领域。本届会议报名非常火爆，人数突破了1500人，报名单位超过600个，创下历届之最。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>COS沙龙第33期（北京）纪要</title>
      <link>https://cosx.org/2015/12/20151212salon/</link>
      <pubDate>Wed, 16 Dec 2015 00:07:18 +0000</pubDate>
      
      <guid>https://cosx.org/2015/12/20151212salon/</guid>
      <description>&lt;h1 id=&#34;主题神马是数据科学家&#34;&gt;主题：神马是数据科学家&lt;/h1&gt;
&lt;p&gt;嘉宾：林荟&lt;/p&gt;
&lt;p&gt;主办：统计之都&lt;/p&gt;
&lt;p&gt;场地：中国人民大学&lt;/p&gt;
&lt;p&gt;组织：蔡锐 魏太云 张心雨 冯璟烁 于嘉傲 邓金涛 杨舒仪&lt;/p&gt;
&lt;p&gt;纪要：杨舒仪&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>使用ggtree实现进化树的可视化和注释</title>
      <link>https://cosx.org/2015/11/to-achieve-the-visualization-and-annotation-of-evolutionary-tree-using-ggtree/</link>
      <pubDate>Mon, 30 Nov 2015 00:55:37 +0000</pubDate>
      
      <guid>https://cosx.org/2015/11/to-achieve-the-visualization-and-annotation-of-evolutionary-tree-using-ggtree/</guid>
      <description>&lt;p&gt;本文作者：余光创，目前就读于香港大学公共卫生系，开发过多个R/Bioconductor包，包括
&lt;a href=&#34;http://www.bioconductor.org/packages/ChIPseeker&#34;&gt;ChIPseeker&lt;/a&gt;,
&lt;a href=&#34;http://www.bioconductor.org/packagesclusterProfiler&#34;&gt;clusterProfiler&lt;/a&gt;,
&lt;a href=&#34;http://www.bioconductor.org/packages/DOSE&#34;&gt;DOSE&lt;/a&gt;,
&lt;a href=&#34;http://www.bioconductor.org/packages/ggtree&#34;&gt;ggtree&lt;/a&gt;,
&lt;a href=&#34;http://www.bioconductor.org/packages/GOSemSim&#34;&gt;GOSemSim&lt;/a&gt;
和
&lt;a href=&#34;http://www.bioconductor.org/packages/ReactomePA&#34;&gt;ReactomePA&lt;/a&gt;。&lt;/p&gt;
&lt;p&gt;进化树看起来和层次聚类很像。有必要解释一下两者的一些区别。&lt;/p&gt;
&lt;p&gt;层次聚类的侧重点在于分类，把距离近的聚在一起。而进化树的构建可以说也是一个聚类过程，但侧重点在于推测进化关系和进化距离(evolutionary distance)。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>第八届中国R语言会议（南昌会场）暨江西财经大学第一届金融大数据论坛纪要</title>
      <link>https://cosx.org/2015/11/8th-china-r-nanchang-summary/</link>
      <pubDate>Sun, 29 Nov 2015 23:53:49 +0000</pubDate>
      
      <guid>https://cosx.org/2015/11/8th-china-r-nanchang-summary/</guid>
      <description>&lt;p&gt;2015年10月24-25日，英雄城南昌迎来了中国R语言会议在华中地区的首秀。会议由江西财经大学金融管理国际研究院与统计之都共同主办，由江西财经大学财政大数据分析中心协办，并且与江西财经大学第一届金融大数据论坛相结合，获得了圆满成功。会议分为第一天的主会场和第二天共四个分会场，嘉宾的演讲主题涵盖了R语言在金融大数据、统计与机器学习、数据应用与可视化以及数据科学的其他方面。&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://uploads.cosx.org/2015/09/China-R-Logo-trans.png&#34; alt=&#34;China-R-Logo-trans&#34;&gt;&lt;/p&gt;
&lt;h1 id=&#34;一会议概况&#34;&gt;一、会议概况&lt;/h1&gt;</description>
    </item>
    
    <item>
      <title>一行R代码来实现繁琐的可视化</title>
      <link>https://cosx.org/2015/11/ggfortify-visualization-in-one-line-of-code/</link>
      <pubDate>Tue, 24 Nov 2015 10:41:34 +0000</pubDate>
      
      <guid>https://cosx.org/2015/11/ggfortify-visualization-in-one-line-of-code/</guid>
      <description>&lt;p&gt;本文作者：唐源，目前就职于芝加哥一家创业公司，曾参与和创作过多个被广泛使用的R和Python开源项目，是ggfortify，lfda，metric-learn等包的作者，也是 xgboost，caret，pandas等包的贡献者。（喜欢爬山和烧烤）&lt;/p&gt;
&lt;p&gt;&lt;a href=&#34;https://github.com/sinhrks/ggfortify&#34;&gt;ggfortify&lt;/a&gt; 是一个简单易用的R软件包，它可以仅仅使用&lt;strong&gt;一行代码&lt;/strong&gt;来对许多受欢迎的R软件包结果进行二维可视化，这让统计学家以及数据科学家省去了许多繁琐和重复的过程，不用对结果进行任何处理就能以 &lt;code&gt;ggplot&lt;/code&gt; 的风格画出好看的图，大大地提高了工作的效率。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>COS沙龙第32期（北京）纪要</title>
      <link>https://cosx.org/2015/11/20151108salon/</link>
      <pubDate>Tue, 10 Nov 2015 22:26:46 +0000</pubDate>
      
      <guid>https://cosx.org/2015/11/20151108salon/</guid>
      <description>&lt;p&gt;&lt;img src=&#34;https://uploads.cosx.org/2015/11/salon_%E7%9C%8B%E5%9B%BE%E7%8E%8B.jpg&#34; alt=&#34;salon_看图王&#34;&gt;&lt;/p&gt;
&lt;h1 id=&#34;主题基于时空数据的复杂系统量化分析从科学界到工业界spatial-temporal-big-data-from-science-to-industry&#34;&gt;主题：基于时空数据的复杂系统量化分析，从科学界到工业界（spatial-temporal big data: from science to industry）&lt;/h1&gt;
&lt;p&gt;嘉宾：吴海山&lt;/p&gt;
&lt;p&gt;主办：统计之都&lt;/p&gt;
&lt;p&gt;场地：中国人民大学&lt;/p&gt;
&lt;p&gt;组织：冯璟烁 邓金涛 张心雨&lt;/p&gt;
&lt;p&gt;纪要：张心雨&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>第八届中国R语言会议（上海）</title>
      <link>https://cosx.org/2015/11/2015shanghair/</link>
      <pubDate>Mon, 09 Nov 2015 07:14:58 +0000</pubDate>
      
      <guid>https://cosx.org/2015/11/2015shanghair/</guid>
      <description>&lt;p&gt;更新：
&lt;a href=&#34;https://uploads.cosx.org/2015/11/ChinaR2015SH_Manual.pdf&#34;&gt;点击下载会议手册，包括所有演讲摘要。&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;中国R语言会议自2008年以来，已经办到了第八届。2015年，在统计之都和各地高校的支持下，已经成功举办了西安、广州、北京、南昌、武汉的会场，创造了会场数和参会人数的新纪录。上海会场，作为中国R语言会议2015年的收官之作，将于11月21日和22日在华东师范大学中山北路校区举办。我们已做好最充分的准备，热诚欢迎各界朋友的到来。希望大家一同享受这场R语言与大数据的盛宴！&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://uploads.cosx.org/2015/09/China-R-Logo-trans.png&#34; alt=&#34;China-R-Logo-trans&#34;&gt;&lt;/p&gt;
&lt;p&gt;会议的相关情况如下：&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>COS沙龙第31期（北京）纪要</title>
      <link>https://cosx.org/2015/11/20151031salon/</link>
      <pubDate>Fri, 06 Nov 2015 00:05:53 +0000</pubDate>
      
      <guid>https://cosx.org/2015/11/20151031salon/</guid>
      <description>&lt;p&gt;&lt;img src=&#34;https://uploads.cosx.org/2015/11/32salon.jpg&#34; alt=&#34;32salon&#34;&gt;&lt;/p&gt;
&lt;h1 id=&#34;主题dato从数据科学到智能应用dato-from-data-science-to-intelligent-applications&#34;&gt;主题：Dato：从数据科学到智能应用（Dato: From Data Science to Intelligent Applications）&lt;/h1&gt;
&lt;p&gt;嘉宾：顾海杰&lt;/p&gt;
&lt;p&gt;主办：统计之都&lt;/p&gt;
&lt;p&gt;场地：北京大学&lt;/p&gt;
&lt;p&gt;组织：张心雨、王健桥、冯璟烁、魏太云&lt;/p&gt;
&lt;p&gt;纪要：冯璟烁&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>泛滥与缺失：个人征信vs.征信误差评估</title>
      <link>https://cosx.org/2015/11/flooding-and-deletions-personal-credit-vs-credit-scoring-error-assessment/</link>
      <pubDate>Wed, 04 Nov 2015 23:38:31 +0000</pubDate>
      
      <guid>https://cosx.org/2015/11/flooding-and-deletions-personal-credit-vs-credit-scoring-error-assessment/</guid>
      <description>&lt;p&gt;王汉生@北大光华&lt;/p&gt;
&lt;p&gt;最近被刺激了！有人被刺激后的反应是以头抢地尔，而教授被刺激的第一反应是：写Paper！故事的发生是这样的。一天组会，大家东拉西扯，也不知怎么就扯到个人征信上去了。于是突发奇想，我请大家把自己的手机掏出来，每个人查一下自己的“芝麻信用”分是多少。王老师的芝麻信用分高居630之多，心想：这么高的芝麻信用分，可以秒杀众多学生，然后可以得意地哈哈大笑。&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://uploads.cosx.org/2015/11/001.jpg&#34; alt=&#34;001&#34;&gt;&lt;/p&gt;
&lt;p&gt;对，就是上面这个样子：哈，哈，哈，哈。额，噢？Hold on，怎么回事，你的得分居然更高？啊，你也更高？What，你们都这么高？天啊！你们每个人的芝麻信用分都比我高！同学们的芝麻信用分最高的有730，紧跟着一个700+，剩下的虽然不到700，但是无一例外，全部比我高。王老师是整个组里芝麻信用分最低的，木有之一，太丢人了！我这下子才醒悟过来，630不是高考得分，是芝麻信用分。630是一个不怎么乐观的得分。还亏的我自己研究个人征信呢，结果被芝麻信用秒成渣！瞬间，王老师的心情变成&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>第八届中国R语言会议（武汉会场）暨华中地区数据科学会通知</title>
      <link>https://cosx.org/2015/10/8th-r-conference-wuhan/</link>
      <pubDate>Thu, 15 Oct 2015 23:50:36 +0000</pubDate>
      
      <guid>https://cosx.org/2015/10/8th-r-conference-wuhan/</guid>
      <description>&lt;p&gt;R语言作为一种用于数据分析和图形展示的语言，是受S语言和Scheme语言影响发展而来，具有免费、开源及统计模块齐全的特性。其应用范围涵盖了数据挖掘、机器学习、计量经济学、实证金融学、生物统计、气象学、电子商务等诸多领域。R语言的官方机构每年都会举办useR!会议，各个国家及地区也定期会有R的交流活动。中国的R语言会议从2008年开始已经成功举办到了第八届，之前在北京、上海、广州、杭州等地举办的会议都非常成功，大力推动了R语言在国内的蓬勃发展，促进了R语言乃至数据科学在中国的推广和发展。为了让更多的人认识和熟悉R，华中地区将首次迎来中国R语言会议。2015年11月7日在湖北经济学院和统计之都等的共同努力下，R语言会议将在江城武汉举办。本次会议旨在搭建各行各业R用户技术交流的平台，拓宽R语言与数据科学、金融学、统计学、机器学习等领域结合的新视角，吸引越来越多的华中地区人士关注R语言和数据科学。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>狗熊报告之一：社交网络数据分析与应用</title>
      <link>https://cosx.org/2015/10/one-of-bear-reportsocial-network-data-analysis-and-application/</link>
      <pubDate>Wed, 14 Oct 2015 14:40:10 +0000</pubDate>
      
      <guid>https://cosx.org/2015/10/one-of-bear-reportsocial-network-data-analysis-and-application/</guid>
      <description>&lt;p&gt;周静、朱雪宁&lt;/p&gt;
&lt;p&gt;北京大学光华管理学院营销系、商务统计与经济计量系&lt;/p&gt;
&lt;p&gt;根据最近的一份调查数据显示，美国互联网媒体的市值已达10890亿美元，是传统媒体的3倍，类似的在中国，根据艾瑞咨询发布的2014年第二季度网络经济核心数据显示，截止2014年6月30日，中国主要上市互联网公司市值前五的为腾讯（1405.6亿美元）、百度（654.5亿美元）、京东（389.7亿美元）、奇虎360（120.9亿美元）、唯品会（111.9亿美元）。与此同时，以Facebook，Twitter，微博，微信等为代表的社交网络应用正蓬勃发展，开启了互联网时代的社交概念。据全球最大的社会化媒体传播咨询公司We Are Very Social Limited分析指出，目前社交类软件使用的人数已达25亿——占世界总人数约的35%，另据艾瑞咨询发布的2014年第二季度社区交友数据显示，2014年5月，社区交友类服务月度覆盖人数达到4.7亿，在总体网民中渗透率为92.5%；2014年5月社交服务在移动App端月度覆盖人数为1.9亿人，其中微博服务在移动端优势较为明显，月度覆盖人数达到1.1亿人；互联网媒体和社交网络是Web2.0时代两个非常重要的应用，那么一个自然的问题是这两个领域将会如何互动发展？本报告主要从数据分析（非财务、非战略）的角度尝试探讨网络结构会给互联网媒体带来什么样的机遇和挑战。具体而言，我们根据自己的研究经验只关注以下几个方面：新闻、影音和搜索，根据艾瑞咨询发布的2013网络经济核心数据显示，这三部分的收入占到中国市值TOP20互联网企业总市值的32.16%，其重要性不可忽视。我们通过具体的案例并结合理论前沿做探索性的研讨。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>统计学发展方向的选择</title>
      <link>https://cosx.org/2015/10/choice-of-statistical-development-direction/</link>
      <pubDate>Fri, 02 Oct 2015 10:36:58 +0000</pubDate>
      
      <guid>https://cosx.org/2015/10/choice-of-statistical-development-direction/</guid>
      <description>&lt;p&gt;看这题目，多吓唬人。又是方向，又是选择。一看就是知道作者是一个深受商学院教育毒害的砖家！但是，想跟大家说的是，我真心想把这个题目整小点，但是困难。为什么？因为接下来跟大家瞎聊的故事，确实关乎发展方向，确实关乎取舍。或者，至少关乎我自己的研究团队（小二十号兄弟姐妹）的方向和选择！&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>COS访谈第19期：张志华教授</title>
      <link>https://cosx.org/2015/09/interview-of-zhangzhihua/</link>
      <pubDate>Tue, 29 Sep 2015 15:12:47 +0000</pubDate>
      
      <guid>https://cosx.org/2015/09/interview-of-zhangzhihua/</guid>
      <description>&lt;p&gt;【COS编辑部按】 受访者：&lt;a href=&#34;http://bcmi.sjtu.edu.cn/~zhzhang/&#34;&gt;张志华&lt;/a&gt;   采访者：常象宇   文字整理：王莉晶 朱雪宁&lt;/p&gt;
&lt;p&gt;&lt;a href=&#34;http://bcmi.sjtu.edu.cn/~zhzhang/&#34;&gt;张志华&lt;/a&gt;，
博士，上海交通大学计算机科学与工程系教授，上海交通大学数据科学研究中心兼职教授，计算机科学与技术和统计学双学科的博士生指导导师。在加入上海交通大学之前，是浙江大学计算机学院教授和浙江大学统计科学中心兼职教授。主要从事人工智能、机器学习与应用统计学领域的教学与研究。迄今在国际重要学术期刊和重要的计算机学科会议上发表70余篇论文。是美国“数学评论”的特邀评论员，国际机器学习旗舰刊物Journal of Machine Learning Research 的执行编委。其公开课《机器学习导论》和《统计机器学习》受到广泛关注。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>COS沙龙第30期（北京）纪要</title>
      <link>https://cosx.org/2015/09/20150920salon/</link>
      <pubDate>Wed, 23 Sep 2015 18:05:20 +0000</pubDate>
      
      <guid>https://cosx.org/2015/09/20150920salon/</guid>
      <description>&lt;p&gt;&lt;img src=&#34;https://uploads.cosx.org/2015/09/30%E6%B2%99%E9%BE%99%E7%BA%AA%E8%A6%81%E6%94%B9.jpg&#34; alt=&#34;30沙龙纪要改&#34;&gt;&lt;/p&gt;
&lt;h1 id=&#34;主题漫谈大数据下的中文分词&#34;&gt;主题：漫谈大数据下的中文分词&lt;/h1&gt;
&lt;p&gt;嘉宾：孙健&lt;/p&gt;
&lt;p&gt;主办：统计之都&lt;/p&gt;
&lt;p&gt;场地：中国人民大学&lt;/p&gt;
&lt;p&gt;组织：蔡占锐、魏太云、邓金涛、冯璟烁&lt;/p&gt;
&lt;p&gt;纪要：邓金涛&lt;/p&gt;
&lt;p&gt;简介：第30期沙龙（北京站）于2015年9月20日在中国人民大学顺利举行，本次嘉宾是来自北京英富森软件股份有限公司旗下的凌云实验室的孙健先生，是ANSJ分词的创始人，研究方向是情感分析和倾向性分析。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>Hadley Wickham：一个改变了R的人</title>
      <link>https://cosx.org/2015/09/hadley-wickham-the-man-who-revolutionized-r/</link>
      <pubDate>Mon, 21 Sep 2015 10:16:43 +0000</pubDate>
      
      <guid>https://cosx.org/2015/09/hadley-wickham-the-man-who-revolutionized-r/</guid>
      <description>【COS编辑部按】考普斯总统奖（The Committee of Presidents of Statistical Societies Awards，简称 COPSS 奖）是国际统计学领域的最高奖项，被誉为“统计学的诺贝尔奖”，每年只颁奖</description>
    </item>
    
    <item>
      <title>第八届中国R语言会议（南昌会场）暨江西财经大学第一届金融大数据论坛</title>
      <link>https://cosx.org/2015/09/2015nanchangr/</link>
      <pubDate>Thu, 17 Sep 2015 22:35:21 +0000</pubDate>
      
      <guid>https://cosx.org/2015/09/2015nanchangr/</guid>
      <description>&lt;p&gt;R是用于统计分析、绘图的语言和操作环境，是属于GNU系统的一个自由、免费、源代码开放的软件，它是一个用于统计计算和统计制图的优秀工具，其官方机构每年都会举办useR!会议，各个国家及地区也定期有R用户的交流活动。在国内，自2008年以来，统计之都已经在北京、上海、杭州、广州等地成功举办了八届R语言会议，促进了R语言乃至数据科学在中国的推广和发展。2015年10月，在江西财经大学金融管理国际研究院以及统计之都等的多方努力下， R语言会议将首次在华中地区主办。本次R语言会议将同江西财经大学第一届金融大数据论坛一同举办，旨在吸引更多人关注R语言与金融学、数据科学、统计与机器学习、业界应用与可视化等多领域的结合与碰撞。&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://uploads.cosx.org/2015/09/China-R-Logo-trans.png&#34; alt=&#34;China-R-Logo-trans&#34;&gt;&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>互联网&#43;物联网：中国统计学的风口</title>
      <link>https://cosx.org/2015/09/wind_in_chinese_stat/</link>
      <pubDate>Sun, 13 Sep 2015 09:13:43 +0000</pubDate>
      
      <guid>https://cosx.org/2015/09/wind_in_chinese_stat/</guid>
      <description>&lt;p style = &#34;text-align: center;&#34;&gt;王汉生@北大光华&lt;/p&gt;
&lt;p&gt;作为一个在商学院工作了十多年的统计学教员，一天到晚为自己，为学生，或者年轻合作伙伴多写俩Statistical Paper绞尽脑汁，也是无聊透顶，不知道多少脑细胞因此牺牲。难得空闲的时候，就瞎琢磨几个深刻的问题。当然，我也不知道这么深刻的问题，该不该我来琢磨。但是既然琢磨了，就不如写下来跟大家分享探讨。这几个问题就是：中国统计学未来发展的大方向是什么？背后的逻辑是什么？套用一句时髦的互联网语言就是：中国统计学的风口在哪里？&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://uploads.cosx.org/2015/09/fengkou.png&#34; alt=&#34;&#34;&gt;&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>如何更好的展示你的研究成果</title>
      <link>https://cosx.org/2015/09/tips-for-presenting-your-work/</link>
      <pubDate>Fri, 11 Sep 2015 18:02:07 +0000</pubDate>
      
      <guid>https://cosx.org/2015/09/tips-for-presenting-your-work/</guid>
      <description>&lt;blockquote&gt;
&lt;p&gt;【COS编辑部按】本文作者是美国统计协会（ASA）的会员、莫纳什大学教授
&lt;a href=&#34;http://dicook.github.io/&#34;&gt;Dianne Cook&lt;/a&gt;。她的研究方向包括数据可视化，探索性数据分析，多元方法，数据挖掘和统计计算。曾参与制作软件XGobi，ggobi，cranvas和几个R包。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;blockquote&gt;
&lt;p&gt;原文发表在&lt;a href=&#34;http://journal.r-project.org/archive/2011-1/RJournal_2011-1_Cook.pdf&#34;&gt;The R journal&lt;/a&gt;，本文由陈妍翻译，
&lt;a href=&#34;http://joegaotao.github.io/&#34;&gt;高涛&lt;/a&gt;、肖楠和&lt;a href=&#34;http://yihui.name/&#34;&gt;谢益辉&lt;/a&gt;审校，王小宁编辑。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;&lt;img src=&#34;https://uploads.cosx.org/2015/09/dicook-2014-500x314.jpg&#34; alt=&#34;&#34;&gt;&lt;/p&gt;
&lt;h1 id=&#34;摘要&#34;&gt;摘要&lt;/h1&gt;
&lt;p&gt;随着国际R用户会议“user!2011”的临近，许多与会者可能正在思考如何通过演讲集中展现自己的一些想法，本文便为大家就演讲和制作海报等问题提供了一些建议。&lt;/p&gt;
&lt;h1 id=&#34;背景&#34;&gt;背景&lt;/h1&gt;
&lt;p&gt;在即将到来的几次学院工作面试中，我准备介绍我的博士研究项目，就在我刚完成一次面试的演练时，我的导师安德烈·布加(Andreas Buja)让我坐下来：重新起草我的讲稿！我本初是参照罗格斯大学每周一次的研讨会上许多演讲者那样做的——通过幻灯片一张接一张的展示自己研究工作的细节，但安德烈说，那可能很适合论文的展示，但并不是作为讲稿的最佳选择。我们列出了我的研究中的重点问题，然后插入了一张幻灯片简单的写道“欲知后事如何，请听下回分解”。我们在之后的几张幻灯片中阐述了研究方法，在报告临近结束时才给出了问题的答案。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>我们为什么要做研究？</title>
      <link>https://cosx.org/2015/08/why-do-we-do-research/</link>
      <pubDate>Mon, 31 Aug 2015 10:09:00 +0000</pubDate>
      
      <guid>https://cosx.org/2015/08/why-do-we-do-research/</guid>
      <description>&lt;blockquote&gt;
&lt;p&gt;【COS编辑部按】本文作者是2013年的总理科学奖得主 
&lt;a href=&#34;http://www.stat.berkeley.edu/~terry/&#34;&gt;Terence Terry Speed&lt;/a&gt;。关于他的详细介绍，可参考
&lt;a href=&#34;https://cos.name/2013/11/terry-speed/&#34;&gt;COS访谈第十二期&lt;/a&gt;，Terry Speed教授的名言是“统计学本来就应该成就其他学科，我太爱统计了，它像把钥匙一样让我们能溜进任何学科的后院里随便玩耍”。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;blockquote&gt;
&lt;p&gt;原文发表在 IMS Bulletin 链接：&lt;a href=&#34;http://bulletin.imstat.org/2015/02/terences-stuff-why-do-we-do-research/&#34;&gt;http://bulletin.imstat.org/2015/02/terences-stuff-why-do-we-do-research/&lt;/a&gt;
。2011年6月以来的 IMS Bulletin 系列文章&amp;quot;Terence&amp;rsquo;s Stuff&amp;quot;; 都收录在&lt;a href=&#34;http://bulletin.imstat.org/category/terences-stuff/&#34;&gt;http://bulletin.imstat.org/category/terences-stuff/&lt;/a&gt;。
本文由王小宁翻译，冯凌秉、施涛审校。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;&lt;img src=&#34;https://uploads.cosx.org/2015/08/Terry-Speed-1-2.jpg&#34; alt=&#34;&#34;&gt;&lt;/p&gt;
&lt;p&gt;“我们为什么要做研究？” －－这个问题似乎由调查机构，比如说像_Vitae_这种立志于通过转化研究者专业和职业发展路径来激发他们潜能的国际项目，通过抽样调查来回答最为合适。这里我只是想用我的个人经验来探讨一下这个问题。&lt;/p&gt;
&lt;p&gt;如果有人向我询问关于读博士或博士毕业以后的研究生涯的话，我会说从事学术研究的动机是极其重要的。只有在经过深思熟虑之后还认定真的想做研究的人才应该开始读博士。在做这个决定的过程中，听取别人的意见尤其重要的，特别是和那些之前有做过研究的过来人。这些人具体会想些什么，或者具体会谈到哪些不可能一样，但是基本上都会聊到诸如个性、价值观、技能和经验、学习方式、所擅长的东西和喜欢做的事情等等。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>模型选择的一些基本思想和方法</title>
      <link>https://cosx.org/2015/08/some-basic-ideas-and-methods-of-model-selection/</link>
      <pubDate>Mon, 31 Aug 2015 08:29:54 +0000</pubDate>
      
      <guid>https://cosx.org/2015/08/some-basic-ideas-and-methods-of-model-selection/</guid>
      <description>&lt;h1 id=&#34;0-引言&#34;&gt;0. 引言&lt;/h1&gt;
&lt;p&gt;有监督学习是日常使用最多的建模范式，它有许多更具体的名字，比如预测模型、回归模型、分类模型或者分类器。这些名字或来源统计，或来源于机器学习。关于统计学习与机器学习的区别已经有不少讨论，不少人认为机器学习侧重于目标预测，而统计学习侧重于机制理解和建模。个人更加直观的理解是，统计学习侧重于从概率分布来描述数据生成机制，除了预测之外，还关心结果（参数假设、误差分布假设）的检验，而机器学习侧重于从函数拟合角度来描述数据生成机制，基本目的就是为了拟合和预测，缺乏严谨的参数、误差的检验机制，比如下式：
&lt;code&gt;$$Y = f(X) + \epsilon$$&lt;/code&gt;&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>lfda R包的使用方法以及算法的简要说明</title>
      <link>https://cosx.org/2015/08/a-brief-description-of-the-method-and-the-algorithm-of-the-lfda-package/</link>
      <pubDate>Tue, 25 Aug 2015 00:25:22 +0000</pubDate>
      
      <guid>https://cosx.org/2015/08/a-brief-description-of-the-method-and-the-algorithm-of-the-lfda-package/</guid>
      <description>&lt;p&gt;局部Fisher判别分析(Local Fisher Discriminant Analysis)是许多度量学习（Metric Learning）方法中效果最好的其中一种，它是一种线性监督降维方法，它可以自动找到合适的距离转换矩阵(transformation matrix)来抓住数据的不同类(class)的特征，通过加大不同类之间的距离(between-class distance)以及缩小同类里面每个样本的距离(within-class distance)，让不同类之间的界限更明显，从而使可视化效果更清晰。它同时也保持了多模(multimodality)的特征，这在处理一个类有多个的集群的时候有非常大的作用，比如说对于一种有多种可能症状的疾病来说，那些可能的症状都是同一类里面不同的集群，lfda可以把这种病的局部结构和特征(local structure)保持下来从而不会影响到之后的机器学习算法的效果。更细节一点的英文的理论介绍和应用可以
&lt;a href=&#34;https://gastrograph.com/resources/whitepapers/local-fisher-discriminant-analysis-on-beer-style-clustering.html&#34;&gt;点击&lt;/a&gt;
&lt;a href=&#34;https://gastrograph.com/resources/whitepapers/local-fisher-discriminant-analysis-on-beer-style-clustering.html&#34;&gt;这里&lt;/a&gt;
和&lt;a href=&#34;http://www.ms.k.u-tokyo.ac.jp/software.html#LFDA&#34;&gt;这里&lt;/a&gt;。
lfda对特征提取，降维，集群，分类，信息恢复，以及计算机视觉方面起到非常大的作用。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>COS每周精选：数据挖掘中的十大算法</title>
      <link>https://cosx.org/2015/08/top-10-data-mining-algorithms/</link>
      <pubDate>Mon, 03 Aug 2015 22:39:24 +0000</pubDate>
      
      <guid>https://cosx.org/2015/08/top-10-data-mining-algorithms/</guid>
      <description>&lt;p&gt;本期投稿：&lt;a href=&#34;http://yihui.name&#34;&gt;谢益辉&lt;/a&gt; &lt;a href=&#34;http://blog.cos.name/taoshi/&#34;&gt;施涛&lt;/a&gt;^[编者注：该链接已过期]
朱雪宁 &lt;a href=&#34;http://www.weibo.com/p/1005051756465937/home?from=page_100505&amp;amp;mod=TAB&amp;amp;noscale_head=1#_0&#34;&gt;王小宁&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;国际权威的学术组织 The IEEE International Conference on Data Mining (ICDM) 2006年12月评选出了数据挖掘领域的十大经典算法：C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, 和 CART ，相关的论文&lt;a href=&#34;http://www.cs.umd.edu/~samir/498/10Algorithms-08.pdf&#34;&gt;在这里&lt;/a&gt;。
最近有人把这些算法用&lt;a href=&#34;http://rayli.net/blog/data/top-10-data-mining-algorithms-in-plain-r/&#34;&gt;R实现了&lt;/a&gt;。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>COS沙龙第29期（北京）纪要</title>
      <link>https://cosx.org/2015/07/29salon/</link>
      <pubDate>Tue, 28 Jul 2015 10:20:17 +0000</pubDate>
      
      <guid>https://cosx.org/2015/07/29salon/</guid>
      <description>&lt;p&gt;&lt;img src=&#34;https://ww2.sinaimg.cn/bmiddle/6f694589jw1eug701vvi6j218g0xcqck.jpg&#34; alt=&#34;&#34;&gt;&lt;/p&gt;
&lt;h5 id=&#34;主题零代码-玩数据&#34;&gt;主题：“零”代码  “玩”数据&lt;/h5&gt;
&lt;p&gt;嘉宾：李栋&lt;/p&gt;
&lt;p&gt;主办：统计之都&lt;/p&gt;
&lt;p&gt;场地：中国人民大学&lt;/p&gt;
&lt;p&gt;组织：&lt;a href=&#34;https://weibo.com/u/3264504301?topnav=1&amp;amp;wvr=6&amp;amp;topsug=1&#34;&gt;蔡占锐&lt;/a&gt;、
&lt;a href=&#34;https://weibo.com/u/2033549597?topnav=1&amp;amp;wvr=6&amp;amp;topsug=1&#34;&gt;张颖&lt;/a&gt;、
&lt;a href=&#34;https://weibo.com/1656310700/profile?topnav=1&amp;amp;wvr=6&#34;&gt;王小宁&lt;/a&gt;、
&lt;a href=&#34;https://weibo.com/u/1655745602?topnav=1&amp;amp;wvr=6&amp;amp;topsug=1&#34;&gt;魏太云&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;纪要：&lt;a href=&#34;https://weibo.com/1656310700/profile?topnav=1&amp;amp;wvr=6&#34;&gt;王小宁&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;简介：第28期沙龙（北京站）于2015年7月26日在中国人民大学顺利举行。本次嘉宾是来自中国城市规划设计研究院生态所主任工程师李栋博士，他主要分享自己城市问题研究和规划中利用大数据开展定量分析和应用，重点关注签到、照片等基于地理位置的新型数据。本次讲座从演讲者个人经历出发，面向非IT相关背景的人士，分享和介绍一些在传统行业里利用互联网数据等新型数据方面的工具、经验和感想。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;本次沙龙的主要内容：&lt;/strong&gt;&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>一个数据科学家的这些年</title>
      <link>https://cosx.org/2015/07/years-as-a-data-scientist/</link>
      <pubDate>Mon, 20 Jul 2015 22:35:22 +0000</pubDate>
      
      <guid>https://cosx.org/2015/07/years-as-a-data-scientist/</guid>
      <description>&lt;p&gt;【COS编辑部按】 作者：&lt;a href=&#34;http://jianl.org/&#34;&gt;李舰&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;简介：李舰先生现任堡力山（PMI）集团副总，曾任 Mango Solutions 中国区数据总监。专注于数据科学在行业里的应用。擅长R语言的工程开发与分析建模，是 Rweibo、Rwordseg、tmcn  等 R 包的作者。与肖凯合著了《数据科学中的R语言》，参与翻译了《R语言核心技术手册》、《机器学习与R语言》。李舰先生也曾有多篇文章在统计之都主站上发表。个人主页：&lt;a href=&#34;http://jianl.org/&#34;&gt;http://jianl.org/&lt;/a&gt;&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;引言&lt;/strong&gt;：这篇文章来自于我和肖凯的新作《数据科学中的R语言》的前言。原书受篇幅和语言风格所限，前言经过了一些删减，在这里将全文和增补的内容发布出来。为了尽量避免为新书打广告的嫌疑，先提前声明我们会把书中一些自认为比较有价值的经验和见解发布到统计之都上，只是希望对数据科学和R语言有个基本的认识或者了解一些作者的建议和感悟的读者大可不必去买这本书，只有对具体案例和技术感兴趣并且愿意实际操作才值得去购买。&lt;/p&gt;
&lt;p&gt;僭称科学家我本来是不敢的，不过如今人们对数据的研究和应用的主战场在业界，“数据科学家”通常指的是一个职位的名称。现在很多公司（包括我自己的）招聘的职位都流行写“Data Scientist”，所以我自称数据科学家应该还好。从我本科进入中国人民大学学习统计学专业开始到现在的10多年时间里，我所有的求学经历和职业生涯都在和数据打交道，在数据应用的最前线感受到了业界对于数据价值理解的巨大变化。也亲身经历了从数据被冷遇到如今“大数据”成为显学这一激动人心的变革。这些年的很多经验都化成了这本书中的内容。在这里，我回顾自己在数据科学家道路上的一些经历，用自己的视角来总结这个数据时代的变化，也作为这本书的前言。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>COS访谈第18期：陈天奇</title>
      <link>https://cosx.org/2015/06/interview-of-tianqi/</link>
      <pubDate>Sun, 28 Jun 2015 15:48:28 +0000</pubDate>
      
      <guid>https://cosx.org/2015/06/interview-of-tianqi/</guid>
      <description>&lt;p&gt;【COS编辑部按】受访者：&lt;a href=&#34;http://homes.cs.washington.edu/~tqchen/&#34;&gt;陈天奇&lt;/a&gt; 采访者：何通&lt;/p&gt;
&lt;p&gt;简介：陈天奇，华盛顿大学计算机系博士生，研究方向为大规模机器学习。他曾获得KDD CUP 2012 Track 1第一名，并开发了SVDFeature，XGBoost，cxxnet等著名机器学习工具，是&lt;a href=&#34;https://github.com/dmlc/&#34;&gt;Distributed (Deep) Machine Learning Common&lt;/a&gt;的发起人之一。&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://uploads.cosx.org/2015/06/3126784581353126432.png&#34; alt=&#34;3126784581353126432&#34;&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;何：你的本科在上海交大的ACM班就读，是怎么开始做机器学习研究的呢？&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;**陈：**我们当时的培养计划里面有一项，就是希望我们尽早地接触学术研究。于是我们在大二暑假就要开始进实验室了，在大三的暑假去微软亚研(MSRA)实习，于是我大二暑假去的是俞勇老师的实验室，当时戴文渊学长也在交大做迁移学习这一块的研究，所以我就跟着他了，也就是这个时候开始接触的机器学习。不过后面其实换了很多方向，因为戴文渊其实带了我半个学期就毕业了。后来我到微软实习做的是和广告相关的东西。之后实验室的一位老师建议我的毕设做深度学习。当时是2010年吧，深度学习还没有完全火起来的时候，整体的趋势是大家都在做无监督学习。当时实验室正好有一块比较老的显卡，我就开始写一些CUDA的程序。从毕设一直到研究生一年级我一直都在做无监督深度学习，也尝试过ImageNet，但是没有得到很好的结果。后来正好有KDD Cup这个机会，之后我们就逐渐往推荐系统的方向做了，因为2011和2012年的题目以推荐系统为主。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>从统计学角度来看深度学习（3）：记忆和核方法</title>
      <link>https://cosx.org/2015/06/a-statistical-view-of-deep-learning-iii-memory-and-kernels/</link>
      <pubDate>Thu, 25 Jun 2015 12:49:15 +0000</pubDate>
      
      <guid>https://cosx.org/2015/06/a-statistical-view-of-deep-learning-iii-memory-and-kernels/</guid>
      <description>&lt;p&gt;原文链接：&lt;a href=&#34;http://blog.shakirm.com/2015/04/a-statistical-view-of-deep-learning-iii-memory-and-kernels/&#34;&gt;http://blog.shakirm.com/2015/04/a-statistical-view-of-deep-learning-iii-memory-and-kernels/&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;作者：&lt;a href=&#34;http://www.shakirm.com/&#34;&gt;Shakir Mohamed&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://uploads.cosx.org/2015/06/methodTriangle1-300x300.png&#34; alt=&#34;methodTriangle1-300x300&#34;&gt;&lt;/p&gt;
&lt;p style=&#34;text-align:center&#34;&gt;连接机器学习的回归方法&lt;/p&gt;
&lt;p&gt;人们通过对以往的经验或者数据的回忆来推断未来的事物，这样的过程可以用一个经常出现在最近文献中的词语——记忆来概括。机器学习模型都是由这样的‘记忆’组成的，如何理解这些‘记忆’对于如何使用模型是极为重要的。根据机器学习模型的种类，可以分为两种主要的记忆机制，即参数型与非参数型（还包括了介于两者之间的模型）。深度网络作为参数记忆型模型的代表，它将统计特性从所观察到的数据中以模型参数或者权重的方式提炼出来。而非参数模型中的典范则是核机器（以及最近邻），它们的记忆机制是存储所有数据。我们可以自然地认为，深度网络与核机器是两种原理不同的由数据推导结论的方法，但是实际上，我们研究出这些方法的过程却表明它们之间有着更加深远的联系以及更基本的相似性。&lt;/p&gt;
&lt;p&gt;深度网络、核机器以及高斯过程三者形成了解决相同问题的一套连贯的方法。它们的最终形式很不相同，但是它们本质上却是相互联系的。了解这一点对于更深入的研究十分有用，而这种联系正是这篇文章将要探讨的。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>第八届中国R语言会议（北京）纪要</title>
      <link>https://cosx.org/2015/06/8th-china-r-beijing-summary/</link>
      <pubDate>Mon, 15 Jun 2015 09:37:12 +0000</pubDate>
      
      <guid>https://cosx.org/2015/06/8th-china-r-beijing-summary/</guid>
      <description>&lt;p&gt;第八届中国R语言会议（北京会场）暨2015北大光华数据与价值论坛于2015年6月6日至7日在北京大学成功举办。第一日主会场位于邱德拔体育馆，第二日分会场位于光华管理学院一号楼。&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://uploads.cosx.org/2015/06/P91A013821.jpg&#34; alt=&#34;&#34;&gt;&lt;/p&gt;
&lt;h1 id=&#34;一会议概况&#34;&gt;一、会议概况&lt;/h1&gt;
&lt;p&gt;今年是中国R语言会议举办的第八年。会议由北京大学光华管理学院和统计之都联合主办，由北京大学商务智能中心、北大光华—奥迪管理研究中心、北京大学统计科学中心协办，并得到了百度、一汽—大众奥迪、乐递等战略合作伙伴的鼎力协助和懒投资、百分点、航旅纵横、量邦科技、微量网、一杯汤EasySoup、考拉征信等友情合作伙伴的大力支持。在两天的会议时间里，数据科学各行各业的同仁们欢聚一堂，共襄盛举，畅所欲言。&lt;/p&gt;
&lt;p&gt;在北大光华、统计之都各位同仁的不懈努力下，本次会议比往届有了更大的突破。会议共设有10个分论坛，68场主题报告，覆盖大数据技术、互联网金融、量化投资、人网物联、生物信息等诸多当下热门话题。本届会议报名非常火爆，人数突破了4200人，报名单位超过1500个，不仅创下历届之最，也使本次会议成为亚洲地区规模最大的数据科学盛会之一。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>漫谈正态分布的生成</title>
      <link>https://cosx.org/2015/06/generating-normal-distr-variates/</link>
      <pubDate>Tue, 09 Jun 2015 10:47:29 +0000</pubDate>
      
      <guid>https://cosx.org/2015/06/generating-normal-distr-variates/</guid>
      <description>&lt;p&gt;本文作者简介：王夜笙，就读于郑州大学信息工程学院，感兴趣的方向为逆向工程和机器学习，长期从事数据抓取工作（长期与反爬虫技术作斗争~），&lt;wbr /&gt;涉猎较广（技艺不精……），详情请见我的个人博客~&lt;/p&gt;
&lt;p&gt;个人博客地址：&lt;a href=&#34;http://bindog.github.io/blog/&#34;&gt;http://bindog.github.&lt;wbr&gt;&lt;/wbr&gt;io/blog/&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;邮箱：&lt;a href=&#34;mailto:bindog@outlook.com&#34;&gt;bindog@outlook.com&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;感谢&lt;a href=&#34;http://yixuan.cos.name/cn/&#34;&gt;怡轩&lt;/a&gt;同学的悉心指导~&lt;/p&gt;
&lt;p&gt;之前拜读了靳志辉（&lt;a href=&#34;http://www.weibo.com/rickjin&#34;&gt;@rickjin&lt;/a&gt;）老师写的&lt;a href=&#34;https://cosx.org/2013/01/story-of-normal-distribution-1/&#34;&gt;《正态分布的前世今生》&lt;/a&gt;，一直对正态分布怀着一颗敬畏之心，刚好最近偶然看到&lt;code&gt;python&lt;/code&gt;标准库中如何生成服从正态分布随机数的源码，觉得非常有趣，于是又去查找其他一些生成正态分布的方法，与大家分享一下。&lt;/p&gt;
&lt;h1 id=&#34;利用中心极限定理生成正态分布&#34;&gt;利用中心极限定理生成正态分布&lt;/h1&gt;
&lt;p&gt;设&lt;code&gt;$X_1,X_2,\cdots ,X_n$&lt;/code&gt;为独立同分布的随机变量序列，均值为&lt;code&gt;$\mu$&lt;/code&gt;，方差为&lt;code&gt;$\sigma^2$&lt;/code&gt;，则&lt;/p&gt;
&lt;p&gt;&lt;code&gt;$$Z_n=\frac{X_1+X_2+\cdots+X_n-n\mu}{\sigma \sqrt n}$$&lt;/code&gt;&lt;/p&gt;
&lt;p&gt;具有渐近分布&lt;code&gt;$N(0,1)$&lt;/code&gt;，也就是说当&lt;code&gt;$n \rightarrow \infty$&lt;/code&gt;时，&lt;/p&gt;
&lt;p&gt;&lt;code&gt;$$P\left \{ \frac{X_1+X_2+\cdots+X_n-n\mu}{\sigma \sqrt n} \leq x \right \} \rightarrow \frac{1}{\sqrt{2\pi} } \int_{-\infty }^{x} e^{ -\frac{t^2}{2} } \, dt$$&lt;/code&gt;&lt;/p&gt;
&lt;p&gt;换句话说，&lt;code&gt;$n$&lt;/code&gt;个相互独立同分布的随机变量之和的分布近似于正态分布，&lt;code&gt;$n$&lt;/code&gt;越大，近似程度越好。当然也有&lt;strong&gt;例外&lt;/strong&gt;，比如&lt;code&gt;$n$&lt;/code&gt;个独立同分布的服从柯西分布随机变量的算术平均数仍是柯西分布，这里就不扩展讲了。&lt;/p&gt;
&lt;p&gt;根据中心极限定理，生成正态分布就非常简单粗暴了，直接生成&lt;code&gt;n&lt;/code&gt;个独立同分布的均匀分布即可，看代码&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>中国R语言（广州）会议-暨华南地区数据科学会议纪要【含演讲资料】</title>
      <link>https://cosx.org/2015/06/china-r-guangzhou/</link>
      <pubDate>Wed, 03 Jun 2015 08:33:12 +0000</pubDate>
      
      <guid>https://cosx.org/2015/06/china-r-guangzhou/</guid>
      <description>&lt;p&gt;中国R语言（广州）会议暨华南地区数据科学会议于2015年5月23-24日在中山大学梁銶琚成功召开，由华南统计科学研究中心、中山大学数学与计算科学学院、统计之都共同筹办。&lt;/p&gt;
&lt;p&gt;参会者齐聚一堂，23日上午就R语言在器学习在面向消费者的个人基因组检测中的应用、从机器学习到推荐系统、气象大数据等方面中的应用进行了深入的探讨，下午对htmlwidgets  让  recharts 再起航、Adaptive Annealed Importance Sampling for Bayesian Multimodal Posterior Exploration 、Alpha 量化对冲的实战策略、游戏行业大数据等行业的一体化应用等内容进行了深刻的交流。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>从统计学角度来看深度学习（2）：自动编码器和自由能</title>
      <link>https://cosx.org/2015/05/a-statistical-view-of-deep-learning-ii-auto-encoders-and-free-energy/</link>
      <pubDate>Sun, 24 May 2015 23:09:24 +0000</pubDate>
      
      <guid>https://cosx.org/2015/05/a-statistical-view-of-deep-learning-ii-auto-encoders-and-free-energy/</guid>
      <description>&lt;p&gt;原文链接：&lt;a href=&#34;http://blog.shakirm.com/2015/03/a-statistical-view-of-deep-learning-ii-auto-encoders-and-free-energy/&#34;&gt;http://blog.shakirm.com/2015/03/a-statistical-view-of-deep-learning-ii-auto-encoders-and-free-energy/&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;本文得到了原英文作者&lt;a href=&#34;http://www.shakirm.com/&#34;&gt;Shakir Mohamed&lt;/a&gt;的授权同意，由钟琰翻译、何通审校。感谢他们的支持和帮助。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;基于前馈深度神经网络的判别模型已经在许多工业应用中获得了成功，引发了探寻如何利用无监督学习方法带来相似结果的热潮。降噪自动编码器是深度学习中一种主要的无监督学习方法。本文将探索降噪自编码器和统计学中密度估计之间的联系，我们将从统计学的视角去考察降噪自动编码器学习方法，并将之视为一种潜在因子模型的推断问题。我们的机器学习应用能从这样的联系中获得启发并受益。&lt;/p&gt;
&lt;h1 id=&#34;广义的降噪自动编码器gdaes&#34;&gt;广义的降噪自动编码器（GDAEs）&lt;/h1&gt;
&lt;p&gt;降噪自动编码器是无监督深度学习中的一个重大进步，它极大的提升了数据表示的可扩展性和稳健性。对每个数据点y，降噪自动编码器先利用一个已知的噪化过程&lt;code&gt;$\mathcal{C}(\mathbf{y}’|\mathbf{y})$&lt;/code&gt;建立一个&lt;code&gt;$\mathbf{y}$&lt;/code&gt;的含噪声版本&lt;code&gt;$\mathbf{y}’$&lt;/code&gt;，其后我们以&lt;code&gt;$\mathbf{y}’$&lt;/code&gt;为输入利用神经网络来重新恢复原始数据&lt;code&gt;$\mathbf{y}$&lt;/code&gt;。整个学习网络可以被分为两个部分：编码器和解码器，其中编码器&lt;code&gt;$\mathbf{z}$&lt;/code&gt;的输出可被认为是原始数据的一种表示或特征。该问题的目标函数如下^[Pascal Vincent, Hugo Larochelle, Yoshua Bengio, Pierre-Antoine Manzagol,Extracting and composing robust features with denoising autoencoders, Proceedings of the 25th international conference on Machine learning, 2008]：&lt;/p&gt;
&lt;p&gt;&lt;code&gt;$$\textrm{Perturbation:}\quad \mathbf{y}’ \sim\mathcal{C}(\mathbf{y}’|\mathbf{y})$$&lt;/code&gt;&lt;/p&gt;
&lt;p&gt;&lt;code&gt;$$\textrm{Encoder:}\quad \mathbf{z(y’)} = f_\phi (\mathbf{y’})\qquad\textrm{Decoder:}\quad \mathbf{y} \approx g_\theta (\mathbf{z})$$&lt;/code&gt;&lt;/p&gt;
&lt;p&gt;&lt;code&gt;$$\textrm{Objective:}\quad\mathcal{L}_{DAE} = \log p(\mathbf{y} |\mathbf{z})$$&lt;/code&gt;&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>数据科学中的“数据智慧”</title>
      <link>https://cosx.org/2015/05/the-data-wisdom-for-data-science/</link>
      <pubDate>Thu, 21 May 2015 14:20:24 +0000</pubDate>
      
      <guid>https://cosx.org/2015/05/the-data-wisdom-for-data-science/</guid>
      <description>&lt;p&gt;原文链接：&lt;a href=&#34;http://www.odbms.org/2015/04/data-wisdom-for-data-science/&#34;&gt;http://www.odbms.org/2015/04/data-wisdom-for-data-science/&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;本文得到了原英文作者&lt;a href=&#34;http://www.stat.berkeley.edu/~binyu/Site/Welcome.html&#34;&gt;郁彬&lt;/a&gt;的授权同意，由吕翔和张心雨翻译、&lt;a href=&#34;http://blog.cos.name/taoshi/&#34;&gt;施涛&lt;/a&gt;和高涛审校。感谢他们的支持和帮助。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;在大数据时代，学术界和业界的大量研究都是关于如何以一种可扩展和高效率的方式来对数据进行储存，交换和计算（通过统计方法和算法）。这些研究领域无疑非常重要，然而，只有当我们对数据智慧（Data Wisdom）也给予同等程度的重视时，大数据（或者小型数据）才能被转换为真正的知识和有用的，可被采纳的信息。换而言之，我们要认识到必须拥有足够数量的数据才有可能对复杂度较高的问题给出较可靠的答案。“数据智慧”对于我们从数据中提取有效信息和确保没有误用或夸大原始数据是至关重要的。&lt;/p&gt;
&lt;p&gt;“数据智慧”一词是我对应用统计学核心部分的重新定义。这些核心部分在伟大的统计学家（或者说是数据科学家）John W. Tukey 和 Geogre Box 的文章中有详细阐述。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>COS每周精选：从数据的角度来谈谈中国股市</title>
      <link>https://cosx.org/2015/05/talking-about-chinese-stock-market-in-the-view-of-the-data/</link>
      <pubDate>Sun, 17 May 2015 19:06:08 +0000</pubDate>
      
      <guid>https://cosx.org/2015/05/talking-about-chinese-stock-market-in-the-view-of-the-data/</guid>
      <description>&lt;p&gt;本期投稿： &lt;a href=&#34;http://yishuo.org/&#34;&gt;邓一硕&lt;/a&gt; 朱雪宁 冯凌秉 &lt;a href=&#34;http://yihui.name/&#34;&gt;谢益辉&lt;/a&gt; &lt;a href=&#34;https://github.com/hetong007&#34;&gt;何通&lt;/a&gt; &lt;a href=&#34;http://www.weibo.com/p/1005051756465937/home?from=page_100505&amp;amp;mod=TAB&amp;amp;noscale_head=1#_0&#34;&gt;冷静&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;中国系统性金融风险有多大？近期中国股市表现抢眼，不少人开始担心金融风险，在纽约大学Stern商学院计算的国家金融系统性风险中，中国的系统性风险创出新高，相关链接&lt;a href=&#34;http://vlab.stern.nyu.edu/welcome/risk/&#34;&gt;请戳&lt;/a&gt;。测算方案简单明了：假定股票市场半年内下跌40%，需要注入多少资金才能避免金融机构资不抵债。参考论文。&lt;/p&gt;
&lt;p&gt;摩尔定律大家都很熟悉，但你知道吗，生命复杂度方面也有类似的“摩尔定律”。美国巴尔的摩老化研究中心的研究人员发现，从最初的原核生物到哺乳动物之间，每隔3.76亿年生命复杂度就会翻一番。也就是说，生物复杂度的摩尔周期是3.76亿年。&lt;a href=&#34;http://www.technologyreview.com/view/513781/moores-law-and-the-origin-of-life/&#34;&gt;详情猛戳&lt;/a&gt;。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>从统计学角度来看深度学习（1）：递归广义线性模型</title>
      <link>https://cosx.org/2015/05/a-statistical-view-of-deep-learning-i-recursive-glms/</link>
      <pubDate>Sun, 17 May 2015 10:52:45 +0000</pubDate>
      
      <guid>https://cosx.org/2015/05/a-statistical-view-of-deep-learning-i-recursive-glms/</guid>
      <description>&lt;p&gt;原文链接：&lt;a href=&#34;http://blog.shakirm.com/2015/01/a-statistical-view-of-deep-learning-i-recursive-glms/&#34;&gt;http://blog.shakirm.com/2015/01/a-statistical-view-of-deep-learning-i-recursive-glms/&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;作者：&lt;a href=&#34;http://www.shakirm.com/&#34;&gt;Shakir Mohamed&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;本文得到了原英文作者&lt;a href=&#34;http://www.shakirm.com/&#34;&gt;Shakir Mohamed&lt;/a&gt;的授权同意，由王小宁翻译、冯凌秉和朱雪宁审校。感谢他们的支持和帮助。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;深度学习及其应用已经成为实用机器学习的一个关键工具。神经网络和许多现有的统计学、机器学习方法有同等重要的地位，我将在这篇文章中探索其中的一个观点。&lt;/p&gt;
&lt;p&gt;看待深度神经网络，我们这里选择一个特别的角度：就是它可以被看做是一个递归的广义线性模型。广义线性模型作为概率建模的基石之一，在实验科学的应用中无处不在，并且极其实用。这篇文章集中讨论前馈神经网络（&lt;strong&gt;Feed Forward Neural Network&lt;/strong&gt;），而关于回馈式神经网络（&lt;strong&gt;Recurrent Network&lt;/strong&gt;）与前者的统计联系，我将在以后文章中讨论。&lt;/p&gt;
&lt;h1 id=&#34;广义线性模型glms&#34;&gt;广义线性模型（GLMs）&lt;/h1&gt;
&lt;p&gt;基本的线性回归模型是一个从由自变量X组成的P维空间到一组因变量Y组成的空间的线性映射。具体地，该线性映射是指通过一组权重(或回归系数) 对X进行加权，并与截距项 的和。线性回归的输出可以是多元的,但在本文中假定其输出为标量。完整的概率模型假定上述线性模型受到高斯噪音的干扰（一般假设其方差未知）。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;$$\eta=\beta^Tx+\beta_0$$&lt;/code&gt;&lt;/p&gt;
&lt;p&gt;&lt;code&gt;$$y = \eta+\epsilon \qquad \epsilon \sim \mathcal{N}(0,\sigma^2)$$&lt;/code&gt;&lt;/p&gt;
&lt;p&gt; 在此公式中， &lt;code&gt;$\eta$&lt;/code&gt;是该模型的系统成分， &lt;code&gt;$\eta$&lt;/code&gt;是随机扰动项。广义线性模型（GLMs） [2]使我们能够对这一模型进行扩展，允许因变量的分布不局限于高斯分布而扩展到更广泛的分布（例如典型的指数分布族）。在这种情况下，我们可以写出广义回归问题，结合系数和偏置为更紧凑的表示法，如：&lt;/p&gt;
&lt;p&gt;&lt;code&gt;$$\eta = \beta^\top x, \qquad \beta=[\hat \beta, \beta_0], x = [\hat{x}, 1]$$&lt;/code&gt;&lt;/p&gt;
&lt;p&gt;&lt;code&gt;$$\mathbb{E}[y] = \mu = g^{-1}(\eta)$$&lt;/code&gt;&lt;/p&gt;
&lt;p&gt;其中g(•)是连接函数，使我们能够从自然参数&lt;code&gt;$\eta$&lt;/code&gt;求出均值参数&lt;code&gt;$\mu$&lt;/code&gt; 。如果把这个连接函数定义成是逻辑斯蒂函数，那么均值参数对应着服从伯努利分布的y等于1或0的概率。&lt;/p&gt;
&lt;p&gt;有很多其他的连接函数让我们能够为目标（响应）变量y的分布做出不同假设。在深度学习中，连结函数一般指激活函数，我在下表中列出了它们在两个领域中的名称。从这个表中我们可以看出，很多流行的方法在神经网络与统计学中是一样的，但是在相关文献中（有时）有着完全不一样的名字，如统计中的多项分类回归(multimonial)和深度学习中的softmax分类，或是深度学习中的整流器以及统计中的截取回归模型，它们其实是一样的。&lt;/p&gt;
&lt;h1 id=&#34;目标&#34;&gt;目标&lt;/h1&gt;
&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th style=&#34;text-align:center&#34;&gt;类型&lt;/th&gt;
&lt;th style=&#34;text-align:center&#34;&gt;回归&lt;/th&gt;
&lt;th style=&#34;text-align:center&#34;&gt;连结&lt;/th&gt;
&lt;th style=&#34;text-align:center&#34;&gt;连结的逆&lt;/th&gt;
&lt;th style=&#34;text-align:center&#34;&gt;激活&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td style=&#34;text-align:center&#34;&gt;实数&lt;/td&gt;
&lt;td style=&#34;text-align:center&#34;&gt;线性&lt;/td&gt;
&lt;td style=&#34;text-align:center&#34;&gt;恒等式&lt;/td&gt;
&lt;td style=&#34;text-align:center&#34;&gt;恒等式&lt;/td&gt;
&lt;td style=&#34;text-align:center&#34;&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style=&#34;text-align:center&#34;&gt;二元&lt;/td&gt;
&lt;td style=&#34;text-align:center&#34;&gt;逻辑斯蒂&lt;/td&gt;
&lt;td style=&#34;text-align:center&#34;&gt;逻辑斯蒂&lt;code&gt;$ \log\frac{\mu}{1 – \mu}$&lt;/code&gt;&lt;/td&gt;
&lt;td style=&#34;text-align:center&#34;&gt;S型σ&lt;code&gt;$\frac{1}{1 + \exp(-\eta)}$ &lt;/code&gt;&lt;/td&gt;
&lt;td style=&#34;text-align:center&#34;&gt;S型&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style=&#34;text-align:center&#34;&gt;二元&lt;/td&gt;
&lt;td style=&#34;text-align:center&#34;&gt;概率&lt;/td&gt;
&lt;td style=&#34;text-align:center&#34;&gt;逆的高斯累计分布函数&lt;code&gt;$\Phi^{-1}(\mu)$&lt;/code&gt;&lt;/td&gt;
&lt;td style=&#34;text-align:center&#34;&gt;高斯分布函数&lt;code&gt;$ \Phi(\eta)$&lt;/code&gt;&lt;/td&gt;
&lt;td style=&#34;text-align:center&#34;&gt;概率&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style=&#34;text-align:center&#34;&gt;二元&lt;/td&gt;
&lt;td style=&#34;text-align:center&#34;&gt;耶贝尔分布&lt;/td&gt;
&lt;td style=&#34;text-align:center&#34;&gt;&lt;a href=&#34;http://data.princeton.edu/wws509/notes/c3s7.html&#34;&gt;Compl. log-log&lt;/a&gt;&lt;code&gt;$ log(-log(\mu))$&lt;/code&gt;&lt;/td&gt;
&lt;td style=&#34;text-align:center&#34;&gt;耶贝尔累计分布函数&lt;code&gt;$e^{-e^{-x}}$&lt;/code&gt;&lt;/td&gt;
&lt;td style=&#34;text-align:center&#34;&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style=&#34;text-align:center&#34;&gt;二元&lt;/td&gt;
&lt;td style=&#34;text-align:center&#34;&gt;逻辑斯蒂&lt;/td&gt;
&lt;td style=&#34;text-align:center&#34;&gt;&lt;/td&gt;
&lt;td style=&#34;text-align:center&#34;&gt;双曲正切&lt;code&gt;$\tanh(\eta)$&lt;/code&gt;&lt;/td&gt;
&lt;td style=&#34;text-align:center&#34;&gt;Tanh&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style=&#34;text-align:center&#34;&gt;分类的&lt;/td&gt;
&lt;td style=&#34;text-align:center&#34;&gt;多项式&lt;/td&gt;
&lt;td style=&#34;text-align:center&#34;&gt;&lt;/td&gt;
&lt;td style=&#34;text-align:center&#34;&gt;多项式逻辑斯蒂&lt;code&gt;$\frac{\eta_i}{\sum_j \eta_j}$&lt;/code&gt;&lt;/td&gt;
&lt;td style=&#34;text-align:center&#34;&gt;SOFTMAX&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style=&#34;text-align:center&#34;&gt;计数&lt;/td&gt;
&lt;td style=&#34;text-align:center&#34;&gt;泊松&lt;/td&gt;
&lt;td style=&#34;text-align:center&#34;&gt;&lt;code&gt;$\log{\mu}$&lt;/code&gt;&lt;/td&gt;
&lt;td style=&#34;text-align:center&#34;&gt;&lt;code&gt;$\exp(\nu)$&lt;/code&gt;&lt;/td&gt;
&lt;td style=&#34;text-align:center&#34;&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style=&#34;text-align:center&#34;&gt;计数&lt;/td&gt;
&lt;td style=&#34;text-align:center&#34;&gt;泊松&lt;/td&gt;
&lt;td style=&#34;text-align:center&#34;&gt;&lt;code&gt;$\sqrt(\mu)$&lt;/code&gt;&lt;/td&gt;
&lt;td style=&#34;text-align:center&#34;&gt;&lt;code&gt;$\nu^2$&lt;/code&gt;&lt;/td&gt;
&lt;td style=&#34;text-align:center&#34;&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style=&#34;text-align:center&#34;&gt;非负的&lt;/td&gt;
&lt;td style=&#34;text-align:center&#34;&gt;伽玛&lt;/td&gt;
&lt;td style=&#34;text-align:center&#34;&gt;倒数&lt;code&gt;$\frac{1}{\mu}$&lt;/code&gt;&lt;/td&gt;
&lt;td style=&#34;text-align:center&#34;&gt;&lt;code&gt;$\frac{1}{\nu}$&lt;/code&gt;&lt;/td&gt;
&lt;td style=&#34;text-align:center&#34;&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style=&#34;text-align:center&#34;&gt;稀疏的&lt;/td&gt;
&lt;td style=&#34;text-align:center&#34;&gt;截取回归&lt;/td&gt;
&lt;td style=&#34;text-align:center&#34;&gt;&lt;/td&gt;
&lt;td style=&#34;text-align:center&#34;&gt;最大值&lt;code&gt;$\max(0;\nu)$&lt;/code&gt;&lt;/td&gt;
&lt;td style=&#34;text-align:center&#34;&gt;纠正线性单位&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style=&#34;text-align:center&#34;&gt;顺序&lt;/td&gt;
&lt;td style=&#34;text-align:center&#34;&gt;序数&lt;/td&gt;
&lt;td style=&#34;text-align:center&#34;&gt;&lt;/td&gt;
&lt;td style=&#34;text-align:center&#34;&gt;累积的逻辑斯蒂回归&lt;/td&gt;
&lt;td style=&#34;text-align:center&#34;&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;</description>
    </item>
    
    <item>
      <title>COS沙龙第28期（北京）纪要</title>
      <link>https://cosx.org/2015/05/28salon/</link>
      <pubDate>Tue, 12 May 2015 20:18:10 +0000</pubDate>
      
      <guid>https://cosx.org/2015/05/28salon/</guid>
      <description>&lt;p&gt;&lt;img src=&#34;https://uploads.cosx.org/2015/05/28%E6%B2%99%E9%BE%99%E7%BA%AA%E8%A6%81.jpg&#34; alt=&#34;28沙龙纪要&#34;&gt; 主题：数据分析的道与术&lt;/p&gt;
&lt;p&gt;嘉宾：毕然&lt;/p&gt;
&lt;p&gt;主办：统计之都&lt;/p&gt;
&lt;p&gt;场地：中国人民大学&lt;/p&gt;
&lt;p&gt;组织：&lt;a href=&#34;http://weibo.com/u/3264504301?topnav=1&amp;amp;wvr=6&amp;amp;topsug=1&#34;&gt;蔡占锐&lt;/a&gt;、钟琰、丁维悦、闫晗&lt;/p&gt;
&lt;p&gt;纪要：钟琰&lt;/p&gt;
&lt;p&gt;2015年5月10日，第28期沙龙（北京站）在中国人民大学顺利举行。嘉宾毕然先生热情亲切的与大家交流分享了关于数据分析的术与道的心得。本次沙龙由人大研究生丁维悦主持，嘉宾毕然先生专注于理论与实践的相互促进，涉猎于大数据分析与建模、经济与商业机制、营销与心理学、互联网产品战略等几个方面的研究。&lt;/p&gt;
&lt;p&gt;以下为本期沙龙主要内容的回顾：&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>Data（动词）</title>
      <link>https://cosx.org/2015/05/data-verb/</link>
      <pubDate>Tue, 12 May 2015 12:03:22 +0000</pubDate>
      
      <guid>https://cosx.org/2015/05/data-verb/</guid>
      <description>&lt;p&gt;原文地址：https://medium.com/@blprnt/data-v-da0e0d24777c&lt;/p&gt;
&lt;p&gt;作者：&lt;a href=&#34;https://twitter.com/blprnt&#34;&gt;Edward Shepard&lt;/a&gt;  &lt;/p&gt;
&lt;p&gt;翻译：&lt;a href=&#34;http://www.labazhou.net/2015/05/data-verb/&#34;&gt;腊八粥&lt;/a&gt;   &lt;/p&gt;
&lt;p&gt;&lt;strong&gt;本文是翻译，版权归原作者所有&lt;/strong&gt;&lt;/p&gt;
&lt;hr&gt;
&lt;p&gt;让我们把 data 变成动词吧。&lt;/p&gt;
&lt;p&gt;我 data 你，你 data 我。他们 data 我们，我们 data 他们。&lt;/p&gt;
&lt;p&gt;当你的简明牛津词典跨过屋子向我飘来时，我们还是花些时间来考虑下面的说法：&lt;/p&gt;
&lt;p&gt;data 这个词语的角色和功能随着技术和文化对其重新定义，在过去的十多年里呈现了明显的变化。十年前，data 只是一个复数名词。具体地说，它是 datum 的复数——一条 datum、两条 data。在当时，你可以指出并嘲笑数据爱好者们，因为他们说‘data is’，而不是‘data are’。当然，那些 data 新手继续组建公司、制作软件、开发数据库、出书、以及做 TED 演讲。慢慢地，data 真的变成了某种特别的单数：它已经变成了普普通通的不可数名词。&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://uploads.cosx.org/2015/05/i-data-you.jpeg&#34; alt=&#34;i data you&#34;&gt;&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>极简 Spark 入门笔记——安装和第一个回归程序</title>
      <link>https://cosx.org/2015/04/spark-beginner-1/</link>
      <pubDate>Wed, 22 Apr 2015 11:00:05 +0000</pubDate>
      
      <guid>https://cosx.org/2015/04/spark-beginner-1/</guid>
      <description>&lt;p&gt;现在的各种数据处理技术更新换代太快，新的名词和工具层出不穷，像是 Hadoop 和 Spark 这些，最近几年着实火了一把。事实上听说 Spark 也有一段时间了，但一直是只闻其名不见其实，今天就来简单记录一下初学 Spark 的若干点滴。&lt;/p&gt;
&lt;h1 id=&#34;spark-是什么&#34;&gt;Spark 是什么&lt;/h1&gt;
&lt;p&gt;按照 &lt;a href=&#34;http://spark.apache.org/&#34;&gt;Spark 官方的说法&lt;/a&gt;，Spark 是一个快速的集群运算平台，以及一系列处理大型数据集的工具包。用通俗的话说，Spark 与 R 一样是一套用于数据处理的软件和平台，但它最显著的特点就是处理大型数据（我就是不说大数据 (￣^￣)）的能力。&lt;/p&gt;
&lt;h1 id=&#34;极简安装&#34;&gt;极简安装&lt;/h1&gt;
&lt;p&gt;Spark 本身面向的是大规模的分布式计算，但对学习和测试来说，利用单机的多核 CPU 就已经足够了，所以作为入门，我并没有打算去涉及多台计算机相连的情形。在这个基础上，第一件出乎我意料的事情就是，Spark 的安装和配置其实可以是&lt;strong&gt;异常简单&lt;/strong&gt;的。&lt;/p&gt;
&lt;p&gt;在网上出现的各种资料中，Spark 经常与 Hadoop 和 Scala 这两个名词一起出现。前者也是一个大型分布式计算的框架，诞生得比 Spark 更早；后者是 Spark 主要使用的一种编程语言。这就给不明真相的群众造成了一种印象，好像要使用 Spark 的话就得先安装配置好 Hadoop 和 Scala，而要安装它们又得有更多的软件依赖。但实际上，要在单机上使用 Spark，真正需要的只有下面几样：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;一台金光闪闪的电脑&lt;/li&gt;
&lt;li&gt;在上面这台电脑里面装一个金光闪闪的 Linux 操作系统&lt;/li&gt;
&lt;li&gt;在上面这个系统里面装一个金光闪闪的 Java 开发环境（JDK）&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;这三样可以说是大部分计算环境的标配，如果系统还没有安装 JDK，那么一般都可以用系统的包管理工具，比如 Fedora 下是&lt;/p&gt;
&lt;pre&gt;&lt;code class=&#34;language-bash&#34;&gt;sudo yum install java-1.8.0-openjdk
&lt;/code&gt;&lt;/pre&gt;
&lt;p&gt;Ubuntu 下是&lt;/p&gt;
&lt;pre&gt;&lt;code class=&#34;language-bash&#34;&gt;sudo apt-get install openjdk-7-jdk
&lt;/code&gt;&lt;/pre&gt;
&lt;p&gt;有了上面的开发环境，安装 Spark 就非常容易了，基本上只要下载预编译包，解压缩，然后添加系统路径即可。首先，到 &lt;a href=&#34;https://spark.apache.org/downloads.html&#34;&gt;https://spark.apache.org/downloads.html&lt;/a&gt; 选择最新的 Spark 版本和 Hadoop 版本（实际上我们暂时用不上 Hadoop，所以任何版本都行），然后下载压缩包。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>COS每周精选：再谈R学习</title>
      <link>https://cosx.org/2015/04/talking-about-r-software/</link>
      <pubDate>Wed, 15 Apr 2015 20:09:07 +0000</pubDate>
      
      <guid>https://cosx.org/2015/04/talking-about-r-software/</guid>
      <description>&lt;p&gt;本期投稿： &lt;a href=&#34;http://weibo.com/wangxiaoningtongxue/profile?rightmod=1&amp;amp;wvr=6&amp;amp;mod=personinfo&#34;&gt;王小宁&lt;/a&gt;　Ron　&lt;a href=&#34;http://weibo.com/u/1657470871?from=feed&amp;amp;loc=avatar&#34;&gt;王威廉&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;小编注&lt;/strong&gt;：小编上网看科技新闻，大多数的文章都在讲“大数据”“深度学习”“互联网+”等等高大上的名词，作为一名统计学的研究生小编觉得再高大上的东西，也需要一项或几项核心的技术。近日，小编再为您提供一些R学习的资料。&lt;/p&gt;
&lt;p&gt;&lt;a href=&#34;http://www.thebigdata.cn/QiTa/13973.html&#34;&gt;R语言的优劣势是什么？&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;工欲善其事，必先利其器。应用场景决定知识的储备与工具的选择，反过来，无论你选择了什么样的工具，你一定会努力地把它改造成符合自己应用场景所需的那个样子。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>COS沙龙第27期（北京）纪要</title>
      <link>https://cosx.org/2015/04/27salon/</link>
      <pubDate>Mon, 13 Apr 2015 10:14:26 +0000</pubDate>
      
      <guid>https://cosx.org/2015/04/27salon/</guid>
      <description>&lt;p&gt;&lt;img src=&#34;https://uploads.cosx.org/2015/04/6f694589jw1er2ttjexawj20dc0hswfn.jpg&#34; alt=&#34;chen-guang&#34;&gt;&lt;/p&gt;
&lt;p&gt;主题：大数据时代的“简读”之道&amp;ndash;个性化阅读&lt;/p&gt;
&lt;p&gt;嘉宾：陈光&lt;/p&gt;
&lt;p&gt;主办：统计之都&lt;/p&gt;
&lt;p&gt;场地：北京大学光华管理学院&lt;/p&gt;
&lt;p&gt;组织：&lt;a href=&#34;http://weibo.com/u/3264504301?topnav=1&amp;amp;wvr=6&amp;amp;topsug=1&#34;&gt;蔡占锐&lt;/a&gt;、张心雨、吴佳萍、&lt;a href=&#34;http://www.bjt.name/&#34;&gt;刘思喆&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;纪要：&lt;a href=&#34;http://weibo.com/u/5340259059?topnav=1&amp;amp;wvr=6&amp;amp;topsug=1&#34;&gt;吕翔&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;2015年4月12日，第27期沙龙（北京站）在北京大学顺利举行。嘉宾陈光先生以其幽默风趣的语言向大家介绍了如何在信息爆炸的今天打造自己的个性化阅读空间。本次沙龙由人大本科生吴佳萍主持，嘉宾陈光先生专注于机器学习，文本挖掘相关领域的研究，对社交网络领域的信息传播有独到见解。&lt;/p&gt;
&lt;p&gt;以下为本期沙龙主要内容的回顾：&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>COS访谈第17期：褚挺进</title>
      <link>https://cosx.org/2015/04/interview-of-chutingjin/</link>
      <pubDate>Fri, 10 Apr 2015 12:00:58 +0000</pubDate>
      
      <guid>https://cosx.org/2015/04/interview-of-chutingjin/</guid>
      <description>&lt;p&gt;&lt;a href=&#34;https://uploads.cosx.org/2015/04/-e1429669031759.jpg&#34;&gt;&lt;img src=&#34;https://uploads.cosx.org/2015/04/%E8%A4%9A%E8%80%81%E5%B8%88-300x225.jpg&#34; alt=&#34;SAMSUNG CAMERA PICTURES&#34;&gt;&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;【COS编辑部按】&lt;/p&gt;
&lt;p&gt;受访人：褚挺进老师   &lt;/p&gt;
&lt;p&gt;采访人：王小宁&lt;/p&gt;
&lt;p&gt;整理：王小宁&lt;/p&gt;
&lt;p&gt;褚挺进老师现任中国人民大学统计学院讲师, 于2012年获得美国科罗拉多州立大学统计学博士学位。他主要从事空间统计和数据挖掘方法的研究, 已在重要学术期刊上发表多篇论文, 包括统计学顶级期刊The Annals of Statistics和Journal of the Royal Statistical Society, Series B。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;问：您最初学的数学，为什么在读PhD转为统计呢？统计学有什么吸引您的地方&lt;/strong&gt;？&lt;/p&gt;
&lt;p&gt;褚：我一开始做得是数学，然后感觉自己又解决不了什么巨大的数学问题，所以感觉做偏数据和偏应用的比较好一点。然后大家都说统计是处理数据的科学，所以选择了统计。当然，另外一个原因是那时候学长们都说统计比较容易找工作。统计学吸引我的地方是它的应用价值比数学要强点，统计虽然有一些理论推导但是比数学少多了。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;问：您觉得国内的统计学和国外的统计学教学模式有什么区别？&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;褚：我感觉在国内的本科生把研究生的课程都上了，甚至国外没开的课都开了，我觉得我们的同学的统计基础比国外的学生强多了。我记得那边没有非参数统计这门课，并且那边的研究生也不会上测度论，他们的那边的研究生学的概率论大体上是我们的本科关于概率论的介绍。我们当时研究生的课程主要有数理统计、概率论、回归分析、实验设计、抽样技术和时间序列，博士的话和老板做一些研究写paper,研究的理论基础主要会用到数学分析、高等代数和实变函数。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;问：听说您念PhD时就已经发了四大的文章，您分享下其中的故事么？您觉得发出一篇好文章最重要的是什么？&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;褚：其实也没有什么故事啦。刚开始的时候是和导师一起做的，起初是做一些模拟，做的多了发现里面有很多值得研究的地方，那篇论文做了1年多。我认为发论文最重要的是要有想法，要让别人知道这是一件很有意义的事情。先要明白之前别人做过的东西，你发现了其中的不足，然后再去改进。另外，在学科的交叉处比较容易出成果。我主要是搞空间统计的，把经典的统计的理论拿到空间统计中来进行分析，就比较容易写出来东西。当然了，不能排除投稿的随机性，这得看自己的运气了。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;问：您认为统计研究对编程要求高吗？您对本科生做科研有什么建议？&lt;/strong&gt;&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>2015数据与价值欧亚论坛暨R会议西安分论坛通知</title>
      <link>https://cosx.org/2015/04/8th-r-conference-xian/</link>
      <pubDate>Thu, 09 Apr 2015 17:53:04 +0000</pubDate>
      
      <guid>https://cosx.org/2015/04/8th-r-conference-xian/</guid>
      <description>&lt;p&gt;大数据时代为社会带来了一场新的变革，庞大的数据资源使得各个领域开始了量化进程，对数据的有效分析、提取价值的需求更加急迫。论坛以数据分析为立足点，着眼于大数据时代下如何发现数据中的有效信息，从而实现数据的价值。我们相信，数据背景下的理论与应用问题会愈发受到学界和业界的关注，同时也将倡导企业和科研单位的有机融合以及数据的有效分析挖掘会为社会创造更多的价值！&lt;/p&gt;
&lt;p&gt;R是一门用于数据分析和图形展示的语言、平台和环境，其官方机构每年都会举办useR！会议，各个国家及地区也定期有R用户的交流活动。在国内，自2008年以来，中国已经在北京和上海等地成功举办了七届R语言会议，促进了R语言乃至数据科学在中国的推广和发展。&lt;/p&gt;
&lt;p&gt;为了完美的实现从数据到价值的转化，促进各领域R语言的使用者之间的交流，西安欧亚学院、统计之都、北京大学商务智能研究中心将于2015年4月18日在古城西安举办2015数据与价值欧亚论坛暨R会议西安分论坛。这将是R会议首次在西北地区举办。&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://uploads.cosx.org/2015/09/China-R-Logo-trans.png&#34; alt=&#34;China-R-Logo-trans&#34;&gt;&lt;/p&gt;
&lt;p&gt;会议的相关情况如下：&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>第八届中国R语言会议（广州会场）通知</title>
      <link>https://cosx.org/2015/04/8th-r-conference-guangzhou/</link>
      <pubDate>Tue, 07 Apr 2015 15:14:01 +0000</pubDate>
      
      <guid>https://cosx.org/2015/04/8th-r-conference-guangzhou/</guid>
      <description>&lt;p&gt;&lt;strong&gt;【COS编辑部按】北京、西安R语言会的报名会在近期放出，敬请关注。其中北京R语言会议将于6月6、7号举行，西安R语言会议将于4月18、19举行。我们将在统计之都主站、微博、微信公共号上及时发布信息，请大家及时关注！此外，下半年将会有上海、杭州、南昌等会场，敬请关注。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;R是用于统计分析、绘图的语言和操作环境，是属于GNU系统的一个自由、免费、源代码开放的软件，它是一个用于统计计算和统计制图的优秀工具，其官方机构每年都会举办useR!会议，各个国家及地区也定期有R用户的交流活动。在国内，自2008年以来，统计之都已经在北京、上海、杭州、广州等地成功举办了七届R语言会议，促进了R语言乃至数据科学在中国的推广和发展。2014年11月，在华南统计科学研究中心、中山大学数学与计算科学学院以及统计之都的的多方努力下， R语言会议首次在华南地区主办，吸引了更多人关注R语言与数据科学。今年5月23、24日，第八届中国R语言会议（广州会场）即将于中山大学南校区梁銶琚堂召开。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>COS每周精选：统计学“大家”谈</title>
      <link>https://cosx.org/2015/03/let-us-talk-about-statistics/</link>
      <pubDate>Sun, 29 Mar 2015 21:01:19 +0000</pubDate>
      
      <guid>https://cosx.org/2015/03/let-us-talk-about-statistics/</guid>
      <description>&lt;p&gt;本期投稿：&lt;a href=&#34;http://yihui.name/&#34;&gt;谢益辉&lt;/a&gt; &lt;a href=&#34;http://weibo.com/u/1657470871?from=feed&amp;amp;loc=avatar&#34;&gt;王威廉&lt;/a&gt;  &lt;a href=&#34;http://weibo.com/wangxiaoningtongxue/profile?rightmod=1&amp;amp;wvr=6&amp;amp;mod=personinfo&#34;&gt;王小宁&lt;/a&gt;&lt;/p&gt;
&lt;h1 id=&#34;统计学的七大支柱&#34;&gt;统计学的七大支柱&lt;/h1&gt;
&lt;p&gt;JSM上统计界的老帮主Stephen Stigler做了一个主题演讲，讲“&lt;a href=&#34;http://blogs.sas.com/content/iml/2014/08/05/stiglers-seven-pillars-of-statistical-wisdom/&#34;&gt;统计学的七大支柱&lt;/a&gt;” ，好心又认真的Rick Wicklin同学记了笔记，彼时估计还在中国城吃饭的我才得以了解SS大人到底讲了什么。所谓支柱，就是没了它咱就垮了。谢益辉师兄写的七大支柱&lt;a href=&#34;http://yihui.name/cn/2014/09/seven-pillars/&#34;&gt;在这里&lt;/a&gt;。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>统计词画番外篇（一）：谁共我，醉明月？</title>
      <link>https://cosx.org/2015/03/song-poem-1/</link>
      <pubDate>Thu, 26 Mar 2015 20:43:52 +0000</pubDate>
      
      <guid>https://cosx.org/2015/03/song-poem-1/</guid>
      <description>将军百战身名裂。向河梁、回头万里，故人长绝。易水萧萧西风冷，满座衣冠似雪。正壮士、悲歌未彻。啼鸟还知如许恨，料不啼清泪长啼血。谁共我，醉明月</description>
    </item>
    
    <item>
      <title>浅谈医学大数据（中）</title>
      <link>https://cosx.org/2015/03/the-big-data-of-medicine2/</link>
      <pubDate>Mon, 23 Mar 2015 23:53:17 +0000</pubDate>
      
      <guid>https://cosx.org/2015/03/the-big-data-of-medicine2/</guid>
      <description>本文作者陈遵秋，美国俄勒冈州，健康科技大学，公共卫生预防系，美国统计协会认证统计分析师；陈漪伊，美国俄勒冈州，健康科技大学，公共卫生预防系，</description>
    </item>
    
    <item>
      <title>浅谈医学大数据（上）</title>
      <link>https://cosx.org/2015/03/the-big-data-of-medicine1/</link>
      <pubDate>Sun, 22 Mar 2015 21:54:55 +0000</pubDate>
      
      <guid>https://cosx.org/2015/03/the-big-data-of-medicine1/</guid>
      <description>本文作者陈遵秋，美国俄勒冈州，健康科技大学，公共卫生预防系，美国统计协会认证统计分析师；陈漪伊，美国俄勒冈州，健康科技大学，公共卫生预防系，</description>
    </item>
    
    <item>
      <title>COS每周精选：用R来找寻你的另一半吧！！！</title>
      <link>https://cosx.org/2015/03/using-r-to-search-for-your-partner/</link>
      <pubDate>Sat, 21 Mar 2015 19:42:12 +0000</pubDate>
      
      <guid>https://cosx.org/2015/03/using-r-to-search-for-your-partner/</guid>
      <description>本期投稿：谢益辉 王小宁 还记得小编的每周精选“统计学在爱情中的那些应用”么，正值春暖花开之时，是不是想约个妹子一起去春游啊。小编又苦心找了几篇</description>
    </item>
    
    <item>
      <title>COS沙龙第26期（北京）纪要</title>
      <link>https://cosx.org/2015/03/26salon/</link>
      <pubDate>Thu, 19 Mar 2015 11:21:11 +0000</pubDate>
      
      <guid>https://cosx.org/2015/03/26salon/</guid>
      <description>主题：股票型分级基金的发展历程、产品设计和投资策略 嘉宾：郑志勇 主办：统计之都 场地：中国人民大学 组织：蔡占锐、冯璟烁、张心雨、闫晗、邓一硕 纪要</description>
    </item>
    
    <item>
      <title>用R测量灯泡的体积</title>
      <link>https://cosx.org/2015/03/the-bulb-measurement-with-r/</link>
      <pubDate>Mon, 16 Mar 2015 17:08:11 +0000</pubDate>
      
      <guid>https://cosx.org/2015/03/the-bulb-measurement-with-r/</guid>
      <description>本文作者：姜晓东，博士毕业于上海交通大学，目前任教于湖南师范大学医学院，专业神经毒理学。 缘起 谈起测量灯泡体积，大家一定记得那个耳熟能详的故事</description>
    </item>
    
    <item>
      <title>xgboost: 速度快效果好的boosting模型</title>
      <link>https://cosx.org/2015/03/xgboost/</link>
      <pubDate>Wed, 04 Mar 2015 13:09:00 +0000</pubDate>
      
      <guid>https://cosx.org/2015/03/xgboost/</guid>
      <description>引言 在数据分析的过程中，我们经常需要对数据建模并做预测。在众多的选择中，randomForest, gbm和glmnet是三个尤其流行的R包，</description>
    </item>
    
    <item>
      <title>嘿，朋友，抢红包了吗？</title>
      <link>https://cosx.org/2015/02/lucky-money/</link>
      <pubDate>Tue, 24 Feb 2015 08:28:29 +0000</pubDate>
      
      <guid>https://cosx.org/2015/02/lucky-money/</guid>
      <description>如果你有一台智能手机，如果你装了一个名叫微信的软件，那么你今年的春节很可能是在下面这样的场景中度过的（图片来自微信群）： 这也使得众多的网络大</description>
    </item>
    
    <item>
      <title>COS每周精选：统计学在爱情中的那些应用</title>
      <link>https://cosx.org/2015/02/the-application-of-statistics-in-love/</link>
      <pubDate>Sun, 15 Feb 2015 10:13:44 +0000</pubDate>
      
      <guid>https://cosx.org/2015/02/the-application-of-statistics-in-love/</guid>
      <description>本期投稿：施涛 朱雪宁 王小宁 大数据能搞定女朋友，信不信我们看一个例子：他曾获中文本科学位，在世贸大厦做汉译英，因下午2点上班逃过了911大爆炸</description>
    </item>
    
    <item>
      <title>COS每周精选：再谈P值</title>
      <link>https://cosx.org/2015/02/talking-about-p-value-again/</link>
      <pubDate>Mon, 09 Feb 2015 08:21:21 +0000</pubDate>
      
      <guid>https://cosx.org/2015/02/talking-about-p-value-again/</guid>
      <description>本期投稿：尤晓斌 冷静 王威廉 数学文化 统计之都主站之前有一篇《不得不提的P值》曾引发众多的讨论，去年的《P值之死》也曾在圈内引起不小的骚动，编者</description>
    </item>
    
    <item>
      <title>COS每周精选：那些年，我们了解的统计学历史</title>
      <link>https://cosx.org/2015/02/the-story-about-statistics/</link>
      <pubDate>Sun, 01 Feb 2015 20:47:48 +0000</pubDate>
      
      <guid>https://cosx.org/2015/02/the-story-about-statistics/</guid>
      <description>本期投稿：Mindey 王威廉 王小宁 从公元前450年的伊利斯的希皮亚斯利用国王统治时间的均值计算出了第一次奥林匹克奥运会的时间早于他生活的时代</description>
    </item>
    
    <item>
      <title>COS每周精选：一个商科学生成为数据分析师的故事</title>
      <link>https://cosx.org/2015/01/the-story-about-a-business-student-to-be-a-data-analyst/</link>
      <pubDate>Sun, 25 Jan 2015 19:49:32 +0000</pubDate>
      
      <guid>https://cosx.org/2015/01/the-story-about-a-business-student-to-be-a-data-analyst/</guid>
      <description>本期投稿：统计之都编辑部 王小宁 一个商科出身的学生，在大学四年级开始逆袭，留英几年习得一手数据分析好本事，让我们来看看他的成长故事？ 在过去两年</description>
    </item>
    
    <item>
      <title>COS每周精选：算法学习知哪些？</title>
      <link>https://cosx.org/2015/01/the-story-about-algorithm/</link>
      <pubDate>Mon, 19 Jan 2015 00:39:08 +0000</pubDate>
      
      <guid>https://cosx.org/2015/01/the-story-about-algorithm/</guid>
      <description>本期投稿：谢益辉 王威廉 冷静 王小宁 算法 K-means是最常用的聚类算法之一：容易理解，实现不难，虽然会有local optimum，但通常结果也</description>
    </item>
    
    <item>
      <title>COS每周精选：寒假来了，小编分享一些学习资料</title>
      <link>https://cosx.org/2015/01/the-material-of-data-science-for-the-vacation/</link>
      <pubDate>Sun, 11 Jan 2015 19:51:41 +0000</pubDate>
      
      <guid>https://cosx.org/2015/01/the-material-of-data-science-for-the-vacation/</guid>
      <description>本期投稿：谢益辉 王威廉 蔡占锐 王小宁 R 可视化 用rgl包绘制彗星的3D图形。 Kimmel癌症研究中心发表论文称“患癌症主要是因为你运气不好（而不</description>
    </item>
    
    <item>
      <title>第二届中国贝叶斯统计学术论坛（天津，2014）会议纪要</title>
      <link>https://cosx.org/2015/01/second_china_bayesian_statistics_conference_2014_review/</link>
      <pubDate>Thu, 08 Jan 2015 08:54:09 +0000</pubDate>
      
      <guid>https://cosx.org/2015/01/second_china_bayesian_statistics_conference_2014_review/</guid>
      <description>第二届中国贝叶斯统计学术论坛（天津）于2014年12月21日在天津财经大学成功召开。本次会议由天津财经大学中国经济统计研究中心、贝叶斯之道研</description>
    </item>
    
    <item>
      <title>埃博拉病毒——大数据时代的疫情防控</title>
      <link>https://cosx.org/2015/01/ebola-in-the-big-data-era/</link>
      <pubDate>Mon, 05 Jan 2015 05:46:02 +0000</pubDate>
      
      <guid>https://cosx.org/2015/01/ebola-in-the-big-data-era/</guid>
      <description>2014年时代杂志的年度人物称号由埃博拉患者护理人员获得，在向他们致敬的同时，让我们回顾一下去年这场饱受关注并且持续到今年的全球性传染病事件</description>
    </item>
    
    <item>
      <title>COS每周精选：数据科学职业选择“大家”谈</title>
      <link>https://cosx.org/2015/01/talking-about-data-scientist/</link>
      <pubDate>Sun, 04 Jan 2015 23:32:49 +0000</pubDate>
      
      <guid>https://cosx.org/2015/01/talking-about-data-scientist/</guid>
      <description>本期投稿：谢益辉 蔡占锐 两位亚马逊员工Greg Duncan和Guy Lebanon谈职业选择：走学术路线还是进公司发展？大家看了自己思考吧！ Hadley W</description>
    </item>
    
    <item>
      <title>COS每周精选：测度论学习那些事</title>
      <link>https://cosx.org/2014/12/the-story-about-measure-theory/</link>
      <pubDate>Sun, 28 Dec 2014 20:33:45 +0000</pubDate>
      
      <guid>https://cosx.org/2014/12/the-story-about-measure-theory/</guid>
      <description>本期投稿：尤晓斌 统计学博士应该学什么课程，作者倾向认为学测度论是“无害的”，但不是必要的。概率论与数理统计这个大学科有太多分支，一个统计人穷</description>
    </item>
    
    <item>
      <title>一个数据分析师的博客正在改变着纽约人看待城市的方式</title>
      <link>https://cosx.org/2014/12/a-data-scientist-is-changing-peoples-vision-to-city/</link>
      <pubDate>Mon, 22 Dec 2014 22:26:00 +0000</pubDate>
      
      <guid>https://cosx.org/2014/12/a-data-scientist-is-changing-peoples-vision-to-city/</guid>
      <description>本文摘自：腊八粥 原文：http://www.labazhou.net/2014/12/a-data-analysts-blog-is-tra</description>
    </item>
    
    <item>
      <title>COS每周精选：新浪微博的数据可视化</title>
      <link>https://cosx.org/2014/12/the-visualization-of-weibo/</link>
      <pubDate>Sun, 21 Dec 2014 22:40:02 +0000</pubDate>
      
      <guid>https://cosx.org/2014/12/the-visualization-of-weibo/</guid>
      <description>本期投稿：谢益辉 王威廉 王小宁 可视化篇 新浪微博POI签到数据几百万条，将这些地点做成可视化相必很炫吧！事实确实如此！ NBA投篮数据可视化. 数据</description>
    </item>
    
    <item>
      <title>COS沙龙第25期（北京）</title>
      <link>https://cosx.org/2014/12/25salon/</link>
      <pubDate>Mon, 15 Dec 2014 23:14:25 +0000</pubDate>
      
      <guid>https://cosx.org/2014/12/25salon/</guid>
      <description>主题：大数据时代的数据可视化 嘉宾：包明明 主办：统计之都、北京大学商务智能研究中心 场地：北京大学光华管理学院 组织：蔡占锐、闫晗、吕翔、冯璟烁、</description>
    </item>
    
    <item>
      <title>COS沙龙第24期（北京）</title>
      <link>https://cosx.org/2014/12/24salon/</link>
      <pubDate>Mon, 15 Dec 2014 22:57:27 +0000</pubDate>
      
      <guid>https://cosx.org/2014/12/24salon/</guid>
      <description>主题：旅行的意义续 嘉宾：侯瑀 主办：统计之都 场地：中国人民大学 组织：蔡占锐、闫晗、吕翔、冯璟烁、陈源韬、王一宁 纪要：闫晗 2014年12月13日</description>
    </item>
    
    <item>
      <title>第二届中国贝叶斯统计学术论坛（天津，2014）日程安排</title>
      <link>https://cosx.org/2014/12/2rd-bayesian-statistics-meeting/</link>
      <pubDate>Mon, 15 Dec 2014 17:30:22 +0000</pubDate>
      
      <guid>https://cosx.org/2014/12/2rd-bayesian-statistics-meeting/</guid>
      <description>第二届中国贝叶斯统计学术论坛（天津，2014）将于2014年12月21日（周日）在天津财经大学召开，本次会议由天津财经大学中国经济统计研究中</description>
    </item>
    
    <item>
      <title>COS每周精选：深度学习面面观</title>
      <link>https://cosx.org/2014/12/introduction-of-deep-learning/</link>
      <pubDate>Sun, 07 Dec 2014 16:00:40 +0000</pubDate>
      
      <guid>https://cosx.org/2014/12/introduction-of-deep-learning/</guid>
      <description>&lt;p&gt;本期投稿：&lt;a href=&#34;http://weibo.com/u/1657470871?from=feed&amp;amp;loc=avatar&#34;&gt;王威廉&lt;/a&gt; &lt;a href=&#34;http://weibo.com/wangxiaoningtongxue/profile?rightmod=1&amp;amp;wvr=6&amp;amp;mod=personinfo%20&#34;&gt;王小宁&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;在了解深度学习之前，让我们先来看看@戴文渊 大牛的关于机器学习的前世今生的&lt;a href=&#34;http://blog.sina.com.cn/s/blog_b09d46020101bl6x.html&#34;&gt;介绍&lt;/a&gt;。&lt;/p&gt;
&lt;p&gt;斯坦福深度学习博士Richard Socher貌似并未直接赶赴普林斯顿大学担任教职，而是在硅谷进行深度学习创业，目前得到800万美金的资金支持。据其介绍，其网站能通过点鼠标以及托、拉、提、拽的操作进行深度学习模型训练。&lt;a href=&#34;http://t.cn/RzKkWDY&#34;&gt;DEMO&lt;/a&gt;,&lt;a href=&#34;http://t.cn/RzKkWDl&#34;&gt;Wired&lt;/a&gt;.&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>第七届中国R语言会议杭州会场开场致辞（阿里巴巴数据技术与产品部负责人闵万里）</title>
      <link>https://cosx.org/2014/12/7th-chinar-hangzhou-openning-remarks-alibaba/</link>
      <pubDate>Fri, 05 Dec 2014 16:04:17 +0000</pubDate>
      
      <guid>https://cosx.org/2014/12/7th-chinar-hangzhou-openning-remarks-alibaba/</guid>
      <description>&lt;p&gt;&lt;img src=&#34;https://uploads.cosx.org/2014/12/7ooJC.jpg&#34; alt=&#34;7ooJC&#34;&gt;&lt;/p&gt;
&lt;p&gt;今天的这个天气，是对大家的一种考验，也是对大家对R的热情和数据挖掘这一个领域的一种挑战或考验，很高兴祝贺大家通过了这个考验。这是我第一次讲话不用ppt，因为此前我讲过很多次了，只是以一种不同的身份、以学术研究的语言与同行交流。但今天我的身份稍微一转换——代表淘宝IT的阿里巴巴数据系统产品部。我们的副总裁车品觉老师，他最近写了一本书叫《决战大数据》，本来是想请他来，但是由于时间的冲突，所以我今天就来上台。我也很愿意做这样一件事情，因为我的背景——我是统计出身。R语言的伟大之处在于它是统计学家创造的，但是后面一句话大家肯定也知道，它最糟糕的地方也就是“它是统计学家创造的”。那么我一会儿讲一下我的三个经历，给大家分享一下这两句话的含义。最后我再解释今天我希望大家从这个会场得到怎么样的message（信息）。&lt;/p&gt;
&lt;p&gt;20年前，如果你问我一个函数、一个分布是一个怎么样的性质，我会拿支笔来，用吉米多维奇里面的微积分的方式，用PDF、CDF（密度函数、分布函数）来推。那么今天我可能会啪啪啪写一个R的function（函数），然后simulate（模拟）一下就出来了。那效果来说，可能是今天的会更高效，对吧，当然20年前的能力也是需要的。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>COS每周精选：形形色色的数据可视化</title>
      <link>https://cosx.org/2014/11/various-data-visualization/</link>
      <pubDate>Sun, 30 Nov 2014 17:28:18 +0000</pubDate>
      
      <guid>https://cosx.org/2014/11/various-data-visualization/</guid>
      <description>&lt;p&gt;本期投稿：&lt;a href=&#34;http://yihui.name/&#34;&gt;谢益辉&lt;/a&gt; &lt;a href=&#34;http://yixuan.cos.name/cn/&#34;&gt;邱怡轩&lt;/a&gt; &lt;a href=&#34;http://weibo.com/wangxiaoningtongxue/profile?rightmod=1&amp;amp;wvr=6&amp;amp;mod=personinfo&#34;&gt;王小宁&lt;/a&gt;&lt;/p&gt;
&lt;h1 id=&#34;数据可视化&#34;&gt;数据可视化&lt;/h1&gt;
&lt;p&gt;用可视化的方式解释一些&lt;a href=&#34;http://setosa.io/ev/&#34;&gt;数学和统计概念&lt;/a&gt;，看起来很酷，不过小编窃以为只有那个马尔可夫链做得还有点意思，其它的概念用可视化的方式来解释可能有点多此一举了。&lt;/p&gt;
&lt;p&gt;谢师兄的&lt;a href=&#34;https://yihui.shinyapps.io/voice/&#34;&gt;新Shiny应用实现语音识别&lt;/a&gt;，要把图中的点放大只需大喊如意金箍棒bigger than bigger，妈妈再也不用担心我不会写R代码画图了！请使用Chrome浏览器并开启麦克风，同时避免在公共场合长时间对着屏幕大喊，以免被当作R的重度痴迷症患者。注意，这不是玩笑，重申一遍，这不是玩笑！&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>第七届中国R语言会议（广州）纪要【含演讲资料】</title>
      <link>https://cosx.org/2014/11/7th-china-r-guangzhou-summary/</link>
      <pubDate>Mon, 24 Nov 2014 16:40:47 +0000</pubDate>
      
      <guid>https://cosx.org/2014/11/7th-china-r-guangzhou-summary/</guid>
      <description>本文作者：江彩霞，中山大学数学与计算科学学院统计学专业研究生二年级 第七届中国R语言会议（广州会场）于2014年11月15日在中山大学南校区网</description>
    </item>
    
    <item>
      <title>COS沙龙第23期（北京）</title>
      <link>https://cosx.org/2014/11/23salon/</link>
      <pubDate>Mon, 24 Nov 2014 09:55:14 +0000</pubDate>
      
      <guid>https://cosx.org/2014/11/23salon/</guid>
      <description>&lt;ul&gt;
&lt;li&gt;主题：量化交易中的资金管理问题&lt;/li&gt;
&lt;li&gt;嘉宾：刘岩草&lt;/li&gt;
&lt;li&gt;主办：统计之都、&lt;a href=&#34;http://birc.gsm.pku.edu.cn/&#34;&gt;北京大学商务智能研究中心&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;场地：北京大学光华管理学院&lt;/li&gt;
&lt;li&gt;组织：&lt;a href=&#34;http://weibo.com/3264504301/profile?rightmod=1&amp;amp;wvr=6&amp;amp;mod=personinfo&#34;&gt;蔡占锐&lt;/a&gt;、闫晗、&lt;a href=&#34;http://weibo.com/u/5340259059?from=myfollow_all&#34;&gt;吕翔&lt;/a&gt;、&lt;a href=&#34;http://weibo.com/dengyishuo?topnav=1&amp;amp;wvr=6&amp;amp;topsug=1&#34;&gt;邓一硕&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;纪要：闫晗&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt; &lt;img src=&#34;https://uploads.cosx.org/2014/11/IMG_6442.jpg&#34; alt=&#34;IMG_6442&#34;&gt;&lt;/p&gt;
&lt;p&gt;2014年11月23日，第23期COS沙龙（北京站）在北京大学光华管理学院顺利举行。各位统计爱好者、投资从业者纷纷前来，积极探讨，共同完成了一场主题为“&lt;strong&gt;量化投资中的资金管理问题&lt;/strong&gt;”的精彩分享沙龙。本次沙龙由人大统院本科生&lt;strong&gt;吕翔&lt;/strong&gt;主持，嘉宾是量客投资副总经理刘岩草先生。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>COS每周精选： PM2.5的数据可视化</title>
      <link>https://cosx.org/2014/11/visualization-of-pm2-5/</link>
      <pubDate>Sun, 23 Nov 2014 20:40:50 +0000</pubDate>
      
      <guid>https://cosx.org/2014/11/visualization-of-pm2-5/</guid>
      <description>本期投稿：王威廉 冷静 蔡占锐 王小宁 数据可视化 身在北京的小伙伴么是否还怀念“APEC蓝”的那些日子，你是否还在为度过38年来最长寒假而不知去哪里</description>
    </item>
    
    <item>
      <title>COS每周精选：机器学习哪家强？</title>
      <link>https://cosx.org/2014/11/machine-learning/</link>
      <pubDate>Sun, 16 Nov 2014 20:51:19 +0000</pubDate>
      
      <guid>https://cosx.org/2014/11/machine-learning/</guid>
      <description>本期投稿： 冷静 蔡占锐 王小宁 机器学习 很多人在学习机器学习，但是这里面也有误区，你知道么？机器学习的资料也不断的出现，到底有哪些机器学习中深度学</description>
    </item>
    
    <item>
      <title>jiebaR中文分词——R的灵活，C的效率</title>
      <link>https://cosx.org/2014/11/jiebar-text-segmentation/</link>
      <pubDate>Sat, 15 Nov 2014 10:46:46 +0000</pubDate>
      
      <guid>https://cosx.org/2014/11/jiebar-text-segmentation/</guid>
      <description>&lt;h1 id=&#34;r是什么&#34;&gt;R是什么？&lt;/h1&gt;
&lt;p&gt;记得刚接触R的时候，有一种莫名的抵触，A、B、C、D、E那么多种语言了，为什么又多冒出来一个R？为了时间序列的课程，我又要多记忆一大堆乱七八糟的语法。当发现居然有&lt;code&gt;dd &amp;lt;- 23333&lt;/code&gt; &lt;code&gt;23333 -&amp;gt; ee&lt;/code&gt; 这样的语法时，更瞬间奠定了R语言在我心中的逗比地位。&lt;/p&gt;
&lt;p&gt;因为老师没有专门教授R的相关细节，毕竟课程的主题不是那个，加之R的语法与众不同，这导致我的R语言相关作业的绝大部分时间一般都在百度、谷歌各种R语言的表达、实现方法中度过。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>第七届中国R语言会议（上海会场）通知</title>
      <link>https://cosx.org/2014/11/7th-r-conference-shanghai/</link>
      <pubDate>Mon, 10 Nov 2014 21:37:50 +0000</pubDate>
      
      <guid>https://cosx.org/2014/11/7th-r-conference-shanghai/</guid>
      <description>R是一门用于数据分析和图形展示的语言、平台和环境，其官方机构每年都会举办useR!会议，各个国家及地区也定期有R用户的交流活动。在国内，自2</description>
    </item>
    
    <item>
      <title>COS每周精选：统计速递（2）</title>
      <link>https://cosx.org/2014/11/statistics-courier-2/</link>
      <pubDate>Sun, 09 Nov 2014 23:27:05 +0000</pubDate>
      
      <guid>https://cosx.org/2014/11/statistics-courier-2/</guid>
      <description>本期投稿：施涛 冷静 王小宁 推荐系统 推荐系统现已广泛应用于很多领域，其中最典型并具有良好的发展和应用前景的领域就是电子商务领域。我们看看今年的A</description>
    </item>
    
    <item>
      <title>第七届中国R语言会议（杭州会场）通知</title>
      <link>https://cosx.org/2014/11/7th-r-conference-hangzhou/</link>
      <pubDate>Tue, 04 Nov 2014 11:05:16 +0000</pubDate>
      
      <guid>https://cosx.org/2014/11/7th-r-conference-hangzhou/</guid>
      <description>&lt;p&gt;中国R语言会议从2008年开始已经成功举办到第七届了，之前每年在北京和上海举办的会议都非常成功，大力推动了R语言在国内的蓬勃发展。从2014年起，广州将中国R语言会议的火种带到了华南。作为华东重镇、数据科学家的大本营之一，杭州也开始举办中国R语言会议，在阿里巴巴集团和统计之都的努力下、在杭州师范大学的大力支持下，终于将于2014年11月29日在杭州召开第七届中国R语言会议（杭州会场）的会议。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>COS每周精选：统计速递</title>
      <link>https://cosx.org/2014/11/statistics-courier/</link>
      <pubDate>Sun, 02 Nov 2014 18:57:47 +0000</pubDate>
      
      <guid>https://cosx.org/2014/11/statistics-courier/</guid>
      <description>本期投稿：谢益辉 冷静 王小宁 数据可视化 基于Shiny的维数灾难的可视化（随着维数增加，给定边长的立方体容纳的点会越来越稀疏）。 统计方法 每一种新</description>
    </item>
    
    <item>
      <title>COS每周精选：统计学中的新鲜事</title>
      <link>https://cosx.org/2014/10/the-news-about-statistics/</link>
      <pubDate>Sun, 26 Oct 2014 23:09:28 +0000</pubDate>
      
      <guid>https://cosx.org/2014/10/the-news-about-statistics/</guid>
      <description>本期投稿：谢益辉 冷静 王小宁 数据可视化： 世界上最高的螺旋楼梯，好冷啊。 学界VS业界： “如果我像科学对待我一样对待我老婆，她恐怕早就跑了”，从学</description>
    </item>
    
    <item>
      <title>COS沙龙第22期（北京）</title>
      <link>https://cosx.org/2014/10/22salon/</link>
      <pubDate>Mon, 20 Oct 2014 22:41:25 +0000</pubDate>
      
      <guid>https://cosx.org/2014/10/22salon/</guid>
      <description>主题：移动音频推荐系统实践二三事 嘉宾：陈开江 主办：统计之都、北京大学商务智能研究中心 场地：北京大学光华管理学院 组织：蔡占锐、闫晗、吕翔、邓一</description>
    </item>
    
    <item>
      <title>第七届中国R语言会议（广州会场）通知</title>
      <link>https://cosx.org/2014/10/7th-r-conference-guangzhou/</link>
      <pubDate>Wed, 15 Oct 2014 22:26:51 +0000</pubDate>
      
      <guid>https://cosx.org/2014/10/7th-r-conference-guangzhou/</guid>
      <description>R是一门用于数据分析和图形展示的语言、平台和环境，其官方机构每年都会举办useR!会议，各个国家及地区也定期有R用户的交流活动。在国内，自2</description>
    </item>
    
    <item>
      <title>R绘制中国航线分布夜景图</title>
      <link>https://cosx.org/2014/09/visualizing-flights-data/</link>
      <pubDate>Tue, 23 Sep 2014 11:05:19 +0000</pubDate>
      
      <guid>https://cosx.org/2014/09/visualizing-flights-data/</guid>
      <description>本文作者：李根，资深数据分析师，数学爱好者。 绘制数据地图是一种有效展现空间数据的方法，美丽的数据展示更容易引起读者的共鸣。本地图设计的初衷是</description>
    </item>
    
    <item>
      <title>郁彬：让我们拥抱数据科学（Let us own data science）</title>
      <link>https://cosx.org/2014/09/let-us-own-data-science/</link>
      <pubDate>Mon, 15 Sep 2014 09:49:10 +0000</pubDate>
      
      <guid>https://cosx.org/2014/09/let-us-own-data-science/</guid>
      <description>郁彬教授8月22日在北京大学做了名为**让我们拥抱数据科学(Let us own data science)**的讲座。在演讲中郁彬从一个统计学家的角度出发，讲</description>
    </item>
    
    <item>
      <title>R绘制中国地图，并展示流行病学数据</title>
      <link>https://cosx.org/2014/08/r-maps-for-china/</link>
      <pubDate>Thu, 14 Aug 2014 23:24:13 +0000</pubDate>
      
      <guid>https://cosx.org/2014/08/r-maps-for-china/</guid>
      <description>&lt;blockquote&gt;
&lt;p&gt;本文作者：姜晓东，博士毕业于上海交通大学，目前任教于湖南师范大学医学院，专业神经毒理学。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;流行病学的数据讲究“三间分布”，即人群分布、时间分布和空间分布。其中的“空间分布”最好是在地图上展示，才比较清楚。R软件集统计分析与高级绘图于大成，是最适合做这项工作了。关于地图的绘制过程，谢益辉、邱怡轩和陈丽云等人都早有文章讲述，开R地图中文教程之先河。由于目前指导毕业论文用到，因此研究了一下。本来因为网上教程很多，曾打消了写些文字的计划，但怡轩版主鼓励说“教程者众，整合者鲜”，所以才战胜拖延症，提起拙笔综述整合一下，并对DIY统计GIS地图提出了一点自己的想法。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>他乡与梦想：吕令子纪念基金</title>
      <link>https://cosx.org/2014/08/lingzi-lu-memorial-award/</link>
      <pubDate>Sun, 10 Aug 2014 21:35:06 +0000</pubDate>
      
      <guid>https://cosx.org/2014/08/lingzi-lu-memorial-award/</guid>
      <description>&lt;p&gt;大家应该还记得在 2013 年 4 月 15 日美国波士顿马拉松比赛终点发生的爆炸案。在不幸遇难的受害者中，有一位来自中国的年轻学生吕令子。当时，她正在波士顿大学（Boston University）攻读统计学研究生。悲剧让世界失去了一个年轻的生命，也让活在世间的人们再次审视生命的价值和意义。&lt;/p&gt;
&lt;p&gt;在悲剧发生之后，各界人士聚集力量成立了好几个纪念吕令子的基金。吕令子纪念基金（&lt;a href=&#34;http://www.amstat.org/awards/lingzilumemorialaward.cfm&#34;&gt;http://www.amstat.org/awards/lingzilumemorialaward.cfm&lt;/a&gt;）便是其中之一。吕令子纪念基金由波士顿大学的 Eric Kolaczyk 教授提议，并以美国统计学会和泛华统计学会这两个学术学会发起成立。作为一个由学术组织创立的基金，吕令子纪念基金的主要目的是怀念吕令子——这位统计学科不幸失去的年轻一员——同时也寄望建立一个平台，以支持像吕令子这样的年轻学生在统计学方向追求他们的理想。&lt;/p&gt;
&lt;p&gt;经过一年时间的努力，在多位统计学家和相关企业的支持下，吕令子纪念基金筹集到了初期运作所需的基本金额。在筹款过程中，不少知名的统计学家都积极地参与了捐款和募捐。由明年起，吕令子纪念基金每年会以奖金的形式资助 1300 美元给一名在读或刚毕业的统计硕士生参加二月召开的美国统计协会统计实践会议（ASA Conference on Statistical Practice ）。该奖项的申请现已开始，截止日期为 2014 年 10 月 15 日，符合资格和有兴趣申请的同学可参看本文附录或访问 ASA 官方网页：&lt;/p&gt;
&lt;p&gt;&lt;a href=&#34;http://www.amstat.org/awards/lingzilumemorialaward.cfm&#34;&gt;http://www.amstat.org/awards/lingzilumemorialaward.cfm&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;吕令子同学生前也是统计之都微博的一位粉丝。作为一个推广统计学与数据科学的社区，我们统计之都也为失去吕令子这位成员而感到悲痛。我们希望以统计之都的微薄力量，让更多和吕令子有类似梦想的年轻学生在统计学这个社区中感受到相互支持和关爱！&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>COS每周精选：A visual explanation of Markov Chains</title>
      <link>https://cosx.org/2014/08/a-visual-explanation-of-markov-chains/</link>
      <pubDate>Wed, 06 Aug 2014 08:29:29 +0000</pubDate>
      
      <guid>https://cosx.org/2014/08/a-visual-explanation-of-markov-chains/</guid>
      <description>&lt;p&gt;本周投稿：&lt;a href=&#34;http://yihui.name/&#34;&gt;谢益辉&lt;/a&gt; &lt;a href=&#34;http://www.weibo.com/p/1005051756465937/home?from=page_100505&amp;amp;mod=TAB#place&#34;&gt;冷静&lt;/a&gt; &lt;a href=&#34;http://blog.cos.name/taoshi&#34;&gt;施涛&lt;/a&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt; Norm Matloff教授的开放书籍&lt;a href=&#34;http://heather.cs.ucdavis.edu/probstatbook&#34;&gt;一本&lt;/a&gt;：我觉得这老爷子挺擅长写东西给初学者的&lt;/li&gt;
&lt;li&gt;Terence’s Stuff: &lt;a href=&#34;http://bulletin.imstat.org/2014/02/terence%E2%80%99s-stuff-give-industry-a-chance/&#34;&gt;Give Industry a Chance&lt;/a&gt;&lt;/li&gt;
&lt;li&gt; 百年&lt;a href=&#34;http://flowingdata.com/2014/04/15/mapping-a-century-of-earthquakes/&#34;&gt;地震数据&lt;/a&gt;供查询，数据为王的时代，珍贵矿藏还不赶快收藏~&lt;/li&gt;
&lt;li&gt;一本关于R的&lt;a href=&#34;http://blog.revolutionanalytics.com/2014/03/strings-in-r-free-ebook.html&#34;&gt;文本数据处理&lt;/a&gt;的免费电子书，正所谓书到用时方恨少，事非经过不知难。电子书一本接着一本，你可看过多少？&lt;/li&gt;
&lt;li&gt; 上哪儿找&lt;a href=&#34;http://www.inside-r.org/howto/finding-data-internet&#34;&gt;数据&lt;/a&gt;？（不要点我，不要点我）&lt;/li&gt;
&lt;/ul&gt;</description>
    </item>
    
    <item>
      <title>IMS：一个洲际人际交流网络（为学生免费提供会员资格）</title>
      <link>https://cosx.org/2014/07/ims-a-cross-continent-human-network/</link>
      <pubDate>Tue, 29 Jul 2014 01:32:17 +0000</pubDate>
      
      <guid>https://cosx.org/2014/07/ims-a-cross-continent-human-network/</guid>
      <description>译者注：原文刊登于 IMS Bulletin，作者为国际数理统计学会（Institute of Mathematical Statistics）现任主席郁彬教授。郁彬是加州大学伯</description>
    </item>
    
    <item>
      <title>COS访谈第16期——加州大学戴文斯分校蔡知令教授</title>
      <link>https://cosx.org/2014/07/cos-interview-16-chih-ling-tsai/</link>
      <pubDate>Thu, 17 Jul 2014 15:29:56 +0000</pubDate>
      
      <guid>https://cosx.org/2014/07/cos-interview-16-chih-ling-tsai/</guid>
      <description>&lt;p&gt;简介：&lt;a href=&#34;http://gsm.ucdavis.edu/faculty/chih-ling-tsai&#34;&gt;蔡知令&lt;/a&gt;，加州大学戴维斯分校管理学院杰出教授和讲席教授。曾被MBA学生14次评选为年度教师。&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://uploads.cosx.org/2014/07/tsai_web.jpg&#34; alt=&#34;蔡知令&#34;&gt;&lt;/p&gt;
&lt;p&gt;Xuening: 听说您的求学经历比较曲折，能给我们讲讲嘛？&lt;/p&gt;
&lt;p&gt;Tsai: 念书就是从小学考初中，没考顺利，然后初中考高中也没考好，就是读夜校。一般人就是认为说这个学生的程度不是很好。然后高中考大学第一年没考取，第二年就考到淡江（文理学院）。所以在台湾求学经历比较坎坷。但是就我自己而言，上大学以后，专业是数学，还有一点兴趣，至少不讨厌。我当时志愿填数学的理由很简单，数学不像工学一样要画图啊，不像物理化学一样要做实验啊，就是想法很单纯填了数学。大学四年是纯数学，所以我就没有接触过统计课程。念书过程中我觉得唯一不错的就是，我能提早准备，比如说我寒暑假都留在学校，基本上不太回家，除了看爸爸妈妈。在学校就是去图书馆读大量的书籍，所以提前大致就可以知道课要教什么了。有些也读不懂，读不懂就自己写下来，对以后做研究也有点帮助就是自己可以学着怎么去写summary（总结），把自己的感想心得写下来，日积月累，大学四年念下来，收获还是蛮大的。&lt;/p&gt;
&lt;p&gt;Xuening: 您刚才提到一开始对于数学的兴趣没有这么浓厚，但是您大学四年的学习可以说相当认真努力，主要来源于什么动力呢？&lt;/p&gt;
&lt;p&gt;Tsai: 有几个。一个动力就是因为家里环境不好，我是老大，我母亲曾经建议我去念军校，因为考到私立大学负担很重，下面还有弟弟妹妹要念书；我爸爸做了一辈子军人，他认为我个性不适合，说再苦也要让我去念个大学。所以对我来说就是家里的期望，就是好好念，念得好坏不一定，但是我每次就是尽个力吧。我真正兴趣来的时候就是观察老师还有学长的学习，我们那个大学虽然一般，但是数学系很是不错，可以和台湾大学或者清华大学齐名。有一些活动比如说有微积分社，我举个例子，学长就会跟学弟学妹交流，比如微积分的起源啊应用啊，一起分享。老师中那个时候博士很少，一些讲师他们就住在学校，平时一起打打球、下下棋，这个氛围让我耳濡目染，慢慢感觉还蛮有兴趣的，然后自己又慢慢摸索，学起来觉得虽然抽象但是有它的逻辑性所在。真正开始有兴趣差不多大三以上，大一大二就是必修，大三以上就比较专注一点，比如现代代数、微分几何、拓扑等等，学起来还觉得蛮有兴趣，那个时候开始产生的兴趣。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>rlist：基于list在R中处理非关系型数据</title>
      <link>https://cosx.org/2014/07/rlist-package/</link>
      <pubDate>Thu, 03 Jul 2014 09:51:55 +0000</pubDate>
      
      <guid>https://cosx.org/2014/07/rlist-package/</guid>
      <description>本文作者：任坤，厦门大学王亚南经济研究院金融硕士生，研究兴趣为计算统计和金融量化交易，pipeR，learnR，rlist等项目的作者。 近年</description>
    </item>
    
    <item>
      <title>神奇的伽玛函数(下)</title>
      <link>https://cosx.org/2014/07/gamma-function-2/</link>
      <pubDate>Tue, 01 Jul 2014 19:52:23 +0000</pubDate>
      
      <guid>https://cosx.org/2014/07/gamma-function-2/</guid>
      <description>&lt;h1 id=&#34;五-gamman--n-1-还是--gamman--n--&#34;&gt;五、&lt;code&gt;$ \Gamma(n) = (n-1)!$&lt;/code&gt; 还是 &lt;code&gt;$ \Gamma(n) = n! $&lt;/code&gt; ?&lt;/h1&gt;
&lt;p&gt;伽玛函数找到了，我们来看看第二个问题，为何伽玛函数被定义为满足 &lt;code&gt;$\Gamma(n)=(n-1)!$&lt;/code&gt;? 这看起来挺别扭的，如果我们稍微修正一下，把伽玛函数定义中的 &lt;code&gt;$t^{x-1}$&lt;/code&gt; 替换为 &lt;code&gt;$t^x$&lt;/code&gt;&lt;/p&gt;
&lt;p&gt;&lt;code&gt;$$ \Gamma(x) = \int_0^{\infty} t^{x}e^{-t}dt , $$&lt;/code&gt;&lt;/p&gt;
&lt;p&gt;这不就可以使得 &lt;code&gt;$\Gamma(n)=n!$&lt;/code&gt;了嘛。估计数学界每年都有学生问这个问题，然而答案却一直有一些争议。&lt;/p&gt;
&lt;p&gt;欧拉最早的伽玛函数定义还真是如上所示，选择了&lt;code&gt;$\Gamma(n)=n!$&lt;/code&gt;，事实上数学王子高斯在研究伽玛函数的时候， 一直使用的是如下定义：&lt;/p&gt;
&lt;p&gt;&lt;code&gt;$$ \Pi(x)=\int_{0}^\infty t^x e^{-t}\,dt ,$$&lt;/code&gt;&lt;/p&gt;
&lt;p&gt;然而这个定义在历史上并没有流传开来。&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://uploads.cosx.org/2014/07/legendre.jpg&#34; alt=&#34;勒让德肖像水彩画&#34;&gt;&lt;/p&gt;
&lt;p&gt;欧拉在伽玛函数的推导中实际上引入了两类积分形式&lt;/p&gt;
&lt;p&gt;&lt;code&gt;$$\int_0^1 t^{x}(1-t)^{y}dt, \quad \quad \int_0^{\infty} t^{x}e^{-t}dt$$&lt;/code&gt;&lt;/p&gt;
&lt;p&gt;现在我们分别称为欧拉一类积分和欧拉二类积分。勒让德追随欧拉的脚步，发表了多篇论文对欧拉积分进行了深入的研究和推广，不过在勒让德的研究中，对积分中的参数做了 &lt;code&gt;$-1$&lt;/code&gt; 的移位修改，主要定义为&lt;/p&gt;
&lt;p&gt;&lt;code&gt;$$ B(x, y) = \int_0^1 t^{x-1}(1-t)^{y-1}dt $$&lt;/code&gt;&lt;/p&gt;
&lt;p&gt;和&lt;/p&gt;
&lt;p&gt;&lt;code&gt;$$ \Gamma(x) = \int_0^{\infty} t^{x-1}e^{-t}dt .$$&lt;/code&gt;&lt;/p&gt;
&lt;p&gt;&lt;code&gt;$B(x,y)$&lt;/code&gt; 现在称为贝塔积分或者贝塔函数。其中&lt;code&gt;$\Gamma(x)$&lt;/code&gt; 的这个定义选择导致了 &lt;code&gt;$ \Gamma(n) = (n-1)!$&lt;/code&gt;。实际上伽马函数中的&lt;code&gt;$\Gamma$&lt;/code&gt;符号历史上就是勒让德首次引入的，而勒让德给出的这个伽玛函数的定义在历史上起了决定作用，该定义被法国的数学家广泛采纳并在世界范围推广，最终使得这个定义在现代数学中成为了既成事实。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>神奇的伽玛函数(上)</title>
      <link>https://cosx.org/2014/07/gamma-function-1/</link>
      <pubDate>Tue, 01 Jul 2014 08:50:52 +0000</pubDate>
      
      <guid>https://cosx.org/2014/07/gamma-function-1/</guid>
      <description>&lt;h1 id=&#34;一开篇&#34;&gt;一、开篇&lt;/h1&gt;
&lt;p&gt;数学爱好者们汇集在网络论坛上的一大乐事就是对各类和数学相关的事物评头论足、论资排辈。如果要评选历史上最伟大的数学家，就会有一大堆的粉丝围绕高斯、黎曼、牛顿、欧拉、阿基米德等一流人物展开口水战；如果要讨论最奇妙的数学常数，&lt;code&gt;\(e, \pi, \phi=\frac{\sqrt{5}-1}{2} \)&lt;/code&gt; 肯定在候选队列中；如果要推举最美丽的数学公式，欧拉公式 &lt;code&gt;\(e^{i\pi} + 1= 0 \)&lt;/code&gt; 与和式 &lt;code&gt;\( 1 + \frac{1}{2^2} + \frac{1}{3^2} + \frac{1}{4^2} + \cdots = \frac{\pi^2}{6} \)&lt;/code&gt; 常常被数学爱好者们提及；如果有人追问最神奇的数学函数是什么？ 这个问题自然又会变得极具争议，而我相信如下这个长相有点奇特的伽玛函数&lt;/p&gt;
&lt;p&gt;&lt;code&gt;$$ \Gamma(x)=\int_0^{\infty}t^{x-1}e^{-t}dt $$&lt;/code&gt;&lt;/p&gt;
&lt;p&gt;一定会出现在候选队列中。&lt;/p&gt;
&lt;p&gt;伽玛函数不是初等函数，而是用积分形式定义的超越函数，怎么看都让人觉得不如初等函数自然亲切。然而伽玛函数也被称为阶乘函数，高等数学会告诉我们一个基本结论：伽玛函数是阶乘的推广。通过分部积分的方法，容易证明这个函数具有如下的递归性质&lt;/p&gt;
&lt;p&gt;&lt;code&gt;$$\Gamma(x+1) = x \Gamma(x)$$&lt;/code&gt;&lt;/p&gt;
&lt;p&gt;由此可以推导出，对于任意的自然数&lt;code&gt;\(n\)&lt;/code&gt;&lt;/p&gt;
&lt;p&gt;&lt;code&gt;$$\Gamma(n) = (n-1)! $$&lt;/code&gt;&lt;/p&gt;
&lt;p&gt;由于伽玛函数在整个实数轴上都有定义，于是可以看做阶乘概念在实数集上的延拓。&lt;/p&gt;
&lt;p&gt;如果我们继续再学习一些数学，就会惊奇地发现这个具有神秘气质的伽玛函数真是才华横溢。她栖身于现代数学的各个分支，在微积分、概率论、偏微分方程、组合数学， 甚至是看起来八竿子打不着的数论当中，都起着重要的作用。 并且这个函数绝非数学家们凭空臆想的一个抽象玩具，它具有极高的实用价值，频繁现身于在现代科学尤其是物理学之中。&lt;/p&gt;
&lt;p&gt;笔者对数学的涉猎很有限，主要是从概率统计中频繁地接触和学习这个函数，不过这个函数多年来一直都让我心存疑惑：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;都说&lt;code&gt;\(n!\)&lt;/code&gt;和伽玛函数是近亲，可是从相貌上这两个数学公式都差了十万八千里，历史上数学家们是如何找到这个奇特的函数的？&lt;/li&gt;
&lt;li&gt;现代数学对伽玛函数的定义使它满足 &lt;code&gt;\(\Gamma(n) = (n-1)!\)&lt;/code&gt;，既然号称是&lt;code&gt;\(n!\)&lt;/code&gt; 的推广，为何定义伽玛函数的时候不让它满足&lt;code&gt;\(\Gamma(n) = n!\)&lt;/code&gt;？这看起来不是更加舒服自然吗？&lt;/li&gt;
&lt;li&gt;伽玛函数是唯一满足阶乘特性的推广函数吗？&lt;/li&gt;
&lt;li&gt;伽玛函数在各种概率分布的密度函数中频繁出现，伽玛函数本身是否有直观的概率解释？&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;带着这些疑问，笔者翻阅了许多讲解伽马函数历史和应用的资料，发现伽玛函数真是一个来自异族的美女，与生俱来携带着一种神秘的色彩。你要接近她并不难，然而她魅力独特，令你无法看透。从她出生开始，就吸引着众多一流的数学家对她进行解读。 历史上伽玛函数的发现，和数学家们对阶乘、插值以及积分的研究有着紧密的关系，而这最早要从著名的沃利斯公式讲起。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>诲人以心</title>
      <link>https://cosx.org/2014/06/teaching-with-heart/</link>
      <pubDate>Sat, 28 Jun 2014 10:04:08 +0000</pubDate>
      
      <guid>https://cosx.org/2014/06/teaching-with-heart/</guid>
      <description>&lt;p&gt;在过去的10年里，我们目睹了许多显赫的商人做出了愚蠢和冒险的决策，这些决策对全球经济和个人投资者都造成了严重的损失。例如在去年，一名摩根大通的无良交易员因为投资某些隐晦且复杂的金融衍生品而损失了58亿美元。随着这类行为变得越来越常见，大众已不再相信商业和金融机构能为他们的行为负责，这种不信任的情绪也损害了商学院以及那些获得MBA学位毕业生们的声誉。&lt;/p&gt;
&lt;p&gt;如何解决这些问题呢？我个人坚信，如果那些商学院的学生们学会自省，而不是被教导一味追逐不断增长的利益，就一定可以打破这个恶性循环。当今的商学院课堂上，教师们都过于强调技巧方法，而忽略了建立个人责任感和道德观的重要性。我们重视课程内容的分分秒秒，却忽略了我们这样做是否在帮助学生们变得更加成熟和有担当。其实拓宽教学内容，我们便可以帮助MBA学生们为他们的社会地位和贡献赢得更多的尊重，而不仅仅是高收入。&lt;/p&gt;
&lt;p&gt;对于商学院的教师，无论教授的课程多么理论和技术化，都应该学会用心来教学。我在加州大学戴维斯分校的管理学院教授统计学，许多学生认为它和其他统计学课程没有什么差别。但是，我将知识与感情、品德、创造力以及毅力一起融合到教学之中，也向学生展示如何培养一个领导者悲天悯人的情怀，让一个统计学课程更具有特色。任何人都可以运用这种方法来教授任何专题。我坚信如果教授们用心上他们的课程，商业教育便会有极大程度的提高。所以，开始行动吧！&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>第七届中国R语言会议（北京）纪要【含演讲资料】</title>
      <link>https://cosx.org/2014/06/7th-china-r-beijing-summary/</link>
      <pubDate>Sat, 07 Jun 2014 15:00:34 +0000</pubDate>
      
      <guid>https://cosx.org/2014/06/7th-china-r-beijing-summary/</guid>
      <description>&lt;p&gt;第七届中国 R 语言会议（北京会场）于 2014 年 5 月 24 日 ~ 25 日在中国人民大学成功召开。第一日举办于如论讲堂，第二日举办于明德商学楼0102，0202以及0302三大分会场。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>[朝花夕拾] 从学习数学公式到实践统计分析</title>
      <link>https://cosx.org/2014/05/from-math-to-app-stat/</link>
      <pubDate>Wed, 28 May 2014 10:34:05 +0000</pubDate>
      
      <guid>https://cosx.org/2014/05/from-math-to-app-stat/</guid>
      <description>&lt;p&gt;想想从小学到大学，在各种课程中我们都是在学习自然界的各种规律。它们之所以称为规律，就是因为它们有可重复性。从数学、物理、化学等自然学科，到历史、经济、社会等人文学科，人们都希望找到“规律”，从而用其解释、预测和改变周围的世界，就像著名的&lt;/p&gt;
&lt;p&gt;&lt;code&gt;$$E = MC^2$$&lt;/code&gt;&lt;/p&gt;
&lt;p&gt;到大学毕业时，我们用二十多年时间积累了各种规律和它们的推导方法。而如何将学到的知识应用到实际中，从小学中做的应用题开始，好像越往上学，我们的课程中关注的也少了。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>[朝花夕拾] 迎接信息时代的统计挑战</title>
      <link>https://cosx.org/2014/05/embracing-statistical-challenges-in-the-information-technology-age/</link>
      <pubDate>Wed, 14 May 2014 11:13:16 +0000</pubDate>
      
      <guid>https://cosx.org/2014/05/embracing-statistical-challenges-in-the-information-technology-age/</guid>
      <description>&lt;p&gt;本文略有修改，原文请点击&lt;a href=&#34;http://blog.cos.name/taoshi/2014/05/12/%E6%9C%9D%E8%8A%B1%E5%A4%95%E6%8B%BE%EF%BC%9A%E8%BF%8E%E6%8E%A5%E4%BF%A1%E6%81%AF%E6%97%B6%E4%BB%A3%E7%9A%84%E7%BB%9F%E8%AE%A1%E6%8C%91%E6%88%98/&#34;&gt;此处&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;本文作者为俄亥俄州立大学的施涛。他把自己读郁彬老师的综述性文章：Embracing Statistical Challenges in the Information Technology Age的读后感和大家分享。&lt;/p&gt;
&lt;p&gt;世事变迁，最近居然忽然有时间坐下来读些东西，重新审视一下这几年统计领域的发展了。粗略回想了一下，惭愧地发现我好像连&lt;a href=&#34;http://www.stat.berkeley.edu/~binyu&#34;&gt;博士导师&lt;/a&gt;的文章也没有系统地读过几篇，只是和自己研究有关的才详细夜读过。于是把她的一些老文章翻出来认真读读，了解一下她对统计研究和学科发展的观点。&lt;/p&gt;
&lt;p&gt;木然回首，那文已在灯火阑珊处。2007年时她写过一篇综述性文章：&lt;a href=&#34;http://www.stat.berkeley.edu/~binyu/ps/embracing.pdf&#34;&gt;Embracing Statistical Challenges in the Information Technology Age&lt;/a&gt;, Bin Yu (2007) &lt;em&gt;Technometrics&lt;/em&gt;, 49(3), 237-248。摘要如下：&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>“支持向量机系列”的番外篇二: Kernel II</title>
      <link>https://cosx.org/2014/05/svm-series-add-2-kernel-ii/</link>
      <pubDate>Thu, 08 May 2014 17:42:55 +0000</pubDate>
      
      <guid>https://cosx.org/2014/05/svm-series-add-2-kernel-ii/</guid>
      <description>&lt;p&gt;原文链接请点击&lt;a href=&#34;http://blog.pluskid.org/?p=723&#34;&gt;这里&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;在之前我们介绍了如何&lt;a href=&#34;https://cosx.org/2014/02/svm-series-3-kernel/&#34;&gt;用 Kernel 方法来将线性 SVM 进行推广以使其能够处理非线性的情况&lt;/a&gt;，那里用到的方法就是通过一个非线性映射 &lt;code&gt;$\phi(\cdot)$&lt;/code&gt;将原始数据进行映射，使得原来的非线性问题在映射之后的空间中变成线性的问题。然后我们利用核函数来简化计算，使得这样的方法在实际中变得可行。不过，从线性到非线性的推广我们并没有把 SVM 的式子从头推导一遍，而只是直接把最终得到的分类函数&lt;/p&gt;
&lt;p&gt;&lt;code&gt;$$ f(x) = \sum_{i=1}^n\alpha_i y_i \langle x_i, x\rangle + b $$&lt;/code&gt;&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://uploads.cosx.org/2014/05/infinity.png&#34; alt=&#34;infinity&#34;&gt;&lt;/p&gt;
&lt;p&gt;中的内积换成了映射后的空间中的内积，并进一步带入了核函数进行计算。如果映射过后的空间是有限维的，那么这样的做法是可行的，因为之前的推导过程会一模一样，只是特征空间的维度变化了而已，相当于做了一些预处理。但是如果映射后的空间是无限维的，还能不能这么做呢？答案当然是能，因为我们已经在这么做了嘛！但是理由却并不是理所当然的，从有限到无限的推广许多地方都可以“直观地”类比，但是这样的直观性仍然需要严格的数学背景来支持，否则就会在一些微妙的地方出现一些奇怪的“悖论”（例如比较经典的芝诺的那些悖论）。当然这是一个很大的坑，没法填，所以这次我们只是来浮光掠影地看一看核方法背后的故事。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>在R中使用管道操作</title>
      <link>https://cosx.org/2014/04/use-pipeline-operators-in-r/</link>
      <pubDate>Thu, 24 Apr 2014 12:00:17 +0000</pubDate>
      
      <guid>https://cosx.org/2014/04/use-pipeline-operators-in-r/</guid>
      <description>&lt;ul&gt;
&lt;li&gt;原文作者：&lt;a href=&#34;http://renkun.me/&#34;&gt;任坤&lt;/a&gt;，厦门大学王亚南经济研究院金融硕士生，研究兴趣为计算统计和金融量化交易。&lt;/li&gt;
&lt;li&gt;原文地址：&lt;a href=&#34;http://renkun.me/blog/r/2014/04/08/use-pipeline-operators-in-r.html&#34;&gt;http://renkun.me/blog/r/2014/04/08/use-pipeline-operators-in-r.html&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;在数据驱动的统计计算和数据分析过程中，逐步使用一串命令来完成任务是很常见的情况。但是，由于后调用的函数需要先写出来，所以写一组深层嵌套的函数既不直观又缺乏灵活性。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>昔日因，今日意</title>
      <link>https://cosx.org/2014/04/lmm-and-me/</link>
      <pubDate>Sat, 19 Apr 2014 10:52:10 +0000</pubDate>
      
      <guid>https://cosx.org/2014/04/lmm-and-me/</guid>
      <description>飞帅云：“三十功名尘与土，八千里路云和月。莫等闲，白了少年头，空悲切。”可我在耶鲁两年多了，基本一事无成。既没有像当年那样死磕Lasso和B</description>
    </item>
    
    <item>
      <title>失联搜救中的统计数据分析</title>
      <link>https://cosx.org/2014/04/search-rescue-plane-statistical-data-analysis/</link>
      <pubDate>Sat, 12 Apr 2014 13:48:15 +0000</pubDate>
      
      <guid>https://cosx.org/2014/04/search-rescue-plane-statistical-data-analysis/</guid>
      <description>&lt;blockquote&gt;
&lt;p&gt;大数据时代如何活用数据可视化、大数据与众包、群体智慧、贝叶斯方法等为失联搜救出谋献策？请看下文。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;h1 id=&#34;引子&#34;&gt;引子&lt;/h1&gt;
&lt;p&gt;“MH370”作为航班代码，是近日震惊世界的马来西亚航空公司客机失去联络事件（后简称“马航事件”）留给公众最深刻的数字印象。时至今日，有关马航事件的调查和搜救工作仍在继续。遗憾的是直到截稿时间，MH370航班的残骸仍未找到。&lt;/p&gt;
&lt;p&gt;在历史上的多次飞机船只等交通工具出现失联情况的突发事件中，数据的收集、分析以及信息的及时发布都在搜寻中起到过关键的作用。比如在2009年，法国航空公司曾有一架民航客机失去联络和踪迹。当时，有不少基于数据分析的文献为失事飞机的搜寻提供了援助。前事不忘，后事之师。本文旨在基于统计学领域的相关知识结合大众可以获知的信息来对马航事件进行了解和分析。本文秉持科普视角，试图阐述在应对马航事件过程中数据收集和数据分析所起到的作用，继而为寻找失联飞机提供一些思路。我们将以寻找失事飞机和船只的事件为线索，来梳理其中涉及到的数据分析思路，以试图减少大家的猜疑和困惑。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>COS每周精选：统计学者的工作及风范: 灵感、抱负与雄心</title>
      <link>https://cosx.org/2014/04/inspiration-aspiration-ambition/</link>
      <pubDate>Sat, 12 Apr 2014 10:27:54 +0000</pubDate>
      
      <guid>https://cosx.org/2014/04/inspiration-aspiration-ambition/</guid>
      <description>本周投稿：谢益辉 冷静 施涛 肖楠 从历史上看, 一个国家要变成大国, 变成真正受人尊敬的大国, 或者一个科学界, 要衡量它的成熟以及它本身的品质, 其中一个</description>
    </item>
    
    <item>
      <title>第七届中国R语言会议（北京会场）通知</title>
      <link>https://cosx.org/2014/04/7th-r-conference-beijing/</link>
      <pubDate>Mon, 07 Apr 2014 15:51:39 +0000</pubDate>
      
      <guid>https://cosx.org/2014/04/7th-r-conference-beijing/</guid>
      <description>&lt;p&gt;R是一门用于数据分析和图形展示的语言、平台和环境，其官方机构每年都会举办useR!会议，各个国家及地区也定期有R用户的交流活动。在国内，自2008年以来，中国已经在北京和上海成功举办了六届R语言会议，促进了R语言在中国的推广和发展。为了进一步加强各领域R语言使用者之间的交流和互动，我们准备在2014年5月24-25日在北京举行第七届中国R语言会议（北京会场）。除了统计之都主站，会务信息还会通会议主页(&lt;a href=&#34;http://china-r.org/&#34;&gt;http://china-r.org/&lt;/a&gt;)，微信 (扫描本页面右侧微信公众平台二维码即可关注)、微博(&lt;a href=&#34;http://weibo.com/cosname&#34;&gt;@统计之都&lt;/a&gt;)来发布，欢迎大家关注获取最新消息。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>“支持向量机系列”的番外篇一: Duality</title>
      <link>https://cosx.org/2014/03/svm-series-add-1-duality/</link>
      <pubDate>Wed, 19 Mar 2014 13:10:08 +0000</pubDate>
      
      <guid>https://cosx.org/2014/03/svm-series-add-1-duality/</guid>
      <description>&lt;p&gt;原文链接请点击&lt;a href=&#34;http://blog.pluskid.org/?p=702&#34;&gt;这里&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;在&lt;a href=&#34;http://blog.pluskid.org/?p=682&#34;&gt;之前关于support vector的推导&lt;/a&gt;中，我们提到了dual，这里再来补充一点相关的知识。这套理论不仅适用于 SVM 的优化问题，而是对于所有带约束的优化问题都适用的，是优化理论中的一个重要部分。简单来说，对于任意一个带约束的优化都可以写成这样的形式：&lt;/p&gt;
&lt;p&gt;&lt;code&gt;$$ \begin{aligned} \min&amp;amp;f_0(x) \\ s.t. &amp;amp;f_i(x)\leq 0, \quad i=1,\ldots,m\\ &amp;amp;h_i(x)=0, \quad i=1,\ldots,p \end{aligned} $$&lt;/code&gt;&lt;/p&gt;
&lt;p&gt;形式统一能够简化推导过程中不必要的复杂性。其他的形式都可以归约到这样的标准形式，例如一个&lt;code&gt;$\max f(x)$&lt;/code&gt;可以转化为&lt;code&gt;$\min -f(x)$&lt;/code&gt;等。假如 &lt;code&gt;$f_0,f_1,\ldots,f_m$&lt;/code&gt;全都是&lt;a href=&#34;http://en.wikipedia.org/wiki/Convex_function&#34;&gt;凸函数&lt;/a&gt;，并且&lt;code&gt;$h_1,\ldots,h_p$&lt;/code&gt;全都是&lt;a href=&#34;http://en.wikipedia.org/wiki/Affine_function&#34;&gt;仿射函数&lt;/a&gt;（就是形如 &lt;code&gt;$Ax+b$&lt;/code&gt; 的形式），那么这个问题就叫做凸优化（Convex Optimization）问题。凸优化问题有许多优良的性质，例如它的极值是唯一的。不过，这里我们并没有假定需要处理的优化问题是一个凸优化问题。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>COS每周精选：谈钱不伤感情</title>
      <link>https://cosx.org/2014/03/lets-talk-about-money/</link>
      <pubDate>Thu, 13 Mar 2014 08:58:15 +0000</pubDate>
      
      <guid>https://cosx.org/2014/03/lets-talk-about-money/</guid>
      <description>&lt;p&gt;本周投稿：&lt;a href=&#34;http://yihui.name/&#34;&gt;谢益辉&lt;/a&gt; &lt;a href=&#34;http://www.weibo.com/p/1005051756465937/home?from=page_100505&amp;amp;mod=TAB#place&#34;&gt;冷静&lt;/a&gt; &lt;a href=&#34;http://blog.cos.name/taoshi&#34;&gt;施涛&lt;/a&gt; &lt;a href=&#34;http://www.road2stat.com/&#34;&gt;肖楠&lt;/a&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;谈钱不伤感情：&lt;/strong&gt; Revolutions 做了一项调查，发现掌握R语言的人的工资水平在11万美元左右（年薪），比Mapreduce, hadoop 都要高。。哎，别跟我谈钱，多俗啊！忍不住的快来看闪闪发光的标题《&lt;a href=&#34;http://blog.revolutionanalytics.com/2014/02/r-salary-surveys.html&#34;&gt;R skills attract the highest salaries&lt;/a&gt;》&lt;/li&gt;
&lt;/ul&gt;</description>
    </item>
    
    <item>
      <title>支持向量机系列五：Numerical Optimization</title>
      <link>https://cosx.org/2014/03/svm-series-5-support-vector/</link>
      <pubDate>Thu, 06 Mar 2014 20:47:13 +0000</pubDate>
      
      <guid>https://cosx.org/2014/03/svm-series-5-support-vector/</guid>
      <description>&lt;p&gt;原文链接请点击&lt;a href=&#34;http://blog.pluskid.org/?p=696&#34;&gt;这里&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;作为支持向量机系列的基本篇的最后一篇文章，我在这里打算简单地介绍一下用于优化 dual 问题的 Sequential Minimal Optimization (SMO) 方法。确确实实只是简单介绍一下，原因主要有两个：第一这类优化算法，特别是牵涉到实现细节的时候，干巴巴地讲算法不太好玩，有时候讲出来每个人实现得结果还不一样，提一下方法，再结合实际的实现代码的话，应该会更加明了，而且也能看出理论和实践之间的差别；另外（其实这个是主要原因）我自己对这一块也确实不太懂。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>recommenderlab包实现电影评分预测</title>
      <link>https://cosx.org/2014/02/recommenderlab-packages/</link>
      <pubDate>Wed, 26 Feb 2014 13:51:44 +0000</pubDate>
      
      <guid>https://cosx.org/2014/02/recommenderlab-packages/</guid>
      <description>&lt;p&gt;&lt;a href=&#34;http://cran.r-project.org/web/packages/recommenderlab/index.html&#34;&gt;recommenderlab&lt;/a&gt;是R语言非常强大的包，能帮助使用者针对评分数据或者0-1(不喜欢/喜欢)二分数据开发和测试推荐算法，本文就是利用该包对于 &lt;a href=&#34;http://grouplens.org/datasets/movielens/&#34;&gt;movielens&lt;/a&gt;的电影评分数据进行预测和推荐，会对比基于用户的协同过滤和基于项的协同过滤在推荐效果上的差别。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>支持向量机系列四：Outliers</title>
      <link>https://cosx.org/2014/02/svm-series-4-support-vector/</link>
      <pubDate>Sat, 22 Feb 2014 10:01:37 +0000</pubDate>
      
      <guid>https://cosx.org/2014/02/svm-series-4-support-vector/</guid>
      <description>&lt;p&gt;原文链接请点击&lt;a href=&#34;http://blog.pluskid.org/?p=692&#34;&gt;这里&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;在&lt;a href=&#34;http://blog.pluskid.org/?p=632&#34;&gt;最开始讨论支持向量机的时候&lt;/a&gt;，我们就假定，数据是线性可分的，亦即我们可以找到一个可行的超平面将数据完全分开。后来为了处理非线性数据，&lt;a href=&#34;http://blog.pluskid.org/?p=685&#34;&gt;使用 Kernel 方法对原来的线性 SVM 进行了推广&lt;/a&gt;，使得非线性的的情况也能处理。虽然通过映射&lt;code&gt;\(\phi(\cdot)\)&lt;/code&gt;将原始数据映射到高维空间之后，能够线性分隔的概率大大增加，但是对于某些情况还是很难处理。例如可能并不是因为数据本身是非线性结构的，而只是因为数据有噪音。对于这种偏离正常位置很远的数据点，我们称之为 outlier ，在我们原来的 SVM 模型里，outlier 的存在有可能造成很大的影响，因为超平面本身就是只有少数几个 support vector 组成的，如果这些 support vector 里又存在 outlier 的话，其影响就很大了。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>COS每周精选：听过来人说</title>
      <link>https://cosx.org/2014/02/personal-feelings/</link>
      <pubDate>Thu, 20 Feb 2014 07:57:39 +0000</pubDate>
      
      <guid>https://cosx.org/2014/02/personal-feelings/</guid>
      <description>本期投稿： 谢益辉 邱怡轩 冷静 施涛 熊熹 有感而发： 陈大岳老师的新作《统计学科：大有用武之地》新鲜出炉。虽说一定对自己的“孩子”偏爱有加，但也不失客</description>
    </item>
    
    <item>
      <title>支持向量机系列三：Kernel</title>
      <link>https://cosx.org/2014/02/svm-series-3-kernel/</link>
      <pubDate>Mon, 17 Feb 2014 13:06:57 +0000</pubDate>
      
      <guid>https://cosx.org/2014/02/svm-series-3-kernel/</guid>
      <description>原文链接请点击这里 前面我们介绍了线性情况下的支持向量机，它通过寻找一个线性的超平面来达到对数据进行分类的目的。不过，由于是线性方法，所以对非</description>
    </item>
    
    <item>
      <title>COS每周精选：再谈knitr</title>
      <link>https://cosx.org/2014/02/knitr-again/</link>
      <pubDate>Thu, 13 Feb 2014 09:26:15 +0000</pubDate>
      
      <guid>https://cosx.org/2014/02/knitr-again/</guid>
      <description>&lt;p&gt;本期投稿： &lt;a href=&#34;http://yihui.name/&#34;&gt;谢益辉&lt;/a&gt;  &lt;a href=&#34;http://www.road2stat.com/&#34;&gt;肖楠&lt;/a&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;knitr&lt;/strong&gt;： 小编的好哥（ji）们（you）KarlBroman大人写了一份&lt;a href=&#34;http://kbroman.github.io/knitr_knutshell/&#34;&gt;《knitr in a knutshell》&lt;/a&gt;。买不起书或看长篇文档伤不起的同学们不妨看他的简明教程，外加一门&lt;a href=&#34;http://kbroman.github.io/Tools4RR/&#34;&gt;《可重复性研究》&lt;/a&gt;的课程。&lt;/li&gt;
&lt;/ul&gt;</description>
    </item>
    
    <item>
      <title>奇异值分解和图像压缩</title>
      <link>https://cosx.org/2014/02/svd-and-image-compression/</link>
      <pubDate>Sun, 09 Feb 2014 06:40:21 +0000</pubDate>
      
      <guid>https://cosx.org/2014/02/svd-and-image-compression/</guid>
      <description>&lt;p&gt;【2.18更新】：&lt;a href=&#34;https://github.com/road2stat&#34;&gt;楠神&lt;/a&gt;写了一个非常gelivable的&lt;a href=&#34;https://github.com/road2stat/imgsvd&#34;&gt;Shiny应用&lt;/a&gt;，用来动态展示图片压缩的效果随k的变化情况。&lt;a href=&#34;http://yihui.name/&#34;&gt;谢大大&lt;/a&gt;把这个应用放到了&lt;a href=&#34;https://yihui.shinyapps.io/imgsvd/&#34;&gt;RStudio的服务器&lt;/a&gt;上，大家可以点进去玩玩看了。&lt;/p&gt;
&lt;p style=&#34;text-align: center;&#34;&gt;
  =====================代表正义的分割线=====================
&lt;/p&gt;
&lt;p&gt;今天我们来讲讲奇异值分解和它的一些有意思的应用。奇异值分解是一个非常，非常，非常大的话题，它的英文是 Singular Value Decomposition，一般简称为 SVD。下面先给出它大概的意思：&lt;/p&gt;
&lt;p&gt;对于任意一个&lt;code&gt;\(m \times n\)&lt;/code&gt;的矩阵&lt;code&gt;\(M\)&lt;/code&gt;，不妨假设&lt;code&gt;\(m &amp;gt; n\)&lt;/code&gt;，它可以被分解为&lt;/p&gt;
&lt;p&gt;&lt;code&gt;$$M = UDV^{T}$$&lt;/code&gt;&lt;/p&gt;
&lt;p&gt;其中&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;\(U\)&lt;/code&gt; 是一个&lt;code&gt;\(m \times n\)&lt;/code&gt;的矩阵，满足&lt;code&gt;\(U^{T}U = I_{n}\)&lt;/code&gt;，&lt;code&gt;\(I_{n}\)&lt;/code&gt; 是&lt;code&gt;\(n \times n\)&lt;/code&gt;的单位阵&lt;/li&gt;
&lt;li&gt;&lt;code&gt;\(V\)&lt;/code&gt; 是一个&lt;code&gt;\(n \times n\)&lt;/code&gt;的矩阵，满足&lt;code&gt;\(V^{T}V = I_{n}\)&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;\(D\)&lt;/code&gt; 是一个&lt;code&gt;\(n \times n\)&lt;/code&gt;的对角矩阵，所有的元素都非负&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;先别急，我看到这个定义的时候和你一样晕，感觉信息量有点大。事实上，上面这短短的三条可以引发出 SVD 许多重要的性质，而我们今天要介绍的也只是其中的一部分而已。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>COS访谈第15期：Rob J. Hyndman</title>
      <link>https://cosx.org/2014/02/cos-interview-rob-j-hyndman/</link>
      <pubDate>Mon, 03 Feb 2014 17:40:05 +0000</pubDate>
      
      <guid>https://cosx.org/2014/02/cos-interview-rob-j-hyndman/</guid>
      <description>&lt;p&gt;【COS编辑部按】：受访者：&lt;a href=&#34;http://robjhyndman.com/&#34;&gt;Rob J. Hyndman&lt;/a&gt;，采访者：&lt;a href=&#34;http://earo.me/&#34;&gt;Earo Wang&lt;/a&gt;。原文&lt;a href=&#34;http://earo.me/2014/01/interview-with-rob/&#34;&gt;在这&lt;/a&gt;。&lt;/p&gt;
&lt;p&gt;Rob J. Hyndman 是澳大利亚的 &lt;a href=&#34;http://www.monash.edu/&#34;&gt;Monash University&lt;/a&gt; 的统计学教授以及 International Journal of Forecasting 的主编。他也是 &lt;code&gt;forecast&lt;/code&gt; 和 &lt;code&gt;hts&lt;/code&gt; 等广泛被使用的 R 包的作者。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;Earo&lt;/strong&gt;: 你曾经获得的是理学荣誉学士学位。那么你为什么选择统计学作为你的专业，以及统计学有什么吸引到你的呢？&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;Rob&lt;/strong&gt;: 最初我在获得理学学位的途中，我没有想过统计学有关的东西，我本来是打算学习数学的。当时，Melbourne University 的数学相关专业的学生都要求在第一年上统计学，数学，计算机科学的课程。所以我就选择了统计学。不过我发现它很有趣，因为我很喜欢使用数学工具来解决现实问题的过程。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>COS每周精选：统计界的诺贝尔？</title>
      <link>https://cosx.org/2014/02/nobel-prizes-of-statistics/</link>
      <pubDate>Mon, 03 Feb 2014 08:57:10 +0000</pubDate>
      
      <guid>https://cosx.org/2014/02/nobel-prizes-of-statistics/</guid>
      <description>本期投稿： 谢益辉 朱雪宁 冷静 落园园主对最小二乘君的回忆录，小编认为是2013年度最佳统计文学作品，图多慎入：轻点 。 统计学应该有炸药奖吗？孟晓犁</description>
    </item>
    
    <item>
      <title>支持向量机系列二: Support Vector</title>
      <link>https://cosx.org/2014/01/svm-series-2-support-vector/</link>
      <pubDate>Sat, 25 Jan 2014 10:38:32 +0000</pubDate>
      
      <guid>https://cosx.org/2014/01/svm-series-2-support-vector/</guid>
      <description>原文链接请点击这里 上一次介绍支持向量机，结果说到 Maximum Margin Classifier ，到最后都没有说“支持向量”到底是什么东西。不妨回忆一下上次最后一张图： 可以看到两个支</description>
    </item>
    
    <item>
      <title>支持向量机系列一: Maximum Margin Classifier</title>
      <link>https://cosx.org/2014/01/svm-series-maximum-margin-classifier/</link>
      <pubDate>Thu, 23 Jan 2014 17:13:44 +0000</pubDate>
      
      <guid>https://cosx.org/2014/01/svm-series-maximum-margin-classifier/</guid>
      <description>&lt;p&gt;原文链接请点击&lt;a href=&#34;http://blog.pluskid.org/?p=632&#34;&gt;这里&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://uploads.cosx.org/2014/01/svm.png&#34; alt=&#34;svm&#34;&gt;&lt;/p&gt;
&lt;p&gt;支持向量机即 &lt;a href=&#34;http://en.wikipedia.org/wiki/Support_vector_machine&#34;&gt;Support Vector Machine&lt;/a&gt;，简称 SVM 。我最开始听说这头机器的名号的时候，一种神秘感就油然而生，似乎把 Support 这么一个具体的动作和 Vector 这么一个抽象的概念拼到一起，然后再做成一个 Machine ，一听就很玄了！&lt;/p&gt;
&lt;p&gt;不过后来我才知道，原来 SVM 它并不是一头机器，而是一种算法，或者，确切地说，是一类算法，当然，这样抠字眼的话就没完没了了，比如，我说 SVM 实际上是一个分类器 (Classifier) ，但是其实也是有用 SVM 来做回归 (Regression) 的。所以，这种字眼就先不管了，还是从分类器说起吧。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>showtext：字体，好玩的字体和好玩的图形</title>
      <link>https://cosx.org/2014/01/showtext-interesting-fonts-and-graphs/</link>
      <pubDate>Mon, 06 Jan 2014 11:23:32 +0000</pubDate>
      
      <guid>https://cosx.org/2014/01/showtext-interesting-fonts-and-graphs/</guid>
      <description>&lt;p&gt;统计图形的作用想必不用我多说，一幅美观的图往往能让枯燥的数据变得有趣起来，而R恰巧就是这样一个作图的利器。然而，从论坛上的帖子来看，大家在用R画图时经常会遇到几个终极问题：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;a href=&#34;https://cos.name/cn/topic/138868&#34;&gt;中文无法显示&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href=&#34;https://cos.name/cn/topic/147769&#34;&gt;XX类型的图怎么画？&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href=&#34;https://cos.name/cn/topic/147359&#34;&gt;中文无法显示&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href=&#34;https://cos.name/cn/topic/109373&#34;&gt;中文无法显示&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href=&#34;https://cos.name/cn/topic/121953&#34;&gt;中文无法显示&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;……&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;第2个问题由于太过终极我还没法回答，所以就先试着解决第1个，第3个，第4个，第5个，第……个问题好了。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>从数据到价值——创业团队应该关注的四个阶段</title>
      <link>https://cosx.org/2014/01/data2value/</link>
      <pubDate>Fri, 03 Jan 2014 09:21:45 +0000</pubDate>
      
      <guid>https://cosx.org/2014/01/data2value/</guid>
      <description>&lt;blockquote&gt;
&lt;p&gt;COS编辑部按：本文作者为北京大学&lt;a href=&#34;http://hansheng.gsm.pku.edu.cn/&#34;&gt;王汉生&lt;/a&gt;教授，文章面向光华MBA学生系统梳理了从数据到价值的理念。作者简介：王汉生教授现任狗熊会会长、北京大学商务智能研究中心主任、北京大学光华管理学院商务统计与经济计量系系主任。现为ISI, ASA, IMS, RSS, ICSA会员，ASA会士(2014年6月23日更新)。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;h1 id=&#34;问题背景&#34;&gt;问题背景&lt;/h1&gt;
&lt;p&gt;&lt;img src=&#34;https://uploads.cosx.org/2014/01/whs.jpg&#34; alt=&#34;whs&#34;&gt;
这是一个最好的时代，移动互联网技术为从业者提供了无比丰富的数据。从人们的言行举止、社交关系、到地里位置无处不在。这些详细宝贵的数据，蕴含了巨大的价值！但是，这也是一个最坏的时代，面对汹涌而来的海量数据，绝大多数从业者却无可适从，无法从中发掘出有用的信息，难以实现从数据到价值的转换，这是何等的遗憾！如果这是一个从业者的遗憾，无需担忧，因为这是他的个人问题。谁让他不好好上一门王老师的《商务统计学》呢？嘿嘿:-) 如果这是两个从业者的遗憾，也可以高枕无忧，两个人没上《商务统计学》呗！但是，如果这是绝大多数人的遗憾，那么这就是整个行业和教育的遗憾，我们就需要检讨：这是怎么回事，问题出在哪个环节上？&lt;/p&gt;
&lt;p&gt;如果尝试从媒体中寻找答案，那么五花八门。但是，背后的故事基本都是一样的。那就是需要一个爱因斯坦一样的天才，掌握着可乐配方一样神秘的算法，然后从一群垃圾都不如的数据中，产生了惊为天人的发现，造就了巨大的商业成功。人们管这样一群神奇的天才叫：数据科学家！“数据科学家”这个词汇是一个伟大的创举，它笼统地覆盖了计算机、管理科学、统计学、营销、经济学等众多学科。因此，每个学科都喜欢这个名词，都觉得和自己相关。但是，谁都给不出一个精确的定义。但是，这不重要，这不妨碍人们以各自的标准去寻找自己心中的那个“数据科学家”。因此，不少创业团队在创始初期，不惜血本，从拥有大量“数据科学家”的知名企业招揽人才。这些企业有哪些呢？谷歌系、阿里系、腾讯系、百度系等等。不管这批“数据科学家”在自己的专业方面是如何优秀（而事实上也确实极其优秀），他们是否会对这个新生的创业团队带来相应的价值？无论他们自己是创业者，还是创业团队的核心员工，还是普通员工，他们成功的概率几何？要让我赌一把，我一定是赌他：不成功（不一定失败，不成功的定义是其实际价值产出远远低于预期）。这里并不是看低这些优秀个体的个人能力。来自一个优秀企业的优秀员工，其自身在专业上的出色是毋庸置疑，值得尊敬，甚至崇拜的。但是，一个基本事实：这些优秀的员工在高端大气上档次的企业，如龙如虎，价值发挥淋漓尽致。但是，一旦到一个草根初期的创业团队，他们实现完全成功的概率极低。为什么？因为从企业到个人，都没有仔细思考过从数据到价值的过程，进而无法理解这些优秀的个体在各自的组织中，在当前这个创业阶段，可以起到什么样的作用。进而，对人对事都产生了错误的判断。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>纪念贝叶斯定理250周年 暨首届中国贝叶斯统计学术论坛 （天津，2013）会议纪要</title>
      <link>https://cosx.org/2013/12/1st-bayesian-statistics-meeting/</link>
      <pubDate>Tue, 31 Dec 2013 12:32:22 +0000</pubDate>
      
      <guid>https://cosx.org/2013/12/1st-bayesian-statistics-meeting/</guid>
      <description>纪念贝叶斯定理250周年暨首届中国贝叶斯统计学术论坛（天津）于2013年12月21日在天津财经大学月牙报告厅成功召开。本次会议由天津财经大学</description>
    </item>
    
    <item>
      <title>COS每周精选：得II型糖尿病的概率 = 1 – 不得II型糖尿病的概率</title>
      <link>https://cosx.org/2013/12/probability-of-diabetesone-minus-not/</link>
      <pubDate>Tue, 17 Dec 2013 00:13:31 +0000</pubDate>
      
      <guid>https://cosx.org/2013/12/probability-of-diabetesone-minus-not/</guid>
      <description>本期投稿： 谢益辉 魏太云 冷静 年度最糟糕的图形：它说明了这样一个事实：得II型糖尿病的概率 = 1 – 不得II型糖尿病的概率。当小编看到这样的题目时，</description>
    </item>
    
    <item>
      <title>COS访谈第14期：北大光华张俊妮老师</title>
      <link>https://cosx.org/2013/12/interview-junni-zhang/</link>
      <pubDate>Mon, 16 Dec 2013 13:32:54 +0000</pubDate>
      
      <guid>https://cosx.org/2013/12/interview-junni-zhang/</guid>
      <description>简介：张俊妮博士现任北京大学光华管理学院统计学副教授。她1998年毕业于中国科学技术大学，获计算机软件学士学位；2002年毕业于美国哈佛大学</description>
    </item>
    
    <item>
      <title>谷歌趋势与股票市场</title>
      <link>https://cosx.org/2013/12/google-trend-stock-market/</link>
      <pubDate>Tue, 10 Dec 2013 12:00:45 +0000</pubDate>
      
      <guid>https://cosx.org/2013/12/google-trend-stock-market/</guid>
      <description>本文选自狗熊会分析报告 狗熊会简介：北京大学商务智能研究中心下的的数据分析人才联盟，每周一熊出没，举报研讨会议。其依托北京大学光华管理学院，关</description>
    </item>
    
    <item>
      <title>北美大片票房的ln(t)定律</title>
      <link>https://cosx.org/2013/12/north-america-blockbuster-lnt-law/</link>
      <pubDate>Mon, 09 Dec 2013 14:21:40 +0000</pubDate>
      
      <guid>https://cosx.org/2013/12/north-america-blockbuster-lnt-law/</guid>
      <description>**【COS编辑部按】**本文选自狗熊会分析报告，作者为刘钰、毛铮、谯谦、吕俊杰、祁自帅、刘哲 狗熊会简介：北京大学商务智能研究中心下的的数据</description>
    </item>
    
    <item>
      <title>国债收益率的影响因素</title>
      <link>https://cosx.org/2013/12/national-debt-treasury-bonds-return-rate/</link>
      <pubDate>Sun, 08 Dec 2013 20:28:32 +0000</pubDate>
      
      <guid>https://cosx.org/2013/12/national-debt-treasury-bonds-return-rate/</guid>
      <description>**【COS编辑部按】**本文选自狗熊会分析报告，作者为赵圣斌、门金生、张帆、赵和 狗熊会简介：北京大学商务智能研究中心下的的数据分析人才联盟</description>
    </item>
    
    <item>
      <title>Rcpp简明入门</title>
      <link>https://cosx.org/2013/12/rcpp-introduction/</link>
      <pubDate>Sat, 07 Dec 2013 12:25:21 +0000</pubDate>
      
      <guid>https://cosx.org/2013/12/rcpp-introduction/</guid>
      <description>Rcpp牛到什么程度，我想不用我多说。光是看Author五人组的名字就足够唬人了（简直是R包开发男子天团了）。最近正在为实验室开发R包（平生</description>
    </item>
    
    <item>
      <title>纪念贝叶斯定理250周年  暨首届中国贝叶斯统计学术论坛（天津）</title>
      <link>https://cosx.org/2013/12/bayes-meeting-1st/</link>
      <pubDate>Thu, 05 Dec 2013 07:15:24 +0000</pubDate>
      
      <guid>https://cosx.org/2013/12/bayes-meeting-1st/</guid>
      <description>纪念贝叶斯定理250周年暨首届中国贝叶斯统计学术论坛（天津，2013）将于2013年12月21日（周六）在天津财经大学召开，本次会议由天津财</description>
    </item>
    
    <item>
      <title>COS每周精选:如何偷走我这本书</title>
      <link>https://cosx.org/2013/12/how-to-steal-my-book/</link>
      <pubDate>Mon, 02 Dec 2013 22:58:19 +0000</pubDate>
      
      <guid>https://cosx.org/2013/12/how-to-steal-my-book/</guid>
      <description>本期投稿： 冷静 谢益辉 魏太云 码农写给码农的数据挖掘指南：插图非常赞（封面还是墨子），内容嘛，目前还不太全面，偏重推荐系统。 统计学中常见的错误大</description>
    </item>
    
    <item>
      <title>极简 R 包建立方法</title>
      <link>https://cosx.org/2013/11/building-r-packages-easily/</link>
      <pubDate>Thu, 21 Nov 2013 11:07:48 +0000</pubDate>
      
      <guid>https://cosx.org/2013/11/building-r-packages-easily/</guid>
      <description>前言 最近想试一下捣腾一个 R 包出来，故参考了一些教程。现在看到的最好的就是谢益辉大大之前写过的开发R程序包之忍者篇，以及 Hadley 大神（ggplot2</description>
    </item>
    
    <item>
      <title>COS数据分析沙龙第十六期（北京）</title>
      <link>https://cosx.org/2013/11/salon-beijing-16th/</link>
      <pubDate>Mon, 18 Nov 2013 21:49:42 +0000</pubDate>
      
      <guid>https://cosx.org/2013/11/salon-beijing-16th/</guid>
      <description>2013年10月27日，第13期COS数据分析沙龙（北京站）在明德主楼1016如期举行。在京城最美丽的秋季，统计沙龙迎来一场主题为“大数据时</description>
    </item>
    
    <item>
      <title>COS每周精选:统计的定位–幕后推手Vs决策导向</title>
      <link>https://cosx.org/2013/11/status-of-statistic-assistant-or-leader/</link>
      <pubDate>Mon, 18 Nov 2013 17:52:41 +0000</pubDate>
      
      <guid>https://cosx.org/2013/11/status-of-statistic-assistant-or-leader/</guid>
      <description>本期投稿： 冷静 谢益辉 何通 * 统计往往应用于其他领域，帮助人做出决断，但是这个决断到底该由统计学家做出，还是由领域内的专家做出，却成了一个问题。</description>
    </item>
    
    <item>
      <title>COS访谈第13期：逄伟(eBay)</title>
      <link>https://cosx.org/2013/11/cos-interview-wilson/</link>
      <pubDate>Thu, 14 Nov 2013 16:00:16 +0000</pubDate>
      
      <guid>https://cosx.org/2013/11/cos-interview-wilson/</guid>
      <description>简介：逄伟，Director of Engineering, behavioral insights and science, eBay Inc.采访人：陈丽云（Liyun）, Marketing Analyst, eBay Inc. 写在前面的话：前阵子统计之都发布了一系列数据分析领域</description>
    </item>
    
    <item>
      <title>COS访谈第12期：Terry Speed教授，2013年总理科学奖得主</title>
      <link>https://cosx.org/2013/11/terry-speed/</link>
      <pubDate>Thu, 14 Nov 2013 08:55:07 +0000</pubDate>
      
      <guid>https://cosx.org/2013/11/terry-speed/</guid>
      <description>&lt;p&gt;【COS编辑部按】本译文原文来自澳大利亚&lt;a href=&#34;http://www.scienceinpublic.com.au/&#34;&gt;Science in Public&lt;/a&gt;，讲 述Terry Speed，一位著作等身的统计学者，对学术和社会生活的热情；&lt;a href=&#34;http://www.scienceinpublic.com.au/prime-ministers-prize/2013-science&#34;&gt;原文&lt;/a&gt;版权归 Science in Public所有。本文译者：尤晓斌(新加坡国立大学)；审校：李妙竹(上海生科院)、施涛(The Ohio State University)。&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;“统计学本来就应该成就其他学科，我太爱统计了，它像把钥匙一样让我们能溜进任何学科的后院里随便玩耍”&lt;/p&gt;
&lt;/blockquote&gt;
&lt;blockquote&gt;
&lt;p&gt;—Terry Speed&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;&lt;img src=&#34;https://github.com/cosname/translation/raw/master/terryspeed/fig/Terry-Speed-1-300x200.jpg&#34; alt=&#34;alt&#34;&gt;&lt;/p&gt;
&lt;p style=&#34;text-align: center;&#34;&gt;
  图1 Terry Speed
&lt;h1 id=&#34;用数字同癌症抗争&#34;&gt;用数字同癌症抗争&lt;/h1&gt;
&lt;p&gt;&lt;a href=&#34;http://en.wikipedia.org/wiki/Terry_Speed&#34;&gt;Terry Speed&lt;/a&gt;从不觉得能很快在媒体的头条上看到类似“统计学家治愈癌症”的标题，不过他坚信数学和统计学可以有效地帮助研究者认识癌症背后的诱因，从而减少手术的需要。身兼数学家和统计学家，Terry笔下诞生了不少鲜有人读得懂的精美学术著作，但除此之外，他还有学术成就以外的另一面，他曾出席法庭作证，帮助农户和采钻矿工，还为生物学家提供统计工具以解决基因的进化问题。&lt;/p&gt;
&lt;p&gt;20年前，生物学家们只能孤立的研究一两个基因。而今，他们已经能够同时跟踪同一个细胞里的上千个基因，但若想真正理解这些信息，得到他们想要的结果，生物学家们就还需要运用Terry提出的统计方法。&lt;/p&gt;
&lt;p&gt;当Terry年近古稀，他专注于挑选正常细胞与癌细胞不同之处，更加接近有效治疗癌症的临床研究，并同业界一同合作研发检测甲状腺细胞增殖是否发生癌变的工具。&lt;/p&gt;
&lt;p&gt;因其在解释基因组的解释以及相关技术的研发做出的杰出贡献，这位&lt;a href=&#34;http://en.wikipedia.org/wiki/WEHI&#34;&gt;WEHI医学研究所&lt;/a&gt;生物信息学领头人荣获2013年&lt;a href=&#34;http://en.wikipedia.org/wiki/Prime_Minister%27s_Prizes_for_Science&#34;&gt;总理科学奖(Prime Minister’s Prizes for Science)&lt;/a&gt;。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>COS数据分析沙龙第十五期（广州）</title>
      <link>https://cosx.org/2013/11/cos-salon-15th-guangzhou/</link>
      <pubDate>Sun, 10 Nov 2013 00:56:13 +0000</pubDate>
      
      <guid>https://cosx.org/2013/11/cos-salon-15th-guangzhou/</guid>
      <description>广州COS沙龙第三期（总十五期）于2013年10月19日在中山大学南校区数学楼415讲学厅举行，本期沙龙由中山大学统计科学系及统计之都主办，</description>
    </item>
    
    <item>
      <title>第六届中国R语言会议（上海）纪要</title>
      <link>https://cosx.org/2013/11/6th-china-r-shanghai-summary/</link>
      <pubDate>Sat, 09 Nov 2013 14:25:43 +0000</pubDate>
      
      <guid>https://cosx.org/2013/11/6th-china-r-shanghai-summary/</guid>
      <description>第六届中国 R 语言会议（上海会场）于 2013 年 11 月 2 日 ~ 3 日在华东师范大学中山北路校区的科学会堂成功召开。会议由华东师范大学金融与统计学院和统计之都</description>
    </item>
    
    <item>
      <title>COS访谈第11期：郁彬教授</title>
      <link>https://cosx.org/2013/11/interview-of-binyu/</link>
      <pubDate>Tue, 05 Nov 2013 11:00:29 +0000</pubDate>
      
      <guid>https://cosx.org/2013/11/interview-of-binyu/</guid>
      <description>原文刊登于ICSA。本文由COS翻译组策划翻译。译者是密西根大学的冷静、新加坡国立大学的尤晓斌和中国人民大学的霍志骥，全文最终由采访者施涛和</description>
    </item>
    
    <item>
      <title>COS每周精选:最小二乘从娃娃抓起</title>
      <link>https://cosx.org/2013/11/teaching-le-to-a-child/</link>
      <pubDate>Sun, 03 Nov 2013 13:02:35 +0000</pubDate>
      
      <guid>https://cosx.org/2013/11/teaching-le-to-a-child/</guid>
      <description>本期投稿：谢益辉 冷静 魏太云 Rafael Irizarry教他上五年级的儿子用最小二乘法改进机器人模型，最小二乘是统计学家的看家本领，普通得不能再普通，但</description>
    </item>
    
    <item>
      <title>COS访谈第10期：子豹（淘宝）、授武（聚划算）</title>
      <link>https://cosx.org/2013/10/data-sciencs-series-interview-of-zibao-and-shouwu/</link>
      <pubDate>Wed, 30 Oct 2013 14:02:58 +0000</pubDate>
      
      <guid>https://cosx.org/2013/10/data-sciencs-series-interview-of-zibao-and-shouwu/</guid>
      <description>陈逸波（花名：子豹），江苏常州人士，2010年毕业于浙江大学数学系，目前在淘宝网的数据科学部门做一些电商相关的数据分析和数据挖掘工作。下称y</description>
    </item>
    
    <item>
      <title>COS每周精选:Simply Statistics为你解释GMM</title>
      <link>https://cosx.org/2013/10/simply-statistics-of-gmm/</link>
      <pubDate>Tue, 29 Oct 2013 00:40:36 +0000</pubDate>
      
      <guid>https://cosx.org/2013/10/simply-statistics-of-gmm/</guid>
      <description>本期投稿 冷静 肖楠 魏太云 谢益辉 统计学家在其他领域大放异彩已经不是什么新鲜事，最近公布的三位诺贝尔经济学奖获得者之一，Lars Hansen，就是</description>
    </item>
    
    <item>
      <title>COS每周精选:统计自然语言处理之新书快递</title>
      <link>https://cosx.org/2013/10/sna-visual/</link>
      <pubDate>Sun, 20 Oct 2013 00:00:41 +0000</pubDate>
      
      <guid>https://cosx.org/2013/10/sna-visual/</guid>
      <description>本期投稿：谢益辉 肖楠 魏太云 新书推荐：宗成庆老师大作的《统计自然语言处理》第二版面世啦。浩浩荡荡十六章，章章干货。洋洋洒洒百万字，字字心血。道</description>
    </item>
    
    <item>
      <title>COS数据分析沙龙第十四期（北京）[附录音]</title>
      <link>https://cosx.org/2013/10/beijing-cos-salon-sep-2013/</link>
      <pubDate>Wed, 16 Oct 2013 23:37:56 +0000</pubDate>
      
      <guid>https://cosx.org/2013/10/beijing-cos-salon-sep-2013/</guid>
      <description>2013年9月14日，第十四期COS数据分析沙龙（北京站）在明德主楼1016如期举行。来自中科院数学与系统科学研究院的刁瑞先生（@刁瑞_Do</description>
    </item>
    
    <item>
      <title>COS每周精选:21世纪的贝叶斯定理？</title>
      <link>https://cosx.org/2013/10/21-century-bayesian-thm/</link>
      <pubDate>Sun, 13 Oct 2013 12:57:22 +0000</pubDate>
      
      <guid>https://cosx.org/2013/10/21-century-bayesian-thm/</guid>
      <description>每周精选回归啦，欢迎大家继续支持！ 本期投稿：谢益辉 魏太云 泰斗Bradley Efron在Science上发表评论“21世纪的贝叶斯定理”，引来</description>
    </item>
    
    <item>
      <title>聊聊R和GPU</title>
      <link>https://cosx.org/2013/10/gossip-r-gpu/</link>
      <pubDate>Mon, 07 Oct 2013 10:30:11 +0000</pubDate>
      
      <guid>https://cosx.org/2013/10/gossip-r-gpu/</guid>
      <description>注：本文来自寇强的博客，原文请点击此处。 寇强：现为Indiana University PhD in Informatics。 微博：@没故事的生科男。 这是一直想写几句的一个</description>
    </item>
    
    <item>
      <title>第六届中国R语言会议（上海会场）通知</title>
      <link>https://cosx.org/2013/10/2013-china-r-conference-shanghai-notice/</link>
      <pubDate>Sat, 05 Oct 2013 16:22:51 +0000</pubDate>
      
      <guid>https://cosx.org/2013/10/2013-china-r-conference-shanghai-notice/</guid>
      <description>一、会议时间 2013年11月2日~3日。会议将于11月2日上午9:00正式开幕，请注册报名了的参会者提前半小时进场，签到和领取资料（包括胸牌</description>
    </item>
    
    <item>
      <title>COS访谈第9期：Hadley Wickham</title>
      <link>https://cosx.org/2013/09/a-conversation-with-hadley-wickham/</link>
      <pubDate>Sun, 29 Sep 2013 07:42:14 +0000</pubDate>
      
      <guid>https://cosx.org/2013/09/a-conversation-with-hadley-wickham/</guid>
      <description>简介：Hadley Wickham 是 RStudio 的首席科学家以及 Rice University 统计系的助理教授。他是著名图形可视化软件包 ggplot2 的开发者，以及其他许多被广泛使用的软件包的作者，代表</description>
    </item>
    
    <item>
      <title>COS访谈第8期：北大光华王汉生老师</title>
      <link>https://cosx.org/2013/09/data-sciencs-series-interview-of-wanghansheng/</link>
      <pubDate>Thu, 26 Sep 2013 08:44:48 +0000</pubDate>
      
      <guid>https://cosx.org/2013/09/data-sciencs-series-interview-of-wanghansheng/</guid>
      <description>简介：王汉生教授现任北京大学光华管理学院商务统计与经济计量系副系主任。1998年北京大学数学科学学院，概率统计系，统计学本科，2001年美国</description>
    </item>
    
    <item>
      <title>因果推断简介之八：吸烟是否导致肺癌？Fisher versus Cornfield</title>
      <link>https://cosx.org/2013/09/causality8-smoke-and-lung-cancer/</link>
      <pubDate>Tue, 17 Sep 2013 10:30:03 +0000</pubDate>
      
      <guid>https://cosx.org/2013/09/causality8-smoke-and-lung-cancer/</guid>
      <description>$$ \def\ind{{\perp\!\!\!\perp}} \def\nind{{\not\!\perp\!\!\!\perp}} $$ 这一节介绍一个有趣的历史性例子：吸烟是否导致肺癌？主要涉及的人物是 R A Fisher 和 J Cornfield。前者估计上这个网站的人都听过，后者就</description>
    </item>
    
    <item>
      <title>自制简单遗传算法实验</title>
      <link>https://cosx.org/2013/09/manual-genetic-algorithm/</link>
      <pubDate>Sun, 15 Sep 2013 10:36:35 +0000</pubDate>
      
      <guid>https://cosx.org/2013/09/manual-genetic-algorithm/</guid>
      <description>&lt;p&gt;我参加完八月份的COS沙龙之后比较闲，忽然想起自己很久以前看的遗传算法的基本思想。本着时不时就应该做一些私活的心态，我就在旅行商问题上面把它实现了一下。&lt;/p&gt;
&lt;h1 id=&#34;遗传算法&#34;&gt;遗传算法&lt;/h1&gt;
&lt;p&gt;遗传算法是一个仿生学的算法。进化论认为地球上千奇百怪的生物都是进化而来的，如今能生存在地球上的生物是更适应于这个环境的，我们也可以说它们是被“优化过”的。他们是怎么优化的呢？在一个种群中，生物的差异主要来自于两点，不同染色体之间的交叉结合以及染色体自发的随机变异。这些差异实际上是随机发生的，但是生物的外部生存环境会通过生存与死亡让更能适应的个体存活下去。因此随着时间的推移，生物种群对环境的适应能力会越来越高。受到这个现象的启发，有人发明了遗传算法，通过模拟遗传的过程来解决一些优化问题。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>COS访谈第7期：Scott Iverson（杜邦先锋）</title>
      <link>https://cosx.org/2013/09/data-sciencs-series-interview-of-scott-iverson/</link>
      <pubDate>Thu, 12 Sep 2013 11:50:55 +0000</pubDate>
      
      <guid>https://cosx.org/2013/09/data-sciencs-series-interview-of-scott-iverson/</guid>
      <description>&lt;p&gt;林荟，女，杜邦先锋总部市场部统计师，毕业于 Iowa State University统计系，生年不详卒年尚无法预测。&lt;/p&gt;
&lt;p&gt;译者：&lt;a href=&#34;http://www.fyears.org&#34;&gt;黄俊文&lt;/a&gt;（主要），&lt;a href=&#34;https://cos.name/author/lanfeng/&#34;&gt;潘岚锋&lt;/a&gt;（勘误），&lt;a href=&#34;http://www.gaotao.name/cn/&#34;&gt;高涛&lt;/a&gt;（勘误）。&lt;/p&gt;
&lt;p&gt;简介：Scott Iverson，Sr. Marketing manager, Marketing information, DuPont Pioneer (HQ), 在先锋从事数据分析工作 27 年，现任杜邦先锋全球总部市场信息高级经理。&lt;/p&gt;
&lt;p&gt;&lt;a href=&#34;https://www.pioneer.com&#34;&gt;杜邦先锋国际良种公司&lt;/a&gt;：杜邦先锋公司是世界 500 强企业，美国杜邦公司旗下的全资子公司，成立于 1926 年，是世界上最早的玉米种业公司，总部设在美国爱荷华州。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>因果推断简介之七：Lord’s Paradox</title>
      <link>https://cosx.org/2013/09/causality7-lord-paradox/</link>
      <pubDate>Mon, 09 Sep 2013 19:00:58 +0000</pubDate>
      
      <guid>https://cosx.org/2013/09/causality7-lord-paradox/</guid>
      <description>&lt;p&gt;&lt;code&gt;$$ \def\ind{{\perp\!\!\!\perp}} \def\nind{{\not\!\perp\!\!\!\perp}} $$&lt;/code&gt;&lt;/p&gt;
&lt;p&gt;在充满随机性的统计世界中，悖论无处不在。这一节介绍一个很有名，但是在中文统计教科书中几乎从未介绍过的悖论。这个悖论是 Educational Testing Service (ETS) 的统计学家 Frederic Lord 于 1967 年提出来的；最终由同在 ETS 工作的另外两位统计学家 Paul Holland 和 Donald Rubin 于 1982 年圆满地找出了这个悖论的根源。这部分先介绍这个悖论，再介绍 Holland 和 Rubin 的解释，最后是一些结论。&lt;/p&gt;
&lt;h1 id=&#34;一-lords-paradox&#34;&gt;一 Lord’s Paradox&lt;/h1&gt;
&lt;p&gt;考虑下面一个简单例子，具体的数字是伪造的。某个学校想研究食堂对于学生体重是否有差异性的影响，尤其关心食堂对于男女学生体重影响是否相同。于是统计学家们收集了如下的数据：学生的性别&lt;code&gt;$G$&lt;/code&gt;；学生在 1963 年 6 月入学时候的体重&lt;code&gt;$X$&lt;/code&gt;；学生在1964年6月放暑假时候的体重&lt;code&gt;$Y$&lt;/code&gt;。&lt;/p&gt;
&lt;p&gt;第一个统计学家，采取了一种很简单的方法。如图所示，横轴表示1963年6月入学前的体重&lt;code&gt;$X$&lt;/code&gt;，纵轴表示1964年6月前放假的体重&lt;code&gt;$Y$&lt;/code&gt;。个体上来看，男女入学前和入学后一年体重都会有些变化，男女学生体重的散点图分别用绿色和红色标出。从男女学生生平均体重来看，男生入学前后一年平均体重均是150磅（图中右上角的黑点），女生入学前后一年平均体重均为130磅（图中左下角的黑点）。图中的虚线是对角线&lt;code&gt;$Y=X$&lt;/code&gt;，两个黑点均位于对角线上。因此，第一个统计学家的结论是食堂对于男女学生体重都没有影响，因此对男女学生体重的作用相同。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>COS访谈第6期：张健（微软）</title>
      <link>https://cosx.org/2013/09/data-sciencs-series-interview-of-zhangjian/</link>
      <pubDate>Sat, 07 Sep 2013 12:37:34 +0000</pubDate>
      
      <guid>https://cosx.org/2013/09/data-sciencs-series-interview-of-zhangjian/</guid>
      <description>&lt;p&gt;&lt;img src=&#34;https://uploads.cosx.org/2013/08/zhangjian_photo.jpg&#34; alt=&#34;zhangjian_photo&#34;&gt;&lt;/p&gt;
&lt;p&gt;张健，微软公司担任data scientist。&lt;/p&gt;
&lt;p&gt;写在前面的话：前面小编采访了&lt;a href=&#34;https://cosx.org/2013/08/interview_of_xie_liang/&#34;&gt;微软的数据科学家谢梁&lt;/a&gt;，当时同小编一同吃酒的还有微软的另一位数据科学家张健，巧在张健兄乃小编的师兄，毕业于Ames村办大学（又名爱荷华州立大学），当年我前脚到村，他后脚离村，所以之前也不认识。敝村可能名气不大，张健兄在统计界可能也不会有太多人知晓，但俗话说（好吧，我承认我瞎编的）“村长亦干部，凡夫即圣人”，小编很好奇一个物理博士在统计行当里捣鼓什么，于是发去这次采访，希望对外专业的同行们有所启示。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>航海家1号离开太阳系了吗？</title>
      <link>https://cosx.org/2013/09/voyager1-cross-hp/</link>
      <pubDate>Tue, 03 Sep 2013 10:30:22 +0000</pubDate>
      
      <guid>https://cosx.org/2013/09/voyager1-cross-hp/</guid>
      <description>&lt;p&gt;&lt;a href=&#34;http://zh.wikipedia.org/zh-tw/%E6%97%85%E8%A1%8C%E8%80%851%E5%8F%B7&#34;&gt;航海家1号&lt;/a&gt;（&lt;a href=&#34;https://voyager.jpl.nasa.gov&#34;&gt;Voyager 1&lt;/a&gt;）作为一艘无人太空探测船于1977年9月5日从佛罗里达洲的卡纳维尔角发射升空，先后位临木星，土星，正在向星际间的太空进发。&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://upload.wikimedia.org/wikipedia/commons/thumb/d/d2/Voyager.jpg/766px-Voyager.jpg&#34; alt=&#34;航海家1号&#34;&gt;&lt;/p&gt;
&lt;p style=&#34;text-align:center&#34;&gt;航海家1号&lt;/p&gt;
&lt;p&gt;而且它还携带了一张&lt;a href=&#34;https://voyager.jpl.nasa.gov/spacecraft/goldenrec.html&#34;&gt;航海家金唱片&lt;/a&gt;，其中包含了115张图片和世界上的各种自然声音及音乐。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>use R for fun系列之玩转图像篇</title>
      <link>https://cosx.org/2013/09/cos-series-use-r-for-fun-image/</link>
      <pubDate>Sun, 01 Sep 2013 12:35:13 +0000</pubDate>
      
      <guid>https://cosx.org/2013/09/cos-series-use-r-for-fun-image/</guid>
      <description>&lt;p&gt;系列以use R for fun为主题，以&lt;a href=&#34;https://cos.name/cn/&#34;&gt;COS论坛&lt;/a&gt;上的精华帖、相关package以及自己的一些code为素材，结合自身的一些编程体会，从而整合成文。本文是第三篇&lt;a href=&#34;http://chenangliu.info/cn/use-r-for-fun-image/&#34;&gt;玩转图像篇&lt;/a&gt;。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;本文素材出处均已在正文中注明&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;接着for fun的话题往下讲，大家或多或少都曾经用过PS来玩过图片，其强大的功能令我们不得不赞叹，无论是美图还是是恶搞都曾给我们带来了不少的乐趣。今天我们就要让这种乐趣在万能的R中实现！当然实现的过程是艰辛的，因为这一切一部分需要依靠自己码代码，但同时也是轻松的，因为与之前不同的是这里开始涉及到很多其他的扩展包，带来了很大的便利，接下来会一一介绍。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>COS访谈第5期：黄帅</title>
      <link>https://cosx.org/2013/08/data-sciences-interview_of_huangshuai/</link>
      <pubDate>Sat, 31 Aug 2013 15:09:27 +0000</pubDate>
      
      <guid>https://cosx.org/2013/08/data-sciences-interview_of_huangshuai/</guid>
      <description>&lt;p&gt;&lt;img src=&#34;https://uploads.cosx.org/2013/08/ENG-Industrial-Management-Systems-Engineering-Shuai-Huang.jpg&#34; alt=&#34;ENG - Industrial &amp;amp; Management Systems Engineering - Shuai Huang&#34;&gt;&lt;/p&gt;
&lt;p&gt;简介：黄帅/1988出生/2007科大本科理学学士/2012ASU工业工程系博士/2012任教于USF工业工程与管理系&lt;/p&gt;
&lt;p&gt;&lt;a href=&#34;http://www.weibo.com/taiyun?topnav=1&amp;amp;wvr=5&amp;amp;topsug=1&#34;&gt;太云&lt;/a&gt;邀请我为统计之都写点跟个人经历有关的事情，大概是去年我上班之初就说好了的事。我一直犹豫没有动笔，主要是我本人刚从学生转变为老师，处于一个特殊时期，因而说话常常搞错对象。&lt;a href=&#34;http://www.weibo.com/taiyun?topnav=1&amp;amp;wvr=5&amp;amp;topsug=1&#34;&gt;太云&lt;/a&gt;说，随便写写，想写什么都行。我理解&lt;a href=&#34;http://www.weibo.com/taiyun?topnav=1&amp;amp;wvr=5&amp;amp;topsug=1&#34;&gt;太云&lt;/a&gt;的意思，就是说，我可以回顾自己的过去，然后为后来的人提个醒或者给点诀窍。一方面来说，对于推动行业发展，这种行为是应有之义。对于我本人而言，我也一直盼着那些牛人们能多给我提点醒，好让我获得更多的思维方式。但另一方面来说，我觉得我能确切的说出来的东西好像不多。我可以讲讲我对统计的理解，但是，虽然我也做过一些新的模型，我觉得其实我一直都只是在练习统计。更恰当的说，我一直在模仿那些先哲们的分析方式。我觉得我也还可以讲讲我是怎么在众多职业中最后跟统计搞到一起了。这比较八卦。也许这也是人民群众喜闻乐见的部分。对于我本人的职业定位，我觉得我是一个做学问的。之所以说是做学问的，是因为，我一直以来有这种偏见（有人可能会不同意）：真正的大师从来都不是‘做’学问的。起码牛顿和FISHER那种学问，不像是一点一点做出来的。但我乐于做点学问，这样有功于世道，说不定有朝一日也能做点大学问。所以，我在这里要说的，大部分都跟以上所提到的有关。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>COS数据分析沙龙第十三期（北京）</title>
      <link>https://cosx.org/2013/08/beijing-cos-salon-aug-2013/</link>
      <pubDate>Thu, 29 Aug 2013 10:17:13 +0000</pubDate>
      
      <guid>https://cosx.org/2013/08/beijing-cos-salon-aug-2013/</guid>
      <description>&lt;p&gt;&lt;img src=&#34;https://uploads.cosx.org/2013/08/salon_11_1.jpg&#34; alt=&#34;salon_11_1&#34;&gt; 2013年8月24日，COS数据分析沙龙（北京）第十三期如期在中国人民大学举行。本期嘉宾我们邀请了来自宏源证劵高级分析师赵国栋先生，赵国栋先生给大家分享了主题为“大数据时代的历史机遇”讲座。酷热的夏天即将离去，但大数据的热度才刚刚开始。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;本期沙龙嘉宾赵国栋&lt;/strong&gt;，《大数据时代的历史机遇》作者，中国计算机学会会员、中国建投研究院特约研究员、广东省应急产业协会专家会员、宏源证券研究所高级分析师。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;本期嘉宾在&lt;/strong&gt;IT行业摸爬滚打10余年，先后在电子商务、电信、金融等领域从事IT咨询、建设等工作。后放弃公司原始股票，跨界转型，从零开始了行业分析师之路。迅速开辟了高科技产业研究的新范式——“主题、趋势、商业模式”，成为大数据领域的引路人。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>因果推断简介之六：工具变量（instrumental variable）</title>
      <link>https://cosx.org/2013/08/causality6-instrumental-variable/</link>
      <pubDate>Wed, 28 Aug 2013 12:42:57 +0000</pubDate>
      
      <guid>https://cosx.org/2013/08/causality6-instrumental-variable/</guid>
      <description>$$ \def\ind{{\perp\!\!\!\perp}} \def\nind{{\not\!\perp\!\!\!\perp}} $$ 为了介绍工具变量，我们首先要从线性模型出发。毫无疑问，线性模型是理论和应用统计（包括计量经济学和流行病学等）最重要的工具；对线性模型</description>
    </item>
    
    <item>
      <title>R 中大型数据集的回归</title>
      <link>https://cosx.org/2013/08/regression-of-large-dataset-in-r/</link>
      <pubDate>Mon, 26 Aug 2013 12:21:35 +0000</pubDate>
      
      <guid>https://cosx.org/2013/08/regression-of-large-dataset-in-r/</guid>
      <description>&lt;blockquote&gt;
&lt;p&gt;原文地址：&lt;a href=&#34;http://statr.me/2011/10/large-regression/&#34;&gt;http://statr.me/2011/10/large-regression/&lt;/a&gt;&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;众所周知，R 是一个依赖于内存的软件，就是说一般情况下，数据集都会被整个地复制到内存之中再被处理。对于小型或者中型的数据集，这样处理当然没有什么问题。但是对于大型的数据集，例如网上抓取的金融类型时间序列数据或者一些日志数据，这样做就有很多因为内存不足导致的问题了。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>医学统计学的渊源</title>
      <link>https://cosx.org/2013/08/biostats-series1-origin/</link>
      <pubDate>Fri, 23 Aug 2013 19:22:30 +0000</pubDate>
      
      <guid>https://cosx.org/2013/08/biostats-series1-origin/</guid>
      <description>&lt;p&gt;医学统计学应该从什么地方开始讲起呢？多数授课老师的讲课方式是简要说一些医学统计学的概念，然后接着介绍医学统计学的内容、各种概念等。当然，这也是绝大多数教材的结构安排。&lt;/p&gt;
&lt;p&gt;我们这里不是讲课，所以我不从这里讲，我们要像讲故事一样。你怎么才能tell story，让别人明白呢？我想首先要讲清楚这个故事的渊源，也就是来龙去脉。那么统计学的渊源是什么呢？所有统计学的发展，或者说统计学之所以存在，只有一个原因，那就是变异以及变异所导致的抽样误差。没有变异，没有抽样误差，就没有统计学存在的理由。想象一下，如果全世界所有人的身高都是1.70米，那还有必要进行抽样做统计推断吗？只要随便量一个人的身高，就知道了全世界人的身高。那统计学还有存在的必要吗？&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>微博名人那些事儿（二）</title>
      <link>https://cosx.org/2013/08/something_else_about_weibo/</link>
      <pubDate>Thu, 22 Aug 2013 13:12:17 +0000</pubDate>
      
      <guid>https://cosx.org/2013/08/something_else_about_weibo/</guid>
      <description>&lt;p&gt;如何评价一个名人的热度？自然而然能想到的方法是，通过粉丝/关注比来评判其“风云”程度（好吧如果不考虑僵尸粉这种特色产物……&amp;gt;&amp;lt;）。但实际上，在social network里面，我们真正面临的，是一个“网络”结构。让我们想想，消息在SNS里是怎么传播的呢？关注、粉丝、转发、评论 blablabla……所以，最近我在想，能不能利用这些关系来评判一个人的影响力？&lt;/p&gt;
&lt;p&gt;首先面临的问题是，应该用什么样的行为表示人与人之间的关系呢？鉴于想对用户兴趣做一些扩展的探索，我首选了“转发”关系。而且，退一步讲，在新浪在7月2号对API做了调整限制后，关注关系及粉丝关系等就不是我们这种ds小市民那么容易得到的了。（实际上即使能够得到，我个人也认为转发关系是在信息传播力上极为重要的一环）&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>微博名人那些事儿</title>
      <link>https://cosx.org/2013/08/something_about_weibo/</link>
      <pubDate>Thu, 22 Aug 2013 11:35:14 +0000</pubDate>
      
      <guid>https://cosx.org/2013/08/something_about_weibo/</guid>
      <description>&lt;p&gt;微博，这一新生代大规模杀伤性社交武器近年来迅速在国内走红，其来势之汹，范围之广，威力之猛当不可小觑。通过它，我们不仅能第一时间八卦到身边柴米油盐、鸡毛蒜皮的小事儿，而诸如家国天下、业内前沿的大事记也难以逃过公众的法眼。&lt;/p&gt;
&lt;p&gt;这样迅捷高效的信息传播是怎样做到的呢？相信每一个微博控都能如数家珍的道出自己心仪的几位微博名人们，不妨就从那些微博名人们入手，看看这些名人们身边的故事。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>COS访谈第4期：谢梁（微软）</title>
      <link>https://cosx.org/2013/08/interview_of_xie_liang/</link>
      <pubDate>Thu, 22 Aug 2013 09:49:14 +0000</pubDate>
      
      <guid>https://cosx.org/2013/08/interview_of_xie_liang/</guid>
      <description>&lt;p&gt;&lt;img src=&#34;https://uploads.cosx.org/2013/08/xie-liang-pic.jpg&#34; alt=&#34;xie-liang-pic&#34;&gt;&lt;/p&gt;
&lt;p&gt;简介：谢梁，现微软（西雅图）高级数据科学家，在各大SAS论坛混迹的朋友也许不知道他的真名，但oloolo这个id可能大家都非常熟悉。本站小编&lt;a href=&#34;http://weibo.com/yihuixie?topnav=1&amp;amp;wvr=5&amp;amp;topsug=1&#34;&gt;谢益辉&lt;/a&gt;有幸在西雅图得遇谢梁真身：本家相逢，又是同行；把酒言欢，各自买单；幸甚至哉，采访即来。谢梁的&lt;a href=&#34;http://www.sas-programming.com&#34;&gt;个人技术博客&lt;/a&gt;。（因为现在不用SAS了，目前更新速度比较慢），更多信息，参见&lt;a href=&#34;http://www.linkedin.com/in/liangxie/&#34;&gt;LinkedIn页面&lt;/a&gt;。&lt;/p&gt;
&lt;h1 id=&#34;1-请介绍一下你自己&#34;&gt;1. 请介绍一下你自己&lt;/h1&gt;
&lt;p&gt;我2000年从西南财经大学金融系毕业，毕业后到中国工商银行工作。一年后辞职到纽约州立大学Binghamton分校学习应用计量经济学。我博士导师Subal Kumbhakar主要研究领域是生产力分析和应用计量经济学，包括面板数据分析和随机边界分析，不过我对一般统计方法更感兴趣。研究兴趣主要是各种混合模型（mixed model）和数据挖掘的方法，还有就是挖掘SAS的潜力。。。。这些也跟我的工作有关。最好的工作就是你感兴趣的工作，我觉得这方面我很幸运，每天的把自己的兴趣爱好抽一块出来就完成工作了。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>使用R语言构造投资组合的有效前沿</title>
      <link>https://cosx.org/2013/08/use-r-to-do-portfolio-optimization/</link>
      <pubDate>Tue, 20 Aug 2013 09:45:15 +0000</pubDate>
      
      <guid>https://cosx.org/2013/08/use-r-to-do-portfolio-optimization/</guid>
      <description>&lt;p&gt;构造投资组合是金融投资分析中历久弥新的问题。多年以来，学界、业界提出诸多对投资组合进行优化的方法。比如，最经典的基于收益率均值和收益率波动性进行组合优化，由于马克维滋提出用收益率方差表示收益率的波动性，所以，这种方法又称为的 &lt;code&gt;M-V&lt;/code&gt; 方法，即&lt;code&gt;Mean-Variance&lt;/code&gt; 方法的缩写；后来，又衍生出基于夏普比率（&lt;code&gt;Sharp Ratio&lt;/code&gt;）的投资组合优化方法；近年来，随着&lt;code&gt;VaR&lt;/code&gt; (&lt;code&gt;Value at Risk&lt;/code&gt;) 和 &lt;code&gt;CVaR&lt;/code&gt; (&lt;code&gt;Conditional Vaule at Risk&lt;/code&gt;) 概念的兴起，基于 &lt;code&gt;VaR&lt;/code&gt; 和 &lt;code&gt;CVaR&lt;/code&gt; 对投资组合进行优化的思路也开始勃兴；除此之外，对冲基金届还有一种非常有生命力的投资组合优化方法，即桥水公司（&lt;code&gt;Bridge-Water&lt;/code&gt;）公司提出的风险均摊方法（ &lt;code&gt;Risk Pairy&lt;/code&gt; ），这种方法的核心思路在于，估计组合中各个资产的风险度及其占组合风险的比率，然后，按照该比例对组合头寸进行分配。&lt;/p&gt;
&lt;p&gt;几种方法中，在学界和业界最收关注的还是 &lt;code&gt;M-V&lt;/code&gt; 方法。而在 &lt;code&gt;M-V&lt;/code&gt; 方法中最基本的一个知识点，就是构造投资组合的有效前沿。理论这里不再赘述，简单说一下其在 &lt;code&gt;R&lt;/code&gt; 语言中的实现。构造有效前沿的步骤大致可按照获取数据、将数据加工处理为收益率矩阵、以收益率矩阵为输入计算得到有效前沿这三个步骤来完成。下面分布来说一说。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>医学统计学系列</title>
      <link>https://cosx.org/2013/08/biostats-series/</link>
      <pubDate>Thu, 15 Aug 2013 11:30:15 +0000</pubDate>
      
      <guid>https://cosx.org/2013/08/biostats-series/</guid>
      <description>&lt;p&gt;非常感谢统计之都盛情邀请在卫生统计方面撰写系列文章，虽然我已经在自己的博客“&lt;a href=&#34;http://hi.baidu.com/healthstat&#34;&gt;卫生统计空间&lt;/a&gt;”写了百余篇统计文章，不过那些都是兴之所至，随手即兴而做，并无什么系统性。这次既然专门写这方面，我想尽量写得系统一些，所以这一次是第一次写，先不写具体方法什么的，而是写点学习统计最重要的东西，也就是医学统计学的重要性。&lt;/p&gt;
&lt;p&gt;很多卫生统计学老师上课从不讲医学统计学是干什么的，有什么重要性，以至于好多学生毕业后依然不知道学了卫生统计学到底有什么用。不少老师都是第一节课开场白就是“统计学是……的科学”，反正我当年第一感觉就是不知所云，脑子一片空白，就知道跟着学习书中的公式、条件等等，完全不知学了有什么用。时至今日，依然存在这样的老师，也依然存在像我当年一样晕的学生。我希望各位在看了这个文章后能够清醒，能够明确地知道统计学到底有什么用。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>解惑rJava R与Java的高速通道</title>
      <link>https://cosx.org/2013/08/r-rjava-java/</link>
      <pubDate>Wed, 14 Aug 2013 22:30:14 +0000</pubDate>
      
      <guid>https://cosx.org/2013/08/r-rjava-java/</guid>
      <description>&lt;p&gt;&lt;a href=&#34;http://blog.fens.me/series-r/&#34; title=&#34;R的极客理想系列文章&#34;&gt;R的极客理想系列文章&lt;/a&gt;，涵盖了R的思想，使用，工具，创新等的一系列要点，以我个人的学习和体验去诠释R的强大。&lt;/p&gt;
&lt;p&gt;R语言作为统计学一门语言，一直在小众领域闪耀着光芒。直到大数据的爆发，R语言变成了一门炙手可热的数据分析的利器。随着越来越多的工程背景的人的加入，R语言的社区在迅速扩大成长。现在已不仅仅是统计领域，教育，银行，电商，互联网….都在使用R语言。&lt;/p&gt;
&lt;p&gt;要成为有理想的极客，我们不能停留在语法上，要掌握牢固的数学，概率，统计知识，同时还要有创新精神，把R语言发挥到各个领域。让我们一起动起来吧，开始R的极客理想。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>COS论坛精华帖系列——strsplit 的反函数</title>
      <link>https://cosx.org/2013/08/cos-series-inverse-function-of-strsplit/</link>
      <pubDate>Tue, 13 Aug 2013 12:30:53 +0000</pubDate>
      
      <guid>https://cosx.org/2013/08/cos-series-inverse-function-of-strsplit/</guid>
      <description>&lt;p&gt;我们知道，R 中的 &lt;code&gt;strsplit&lt;/code&gt; 函数可以将字符串按照分隔符来进行分割。正如下面所示：&lt;/p&gt;
&lt;pre&gt;&lt;code class=&#34;language-r&#34;&gt;str_poor &amp;lt;- &amp;quot;the quick brown fox jumps over a lazy dog&amp;quot;
str_poor
# [1] &amp;quot;the quick brown fox jumps over a lazy dog&amp;quot;

str_splited &amp;lt;- unlist(strsplit(str_poor, &amp;quot; &amp;quot;))
str_splited
# [1] &amp;quot;the&amp;quot;   &amp;quot;quick&amp;quot; &amp;quot;brown&amp;quot; &amp;quot;fox&amp;quot;   &amp;quot;jumps&amp;quot; &amp;quot;over&amp;quot;  &amp;quot;a&amp;quot;     &amp;quot;lazy&amp;quot;  &amp;quot;dog&amp;quot;
&lt;/code&gt;&lt;/pre&gt;
&lt;p&gt;那么，有没有对应的“反函数”，就是说把以上的 &lt;code&gt;splited_str&lt;/code&gt; 还原成为原来的 &lt;code&gt;poor_str&lt;/code&gt; 呢？当然是有的，而且不止一种方法。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>Rserve与Java的跨平台通信</title>
      <link>https://cosx.org/2013/08/r-rserve-java/</link>
      <pubDate>Mon, 12 Aug 2013 23:19:29 +0000</pubDate>
      
      <guid>https://cosx.org/2013/08/r-rserve-java/</guid>
      <description>&lt;p&gt;&lt;a href=&#34;http://blog.fens.me/series-r/&#34; title=&#34;R的极客理想系列文章&#34;&gt;R的极客理想系列文章&lt;/a&gt;，涵盖了R的思想，使用，工具，创新等的一系列要点，以我个人的学习和体验去诠释R的强大。&lt;/p&gt;
&lt;p&gt;R语言作为统计学一门语言，一直在小众领域闪耀着光芒。直到大数据的爆发，R语言变成了一门炙手可热的数据分析的利器。随着越来越多的工程背景的人的加入，R语言的社区在迅速扩大成长。现在已不仅仅是统计领域，教育，银行，电商，互联网….都在使用R语言。&lt;/p&gt;
&lt;p&gt;要成为有理想的极客，我们不能停留在语法上，要掌握牢固的数学，概率，统计知识，同时还要有创新精神，把R语言发挥到各个领域。让我们一起动起来吧，开始R的极客理想。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>COS论坛精华帖系列——use R for fun系列之小应用制作篇</title>
      <link>https://cosx.org/2013/08/cos-series-use-r-for-fun-application/</link>
      <pubDate>Sat, 10 Aug 2013 16:24:30 +0000</pubDate>
      
      <guid>https://cosx.org/2013/08/cos-series-use-r-for-fun-application/</guid>
      <description>&lt;p&gt;系列以use R for fun为主题，以&lt;a href=&#34;https://cos.name/cn/&#34;&gt;COS论坛&lt;/a&gt;上的精华帖、相关的package以及自己的一些code为素材，结合自身的一些编程体会，从而整合成文。本文是第二篇小应用制作篇。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;本文素材出处均已在正文注明&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;本文继续承接上一篇的话题(&lt;a href=&#34;https://cosx.org/2013/08/cos-series-use-r-for-fun-game/&#34;&gt;小游戏开发篇&lt;/a&gt;)，继续在交互操作上做文章，不同的是这里引入了更丰富的操作和idea，仅仅做些小游戏还远远达不到我们的胃口，因此这里不妨再把思维拓宽些，让R来我们的生活服务(理论上)，于是小应用制作篇就此诞生，虽称不上游戏但同样可以给我们带来的快乐。由于面更广因此idea就更为关键了(在玩统计的过程中idea同样关键！)，上篇所讲的内容可以被完美继承到本篇中，至于其他内容很难明确说需要事先掌握R的某一块内容(少量增加了一些)，所以这里就直接上例子！&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>COS论坛精华帖系列——use R for fun系列之小游戏开发篇</title>
      <link>https://cosx.org/2013/08/cos-series-use-r-for-fun-game/</link>
      <pubDate>Thu, 08 Aug 2013 18:27:06 +0000</pubDate>
      
      <guid>https://cosx.org/2013/08/cos-series-use-r-for-fun-game/</guid>
      <description>系列以use R for fun为主题，以COS论坛上的精华帖、相关的package以及自己的一些code为素材，结合自身的一些编程体会，从而整合成文</description>
    </item>
    
    <item>
      <title>COS数据分析沙龙第十二期（北京）</title>
      <link>https://cosx.org/2013/08/beijing-cos-salon-jul-2013/</link>
      <pubDate>Sun, 04 Aug 2013 21:58:23 +0000</pubDate>
      
      <guid>https://cosx.org/2013/08/beijing-cos-salon-jul-2013/</guid>
      <description>by 肖展航 2013年7月28日，第十二期COS数据分析沙龙（北京站）在明德主楼1016如期举行。顶着这个夏天第二个高温橙色预警，本次嘉宾，来自</description>
    </item>
    
    <item>
      <title>R利剑NoSQL系列文章 之 Hive</title>
      <link>https://cosx.org/2013/07/r-nosql-hive/</link>
      <pubDate>Sun, 28 Jul 2013 12:00:32 +0000</pubDate>
      
      <guid>https://cosx.org/2013/07/r-nosql-hive/</guid>
      <description>&lt;p&gt;&lt;a href=&#34;http://blog.fens.me/series-r-nosql/&#34; title=&#34;R利剑NoSQL系列文章&#34;&gt;R利剑NoSQL系列文章&lt;/a&gt;，主要介绍通过R语言连接使用nosql数据库。涉及的NoSQL产品，包括&lt;a href=&#34;http://blog.fens.me/nosql-r-redis/&#34; title=&#34;R利剑NoSQL系列文章 之 Redis&#34;&gt;Redis&lt;/a&gt;,&lt;a href=&#34;http://blog.fens.me/nosql-r-mongodb/&#34; title=&#34;R利剑NoSQL系列文章 之 MongoDB&#34;&gt;MongoDB&lt;/a&gt;, &lt;a href=&#34;http://blog.fens.me/nosql-r-hbase&#34; title=&#34;R利剑NoSQL系列文章 之 HBase&#34;&gt;HBase&lt;/a&gt;, &lt;a href=&#34;http://blog.fens.me/nosql-r-hive/&#34; title=&#34;R利剑NoSQL系列文章 之 Hive&#34;&gt;Hive&lt;/a&gt;, &lt;a href=&#34;http://blog.fens.me/nosql-r-cassandra/&#34; title=&#34;R利剑NoSQL系列文章 之 Cassandra&#34;&gt;Cassandra&lt;/a&gt;, &lt;a href=&#34;http://blog.fens.me/nosql-r-neo4j/&#34; title=&#34;R利剑NoSQL系列文章 之 Neo4j&#34;&gt;Neo4j&lt;/a&gt;。希望通过我的介绍让广大的R语言爱好者，有更多的开发选择，做出更多地激动人心的应用。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;关于作者：&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;张丹(Conan), 程序员Java,R,PHP,Javascript&lt;/li&gt;
&lt;li&gt;weibo：@Conan_Z&lt;/li&gt;
&lt;li&gt;blog: &lt;a href=&#34;http://blog.fens.me&#34;&gt;http://blog.fens.me&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;email: &lt;a href=&#34;mailto:bsspirit@gmail.com&#34;&gt;bsspirit@gmail.com&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;img src=&#34;https://uploads.cosx.org/2013/07/rhive.png&#34; alt=&#34;rhive&#34;&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;第四篇 R利剑Hive，分为5个章节&lt;/strong&gt;&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;Hive介绍&lt;/li&gt;
&lt;li&gt;Hive安装&lt;/li&gt;
&lt;li&gt;RHive安装&lt;/li&gt;
&lt;li&gt;RHive函数库&lt;/li&gt;
&lt;li&gt;RHive基本使用操作&lt;/li&gt;
&lt;/ol&gt;
&lt;h1 id=&#34;1-hive介绍&#34;&gt;1. Hive介绍&lt;/h1&gt;
&lt;p&gt;Hive是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言，称为 HQL，它允许熟悉 SQL 的用户查询数据。同时，这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>COS访谈第3期：易丹辉教授</title>
      <link>https://cosx.org/2013/07/interview-of-yidanhui/</link>
      <pubDate>Mon, 22 Jul 2013 10:39:57 +0000</pubDate>
      
      <guid>https://cosx.org/2013/07/interview-of-yidanhui/</guid>
      <description>简介：易丹辉教授是中国人民大学统计学院的教授，博士生导师，主要从事统计方法在经济、金融、保险、医疗、管理等领域应用的研究。具体介绍参见学院网</description>
    </item>
    
    <item>
      <title>R利剑NoSQL系列文章 之Cassandra</title>
      <link>https://cosx.org/2013/07/r-nosql-cassandra/</link>
      <pubDate>Thu, 18 Jul 2013 18:05:14 +0000</pubDate>
      
      <guid>https://cosx.org/2013/07/r-nosql-cassandra/</guid>
      <description>R利剑NoSQL系列文章，主要介绍通过R语言连接使用nosql数据库。涉及的NoSQL产品，包括Redis, MongoDB, HBase, Hive, Cassandra, Neo4j。希望通过我的</description>
    </item>
    
    <item>
      <title>COS数据分析沙龙第十一期（北京）</title>
      <link>https://cosx.org/2013/07/beijing-cos-salon-june-2013/</link>
      <pubDate>Tue, 02 Jul 2013 14:29:22 +0000</pubDate>
      
      <guid>https://cosx.org/2013/07/beijing-cos-salon-june-2013/</guid>
      <description>2013年6月23日，十一期COS数据分析沙龙（北京站）在明主1016如期举行。本期沙龙主题是“RHadoop助R突破大数据难关”；沙龙嘉宾</description>
    </item>
    
    <item>
      <title>COS数据分析沙龙第十期（广州）</title>
      <link>https://cosx.org/2013/07/guangzhou-cos-salon10/</link>
      <pubDate>Mon, 01 Jul 2013 18:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2013/07/guangzhou-cos-salon10/</guid>
      <description>2013年6月29日，广州COS沙龙第二期（总第十期）在中山大学数学楼104会议室如期举行。本期沙龙以“数据科学”为主题。很多对数据科学感兴</description>
    </item>
    
    <item>
      <title>COS访谈第2期：约翰·霍普金斯大学Jeff Leek</title>
      <link>https://cosx.org/2013/06/interviewof-jeff-leek/</link>
      <pubDate>Mon, 17 Jun 2013 18:40:17 +0000</pubDate>
      
      <guid>https://cosx.org/2013/06/interviewof-jeff-leek/</guid>
      <description>&lt;p&gt;简介：Jeff Leek是约翰·霍普金斯大学布隆博格公共卫生学院（Johns Hopkins Bloomberg School of Public Health）助理教授。他与另外两位教授共同打理的&lt;a href=&#34;http://simplystatistics.org/&#34;&gt;Simply Statistics&lt;/a&gt;是最受欢迎的统计学博客之一。本文是小编对Jeff Leek采访的录音稿。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;1. 教育背景&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;我叫Jeff Leek， 我是美国约翰·霍普金斯大学的一名助理教授，方向是生物统计。我在犹他州立大学念的本科，方向是应用数学。然后是在西雅图华盛顿大学读的生物统计博士学位。之后我又在Mount Sinai School of Medicine做了博士后，然后又去约翰·霍普金斯大学做了博士后，方向是计算生物学。我的研究方向主要是基因组相关问题和下一代序列分析。我正在维护一个叫Simply Statistics的博客，里面有很多有趣的统计问题。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;2.为什么选择统计专业？&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;当我还是一个本科生的时候，我和一个教授做一个关于甲壳虫的研究。我收集数据，然后用微分方程模型研究甲壳虫灾害的爆发。那时候在分析数据的过程，我觉得需要学习更多的统计学知识。所以当我申请研究生项目的时候，申了一半的数学，申了一半的统计。但是当我去各个学校访问的时候，觉得还是统计系的人们更有意思点。最后我就去了生物统计专业了。在读研究生的时候，我的博士导师，同是也是我的研究助理导师引导我进入了基因学，而我自己也觉得基因学很酷很令人兴奋。总之，就是我的导师让我觉得基因学很有意思，然后我就进入了这个领域。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>粉丝地图的可视化</title>
      <link>https://cosx.org/2013/06/weibo-fans-map-visualization/</link>
      <pubDate>Sun, 02 Jun 2013 20:12:35 +0000</pubDate>
      
      <guid>https://cosx.org/2013/06/weibo-fans-map-visualization/</guid>
      <description>&lt;p&gt;Rweibo问世以来，我就对它的可视化感到兴趣盎然。通过它我们可以得到微博关注者的各项信息，其中比较有意思的一项是地点(location)，这也就意味着，通过关注者的location（省市），可以找到他们的地理分布信息，同时，又可以得到他们的粉丝数目信息（可以判断是否是“微博名人”）。所以，既然万事俱备，为什么不用它做个“粉丝地图”来展示个人的粉丝信息呢？通过如下四步，我便基本得到了我想要的效果。&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;收集关注者的信息，整理地点信息；&lt;/li&gt;
&lt;li&gt;获取并整理经纬度信息；&lt;/li&gt;
&lt;li&gt;结合Himsic与ggmap包绘制图形；&lt;/li&gt;
&lt;li&gt;结合animation包绘制动态图形。&lt;/li&gt;
&lt;/ol&gt;</description>
    </item>
    
    <item>
      <title>大数据时代和数据分析需求，统计还沾边吗？</title>
      <link>https://cosx.org/2013/05/relationship-big-data-statistics/</link>
      <pubDate>Wed, 29 May 2013 13:29:01 +0000</pubDate>
      
      <guid>https://cosx.org/2013/05/relationship-big-data-statistics/</guid>
      <description>&lt;blockquote&gt;
&lt;p&gt;本文转载自施涛的博客，原文链接请&lt;a href=&#34;http://blog.cos.name/taoshi/2013/05/29/%E5%A4%A7%E6%95%B0%E6%8D%AE%E6%97%B6%E4%BB%A3%E5%92%8C%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90%E9%9C%80%E6%B1%82%EF%BC%8C%E7%BB%9F%E8%AE%A1%E8%BF%98%E6%B2%BE%E8%BE%B9%E5%90%97%EF%BC%9F/&#34;&gt;点击此处&lt;/a&gt;。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;大数据时代的悄然到来和计算能力爆炸式增长，让做统计分析的各类人士不禁要重新打量一下自己的技能包，看看是不是很快要被时代浪潮&lt;a href=&#34;http://normaldeviate.wordpress.com/2013/04/13/data-science-the-end-of-statistics/&#34;&gt;以大浪淘沙的方式清洗掉了。&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;到底大数据是怎么来的呢？可以用来干什么呢？我们就先拿2012美国总统大选来举个例子看看。比如说我们想预测在2012年11月6日，&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;问题1&lt;/strong&gt;: 奥巴马和罗姆尼谁当选美国总统？&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;我们可以用什么数据来做这个预测呢？最常用的就是民调数据了，通过有选择性的挑选一些可能选民来问他们的倾向。这好像是个传统统计干的事。&lt;a href=&#34;http://blog.cos.name/taoshi/2012/07/26/john-and-david/&#34;&gt;早在1962年John Tukey就已经开始做了&lt;/a&gt;。&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://uploads.cosx.org/2013/05/4C6ec.jpg&#34; alt=&#34;4C6ec&#34;&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;问题2&lt;/strong&gt;: 奥巴马和罗姆尼各自赢得了哪些州？&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这也不难回答，我们还是可以用民调数据了，只不过要在每个州都进行抽样调查，在仔细的分析汇总一下。数据量也就比预测全国的结果时用的多几十倍而已。而且如果知道了那些州两人相差太大，一方就没有必要再大肆花钱做广告了 ：）&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>第六届中国R语言会议（北京）纪要</title>
      <link>https://cosx.org/2013/05/6th-china-r-beijing-summary/</link>
      <pubDate>Mon, 27 May 2013 12:19:50 +0000</pubDate>
      
      <guid>https://cosx.org/2013/05/6th-china-r-beijing-summary/</guid>
      <description>&lt;p&gt;第六届中国 R 语言会议（北京会场）于 2013 年 5 月 18 日 ~ 19 日在中国人民大学国学馆113、114教室成功召开。会议由中国人民大学应用统计科学研究中心、中国人民大学统计学院、北京大学商务智能研究中心、统计之都（&lt;a href=&#34;https://cos.name&#34;&gt;cos.name&lt;/a&gt;）主办。在两天的会议时间里，参会者齐聚一堂，就R语言在互联网、商业、统计、生物、制药、可视化等诸多方面的应用进行了深入的探讨。&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://uploads.cosx.org/2013/05/6th-china-r-bj.jpg&#34; alt=&#34;6th-china-r-bj&#34;&gt;&lt;/p&gt;
&lt;h1 id=&#34;会议概况&#34;&gt;会议概况&lt;/h1&gt;
&lt;p&gt;本次会议报名非常火爆，报名人数超过600人，约有 400 多名参会者前来参会，规模再创历届之最。参会者主要来自各大高校、科研机构、企业和事业单位，全体参会者所在单位汇总如下。&lt;/p&gt;
&lt;p&gt;高校和研究所：&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;中央财经大学、中南大学、中山大学、中国农业科学院、中国社会科学院、中国石油大学、中国科学技术信息研究所、中国科学院北京基因组研究所、中国科学院大学、中国科学院南京地理与湖泊研究所、中国矿业大学（北京）、中国农业大学、中国科学技术大学、中国传媒大学、中国地质大学（北京）、浙江大学、浙江工商大学、芝加哥大学、燕山大学、医学信息研究所、香港城市大学、西南财经大学、微软互联网工程院，北京大学、温岭市委党校、天津医科大学、天津农学院、天津财经大学、天津大学、上海大学、山西医科大学、山西财经大学、中国人民大学、清华大学、南方医科大学、南开大学、内蒙古财经大学、内蒙古科技大学、宁波工程学院、华中农业大学、吉林大学、华北电力大学、河南大学、国防科技大学、第三军医大学、对外经济贸易大学、北京邮电大学、北京语言大学、北京协和医学院、北京师范大学、北京理工大学、北京林业大学、北京航空航天大学、北京交通大学、北京工商大学、北京大学、华侨大学、University of Birmingham、University of Nebraska、Rice University、Iowa State University&lt;/p&gt;
&lt;/blockquote&gt;</description>
    </item>
    
    <item>
      <title>《R语言编程艺术》</title>
      <link>https://cosx.org/2013/05/the-art-r-programming/</link>
      <pubDate>Thu, 23 May 2013 16:52:04 +0000</pubDate>
      
      <guid>https://cosx.org/2013/05/the-art-r-programming/</guid>
      <description>&lt;p&gt;&lt;img src=&#34;https://uploads.cosx.org/2013/05/art-of-r.jpg&#34; alt=&#34;R语言编程艺术&#34;&gt;&lt;/p&gt;
&lt;p style=&#34;text-align: center;&#34;&gt;《R语言编程艺术》&lt;/p&gt;
&lt;p&gt;由统计之都的几位成员翻译的《R语言编程艺术》终于就要面市了。本书的译者有&lt;a href=&#34;http://yanping.me/cn&#34;&gt;陈堰平&lt;/a&gt;、&lt;a href=&#34;http://yixuan.cos.name/cn&#34;&gt;邱怡轩&lt;/a&gt;、&lt;a href=&#34;http://panlanfeng.github.com&#34;&gt;潘岚锋&lt;/a&gt;、&lt;a href=&#34;http://weibo.com/u/1572842322&#34;&gt;熊熹&lt;/a&gt;，负责校审的有&lt;a href=&#34;http://http://weibo.com/mangoly&#34;&gt;林宇&lt;/a&gt;、严紫丹、程豪。&lt;a href=&#34;http://yanping.me/cn/blog/2013/05/15/the-art-of-r-programming-published/&#34;&gt;这里&lt;/a&gt;有本书的译者序，读者可以在&lt;a href=&#34;https://github.com/cosname/art-r-translation&#34;&gt;本书的github页面&lt;/a&gt;下载数据和代码。读者可以在本页留言提问，我们也会在这里公布本书的勘误。想查找更多好书，请看&lt;a href=&#34;https://cos.name/books/&#34;&gt;图书出版&lt;/a&gt;频道。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>《ggplot2：数据分析与图形艺术》现已上市</title>
      <link>https://cosx.org/2013/05/ggplot2/</link>
      <pubDate>Wed, 15 May 2013 18:19:57 +0000</pubDate>
      
      <guid>https://cosx.org/2013/05/ggplot2/</guid>
      <description>&lt;p&gt;&lt;img src=&#34;https://uploads.cosx.org/2013/05/ggplot2.jpg&#34; alt=&#34;ggplot2&#34;&gt;&lt;/p&gt;
&lt;p style=&#39;text-align: center&#39;&gt;ggplot2：数据分析与图形艺术&lt;/p&gt;
&lt;p&gt;由统计之都操刀翻译的《ggplot2：数据分析与图形艺术》一书已经上市了。这本书的译者包括邱怡轩（第1～2章）、主伟呈（第3～4章）、肖楠（第5～6章）、高涛（第7～8章）、潘岚锋（第9章）、魏太云（第10章、附录以及翻译过程的协调安排和全书的LaTeX排版工作）。谢益辉为本书写了&lt;a href=&#34;https://github.com/cosname/ggplot2-translation/blob/master/preface.md&#34;&gt;译者序&lt;/a&gt;。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>COS数据分析沙龙第九期（上海，@联合创业办公社）</title>
      <link>https://cosx.org/2013/05/shanghai-r-salon-may-2013/</link>
      <pubDate>Tue, 14 May 2013 11:47:59 +0000</pubDate>
      
      <guid>https://cosx.org/2013/05/shanghai-r-salon-may-2013/</guid>
      <description>&lt;p&gt;春光旖旎，眼瞅着几天之后就要在北京举行声势浩大的第六届中国R语言会议了。想着大家因为各种各样的原因可能届时无法到场参会，所以上海的童鞋们抓紧大会前的宝贵时间，自然是要把上海这边奉送的高质量报告先睹为快。所谓近水楼台先得月嘛。同时也是为了几天之后的会议造造声势，有什么不好么？&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://uploads.cosx.org/2013/05/salon3.jpg&#34; alt=&#34;沙龙进行中&amp;amp;hellip;&#34;&gt;&lt;/p&gt;
&lt;p style=&#34;text-align: center;&#34;&gt;沙龙进行中...&lt;/p&gt;
&lt;p&gt;沙龙依旧沿袭上海一贯的小资风格，跑到联合创业办公社位于昌平路的二期创业社，躲着下午刺眼的阳光，享受着周末美好的闲聊。一开始，依惯例是大家的自我介绍时间。上海的沙龙参与者以业界的朋友为主，大概也迎合了近期R语言在业界快速发展的趋势。从互联网企业，到制药、咨询、金融，还有很多小编以前都没有听说过的行业都有高朋莅临。此外，还有来自浙江大学的杭教授激情饱满的为我们介绍了浙大即将开设的与数据分析相关的专业，目标就是培养业界（尤其是金融业）需要的数据分析人才。席间还有学界业界兼得的大牛挥斥方遒，瞬间觉得，从业界到高校到科研院所，数据分析真是无孔不入。我们是否可以开始期待一场产业革命了呢？&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>第六届中国R语言会议（北京会场）日程发布</title>
      <link>https://cosx.org/2013/05/chinar-2013-beijing-schedule/</link>
      <pubDate>Tue, 14 May 2013 00:38:56 +0000</pubDate>
      
      <guid>https://cosx.org/2013/05/chinar-2013-beijing-schedule/</guid>
      <description>&lt;p&gt;R是一门用于数据分析和图形展示的语言、平台和环境，其官方机构每年都会举办useR!会议，各个国家及地区也定期有R用户的交流活动。在国内，自2008年以来，中国已经在北京和上海成功举办了五届R语言会议，促进了R语言在中国的推广和发展。为了进一步加强各领域R语言使用者之间的交流和互动，我们准备在2013年5月18-19日在北京举行第六届中国R语言会议（北京会场）。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>COS每周精选:数据科学的威胁</title>
      <link>https://cosx.org/2013/04/the-threat-from-data-science/</link>
      <pubDate>Wed, 24 Apr 2013 04:29:14 +0000</pubDate>
      
      <guid>https://cosx.org/2013/04/the-threat-from-data-science/</guid>
      <description>&lt;p&gt;本期投稿：&lt;a href=&#34;http://yihui.name/&#34;&gt;谢益辉&lt;/a&gt; &lt;a href=&#34;http://www.road2stat.com/&#34;&gt;肖楠&lt;/a&gt; 林荟&lt;/p&gt;
&lt;p&gt;&lt;a href=&#34;http://simplystatistics.org/2013/04/15/data-science-only-poses-a-threat-to-biostatistics-if-we-dont-adapt/&#34;&gt;如果我们不变革的话，数据科学对我们（生物）统计将是一个威胁&lt;/a&gt;，&lt;wbr /&gt;Jeff Leek说。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>统计沙龙</title>
      <link>https://cosx.org/salon/</link>
      <pubDate>Thu, 18 Apr 2013 16:20:30 +0000</pubDate>
      
      <guid>https://cosx.org/salon/</guid>
      <description>海外沙龙 海外线上沙龙是COS海外会员的线上学习交流活动，每期由一位或多位嘉宾通过视频形式主讲分享，主持人和嘉宾可以通过视频直接互动交流，其他</description>
    </item>
    
    <item>
      <title>R利剑NoSQL系列文章 之 Redis</title>
      <link>https://cosx.org/2013/04/nosql-r-redis/</link>
      <pubDate>Thu, 18 Apr 2013 12:00:50 +0000</pubDate>
      
      <guid>https://cosx.org/2013/04/nosql-r-redis/</guid>
      <description>Author: 张丹(Conan) Email: bsspirit@gmail.com Blog: http://www.fens.me Weibo: @Conan_Z Date: 2013-4-14 R利剑NoSQL系列文章 R利剑NoSQL系列文章，主要介绍通过R语言连接使用nosql数据库。涉及的No</description>
    </item>
    
    <item>
      <title>R利剑NoSQL系列文章 之 MongoDB</title>
      <link>https://cosx.org/2013/04/nosql1-rmongodb/</link>
      <pubDate>Mon, 15 Apr 2013 12:00:34 +0000</pubDate>
      
      <guid>https://cosx.org/2013/04/nosql1-rmongodb/</guid>
      <description>Author: 张丹 Email: bsspirit@gmail.com Blog: http://www.fens.me Weibo: @Conan_Z Date: 2013-4-11 R利剑NoSQL系列文章 R利剑NoSQL系列文章，主要介绍通过R语言连接使用nosql数据库。涉及的NoSQL产品，包</description>
    </item>
    
    <item>
      <title>COS每周精选:论机器学习技术在超级玛丽自动化中的应用</title>
      <link>https://cosx.org/2013/04/super-mario-and-machine-learning/</link>
      <pubDate>Mon, 15 Apr 2013 11:10:32 +0000</pubDate>
      
      <guid>https://cosx.org/2013/04/super-mario-and-machine-learning/</guid>
      <description>&lt;p&gt;本期投稿：&lt;a href=&#34;http://yihui.name/&#34;&gt;谢益辉&lt;/a&gt; &lt;a href=&#34;http://www.road2stat.com/&#34;&gt;肖楠&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;&lt;a href=&#34;http://www.cs.cmu.edu/~tom7/mario/&#34;&gt;论机器学习技术在超级玛丽自动化中的应用&lt;/a&gt;（需要科学上网）。视频里那牛叉的意识，销魂的走位，你能区分玩家是人还是电脑么？如果你是一位老师，这篇“训练机器自动打怪”的论文应该是你教学生学习写论文的范文：它有一个明确、强烈而有趣的动机，有目标函数的定义，有硬件介绍，有代码实现，有不断的困难和意外（超级玛丽走到死角就不知道该怎么办了），最后算法还可以扩展到其它游戏上（从超级玛丽到吃豆人、俄罗斯方块等），其逆天程度已经不是人类语言能形容了，想想我们折腾的那点儿所谓的训练机器学习，算个毛线啊。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>RHadoop实践系列之四 rhbase安装与使用</title>
      <link>https://cosx.org/2013/04/rhadoop4-rhbase/</link>
      <pubDate>Fri, 12 Apr 2013 12:22:55 +0000</pubDate>
      
      <guid>https://cosx.org/2013/04/rhadoop4-rhbase/</guid>
      <description>Author：张丹(Conan) Date: 2013-04-07 Weibo: @Conan_Z Email: bsspirit@gmail.com Blog: http://www.fens.me/blog APPs: @晒粉丝 http://www.fens.me @每日中国天气 http://apps.weibo.com/chinaweatherapp RHadoop实践系列文章 RHadoop实践系列文章，包含了R语</description>
    </item>
    
    <item>
      <title>RHadoop实践系列之三 R实现MapReduce的协同过滤算法</title>
      <link>https://cosx.org/2013/04/rhadoop3-rhadoop-mapreduce/</link>
      <pubDate>Tue, 09 Apr 2013 12:30:29 +0000</pubDate>
      
      <guid>https://cosx.org/2013/04/rhadoop3-rhadoop-mapreduce/</guid>
      <description>&lt;p&gt;Author：张丹(Conan)&lt;/p&gt;
&lt;p&gt;Date: 2013-04-07&lt;/p&gt;
&lt;p&gt;Weibo: @Conan_Z&lt;/p&gt;
&lt;p&gt;Email: &lt;a href=&#34;mailto:bsspirit@gmail.com&#34;&gt;bsspirit@gmail.com&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;Blog: &lt;a href=&#34;http://www.fens.me/blog&#34;&gt;http://www.fens.me/blog&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;APPs:&lt;/p&gt;
&lt;p&gt;@晒粉丝 &lt;a href=&#34;http://www.fens.me&#34;&gt;http://www.fens.me&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;@每日中国天气 &lt;a href=&#34;http://apps.weibo.com/chinaweatherapp&#34;&gt;http://apps.weibo.com/chinaweatherapp&lt;/a&gt;&lt;/p&gt;
&lt;h1 id=&#34;rhadoop实践系列文章&#34;&gt;RHadoop实践系列文章&lt;/h1&gt;
&lt;p&gt;RHadoop实践系列文章，包含了R语言与Hadoop结合进行海量数据分析。Hadoop主要用来存储海量数据，R语言完成MapReduce 算法，用来替代Java的MapReduce实现。有了RHadoop可以让广大的R语言爱好者，有更强大的工具处理大数据。1G, 10G, 100G, TB,PB 由于大数据所带来的单机性能问题，可能会一去联复返了。&lt;/p&gt;
&lt;p&gt;RHadoop实践是一套系列文章，主要包括“Hadoop环境搭建”，“RHadoop安装与使用”，“R实现MapReduce的算法案 例”，“HBase和rhbase的安装与使用”。对于单独的R语言爱好者，Java爱好者，或者Hadoop爱好者来说，同时具备三种语言知识并不容 易。&lt;/p&gt;
&lt;p&gt;由于rmr2的对hadoop操作有一些特殊性，代码实现有一定难度。需要深入学习的同学，请多尝试并思考key/value值的设计。&lt;/p&gt;
&lt;p&gt;本文难度为中高级。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>COS每周精选:群众智慧vs机器学习？</title>
      <link>https://cosx.org/2013/04/human-eye-vs-machine-learning/</link>
      <pubDate>Mon, 08 Apr 2013 10:49:21 +0000</pubDate>
      
      <guid>https://cosx.org/2013/04/human-eye-vs-machine-learning/</guid>
      <description>本期投稿：谢益辉 曾如山 群众智慧vs机器学习？亚马逊土耳其机器人（Amazon Mechanical Turk）是一个著名的众包平台，借群众的智慧解决机器很难或无法</description>
    </item>
    
    <item>
      <title>微博用户影响力评价的H-Index指数</title>
      <link>https://cosx.org/2013/04/weibo-influence-hindex/</link>
      <pubDate>Tue, 02 Apr 2013 20:06:46 +0000</pubDate>
      
      <guid>https://cosx.org/2013/04/weibo-influence-hindex/</guid>
      <description>&lt;p&gt;H-index其实更广泛的应用于学术论文评价，其定义为：&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;h代表“高引用次数”（high citations），一名科研人员的h指数是指他至多有h篇论文分别被引用了至少h次。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;约在半年前，小编就和一位老师打趣地说这东西能不能用于评价微博用户的影响力。定义相应可以改为：&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;一名微博用户的h指数是指他至多有h个粉丝数超过h的粉丝。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;怎奈后来抓数据奇慢无比，遂放弃。&lt;/p&gt;
&lt;p&gt;转过年来，春天都到了，Rweibo这个包也出来好久了，不动手试试多少有点痒痒。新浪微博的API对于测试帐号限制较多，一小时只有150次请求机会。唉，只能无耻的多帐号多API一个个抓。就算这样，到最后在有限的时间之内小编也只成功的抓取了一百多个用户的信息，勉强绘就了一张微博的H-index指数与粉丝数的关系图。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>第六届中国R语言会议</title>
      <link>https://cosx.org/chinar/chinar-2013/</link>
      <pubDate>Mon, 01 Apr 2013 15:37:43 +0000</pubDate>
      
      <guid>https://cosx.org/chinar/chinar-2013/</guid>
      <description>&lt;p&gt;R是一门用于数据分析和图形展示的语言、平台和环境，其官方机构每年都会举办useR!会议，各个国家及地区也定期有R用户的交流活动。在国内，自2008年以来，中国已经在北京和上海成功举办了五届R语言会议，促进了R语言在中国的推广和发展。为了进一步加强各领域R语言使用者之间的交流和互动，我们分别于2013年5月18-19日在北京、2013年11月2-3日在上海成功举办了第六届中国R语言会议。&lt;/p&gt;
&lt;p&gt;北京会场和上海会场均已顺利召开，详情请见&lt;a href=&#34;https://cosx.org/2013/05/6th-china-r-beijing-summary/&#34;&gt;北京会场会议纪要&lt;/a&gt;及&lt;a href=&#34;https://cosx.org/2013/11/6th-china-r-shanghai-summary/&#34;&gt;上海会场会议纪要&lt;/a&gt;。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>COS每周精选:一场穿越时空的辩护</title>
      <link>https://cosx.org/2013/04/an-debate-with-the-past/</link>
      <pubDate>Mon, 01 Apr 2013 12:08:19 +0000</pubDate>
      
      <guid>https://cosx.org/2013/04/an-debate-with-the-past/</guid>
      <description>本期投稿：谢益辉 肖楠 一场穿越时空的辩护：贝叶斯学派代表人物Andrew GELMAN和Christian ROBERT向70年前的概率论巨头Fe</description>
    </item>
    
    <item>
      <title>COS每周精选:R的概率分布花园</title>
      <link>https://cosx.org/2013/03/garden-of-ditributions-of-r/</link>
      <pubDate>Mon, 25 Mar 2013 12:47:50 +0000</pubDate>
      
      <guid>https://cosx.org/2013/03/garden-of-ditributions-of-r/</guid>
      <description>&lt;p&gt;本期投稿：&lt;a href=&#34;http://yihui.name/&#34;&gt;谢益辉&lt;/a&gt; &lt;a href=&#34;http://www.road2stat.com/&#34;&gt;肖楠&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;R为什么这样红？统计学家的汗水捧红了它！&lt;a href=&#34;http://blog.revolutionanalytics.com/2013/03/rs-garden-of-probability-distributions.html&#34;&gt;R的概率分布花园&lt;/a&gt; 有近两百种不同的分布函数，每一种都清晰的归类并配上详细的文档，不信请点击 &lt;a href=&#34;http://cran.r-project.org/web/views/Distributions.html&#34;&gt;Probability Distributions Task View&lt;/a&gt;。（注：&lt;a href=&#34;http://www.johndcook.com/distribution_chart.html&#34;&gt;John D Cook的概率分布关系图&lt;/a&gt;也很意思，还有与之配套的twitter账号 &lt;a href=&#34;http://www.twitter.com/ProbFact&#34;&gt;@ProbFact&lt;/a&gt;。）&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>RHadoop实践系列之二：RHadoop安装与使用</title>
      <link>https://cosx.org/2013/03/rhadoop2-rhadoop/</link>
      <pubDate>Sun, 24 Mar 2013 21:59:56 +0000</pubDate>
      
      <guid>https://cosx.org/2013/03/rhadoop2-rhadoop/</guid>
      <description>&lt;p&gt;Author：张丹(Conan)&lt;/p&gt;
&lt;p&gt;Date: 2013-03-07&lt;/p&gt;
&lt;p&gt;Weibo: @Conan_Z&lt;/p&gt;
&lt;p&gt;Email: &lt;a href=&#34;mailto:bsspirit@gmail.com&#34;&gt;bsspirit@gmail.com&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;Blog: &lt;a href=&#34;http://www.fens.me/blog&#34;&gt;http://www.fens.me/blog&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;APPs:&lt;/p&gt;
&lt;p&gt;@晒粉丝 &lt;a href=&#34;http://www.fens.me&#34;&gt;http://www.fens.me&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;@每日中国天气 &lt;a href=&#34;http://apps.weibo.com/chinaweatherapp&#34;&gt;http://apps.weibo.com/chinaweatherapp&lt;/a&gt;&lt;/p&gt;
&lt;h1 id=&#34;rhadoop实践系列文章&#34;&gt;RHadoop实践系列文章&lt;/h1&gt;
&lt;p&gt;RHadoop实践系列文章，包含了R语言与Hadoop结合进行海量数据分析。Hadoop主要用来存储海量数据，R语言完成MapReduce 算法，用来替代Java的MapReduce实现。有了RHadoop可以让广大的R语言爱好者，有更强大的工具处理大数据。1G, 10G, 100G, TB,PB 由于大数据所带来的单机性能问题，可能会一去联复返了。&lt;/p&gt;
&lt;p&gt;RHadoop实践是一套系列文章，主要包括“Hadoop环境搭建”，“RHadoop安装与使用”，“R实现MapReduce的算法案 例”，“HBase和rhbase的安装与使用”。对于单独的R语言爱好者，Java爱好者，或者Hadoop爱好者来说，同时具备三种语言知识并不容 易。此文虽为入门文章，但R,Java,Hadoop基础知识还是需要大家提前掌握。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>RHadoop实践系列之一:Hadoop环境搭建</title>
      <link>https://cosx.org/2013/03/rhadoop1-hadoop/</link>
      <pubDate>Sun, 24 Mar 2013 21:55:36 +0000</pubDate>
      
      <guid>https://cosx.org/2013/03/rhadoop1-hadoop/</guid>
      <description>&lt;h1 id=&#34;rhadoop实践系列文章&#34;&gt;RHadoop实践系列文章&lt;/h1&gt;
&lt;p&gt;RHadoop实践系列文章，包含了R语言与Hadoop结合进行海量数据分析。Hadoop主要用来存储海量数据，R语言完成MapReduce 算法，用来替代Java的MapReduce实现。有了RHadoop可以让广大的R语言爱好者，有更强大的工具处理大数据1G, 10G, 100G, TB, PB。 由于大数据所带来的单机性能问题，可能会一去不复返了。&lt;/p&gt;
&lt;p&gt;RHadoop实践是一套系列文章，主要包括“Hadoop环境搭建”，“RHadoop安装与使用”，“R实现MapReduce的算法案例”，“HBase和rhbase的安装与使用”。对于单独的R语言爱好者，Java爱好者，或者Hadoop爱好者来说，同时具备三种语言知识并不容 易。此文虽为入门文章，但R,Java,Hadoop基础知识还是需要大家提前掌握。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>第六届R语言会议开始报名</title>
      <link>https://cosx.org/2013/03/6th-chiner-conference-register/</link>
      <pubDate>Wed, 20 Mar 2013 23:00:36 +0000</pubDate>
      
      <guid>https://cosx.org/2013/03/6th-chiner-conference-register/</guid>
      <description>由统计之都组织的2012年第六届ChinaR会议正式开始接受报名了。和往年一样，报名仍然是免费的，并欢迎投稿演讲。会议详情请见第六届中国R会</description>
    </item>
    
    <item>
      <title>《R语言实战》</title>
      <link>https://cosx.org/2013/03/r-in-action/</link>
      <pubDate>Tue, 19 Mar 2013 13:00:10 +0000</pubDate>
      
      <guid>https://cosx.org/2013/03/r-in-action/</guid>
      <description>&lt;p&gt;&lt;img src=&#34;https://uploads.cosx.org/2013/03/r-in-action1.jpg&#34; alt=&#34;r-in-action&#34;&gt;&lt;/p&gt;
&lt;p&gt;由统计之都三位成员&lt;a href=&#34;http://gaotao.name/&#34; title=&#34;高涛&#34;&gt;高涛&lt;/a&gt;、&lt;a href=&#34;http://road2stat.com/&#34; title=&#34;肖楠&#34;&gt;肖楠&lt;/a&gt;、&lt;a href=&#34;http://gossipcoder.com/&#34; title=&#34;陈钢&#34;&gt;陈钢&lt;/a&gt;翻译的《R语言实战》现已正式出版。请点击&lt;a href=&#34;http://www.manning.com/kabacoff/RiASourceCode.zip&#34; title=&#34;代码下载&#34;&gt;这里&lt;/a&gt;下载随书代码。如果读书在阅读过程中遇到什么问题，可以&lt;a href=&#34;https://cosx.org/2013/03/r-in-action/#comments&#34; title=&#34;留言&#34;&gt;留言&lt;/a&gt;提问。您也可以访问本书在图灵社区的&lt;a href=&#34;http://www.ituring.com.cn/book/857&#34; title=&#34;《R语言实战》在图灵社区的页面&#34;&gt;主页&lt;/a&gt;，阅读部分试读章节。我们还会不定期地在这里发布本书的勘误，请读者留意&lt;a href=&#34;http://www.weibo.com/cosname&#34; title=&#34;统计之都的微博&#34;&gt;@统计之都&lt;/a&gt;的微博。近期统计之都还有其他图书出版，请关注本站&lt;a href=&#34;https://cos.name/books/&#34; title=&#34;图书出版&#34;&gt;图书出版&lt;/a&gt;栏目。&lt;/p&gt;
&lt;p&gt;有热心读者在论坛上贴出了&lt;a href=&#34;https://cos.name/cn/topic/109765&#34; title=&#34;《R语言实战》的学习笔记&#34;&gt;学习笔记&lt;/a&gt;&lt;/p&gt;
&lt;h1 id=&#34;内容介绍&#34;&gt;内容介绍&lt;/h1&gt;
&lt;p&gt;R是一个开源项目，具有强大的统计计算及制图能力，是从大数据中获取有用信息的绝佳工具，在各种主流操作 系统上都可以安装使用，其基本安装就提供了数以百计的数据管理、统计和图形函数。另外，社区开发的数以千计的扩展(包)为R增加了更多强大功能。《R语言实战》注重实用性，是一本全面而细致的R指南，高度概括了该软件和它的强大功能，展示了实用的统计示例，且对于难以用传统方法处理的凌乱、不完整和非正态 的数据给出了优雅的处理方法。作者不仅仅探讨统计分析，还阐述了大量探索和展示数据的图形功能。《R语言实战》适合数据分析人员及R用户学习参考。&lt;/p&gt;
&lt;h1 id=&#34;作者简介&#34;&gt;作者简介&lt;/h1&gt;
&lt;p&gt;Robert I. Kabacoff R语言社区著名学习网站Quick-R（&lt;a href=&#34;http://www.statmethods.net/&#34; title=&#34;QuickR主页&#34;&gt;http://www.statmethods.net/&lt;/a&gt;）的幕后维护者，现为全球化开发与咨询公司Management研究集团研发副总裁。此前，Kabacoff博士是佛罗里达诺瓦东南大学的教授，讲授定量方法和统计编程的研究生课程。Kabacoff还是临床心理学博士、统计顾问，擅长数据分析，在健康、金融服务、制造业、行为科学、政府和学术界有20余年的研究和统计咨询经验。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>统计之都成员出版物</title>
      <link>https://cosx.org/books/</link>
      <pubDate>Tue, 19 Mar 2013 11:08:37 +0000</pubDate>
      
      <guid>https://cosx.org/books/</guid>
      <description>统计之都的成员编著、翻译了大量关于统计分析和R语言方面的图书。 已出版 读者可以点击下面每本书的链接进入该书的的页面，下载随书代码，我们还会不定</description>
    </item>
    
    <item>
      <title>COS每周精选:Gadfly：Julia下ggplot2的雏形</title>
      <link>https://cosx.org/2013/03/gadfly-ggplot2-in-julia/</link>
      <pubDate>Tue, 19 Mar 2013 09:46:07 +0000</pubDate>
      
      <guid>https://cosx.org/2013/03/gadfly-ggplot2-in-julia/</guid>
      <description>&lt;p&gt;本期投稿：&lt;a href=&#34;http://yihui.name/&#34;&gt;谢益辉&lt;/a&gt; &lt;a href=&#34;http://www.road2stat.com/&#34;&gt;肖楠&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;&lt;a href=&#34;http://dcjones.github.com/Gadfly.jl/doc/&#34;&gt;Gadfly：Julia下ggplot2的雏形&lt;/a&gt;。Julia正在迅猛发展，R君颤抖吧！&lt;/p&gt;
&lt;p&gt;&lt;a href=&#34;http://inference.quora.com/The-longest-running-Markov-Chain-Monte-Carlo-simulation-in-the-world-Bumps-races-since-1815&#34;&gt;一条跑了200年的MCMC模拟&lt;/a&gt;。两百年来牛津、剑桥与周边三十多所院校每两年都会进行一次赛艇比赛，特殊的比赛规则与MCMC模拟暗合。小编曰：这算“人列计算机”的雏形了吧。&lt;/p&gt;
&lt;p&gt;&lt;a href=&#34;http://v.youku.com/v_show/id_XNTI4NTkyNzc2.html&#34;&gt;Metropolis-Hastings (MH) sampler和Hamiltonian Monte Carlo (HMC) sampler 有什么不同？&lt;/a&gt;看动画告诉你！&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>COS每周精选:如何用数据讲故事？</title>
      <link>https://cosx.org/2013/03/storytelling-with-data/</link>
      <pubDate>Mon, 11 Mar 2013 07:38:30 +0000</pubDate>
      
      <guid>https://cosx.org/2013/03/storytelling-with-data/</guid>
      <description>本期投稿：谢益辉 肖楠 魏太云 如何用数据讲故事？且看纽约时报图形编辑的理念和实践。整个主题演讲围绕着如何设计更好的可视化作品展开，涉及如何摸清听</description>
    </item>
    
    <item>
      <title>COS访谈第1期：吕晓玲</title>
      <link>https://cosx.org/2013/03/interview-of-xiaolinglu/</link>
      <pubDate>Sat, 09 Mar 2013 12:24:25 +0000</pubDate>
      
      <guid>https://cosx.org/2013/03/interview-of-xiaolinglu/</guid>
      <description>统计之都今后会为大家贡献名师访谈系列文章，我们的野心是：遍访统计界名士高人！我们是统计之都，我们喂自己袋盐！ 简介：吕晓玲老师是中国人民大学统</description>
    </item>
    
    <item>
      <title>LDA-math-LDA 文本建模</title>
      <link>https://cosx.org/2013/03/lda-math-lda-text-modeling/</link>
      <pubDate>Thu, 07 Mar 2013 18:27:42 +0000</pubDate>
      
      <guid>https://cosx.org/2013/03/lda-math-lda-text-modeling/</guid>
      <description>&lt;h1 id=&#34;5-lda-文本建模&#34;&gt;5. LDA 文本建模&lt;/h1&gt;
&lt;h2 id=&#34;51-游戏规则&#34;&gt;5.1 游戏规则&lt;/h2&gt;
&lt;p&gt;对于上述的 PLSA 模型，贝叶斯学派显然是有意见的，doc-topic 骰子&lt;code&gt;$\overrightarrow{\theta}_m$&lt;/code&gt;和 topic-word 骰子&lt;code&gt;$\overrightarrow{\varphi}_k$&lt;/code&gt;都是模型中的参数，参数都是随机变量，怎么能没有先验分布呢？于是，类似于对 Unigram Model 的贝叶斯改造， 我们也可以如下在两个骰子参数前加上先验分布从而把 PLSA 对应的游戏过程改造为一个贝叶斯的游戏过程。由于 &lt;code&gt;$\overrightarrow{\varphi}_k$&lt;/code&gt;和&lt;code&gt;$\overrightarrow{\theta}_m$&lt;/code&gt;都对应到多项分布，所以先验分布的一个好的选择就是Drichlet 分布，于是我们就得到了 LDA(Latent Dirichlet Allocation)模型。&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://uploads.cosx.org/2013/03/lda-dice.jpg&#34; alt=&#34;lda-dice&#34;&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;LDA模型&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;在 LDA 模型中, 上帝是按照如下的规则玩文档生成的游戏的&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://uploads.cosx.org/2013/03/game-lda-1.jpg&#34; alt=&#34;game-lda-1&#34;&gt;&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>LDA-math-文本建模</title>
      <link>https://cosx.org/2013/03/lda-math-text-modeling/</link>
      <pubDate>Thu, 07 Mar 2013 18:23:27 +0000</pubDate>
      
      <guid>https://cosx.org/2013/03/lda-math-text-modeling/</guid>
      <description>&lt;h1 id=&#34;4-文本建模&#34;&gt;4. 文本建模&lt;/h1&gt;
&lt;p&gt;我们日常生活中总是产生大量的文本，如果每一个文本存储为一篇文档，那每篇文档从人的观察来说就是有序的词的序列&lt;code&gt;$d=(w_1, w_2, \cdots, w_n)$&lt;/code&gt;。&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://uploads.cosx.org/2013/03/corpus.jpg&#34; alt=&#34;corpus&#34;&gt;
&lt;strong&gt;包含&lt;code&gt;$M$&lt;/code&gt;篇文档的语料库&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;统计文本建模的目的就是追问这些观察到语料库中的的词序列是如何生成的。统计学被人们描述为猜测上帝的游戏，人类产生的所有的语料文本我们都可以看成是一个伟大的上帝在天堂中抛掷骰子生成的，我们观察到的只是上帝玩这个游戏的结果 —— 词序列构成的语料，而上帝玩这个游戏的过程对我们是个黑盒子。所以在统计文本建模中，我们希望猜测出上帝是如何玩这个游戏的，具体一点，最核心的两个问题是&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;上帝都有什么样的骰子；&lt;/li&gt;
&lt;li&gt;上帝是如何抛掷这些骰子的；&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;第一个问题就是表示模型中都有哪些参数，骰子的每一个面的概率都对应于模型中的参数；第二个问题就表示游戏规则是什么，上帝可能有各种不同类型的骰子，上帝可以按照一定的规则抛掷这些骰子从而产生词序列。&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://uploads.cosx.org/2013/03/dice-all.jpg&#34; alt=&#34;dice-all&#34;&gt;
&lt;img src=&#34;https://uploads.cosx.org/2013/03/god-throw-dice.jpg&#34; alt=&#34;god-throw-dice&#34;&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;上帝掷骰子&lt;/strong&gt;&lt;/p&gt;
&lt;h2 id=&#34;41-unigram-model&#34;&gt;4.1 Unigram Model&lt;/h2&gt;
&lt;p&gt;假设我们的词典中一共有&lt;code&gt;$V$&lt;/code&gt;个词&lt;code&gt;$v_1, v_2, \cdots v_V$&lt;/code&gt;，那么最简单的 Unigram Model 就是认为上帝是按照如下的游戏规则产生文本的。&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://uploads.cosx.org/2013/03/game-unigram-model.jpg&#34; alt=&#34;game-unigram-model&#34;&gt;&lt;/p&gt;
&lt;p&gt;上帝的这个唯一的骰子各个面的概率记为&lt;code&gt;$\overrightarrow{p} = (p_1, p_2, \cdots, p_V)$&lt;/code&gt;， 所以每次投掷骰子类似于一个抛钢镚时候的贝努利实验， 记为&lt;code&gt;$w\sim Mult(w|\overrightarrow{p})$&lt;/code&gt;。&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://uploads.cosx.org/2013/03/unigram-model.jpg&#34; alt=&#34;unigram-model&#34;&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;上帝投掷&lt;code&gt;$V$&lt;/code&gt;个面的骰子&lt;/strong&gt;&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>一起来投SCI吧：谈谈我的第一篇JSS论文</title>
      <link>https://cosx.org/2013/03/jss-paper-sci/</link>
      <pubDate>Wed, 06 Mar 2013 11:51:03 +0000</pubDate>
      
      <guid>https://cosx.org/2013/03/jss-paper-sci/</guid>
      <description>Journal of Statistical Software简介 **Journal of Statistical Software(JSS)**创建于1996年，该杂志的出版物主要包括论文、书评、代码片段以及关于统计学软件</description>
    </item>
    
    <item>
      <title>COS每周精选:中国首个Bioconductor镜像建成</title>
      <link>https://cosx.org/2013/03/first-bioconductor-mirror-in-china/</link>
      <pubDate>Mon, 04 Mar 2013 07:21:21 +0000</pubDate>
      
      <guid>https://cosx.org/2013/03/first-bioconductor-mirror-in-china/</guid>
      <description>&lt;p&gt;本期投稿：&lt;a href=&#34;http://yihui.name/&#34;&gt;谢益辉&lt;/a&gt; &lt;a href=&#34;http://taoshistat.wordpress.com/&#34;&gt;施涛&lt;/a&gt; &lt;a href=&#34;http://www.road2stat.com/&#34;&gt;肖楠&lt;/a&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Bioconductor 下载包巨慢的时代一去不返了！在&lt;a href=&#34;http://www.tengfei.name/&#34;&gt;殷腾飞&lt;/a&gt;（&lt;a href=&#34;http://weibo.com/yintengfei&#34;&gt;@elemenTY&lt;/a&gt;）和中科大各位同仁的多方协调努力下，现已建成中国首个Bioconductor镜像。各位客官可以照&lt;a href=&#34;http://www.tengfei.name/cn/2013/03/ustc-bioc/&#34;&gt;此处的说明&lt;/a&gt;进行测速。此镜像也即将在官网上线。&lt;/li&gt;
&lt;/ul&gt;</description>
    </item>
    
    <item>
      <title>COS每周精选:机器崛起！</title>
      <link>https://cosx.org/2013/02/rise-of-the-machine/</link>
      <pubDate>Mon, 25 Feb 2013 02:54:41 +0000</pubDate>
      
      <guid>https://cosx.org/2013/02/rise-of-the-machine/</guid>
      <description>&lt;p&gt;本期投稿：&lt;a href=&#34;http://yihui.name/&#34;&gt;谢益辉&lt;/a&gt; &lt;a href=&#34;http://statr.me/&#34;&gt;邱怡轩&lt;/a&gt; &lt;a href=&#34;http://stat.ruc.edu.cn/a/jiaoxuetuandui/jiaoyanshi/2011/0219/128.html&#34;&gt;吕晓玲&lt;/a&gt; &lt;a href=&#34;http://weibo.com/weizhangzimo&#34;&gt;@–子墨–&lt;/a&gt;&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;统计之都会定期为大家精选若干有猛料和干货的海外统计日志、文章、项目。如果大家读到好的统计博客，可以向我们推荐(&lt;a href=&#34;mailto:editor@cos.name&#34;&gt;editor@cos.name&lt;/a&gt;)或者在微博上&lt;a href=&#34;http://weibo.com/cosname?topnav=1&amp;amp;wvr=5&amp;amp;topsug=1&#34;&gt;@统计之都&lt;/a&gt;。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;ul&gt;
&lt;li&gt;Larry Wasserman提醒统计学家“&lt;a href=&#34;http://www.stat.cmu.edu/~larry/Wasserman.pdf&#34;&gt;机器开始绝地反击了&lt;/a&gt;”：如果你还认为UMVUE和完备统计量是你的原力，那你马上就要被那些机器干掉了。机器学习专业的学生的统计原力越来越强，而统计专业还在整天绕着不知道收不收敛的EM和MCMC念经。觉悟吧，天马的小宇宙！&lt;/li&gt;
&lt;/ul&gt;</description>
    </item>
    
    <item>
      <title>2012年SAS公司博客排名</title>
      <link>https://cosx.org/2013/02/sas-blog-rank-2012/</link>
      <pubDate>Sun, 24 Feb 2013 09:15:13 +0000</pubDate>
      
      <guid>https://cosx.org/2013/02/sas-blog-rank-2012/</guid>
      <description>想要了解和学习 SAS 产品的同学，一定要看看这个博客排名，因为这里有你需要的绝大部分资料，从数据处理、图形显示、分析、培训到最新的技术和产品信息。</description>
    </item>
    
    <item>
      <title>第六届中国R语言会议（北京会场）即将召开</title>
      <link>https://cosx.org/2013/02/chinar-beijing-2013/</link>
      <pubDate>Sat, 23 Feb 2013 12:08:44 +0000</pubDate>
      
      <guid>https://cosx.org/2013/02/chinar-beijing-2013/</guid>
      <description>&lt;p&gt;R是一门用于数据分析和图形展示的语言、平台和环境，其官方机构每年都会举办useR!会议，各个国家及地区也定期有R用户的交流活动。在国内，自2008年以来，中国已经在北京和上海成功举办了五届R语言会议，促进了R语言在中国的推广和发展。为了进一步加强各领域R语言使用者之间的交流和互动，我们准备在2013年5月18-19日在北京举行第六届中国R语言会议（北京会场）。会议的相关情况如下：&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>COS每周精选:还在研究HTML5么，看看WebGL如何!</title>
      <link>https://cosx.org/2013/02/webgl-instead-of-html5/</link>
      <pubDate>Tue, 19 Feb 2013 11:18:18 +0000</pubDate>
      
      <guid>https://cosx.org/2013/02/webgl-instead-of-html5/</guid>
      <description>&lt;p&gt;本期投稿：&lt;a href=&#34;http://yihui.name/&#34;&gt;谢益辉&lt;/a&gt; &lt;a href=&#34;http://yanping.me/cn/&#34;&gt;陈堰平&lt;/a&gt; &lt;a href=&#34;http://stat.ruc.edu.cn/a/jiaoxuetuandui/jiaoyanshi/2011/0219/128.html&#34;&gt;吕晓玲&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;统计之都会定期为大家精选若干有猛料和干货的海外统计日志、文章、项目。如果大家读到好的统计博客，可以向我们推荐(&lt;a href=&#34;mailto:editor@cos.name&#34;&gt;editor@cos.name&lt;/a&gt;)。如果有人愿意把或已经把这些博客翻译成中文，请与我们联系(&lt;a href=&#34;mailto:editor@cos.name&#34;&gt;editor@cos.name&lt;/a&gt;)。我们将会收录在主站的博客翻译模块，供更多读者阅读。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;还在研究HTML5么，&lt;a href=&#34;http://stackoverflow.com/a/14888870/559676&#34;&gt;看看WebGL如何&lt;/a&gt;（参见rgl包中的writeWebGL()函数）。浏览器内3D图形可以任意拖拉缩放了（&lt;a href=&#34;https://dl.dropbox.com/u/15335397/misc/webgl-rmd.html&#34;&gt;示例&lt;/a&gt;）。&lt;/li&gt;
&lt;/ul&gt;</description>
    </item>
    
    <item>
      <title>关联规则：R与SAS的比较</title>
      <link>https://cosx.org/2013/02/association-rules-with-r-and-sas/</link>
      <pubDate>Sun, 17 Feb 2013 20:10:19 +0000</pubDate>
      
      <guid>https://cosx.org/2013/02/association-rules-with-r-and-sas/</guid>
      <description>&lt;p&gt;啤酒和尿布的故事是关联分析方法最经典的案例，而用于关联分析的Apriori算法更是十大数据挖掘算法之一（&lt;a href=&#34;http://www.cs.uvm.edu/~icdm/algorithms/index.shtml&#34;&gt;http://www.cs.uvm.edu/~icdm/algorithms/index.shtml&lt;/a&gt;，这个排名虽然是几年前的调查结果，但是其重要性仍可见一斑）。本文以《&lt;a href=&#34;http://www.rdatamining.com/docs&#34;&gt;R and Data Mining&lt;/a&gt;》书中使用的泰坦尼克号人员的生存数据为例，介绍如何使用R和SAS的Apriori算法进行关联分析，比较两者的建模结果并对结果中存在的差异进行解释分析。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;一、关联分析&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;网上有很多资料介绍关联分析算法，本文就不再赘述。我自己看的是《Introduction to Data Mining》(有对应的中文版，人民邮电出版社的《&lt;a href=&#34;http://book.douban.com/subject/1786120/&#34;&gt;数据挖掘导论&lt;/a&gt;》)，愿意看英文的同学可以访问：&lt;a href=&#34;http://www-users.cs.umn.edu/~kumar/dmbook/ch6.pdf&#34;&gt;http://www-users.cs.umn.edu/~kumar/dmbook/ch6.&lt;/a&gt;&lt;a href=&#34;http://www-users.cs.umn.edu/~kumar/dmbook/ch6.pdf&#34;&gt;pdf&lt;/a&gt;。网上其他的资料我也大致翻过，对比之后感觉这本书是一本相当不错的教材，算法方面介绍地比较全面且有一定深度。我本人不建议大家去看那些非专业人士总结的关联分析算法介绍，虽然浅显易懂，但是内容片面，容易误导初学者，错把树木当成了森林。&lt;/p&gt;
&lt;p&gt;对于关联分析在行业应用中的经验分享、初学者的误区和最佳实践方面的资料很少，唯一能找到的一本好书是清华大学出版社的《&lt;a href=&#34;http://book.douban.com/subject/3283973/&#34;&gt;啤酒与尿布&lt;/a&gt;》，主要介绍购物篮分析在零售行业的应用。我始终认为分析师除了算法和软件，还需要了解行业背景，不然挖出的只是模式，而不是切实可行并且能带来商业价值的模式，甚至还有可能是错误的模式。 &lt;/p&gt;</description>
    </item>
    
    <item>
      <title>COS每周精选:随机试验处处坑</title>
      <link>https://cosx.org/2013/02/dangers-everywhere-in-random-experiment/</link>
      <pubDate>Sun, 17 Feb 2013 04:04:27 +0000</pubDate>
      
      <guid>https://cosx.org/2013/02/dangers-everywhere-in-random-experiment/</guid>
      <description>By 陈丽云 自从Fisher大神种地种出心得来，搞出了随机对照试验，这样的简单有效方法就如春风一般席卷了五湖四海。很多时候，你不整出来个控制的分</description>
    </item>
    
    <item>
      <title>应聘准备：非统计和计算机背景的学生如何找到SAS程序员的工作？</title>
      <link>https://cosx.org/2013/02/how-to-find-a-job-for-sas-programming/</link>
      <pubDate>Sat, 16 Feb 2013 15:55:12 +0000</pubDate>
      
      <guid>https://cosx.org/2013/02/how-to-find-a-job-for-sas-programming/</guid>
      <description>&lt;p&gt;在LinkedIn上看到一个帖子问“金融和会计背景且有SAS知识的学生是否很难找到SAS程序员的工作？”，第一位回复的是SAS公司资的深培训师 &lt;a href=&#34;http://blogs.sas.com/content/sastraining/author/cynthiazender/&#34;&gt;Cynthia Zender&lt;/a&gt;，回复内容非常专业具体，值得一看。&lt;/p&gt;
&lt;p&gt;Cynthia Zender 说每当她的学生提出类似问题时， 她的答复是：上招聘网站 Monster.com 或者 Icrunchdata.com 看看即将投身的领域在所在地区都需要什么样的SAS技能和经验。&lt;/p&gt;
&lt;p&gt;假如你只知道 PROC PRINT, PROC FREQ 和 PROC MEANS，其他的SAS产品或者技术都没用过，那么你只能找到一份入门级的工作。&lt;/p&gt;
&lt;p&gt;SAS知识和SAS经验完全是两码事。如果你看到招聘网站上要求应聘者具有 Base SAS Certification（SAS基础认证）或者 Advanced SAS Certification（SAS高级认证），那么应聘单位要求你掌握以下SAS知识：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;
&lt;p&gt;&lt;a href=&#34;http://support.sas.com/certify/creds/bp.html&#34;&gt;Base SAS Certification&lt;/a&gt;：Programming 1, Programming 2&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;a href=&#34;http://support.sas.com/certify/creds/ap.html&#34;&gt;Advanced SAS Certification&lt;/a&gt;: Macro, SQL, Programming 3&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;对于想要从事统计分析领域编程工作的人员，可以考取 Statistical Business Analyst certification（业务分析师认证），这个认证的官网链接为： &lt;a href=&#34;http://support.sas.com/certify/creds/sba.html&#34;&gt;http://support.sas.com/certify/creds/sba.html&lt;/a&gt;。&lt;/p&gt;
&lt;p&gt;如果招聘信息中没有要求SAS认证，那么你需要自己去认真阅读技能要求，比如说：两年数据处理和报表制作的经验等。对于SAS编程方面的知识，可以上网站 &lt;a href=&#34;http://support.sas.com/training&#34;&gt;http://support.sas.com/training&lt;/a&gt; 去看编程课程。&lt;/p&gt;
&lt;p&gt;即便你不打算参加SAS的培训课程，仍然可以看一下SAS的培训网站，了解课程涵盖的主题，然后有的放矢地去自学相关课程，这是SAS给出的学习路径：&lt;a href=&#34;http://support.sas.com/training/us/paths/index.html&#34;&gt;http://support.sas.com/training/us/paths/index.html&lt;/a&gt;。&lt;/p&gt;
&lt;p&gt;另外一个途径就是访问 &lt;a href=&#34;http://www.sas.com/success/&#34;&gt;http://www.sas.com/success/&lt;/a&gt;，上面有一些SAS客户的成功案例，可以从技术、行业、解决方案等多个角度了解SAS产品在不同公司的各种应用。&lt;/p&gt;
&lt;p&gt;最后，Cynthia Zender 引用了 &lt;a href=&#34;http://en.wikipedia.org/wiki/T._H._White&#34;&gt;T. H. White&lt;/a&gt; 的一句名言： Education is experience, and the essence of experience is self-reliance。教育就是传授经验，而经验的本质是自立。一个人要想进入某个行业的高端，必须通过大量的自学和实践，而不是通过培训的方式。个人认为兴趣、学习和实践是最好的老师，只要你真心想要进入这行，通过坚持不懈的努力早晚都能成为行业专家。 &lt;/p&gt;</description>
    </item>
    
    <item>
      <title>R与SAS的集成</title>
      <link>https://cosx.org/2013/02/integrating-sas-with-r/</link>
      <pubDate>Sat, 16 Feb 2013 15:01:54 +0000</pubDate>
      
      <guid>https://cosx.org/2013/02/integrating-sas-with-r/</guid>
      <description>&lt;h1 id=&#34;一为什么r与sas要集成&#34;&gt;一、为什么R与SAS要集成？&lt;/h1&gt;
&lt;p&gt;一位优秀的分析师不仅要有深厚的理论功底、丰富的实战经验，还要熟悉几款常用的分析软件，并有一款自己精通的软件。就像武林高手既有独门秘器，又要熟悉各门各派，这样才能博采众长，兼收并蓄，为己所用。&lt;/p&gt;
&lt;p&gt;竞争促进创新，合作带来双赢。R与SAS各有优势，也各有问题，国内外网上骂战得多，思考如何将两者集成并能拿出可行方案的人则少之又少，即便有也基本都是老外或者外籍华人想出来的。这里不想贬低国人，只想建议大家多一些独创和研究精神。&lt;/p&gt;
&lt;p&gt;有人会问，为何要集成？这里引用网上一位作者给出的观点，虽是一面之词，但不妨参考，有些观点还是比较中肯的。
 &lt;/p&gt;</description>
    </item>
    
    <item>
      <title>COS每周精选:让祸害人间的显著性星号消失吧！</title>
      <link>https://cosx.org/2013/02/remove-significance-stars/</link>
      <pubDate>Mon, 11 Feb 2013 00:47:55 +0000</pubDate>
      
      <guid>https://cosx.org/2013/02/remove-significance-stars/</guid>
      <description>&lt;p&gt;本期材料由&lt;a href=&#34;http://yihui.name/&#34;&gt;谢益辉&lt;/a&gt;、&lt;a href=&#34;http://www.road2stat.com/&#34;&gt;肖楠&lt;/a&gt;整理提供。&lt;/p&gt;
&lt;p&gt;统计之都将会定期为大家精选若干有猛料和干货的海外统计日志、文章、项目。如果大家读到好的统计博客，可以向我们推荐(&lt;a href=&#34;mailto:editor@cos.name&#34;&gt;editor@cos.name&lt;/a&gt;)。如果有人愿意把或已经把这些博客翻译成中文，请与我们联系(&lt;a href=&#34;mailto:editor@cos.name&#34;&gt;editor@cos.name&lt;/a&gt;)。我们将会收录在主站的博客翻译模块，供更多读者阅读。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a href=&#34;https://stat.ethz.ch/pipermail/r-devel/2013-February/subject.html#65770&#34;&gt;让祸害人间的显著性星号消失吧！&lt;/a&gt;！Vanderbilt大学生统系主任Frank Harrell如此请愿。楼下有重磅人物John Fox、Terry Therneau、Norm Matloff顶帖。丰富的统计分析中，为什么人们就只看重一个P值呢？软件的默认设置应该体现出一种态度，例如我们不应该用三个星号去“误导”大众。R不仅仅只有丰富的代码库和漂亮的作图系统，更要有最正确的统计！&lt;/li&gt;
&lt;/ul&gt;</description>
    </item>
    
    <item>
      <title>十八般武艺，谁主天下？</title>
      <link>https://cosx.org/2013/02/jinyong-fiction-mining/</link>
      <pubDate>Tue, 05 Feb 2013 18:30:45 +0000</pubDate>
      
      <guid>https://cosx.org/2013/02/jinyong-fiction-mining/</guid>
      <description>&lt;p&gt;十八般武艺各有神通之处，所谓“一弓、二弩、三枪、四刀、五剑、六矛、七盾、八斧、九钺、十戟、十一鞭、十二锏、十三挝、十四殳、十五叉、十六耙、十七绵绳套索、十八白打”，这让一个江湖新手一上来就学全十八般武艺，还真是有点为难人家呢。这在古代，天下可都是一群架一群架扎扎实实打出来的。指挥者可以运筹帷幄决胜于千里之外，但是真要上阵的小兵们可就惨多了——谁若是稍有走神，怕是小命就危在旦夕了。还有那血雨腥风却始终有无数人向往的江湖，或迷人或险恶，总得有一技傍身方觉得安心些。可是，这一技说来容易，到底学才可以雄霸天下呢？嗯，其实一般说来我们是不需要担心这个问题的，可是凡事总有例外——比如做梦的时候…&lt;/p&gt;
&lt;p&gt;小编不幸的就在梦中穿越回了古代一回，然后面对着师傅一下子扔出来的一堆兵器傻了眼——这该如何下手呢？直到梦醒，耳边回荡的还是师傅那严厉的声音“给你一天时间考虑，明天来见我的时候告诉我你要学什么”。呃，为了明天做梦的时候不挨骂，还是老老实实的选一样东西吧。可是这也不能信手拈来就是嘛，总要有点科学依据，要不怎么能显得出来我这个辛辛苦苦梦中穿越回去的现代人的智商优越性呢？&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>COS每周精选：Hilary，你的名字弱爆了！</title>
      <link>https://cosx.org/2013/02/the-most-poisoned-baby-name/</link>
      <pubDate>Sun, 03 Feb 2013 05:27:29 +0000</pubDate>
      
      <guid>https://cosx.org/2013/02/the-most-poisoned-baby-name/</guid>
      <description>&lt;p&gt;从本周起，统计之都将会定期为大家精选若干有猛料和干货的海外统计日志、文章、项目。如果大家读到好的统计博客，可以向我们推荐(&lt;a href=&#34;mailto:editor@cos.name&#34;&gt;editor@cos.name&lt;/a&gt;)。如果有人愿意把或已经把这些博客翻译成中文，请与我们联系(&lt;a href=&#34;mailto:editor@cos.name&#34;&gt;editor@cos.name&lt;/a&gt;)。我们将会收录在主站的博客翻译模块，供更多读者阅读。&lt;/p&gt;
&lt;p&gt; * Hilary，你的名字弱爆了！&lt;a href=&#34;http://hilaryparker.com/2013/01/30/hilary-the-most-poisoned-baby-name-in-us-history/&#34;&gt;一位叫Hilary的研究生分析了近百年来比较受欢迎的美国人名&lt;/a&gt;，发现美国人取名虽然喜欢追星，但是却对Hilary这个名字避之不及。想知道原因？看图就明白！&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>正态分布的前世今生(下)</title>
      <link>https://cosx.org/2013/01/story-of-normal-distribution-2/</link>
      <pubDate>Mon, 28 Jan 2013 22:45:44 +0000</pubDate>
      
      <guid>https://cosx.org/2013/01/story-of-normal-distribution-2/</guid>
      <description>6. 开疆拓土，正态分布的进一步发展 19世纪初，随着拉普拉斯中心极限定理的建立与高斯正态误差理论的问世，正态分布开始崭露头角，逐步在近代概率论和</description>
    </item>
    
    <item>
      <title>正态分布的前世今生(上)</title>
      <link>https://cosx.org/2013/01/story-of-normal-distribution-1/</link>
      <pubDate>Mon, 28 Jan 2013 22:06:38 +0000</pubDate>
      
      <guid>https://cosx.org/2013/01/story-of-normal-distribution-1/</guid>
      <description>神说，要有正态分布，就有了正态分布。 神看正态分布是好的，就让随机误差服从了正态分布。 &amp;mdash; 创世纪—数理统计 1. 正态分布，熟悉的陌生人 学过基础统计学</description>
    </item>
    
    <item>
      <title>COS数据分析沙龙第八期（上海，@联合创业办公社）</title>
      <link>https://cosx.org/2013/01/shanghair-salon-jan-2013/</link>
      <pubDate>Mon, 21 Jan 2013 11:05:44 +0000</pubDate>
      
      <guid>https://cosx.org/2013/01/shanghair-salon-jan-2013/</guid>
      <description>&lt;p&gt;冬日的阴霾还没有完全散去，而温度却也在悄然的回升。周末的下午，相聚在极富小资情调的沙龙，也不失为一种打磨时光的优雅方式嘛。（感谢&lt;a href=&#34;http://www.people-squared.com/&#34; title=&#34;http://www.people-squared.com/ &#34;&gt;联合创业办公社&lt;/a&gt;）&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://uploads.cosx.org/2013/01/DSC07181-Copy.jpg&#34; alt=&#34;兴致所至，偶得意的笑~&#34;&gt;&lt;/p&gt;
&lt;p&gt;兴致所至，偶得意的笑~&lt;/p&gt;
&lt;p&gt;沙龙例行的，大家会简单的介绍一下自己。出乎组织者意料，陆陆续续的居然来了三十多位朋友，瞬间小小的会议室显得高朋满座，讨论气息愈加浓烈。据我们的不完全统计，参加者来自金融，制药，市场咨询，IT，电商，学术研究等领域，可谓跨界一锅端，热闹的紧。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>LDA-math-MCMC 和 Gibbs Sampling</title>
      <link>https://cosx.org/2013/01/lda-math-mcmc-and-gibbs-sampling/</link>
      <pubDate>Thu, 17 Jan 2013 23:13:02 +0000</pubDate>
      
      <guid>https://cosx.org/2013/01/lda-math-mcmc-and-gibbs-sampling/</guid>
      <description>&lt;h2 id=&#34;31-随机模拟&#34;&gt;3.1 随机模拟&lt;/h2&gt;
&lt;p&gt;随机模拟(或者统计模拟)方法有一个很酷的别名是蒙特卡罗方法(Monte Carlo Simulation)。这个方法的发展始于20世纪40年代，和原子弹制造的曼哈顿计划密切相关，当时的几个大牛，包括乌拉姆、冯.诺依曼、费米、费曼、Nicholas Metropolis， 在美国洛斯阿拉莫斯国家实验室研究裂变物质的中子连锁反应的时候，开始使用统计模拟的方法,并在最早的计算机上进行编程实现。&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://uploads.cosx.org/2013/01/simulation.jpg&#34; alt=&#34;simulation&#34;&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;随机模拟与计算机&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;现代的统计模拟方法最早由数学家乌拉姆提出，被Metropolis命名为蒙特卡罗方法，蒙特卡罗是著名的赌场，赌博总是和统计密切关联的，所以这个命名风趣而贴切，很快被大家广泛接受。被不过据说费米之前就已经在实验中使用了，但是没有发表。说起蒙特卡罗方法的源头，可以追溯到18世纪，布丰当年用于计算&lt;code&gt;$\pi$&lt;/code&gt;的著名的投针实验就是蒙特卡罗模拟实验。统计采样的方法其实数学家们很早就知道，但是在计算机出现以前，随机数生成的成本很高，所以该方法也没有实用价值。随着计算机技术在二十世纪后半叶的迅猛发展，随机模拟技术很快进入实用阶段。对那些用确定算法不可行或不可能解决的问题，蒙特卡罗方法常常为人们带来希望。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>LDA-math-认识Beta/Dirichlet分布</title>
      <link>https://cosx.org/2013/01/lda-math-beta-dirichlet/</link>
      <pubDate>Mon, 14 Jan 2013 23:54:35 +0000</pubDate>
      
      <guid>https://cosx.org/2013/01/lda-math-beta-dirichlet/</guid>
      <description>&lt;h1 id=&#34;2-认识betadirichlet分布&#34;&gt;2. 认识Beta/Dirichlet分布&lt;/h1&gt;
&lt;h2 id=&#34;21-魔鬼的游戏认识beta-分布&#34;&gt;2.1 魔鬼的游戏—认识Beta 分布&lt;/h2&gt;
&lt;p&gt;统计学就是猜测上帝的游戏,当然我们不总是有机会猜测上帝，运气不好的时候就得揣度魔鬼的心思。有一天你被魔鬼撒旦抓走了，撒旦说：“你们人类很聪明，而我是很仁慈的，和你玩一个游戏，赢了就可以走，否则把灵魂出卖给我。游戏的规则很简单，我有一个魔盒，上面有一个按钮，你每按一下按钮，就均匀的输出一个[0,1]之间的随机数，我现在按10下，我手上有10个数，你猜第7大的数是什么，偏离不超过0.01就算对。”你应该怎么猜呢？&lt;/p&gt;
&lt;p&gt;从数学的角度抽象一下，上面这个游戏其实是在说随机变量&lt;code&gt;\(X_1,X_2,\cdots,X_n {\stackrel{\mathrm{iid}}{\sim}} Uniform(0,1)\)&lt;/code&gt;，把这&lt;code&gt;\(n\)&lt;/code&gt; 个随机变量排序后得到顺序统计量 &lt;code&gt;\(X_{(1)},X_{(2)}，\cdots, X_{(n)}\)&lt;/code&gt;, 然后问 &lt;code&gt;\(X_{(k)}\)&lt;/code&gt; 的分布是什么。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>LDA-math-神奇的Gamma函数</title>
      <link>https://cosx.org/2013/01/lda-math-gamma-function/</link>
      <pubDate>Sun, 13 Jan 2013 19:33:31 +0000</pubDate>
      
      <guid>https://cosx.org/2013/01/lda-math-gamma-function/</guid>
      <description>1. 神奇的Gamma函数 1.1 Gamma 函数诞生记 学高等数学的时候，我们都学习过如下一个长相有点奇特的Gamma函数 $$ \Gamma(x)=\int_0^{\infty}t^{x-1}e^{-t}dt $$ 通过分部积分的方法，可以推导出这</description>
    </item>
    
    <item>
      <title>新浪微博文本分析初探v0.1</title>
      <link>https://cosx.org/2013/01/analysis-of-weibo/</link>
      <pubDate>Sun, 13 Jan 2013 13:58:12 +0000</pubDate>
      
      <guid>https://cosx.org/2013/01/analysis-of-weibo/</guid>
      <description>v0.1版本说明：本文发在主站上之后，站友们经常评论代码跑着有问题。经过和lijian大哥等人进行咨询，自己也摸索了一些之后，发现了之前代码</description>
    </item>
    
    <item>
      <title>R时代，你要怎样画地图？</title>
      <link>https://cosx.org/2013/01/drawing-map-in-r-era/</link>
      <pubDate>Fri, 11 Jan 2013 09:01:53 +0000</pubDate>
      
      <guid>https://cosx.org/2013/01/drawing-map-in-r-era/</guid>
      <description>不知道各位平常有没有过需要画地图的需求，有的时候需要在地图上标出特定位置的数据表现或者一些数值，然而怎么实现？ 这里主要介绍下在R语言中绘制地</description>
    </item>
    
    <item>
      <title>在R中实现动态气泡图</title>
      <link>https://cosx.org/2013/01/dynamic-bubble-plot-in-r/</link>
      <pubDate>Mon, 07 Jan 2013 12:52:47 +0000</pubDate>
      
      <guid>https://cosx.org/2013/01/dynamic-bubble-plot-in-r/</guid>
      <description>最近我逐渐发现了ggplot2这个包的好处——只要用过一次，就再也不想回头使用R中自带的作图函数了。前两天鼓捣完一个地图的数据，又受到统计之</description>
    </item>
    
    <item>
      <title>用R动态的显示开店序列和空间分布</title>
      <link>https://cosx.org/2012/12/time-series-and-spatial-distribution-with-r-dynamically/</link>
      <pubDate>Sun, 30 Dec 2012 10:38:06 +0000</pubDate>
      
      <guid>https://cosx.org/2012/12/time-series-and-spatial-distribution-with-r-dynamically/</guid>
      <description>&lt;blockquote&gt;
&lt;p&gt;作者简介：陈少飞，美国Tango Management Consulting公司高级地理研究分析员，主要工作为在连锁零售/餐饮的商业地产咨询中，从空间优化的角度给客户制订选址方案，并预测店面销售额。05年开始接触R，主要研究R在地理信息科学方面的应用，包括可视化，空间回归，地理统计和空间最优化等。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;一张图可以解说一个场景，而很多张图连续起来形成的动画就可以讲一个故事。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>[译作]一些统计名词的新名字</title>
      <link>https://cosx.org/2012/12/new-names-for-statistical-terms/</link>
      <pubDate>Tue, 18 Dec 2012 16:31:43 +0000</pubDate>
      
      <guid>https://cosx.org/2012/12/new-names-for-statistical-terms/</guid>
      <description>&lt;p&gt;原文载于卡耐基梅隆大学统计系教授Larry Wasserman的博客：&lt;a href=&#34;http://normaldeviate.wordpress.com/2012/12/16/new-names-for-statistical-methods/&#34;&gt;Normal Deviate&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;有没有觉得很多统计学家实在是想象力有限——是时候把那些迂腐无趣的名字踢出历史了！看看这些如何？&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;贝叶斯推断&lt;/strong&gt;：虽然贝叶斯当年确实用他那个著名的定理来做了一些计算…但明明是拉普拉斯搞出来的系统推断好不好！&lt;/p&gt;
&lt;p&gt;新名字：&lt;strong&gt;拉普拉斯推断&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;贝叶斯网络&lt;/strong&gt;：一个有向无环图加上了一些概率分布就可以跟贝叶斯推断扯上亲戚了？或者应该叫拉普拉斯推断？维基百科明明告诉你，这只是Judea Pearl无聊时候臆想出来的名字…&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>COS数据分析沙龙第七期（北京）</title>
      <link>https://cosx.org/2012/12/cos-5th-salon/</link>
      <pubDate>Thu, 13 Dec 2012 23:08:25 +0000</pubDate>
      
      <guid>https://cosx.org/2012/12/cos-5th-salon/</guid>
      <description>&lt;p&gt;2012年12月9日，第七期COS沙龙以“&lt;strong&gt;数据可视化&lt;/strong&gt;”为话题，在人民大学泊星地咖啡厅举行。&lt;/p&gt;
&lt;p&gt;沙龙邀请了&lt;strong&gt;北京大学的袁晓如老师&lt;/strong&gt;围绕沙龙主题做了精彩发言。&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;袁晓如老师简介：北京大学“百人计划”研究员, 北京大学信息科学技术学院博士生导师，北京大学数据可视化及可视计算小组负责人。于1997年7月获得北京大学化学专业理学学士学位，1998年7月获北京大学知识产权专业法学学士学位，其后赴美国明尼苏达大学 (University of Minnesota at Twin Cities)留学，2005年7月获计算机工程专业理学硕士学位，2006年8月获计算机科学专业哲学博士学位。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;blockquote&gt;
&lt;p&gt;主要从事可视化和图形学的研究，主要研究方向包括：高动态范围视频、图像和可视化；大规模数据的高性能绘制和可视化；非真实性绘制及插图式可视化；新颖可视化界面与人机交互研究；高维数据可视化。 &lt;a href=&#34;http://vis.pku.edu.cn/yuanxiaoru/&#34;&gt;http://vis.pku.edu.cn/yuanxiaoru/&lt;/a&gt;&lt;/p&gt;
&lt;/blockquote&gt;</description>
    </item>
    
    <item>
      <title>大话统计：Frequentist or Bayesian</title>
      <link>https://cosx.org/2012/12/the-odyssey-of-stat-frequentist-or-bayesian/</link>
      <pubDate>Tue, 11 Dec 2012 12:44:25 +0000</pubDate>
      
      <guid>https://cosx.org/2012/12/the-odyssey-of-stat-frequentist-or-bayesian/</guid>
      <description>&lt;p&gt;本文引自施涛的博客，其中重要的英文都进行了翻译，原文请&lt;a href=&#34;http://blog.cos.name/taoshi/2012/12/07/frequentist-or-bayesian/&#34;&gt;点击此处&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;前言：先向无法科学上网的客官作揖抱歉了，有些江湖野史可能被墙&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://uploads.cosx.org/2012/12/Nate_Silver.png&#34; alt=&#34;Nate_Silver&#34;&gt; 话说江湖风云人物，神算子 &lt;a href=&#34;http://en.wikipedia.org/wiki/Nate_Silver&#34;&gt;Nate Silver&lt;/a&gt;， 在纽约时报&lt;a href=&#34;http://fivethirtyeight.blogs.nytimes.com/&#34;&gt;开博占卜&lt;/a&gt;各项江湖话题，每每言中。并著书立传， &lt;a href=&#34;http://www.us.penguingroup.com/static/pages/features/the_signal_and_the_noise.html&#34;&gt;The Signal and the Noise&lt;/a&gt;，一时引来&lt;a href=&#34;https://cosx.org/2012/11/the-rise-of-data-scientists/&#34;&gt;各相追捧&lt;/a&gt;。&lt;/p&gt;
&lt;p&gt;这日，曾留下武林秘籍 &lt;a href=&#34;http://www.amazon.com/All-Statistics-Statistical-Inference-Springer/dp/0387402721/&#34;&gt;All of Statistics: A Concise Course in Statistical Inference&lt;/a&gt; 的大侠 &lt;a href=&#34;http://www.stat.cmu.edu/~larry/&#34;&gt;Larry Wasserman&lt;/a&gt; (Department of Statistics, Department of Machine Learning, Carnegie Mellon University) 突发感想，在自己博客 &lt;a href=&#34;http://normaldeviate.wordpress.com/&#34;&gt;Normal Deviate &lt;/a&gt;中写下大号书评：&lt;/p&gt;
&lt;p&gt;Nate Silver is a Frequentist: Review of “the signal and the noise”&lt;/p&gt;
&lt;p&gt;[……]就如你可以看到的，我非常喜欢这本书，并强烈推荐它。&lt;/p&gt;
&lt;p&gt;但是……&lt;/p&gt;
&lt;p&gt;我有一点要倾诉。Silver非常热衷于贝叶斯推断，这是很好的。不幸的是，他属于我&lt;a href=&#34;http://normaldeviate.wordpress.com/2012/11/17/what-is-bayesianfrequentist-inference/&#34;&gt;前几篇文章&lt;/a&gt;所写的这一类人—— 混淆了“贝叶斯推理”与“使用贝叶斯定理”两个概念。他对于频率派统计推断的描述是比较糟的。他似乎把频率推断等同于了常用于正态分布的费歇尔显著性检验。也许他是从一本劣质的书中学习的统计学，抑或他天天跟一群激进的反频率学派的统计学家厮混，以至于持这样的观点。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>数据科学家的崛起</title>
      <link>https://cosx.org/2012/11/the-rise-of-data-scientists/</link>
      <pubDate>Sun, 25 Nov 2012 05:09:59 +0000</pubDate>
      
      <guid>https://cosx.org/2012/11/the-rise-of-data-scientists/</guid>
      <description>&lt;p&gt;美国2012总统大选是奥巴马的胜利，但实际上也是统计学家的胜利。奥巴马当选之夜，我看见推特上有一条消息被疯狂转载：&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;NATE SILVER ELECTED 44TH PRESIDENT OF UNITED STATES&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;当然这是一句玩笑话，但Nate Silver是谁？他号称“竞选预测之神谕”：2008年的总统大选他预测对了最终结果，而且美国50州的投票结果他预测对了49个；今年的大选他又预测对了，并且是50州全对。Silver是一名统计学家，毕业于芝加哥大学，随后在毕马威会计师事务所“度过了令自己后悔的四年时间”（不喜欢那里的工作），后来转向预测棒球选手的成绩，再后来转向政治方面的数据分析和预测。总统大选的预测是一件噪声很大的工作，各家有各家的预测和分析，各种突发事件可能会导致某位候选人的支持短期内大幅变动。Silver的工作就像机器学习中的“集成学习”（他自己的描述是“贝叶斯统计”，用自己的先验信息和数据得到后验），集合众多民意调查结果，根据自己的经验判断去平均它们（具体过程我不清楚）。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>第五届中国R语言会议（上海会场）纪要</title>
      <link>https://cosx.org/2012/11/5th-china-r-shanghai-summary/</link>
      <pubDate>Thu, 08 Nov 2012 22:02:26 +0000</pubDate>
      
      <guid>https://cosx.org/2012/11/5th-china-r-shanghai-summary/</guid>
      <description>第五届中国R语言会议（上海会场）于2012年11月3日~4日在上海财经大学行政楼一楼报告厅成功召开。会议由上海财经大学统计与管理学院主办、统</description>
    </item>
    
    <item>
      <title>因果推断简介之五：因果图  (Causal Diagram)</title>
      <link>https://cosx.org/2012/10/causality5-causal-diagram/</link>
      <pubDate>Thu, 25 Oct 2012 12:00:24 +0000</pubDate>
      
      <guid>https://cosx.org/2012/10/causality5-causal-diagram/</guid>
      <description>&lt;p&gt;&lt;code&gt;$$ \def\ind{{\perp\!\!\!\perp}} \def\nind{{\not\!\perp\!\!\!\perp}} $$&lt;/code&gt;&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://cloud.githubusercontent.com/assets/18478302/25562030/a1d55f52-2dac-11e7-80b9-13f4c11cf121.jpg&#34; alt=&#34;nep7x&#34;&gt;&lt;/p&gt;
&lt;p&gt;这部分介绍 &lt;a href=&#34;http://bayes.cs.ucla.edu/jp_home.html&#34;&gt;Judea Pearl&lt;/a&gt; 于 1995 年发表在 Biometrika 上的工作 “Causal diagrams for empirical research”，这篇文章是 Biometrika 创刊一百多年来少有的讨论文章，Sir David Cox，Guido Imbens, Donald Rubin 和 James Robins 等人都对文章作了讨论。由于 Judea Pearl 最近刚获得了图灵奖，我想他的工作会引起更多的关注（事实上计算机界早就已经过度的关注了）。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>COS数据分析沙龙第六期（上海）</title>
      <link>https://cosx.org/2012/10/shanghair-oct-2012-iresearch/</link>
      <pubDate>Mon, 15 Oct 2012 15:14:20 +0000</pubDate>
      
      <guid>https://cosx.org/2012/10/shanghair-oct-2012-iresearch/</guid>
      <description>&lt;p&gt;金秋十月，趁着大家刚刚过完长假回到上海，我们也抓紧聚集起人来开沙龙，商讨11月份R会议的事情。这次又往申城西边飘了一下，占用了艾瑞咨询地段绝佳的会议室。预热期间，先看个风景什么的。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>第五届中国R语言会议（上海会场）报名开始</title>
      <link>https://cosx.org/2012/10/china-r-shanghai-2012/</link>
      <pubDate>Thu, 11 Oct 2012 14:44:11 +0000</pubDate>
      
      <guid>https://cosx.org/2012/10/china-r-shanghai-2012/</guid>
      <description>继五月份北京会场圆满举行之后，第五届中国R语言会议的上海会场也将揭开帷幕。报名已经开始，会议详情猛击： https://cos.name/ch</description>
    </item>
    
    <item>
      <title>第五届中国R语言会议</title>
      <link>https://cosx.org/chinar/chinar-2012/</link>
      <pubDate>Sat, 29 Sep 2012 12:27:04 +0000</pubDate>
      
      <guid>https://cosx.org/chinar/chinar-2012/</guid>
      <description>&lt;p&gt;R是一门用于统计计算和作图的语言，其官方机构每年都会举办useR!会议，但会议地点主要局限在欧美地区。自2008年以来，在谢益辉的倡导下，中国已经成功举办了四届自行组织的R语言会议，极大促进了R语言在中国的推广和发展。在前四届会议的成功经验下，为了进一步加强各领域R语言使用者之间的交流，我们于2012年5月（北京会场）和2012年11月（上海会场）举办了第五届中国R语言会议。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;北京会场和上海会场均已顺利召开，详情请见&lt;a href=&#34;https://cosx.org/2012/05/5th-china-r-beijing-summary/&#34;&gt;北京会场会议纪要&lt;/a&gt;及&lt;a href=&#34;https://cosx.org/2012/11/5th-china-r-shanghai-summary/&#34;&gt;上海会场会议纪要&lt;/a&gt;。&lt;/strong&gt;&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>COS数据分析沙龙第五期（深圳）</title>
      <link>https://cosx.org/2012/09/5th-r-salon-in-shenzhen/</link>
      <pubDate>Tue, 11 Sep 2012 22:07:18 +0000</pubDate>
      
      <guid>https://cosx.org/2012/09/5th-r-salon-in-shenzhen/</guid>
      <description>&lt;p&gt;公元二〇一二年九月八日，在依山傍海、年轻美丽、自由开放的深圳，中国R语言爱好者终于迎来了南方首聚，R语言之火种从祖国华北、华东欣欣燃烧到了华南。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>Persi  Diaconis(2)</title>
      <link>https://cosx.org/2012/09/persi-diaconis2/</link>
      <pubDate>Sun, 09 Sep 2012 18:05:52 +0000</pubDate>
      
      <guid>https://cosx.org/2012/09/persi-diaconis2/</guid>
      <description>&lt;p&gt;本篇将给出上次提出的解码问题的一个可能的解(建议大家阅读Persi Diaconis写的原文，可以很容易在谷歌中找到，文章名字见上一篇)。&lt;/p&gt;
&lt;p&gt;假设我们已经知道该密码文件中所有字符对应的实际中的符号集(如26个英文字母以及0-9的阿拉伯数字等)。&lt;/p&gt;
&lt;p&gt;我们将这些字符随机地对应到我们已知的符号，看看结果是否合理(即解码后是否有意义)，如此遍历所有可能的对应关系，就可以了。这是一个办法，但显然不是一个好的办法。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>COS数据分析沙龙第四期（北京）</title>
      <link>https://cosx.org/2012/08/cos-salon-review-4/</link>
      <pubDate>Tue, 28 Aug 2012 20:20:51 +0000</pubDate>
      
      <guid>https://cosx.org/2012/08/cos-salon-review-4/</guid>
      <description>&lt;p&gt;2012年8月26日，第四期COS沙龙：“网站分析与统计方法”在中国人民大学泊星地咖啡厅如期举行。本次沙龙邀请了北京博新创亿科技的武勇先生围绕沙龙主题做了精彩分享。&lt;/p&gt;
&lt;p&gt;武勇先生，系北京博新创亿科技股份有限公司CEO，国内网站分析行业资深人士，从2005年开始负责webtrends在中国的业务开展，截止到今天webtrends在中国的客户达到了500家以上。同时，武勇先生还是网站分析星期三活动（Web Analysis Wednsday，简称WAW）的组织者之一，长期致力于网站分析的人才培养。每周三的免费网站分析培训至今已经坚持了两年多，为改善网站分析的生态环境做出了巨大贡献。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>Persi Diaconis (1)</title>
      <link>https://cosx.org/2012/08/persi-diaconis-1/</link>
      <pubDate>Wed, 22 Aug 2012 07:26:18 +0000</pubDate>
      
      <guid>https://cosx.org/2012/08/persi-diaconis-1/</guid>
      <description>&lt;p&gt;作为统计之美的开篇，我一直想找一篇我非常愿意写的统计故事，尽管有很多，但都不能让我觉得可以发泄笔头之愤。最近在听贝叶斯统计课，刘军老师（哈佛大学统计系教授）提起了叫Persi Diaconis的人，他的故事和他的工作，这让我找到了写这篇文章的灵感。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>复合泊松过程模型的推广和在R语言环境下的随机模拟</title>
      <link>https://cosx.org/2012/08/compound-poisson/</link>
      <pubDate>Sun, 12 Aug 2012 10:00:39 +0000</pubDate>
      
      <guid>https://cosx.org/2012/08/compound-poisson/</guid>
      <description>&lt;blockquote&gt;
&lt;p&gt;本文作者：叶钫，南京大学数学系&lt;/p&gt;
&lt;/blockquote&gt;
&lt;h1 id=&#34;0引言&#34;&gt;0 引言&lt;/h1&gt;
&lt;p&gt;对保险人而言，资产和负债是影响保险人稳定经营至关重要的因素。资产和负债的差额称为盈余，简记作：&lt;/p&gt;
&lt;p&gt;&lt;code&gt;$$U(t)=A(t)-L(t),t&amp;gt;0$$&lt;/code&gt;&lt;/p&gt;
&lt;p&gt;其中&lt;code&gt;$A(t)$&lt;/code&gt;表示时刻&lt;code&gt;$t$&lt;/code&gt;的资产，&lt;code&gt;$L(t)$&lt;/code&gt;表示时刻&lt;code&gt;$t$&lt;/code&gt;的负债，&lt;code&gt;$t=0$&lt;/code&gt;时刻的盈余被称为初始盈余，简记为&lt;code&gt;$u$&lt;/code&gt;，即&lt;code&gt;$U(0)=u$&lt;/code&gt;。对这个初步的理论模型进行简化并根据实际情况设置一些假定情况，会得出很多不同的盈余过程模型，最经典的有Sparre Andersen的古典盈余过程模型：&lt;/p&gt;
&lt;p&gt;&lt;code&gt;$$U(t)=u+ct-S(t);t\ge 0,u\ge 0,c&amp;gt;0$$&lt;/code&gt;&lt;/p&gt;
&lt;p&gt;这是一个以$u$为初值，以时间$t$为指标集的随机过程。其中${S(t),t&amp;gt;0}$称为总理赔过程，满足：&lt;/p&gt;
&lt;p&gt;&lt;code&gt;$$S(t)=\begin{cases}\\\ X_{1}+X_{2}+\cdots+X_{N_{(t)}} &amp;amp; ,N_{(t)}&amp;gt;0\\&amp;lt;br /&amp;gt; 0 &amp;amp; ,N_{(t)}=0\\\ \end{cases}$$&lt;/code&gt;&lt;/p&gt;
&lt;p&gt;&lt;code&gt;$N_{(t)}$&lt;/code&gt;表示&lt;code&gt;$[0,t]$&lt;/code&gt;内的总理赔次数，&lt;code&gt;$X_i$&lt;/code&gt;表示&lt;code&gt;[0,t]$&lt;/code&gt;内第&lt;code&gt;$i$&lt;/code&gt;次理赔的金额。&lt;/p&gt;
&lt;p&gt;根据这个古典盈余过程模型可以引出破产模型，在这个盈余过程模型中，一方面有连续不断的保费收入并以速度c进行积累，另一方面则是不断会有理赔需要支付，因此这是一个不断跳跃变化的过程。从保险人的角度来看，当然希望&lt;code&gt;$ct-S(t)$&lt;/code&gt;恒大于0，否则就有可能出现&lt;code&gt;$U(t)&amp;lt;0$&lt;/code&gt;的情况，这种情况可以定义为理论意义上的破产，以示与实际中的破产相区分，本文中后面出现的“破产”在没有特殊说明的情况下都是指这种理论情况。从研究保险人破产角度出发，可以把这个盈余过程模型看做是一个特殊的破产模型。&lt;/p&gt;
&lt;h1 id=&#34;1第一个推广的破产模型&#34;&gt;1 第一个推广的破产模型&lt;/h1&gt;
&lt;p&gt;在以上经典模型中，假设了保费收入速度是均匀的，而在实际中，在控制保费c的条件下，保单到达的时刻应该是一个离散的随机过程。根据现实经验，考虑一段很短的时间间隔中，认为保单到达的概率较小，而时间间隔数量可以非常之多且不清楚具体是多少，在概率论中一般用泊松分布来刻画这种概率分布，所以初步认为一段时间内保单到达的数量服从泊松分布。&lt;/p&gt;
&lt;p&gt;同样地，由于理赔发生的概率远比保单发生的概率低，因此可以认为理赔发生的次数服从另一个独立的泊松分布。选取泊松分布来刻画这两个时间间隔的另一个原因是泊松分布具有一些优良的数学性质，便于分析和计算。根据泊松分布的性质，保单到达和理赔到达的时刻是两个独立的泊松过程。&lt;/p&gt;
&lt;p&gt;另外，一般一款保险产品，它的保费往往是固定的，所以用固定的c来表示符合现实情况，而理赔金额往往根据发生事故的严重程度而定，可以认为每次理赔的金额服从一个独立的取值为非负的分布，根据经验，这个分布大致的要求是较高的概率对应较小的理赔额，较低的概率对应较大的理赔额，在常用的概率分布中，指数分布较好地满足这个特性，本文初步选用指数分布来刻画每次理赔额。&lt;/p&gt;
&lt;p&gt;因此，第一个推广的破产模型可以表示为：&lt;/p&gt;
&lt;p&gt;&lt;code&gt;$$U(t)=u+cM(t)-\sum_{i=1}^{N(t)}X_i;t\ge 0,u\ge 0,c&amp;gt;0$$&lt;/code&gt;&lt;/p&gt;
&lt;p&gt;其中保单到达时刻&lt;code&gt;$M(t)$&lt;/code&gt;服从参数为&lt;code&gt;$\lambda_1$&lt;/code&gt;的泊松过程，理赔发生时刻&lt;code&gt;$N(t)$&lt;/code&gt;服从参数为&lt;code&gt;$\lambda_2$&lt;/code&gt;的泊松过程，每次支付的保险费&lt;code&gt;$X_i$&lt;/code&gt;服从参数为&lt;code&gt;$v$&lt;/code&gt;的相互独立的指数分布。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>COS数据分析沙龙第三期（北京）</title>
      <link>https://cosx.org/2012/08/cos-salon-review-2/</link>
      <pubDate>Wed, 01 Aug 2012 09:29:47 +0000</pubDate>
      
      <guid>https://cosx.org/2012/08/cos-salon-review-2/</guid>
      <description>&lt;p&gt;2012年7月28日，第三期COS沙龙：“统计分析在金融领域的应用漫谈”在中国人民大学泊星地咖啡厅如期举行。本次沙龙邀请了刘晓辉和龙泳先两位嘉宾围绕沙龙主题做了精彩分享。&lt;/p&gt;
&lt;p&gt;刘晓辉女士，曾就读于中国人民大学统计学院统计学专业，后入中国社会科学院在职研究生院金融所深造，现任北京瑞尼尔技术有限公司分析团队经理。本次沙龙刘晓辉分享了银行体系在进行客户营销过程中的统计建模方法，分享纲要如下：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;开展定量分析的前提之一是已经积累了必要的历史数据，这是定量分析的原材料；&lt;/li&gt;
&lt;li&gt; 以客户为中心的定量分析，是为了针对不同价值客户制定差别化的营销和管理策略，已达到利润最大化；客户价值主要从以下几个方面衡量：利润贡献、风险、忠诚度、成本；&lt;/li&gt;
&lt;li&gt;要对客户价值进行分析，需要以下几个方面的数据：客户属性数据、产品使用情况数据、客户与本行（公司）的业务往来历史相关数据，这几个方面都会影响客户为行 （公司）带来价值的大小；&lt;/li&gt;
&lt;li&gt;如同开车一样，开展以利润最大化为目的的客户价值分析，开展一个营销活动，通常需要从以下两个角度考察客户价值：营销指标和风险，营销指标是“油门”，而风险是“刹车”；&lt;/li&gt;
&lt;li&gt;定量分析的一般流程为：
&lt;ol&gt;
&lt;li&gt;需求调研&lt;/li&gt;
&lt;li&gt;数据收集、导入与诊断&lt;/li&gt;
&lt;li&gt;定义问题&lt;/li&gt;
&lt;li&gt;数据转换和数据汇总&lt;/li&gt;
&lt;li&gt;基本分析&lt;/li&gt;
&lt;li&gt;模型开发和验证&lt;/li&gt;
&lt;li&gt;模型部署、监控和调试&lt;/li&gt;
&lt;li&gt;设计营销方案，开展营销活动&lt;/li&gt;
&lt;/ol&gt;
&lt;/li&gt;
&lt;li&gt; 常见定量分析工具：SAS、SPSS、S+、R、MATLAB、…&lt;/li&gt;
&lt;li&gt;开展定量分析需要考虑的几个问题：
&lt;ol&gt;
&lt;li&gt;What：该项定量分析的目标是什么，对象是什么？目前的状况怎样？有哪些资料？&lt;/li&gt;
&lt;li&gt;For What：定量分析的结果如何运用？&lt;/li&gt;
&lt;li&gt;Why：为什么要开展该项定量分析？&lt;/li&gt;
&lt;li&gt;How：怎么开展该项定量分析？具体步骤应该怎么规划和控制？&lt;/li&gt;
&lt;/ol&gt;
&lt;/li&gt;
&lt;/ol&gt;</description>
    </item>
    
    <item>
      <title>MCMC案例学习</title>
      <link>https://cosx.org/2012/07/mcmc-case-study/</link>
      <pubDate>Tue, 24 Jul 2012 14:49:32 +0000</pubDate>
      
      <guid>https://cosx.org/2012/07/mcmc-case-study/</guid>
      <description>&lt;blockquote&gt;
&lt;p&gt;本文是R中mcmc包的一篇&lt;a href=&#34;http://www.stat.umn.edu/geyer/mcmc/library/mcmc/doc/demo.pdf&#34;&gt;帮助文档&lt;/a&gt;，作者为Charles J.Geyer。经过&lt;a href=&#34;https://cosx.org/2012/06/reproducible-research-with-knitr/&#34;&gt;knitr&lt;/a&gt;编译后的pdf文档&lt;a href=&#34;http://cloud.github.com/downloads/cosname/editor/mcmc.pdf&#34;&gt;可见此处&lt;/a&gt;，提供中文译稿的作者：&lt;/p&gt;
&lt;/blockquote&gt;
&lt;blockquote&gt;
&lt;p&gt;闫超，天津财经大学统计系2011级研究生，方向：非寿险准备金评估。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;blockquote&gt;
&lt;p&gt;高磊，天津财经大学统计系2011级研究生，方向：非寿险准备金评估。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;这个案例，我们不关心题目的具体意义，重点放在利用贝叶斯的观点来解决问题时，MCMC在后续的计算中所发挥的巨大作用。我们知道，贝叶斯的结果往往是一个后验分布。这个后验分布往往很复杂，我们难以用经典的方法求解其期望与方差等一系列的数据特征，这时MCMC来了，将这一系列问题通过模拟来解决。从这个意义上说，MCMC是一种计算手段。依频率学派看来，题目利用广义线性模型可以解决，在贝叶斯看来同样以解决，但是遇到了一个问题，就是我们得到的非标准后验分布很复杂。我们正是利用MCMC来解决了这个分布的处理问题。本文的重点也在于此。&lt;/p&gt;
&lt;p&gt;在使用MCMC时作者遵循了这样的思路，首先依照贝叶斯解决问题的套路，构建了非标准后验分布函数。然后初步运行MCMC，确定合适的scale。继而，确定适当的模拟批次和每批长度(以克服模拟取样的相关性)。最后，估计参数并利用delta方法估计标准误。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>COS数据分析沙龙第二期（上海）</title>
      <link>https://cosx.org/2012/07/shanghair-july-2012-mindshare/</link>
      <pubDate>Mon, 23 Jul 2012 09:39:31 +0000</pubDate>
      
      <guid>https://cosx.org/2012/07/shanghair-july-2012-mindshare/</guid>
      <description>&lt;p&gt;炎炎夏日，上海的R用户沙龙从上次远飘到杭州以后，在2012年7月21日又飘回上海，落在了长乐路MindShare广告公司31层的办公室。&lt;/p&gt;
&lt;p&gt;不论之前你对上海有什么深仇或者深情，不可否认在31楼这个角度看出去，上海的老区在斜阳中透射出的轮廓让人沉醉。快拉上窗帘吧，不要影响了我们谈正事儿~&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>希格斯玻色子与5σ</title>
      <link>https://cosx.org/2012/07/higgs-boson-and-5-sigma/</link>
      <pubDate>Tue, 10 Jul 2012 23:26:02 +0000</pubDate>
      
      <guid>https://cosx.org/2012/07/higgs-boson-and-5-sigma/</guid>
      <description>&lt;blockquote&gt;
&lt;p&gt;本文转自施涛博客，原文链接请&lt;a href=&#34;http://blog.cos.name/taoshi/2012/07/06/%E5%B8%8C%E6%A0%BC%E6%96%AF%E6%B3%A2%E8%89%B2%E5%AD%90/&#34;&gt;点击此处&lt;/a&gt;。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;2012年7月4日，欧洲核子研究组织（CERN， &lt;a href=&#34;http://public.web.cern.ch/public/en/About/Name-en.html&#34;&gt;the European Organization for Nuclear Research&lt;/a&gt;）的物理学家们宣布发现在欧洲大型强子对撞机中一种疑似希格斯玻色子（&lt;a href=&#34;http://en.wikipedia.org/wiki/Higgs_boson&#34;&gt;Higgs Boson&lt;/a&gt;）。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>COS数据分析沙龙第一期（北京）</title>
      <link>https://cosx.org/2012/06/cos-salon-review-1/</link>
      <pubDate>Mon, 25 Jun 2012 00:25:06 +0000</pubDate>
      
      <guid>https://cosx.org/2012/06/cos-salon-review-1/</guid>
      <description>&lt;p&gt;2012年6月16日，第一期COS沙龙以“&lt;strong&gt;数据挖掘，商业软件还是开源软件&lt;/strong&gt;”为话题，在人民大学泊星地咖啡厅举行。&lt;/p&gt;
&lt;p&gt;沙龙邀请了&lt;strong&gt;翟祥&lt;/strong&gt;和&lt;a href=&#34;http://www.bjt.name&#34;&gt;&lt;strong&gt;刘思喆&lt;/strong&gt;&lt;/a&gt;两位嘉宾围绕沙龙主题做了精彩发言。&lt;/p&gt;
&lt;p&gt;翟祥是中国人民大学博士，现任北京林业大学经济管理学院副教授,从事统计学研究应用10年有余,担任SAS公司特聘讲师和工程师,与SAS和IBM进行长期技术合作。主要从事数据挖掘、市场研究咨询和风险管理等领域的理论和应用。翟祥从统计问题的思维方式入手，提出了“理性需求”和“非理性需求”的概念和需求调整与演化的模型，商业软件可以很好的满足显性需求和现实期望，但是对于模糊需求和隐性需求，则需要使用软件的人来识别并转化为现实期望和显性需求，这就需要用开源软件的解决方案。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>knitr与可重复的统计研究（花絮篇）</title>
      <link>https://cosx.org/2012/06/reproducible-research-with-knitr/</link>
      <pubDate>Mon, 11 Jun 2012 00:04:12 +0000</pubDate>
      
      <guid>https://cosx.org/2012/06/reproducible-research-with-knitr/</guid>
      <description>&lt;p&gt;2010年年底我写了&lt;a href=&#34;https://cosx.org/2010/11/reproducible-research-in-statistics/&#34;&gt;两&lt;/a&gt;篇&lt;a href=&#34;https://cosx.org/2011/01/cache-objects-in-sweave-stat-computation-and-graphics/&#34;&gt;文&lt;/a&gt;章，关于Sweave/LyX/pgfSweave，顺便引出可重复研究（Reproducible Research）的概念。一年过后，我逐渐意识到这一系列基于Sweave的工具都有致命的设计缺陷，束缚感越来越强，屡屡冒出要重复造轮子的&lt;a href=&#34;https://cos.name/cn/topic/104960#post-222213&#34;&gt;想法&lt;/a&gt;。于是就在“造乎？不造乎？”的犹豫中最终痛下决心全盘重造，&lt;a href=&#34;http://yihui.name/knitr/&#34;&gt;knitr包&lt;/a&gt;就诞生了。在第五届中国R语言会议上魏太云已经对它作了初步介绍，我会在统计之都以系列文章全面介绍它，本篇先以各种花絮开头。过去几天里我和RStudio的作者先后在我们Ames村办大学、明尼苏达R用户组和纽约R用户组分别做了knitr与RStudio的报告，下周R官方会议useR! 2012在田纳西州举办，我们也有幸得到了在会上做邀请报告的机会。在这个报告里，我要谈的就是一些开发中的思考，本文先给出这些思考的一个预览。如果你之前不熟悉Sweave，下面的内容可能不太容易理解，但没关系，一来很多东西你已经没有理解的必要了（旧世界的糟粕），二来今后我还会详细介绍knitr的功能。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>第五届中国R语言会议（北京会场）纪要</title>
      <link>https://cosx.org/2012/05/5th-china-r-beijing-summary/</link>
      <pubDate>Thu, 31 May 2012 10:53:00 +0000</pubDate>
      
      <guid>https://cosx.org/2012/05/5th-china-r-beijing-summary/</guid>
      <description>第五届中国 R 语言会议（北京会场）于 2012 年 5 月 26 日 ~ 27 日在中国人民大学明德法学楼 0201 成功召开。会议由中国人民大学应用统计科学研究中心与中国人民大学</description>
    </item>
    
    <item>
      <title>那些年，我们一起追的EB</title>
      <link>https://cosx.org/2012/05/chase-after-eb/</link>
      <pubDate>Sat, 26 May 2012 00:32:12 +0000</pubDate>
      
      <guid>https://cosx.org/2012/05/chase-after-eb/</guid>
      <description>&lt;p&gt;写了&lt;a href=&#34;https://cosx.org/2011/12/stories-about-statistical-learning/&#34;&gt;《统计学习那些事》&lt;/a&gt;，很多童鞋都表示喜欢，这让我越来越觉得冯导的一句话很有道理：“我的电影一向只伺候中国观众，还没想过拍给全世界人民看。这就跟献血一样，本身是好事，但如果血型不对，输进去的血也会产生排异现象。我的‘血型’就适合中国人，对不上世界观众，别到时伤了我的身子骨，还伤害了世界观众，所以我暂时不会‘献血’。”比如他的《天下无贼》，我就特别喜欢。然而天下可以无贼，却不可以没有英雄（不是张导的那个《英雄》）。今天我要写的是统计界的英雄以及英雄的故事。英雄的名字叫 EB，英雄的故事也叫 EB。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>R You Ready?——大数据时代下优雅、卓越的统计分析及绘图环境</title>
      <link>https://cosx.org/2012/05/r-you-ready/</link>
      <pubDate>Sat, 05 May 2012 11:46:56 +0000</pubDate>
      
      <guid>https://cosx.org/2012/05/r-you-ready/</guid>
      <description>&lt;p&gt;作者按：本文根据去年11月份CSDN举办的“大数据技术大会”演讲材料整理，最初发表于2012年2月期《程序员》杂志。&lt;/p&gt;
&lt;h1 id=&#34;1-历史&#34;&gt;1. 历史&lt;/h1&gt;
&lt;p&gt;R（R Development Core Team, 2011）语言由新西兰奥克兰大学的 Ross Ihaka 和 Robert Gentleman 两人共同发明，其词法和语法分别源自 Scheme 和 S 语言，R 语言一般认为是 S 语言（John Chambers, Bell Labs, 1972）的一种方言。R 是“GNU S”， 一个自由的、有效的、用于统计计算和绘图的语言和环境，它提供了广泛的统计分析和绘图技术：包括线性和非线性模型、统计检验、时间序列、分类、聚类等方法。我们更倾向于认为 R 是一个环境，在 R 环境里实现了很多经典的、现代的统计技术。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>日历中的夏天</title>
      <link>https://cosx.org/2012/05/calendarheatmap/</link>
      <pubDate>Thu, 03 May 2012 22:37:45 +0000</pubDate>
      
      <guid>https://cosx.org/2012/05/calendarheatmap/</guid>
      <description>&lt;p&gt;&lt;img src=&#34;https://uploads.cosx.org/2012/05/summer.jpg&#34; alt=&#34;看着有节，摸着无节，打一生活用品&#34;&gt;&lt;/p&gt;
&lt;p&gt;不知不觉，夏日已慢慢临近。姑娘们飞扬的裙角，小贩叫卖的西瓜，蚊蝇嗡嗡的声音，以及翻过的一页日历，都提醒着你夏天快来了。夏季有着不同的定义：根据中国人的日历，我们所俗称的夏季从立夏开始，到立秋结束；但在气候学上，夏季是指连续五天平均温度超过22摄氏度即算作夏季的开始，若连续五天平均温度低于22度则算作入秋；而天文学上的夏季一般是指六、七、八这三个月。&lt;/p&gt;
&lt;p&gt;那么哪一种夏季的定义更合适一些呢？还是用数据可视化来说话吧。这项任务基本上有两个步骤：一是获取某城市的2011年日平均温度数据，二是根据数据绘制&lt;strong&gt;日历热图（Calendar-Heatmap）&lt;/strong&gt;。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>第五届中国R语言会议通知</title>
      <link>https://cosx.org/2012/04/chinar-2012/</link>
      <pubDate>Mon, 16 Apr 2012 21:38:16 +0000</pubDate>
      
      <guid>https://cosx.org/2012/04/chinar-2012/</guid>
      <description>&lt;p&gt;R是一门用于统计计算和作图的语言，其官方机构每年都会举办useR!会议，但会议地点主要局限在欧美地区。自2008年以来，在谢益辉的倡导下，中国已经成功举办了四届自行组织的R语言会议，极大促进了R语言在中国的推广和发展。在前四届会议的成功经验下，为了进一步加强各领域R语言使用者之间的交流，我们准备于2012年5月（北京会场）举办第五届中国R语言会议。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>关于概率论主干课程的训练</title>
      <link>https://cosx.org/2012/04/the-training-of-the-main-courses-about-probability-theory/</link>
      <pubDate>Sun, 15 Apr 2012 22:40:27 +0000</pubDate>
      
      <guid>https://cosx.org/2012/04/the-training-of-the-main-courses-about-probability-theory/</guid>
      <description>&lt;h1 id=&#34;1-引言&#34;&gt;1. 引言&lt;/h1&gt;
&lt;p&gt;虽然外界不大能区分“概率论”和“统计学”的差别，但是在概率统计专业内的人士们看来，这两者无论从思维方式、课程学习还是学术训练角度来看，区别还是相当明显的。比如我了解的北大概率统计系的情况，概率论和数理统计分属不同的教研室，日常的学术活动也大相径庭。研究生除了第一年会一起上专业基础课之外，之后就少有交集。我当年的体会是，在统计专业同学们的眼中，“概率论跟基础数学没有什么区别”；而在概率专业的同学看来，“统计学不像是数学”。这些对彼此颇为玩味的看法至少表现出二者之间不小的差别，即便同在“概率统计专业”的屋檐下。当然，随着统计学在我国逐步确立为一级学科，概率和统计的这种“隔阂”也许会更加明朗化。&lt;/p&gt;
&lt;p&gt;但不可否认的是，无论统计学的未来如何发展，其主干课程中必然少不了像概率论、随机过程这样的概率基础课程。以前我在科学网上针对概率论专业的同学如何选择和学习课程发表过一些建议，因此针对咱们COS读者的背景，我重新整理了一份关于概率课程学习的若干想法，希望能对大家有所帮助。&lt;/p&gt;
&lt;h1 id=&#34;2-概率论要怎么学&#34;&gt;2. 概率论要怎么学？&lt;/h1&gt;
&lt;p&gt;都说概率论是研究“随机现象”的数学，那么相对于研究“非随机现象”的数学，概率论的学习有哪些特别之处呢？&lt;/p&gt;
&lt;p&gt;小时候咱们学数学都是从数数开始。比如学习1+1的时候，老师们会拿出两个苹果，用实物演示“一个苹果加一个苹果等于两个苹果”。正是这种基于直截了当的“观测”，我们接受起“1+1=2”这件事来就略显自然。然而，如果要理解“质地均匀的硬币出现正反面的可能性都等于二分之一”这件事，就并非那么顺利了。即便主观上我们会认同这个结果，但从观测的角度却是一个永远无法回答的问题。我们能观测的只能是有限的样本以及永远都在变化着的频率，而这个“真实的可能性”，也即“概率”的确切值，却是无法观测的。因此，概率的定义本身就曾经是一个大难题。即便在早年研究赌博问题的时候，一些数学家即能根据排列组合的方法计算一些简单的离散概率（即大家熟知的古典概型），但那主要是基于人们对概率的一些朴素认识，离构建一套完整的数学理论还差得很远。&lt;/p&gt;
&lt;p&gt;因此，大家在学习概率论的时候，最先遇到、也是最重要的一个问题就是“如何定量描述随机现象”，即如何给出概率的定义。随着二十世纪30年代苏联数学家柯尔莫哥洛夫(1903-1987) 运用分析学中的测度理论(measure theory)完成了概率论的公理化体系，概率论才算正式登上了现代数学的殿堂。事实上，柯尔莫哥洛夫的公理化体系并未直面“概率是什么”的问题，到现在人们对于概率在哲学层面的思辨仍然在进行，但是公理化的作用是将人们对于概率的一些朴素共识或者基本性质抽象出来，形成一套公理体系，然后依据这套体系逐步发展出一套概率理论。这种思维跟当年德国数学家希尔伯特(1862-1943)所倡导的公理化思想是相一致的。值得一提的是，自打柯尔莫哥洛夫的概率公理化提出以来，对其的质疑从来就没有停止过，也不断有新的概率理论被提出，但这套理论依旧成为了概率研究的绝对主流，我们这里所谈到的概率论的学习也是指以柯尔莫哥洛夫公理化体系为基础的概率理论。&lt;/p&gt;
&lt;p&gt;然而，在本科阶段我们学习概率论课程的时候，却往往不是从介绍柯尔莫哥洛夫的公理化体系开始。这主要是因为，要用严格的数学充分阐释概率论的公理化体系，必须要有测度论的数学基础。而测度论的课程难度很大，基本要在研究生阶段或者本科的高年级阶段才能开设。那是否要等大家学完了测度论之后再学概率论的课程呢？当然不是，就我了解全世界没有哪个国家和地区的学校会这么做。普遍的做法是在大学二年级就会开设初等概率论的课程，所适用的教材也大多基于微积分和线性代数的先修知识。这又是为什么呢？在由美国概率学家Rick Durrett教授所著的研究生教材Probability: Theory and Examples的前言部分，他提到概率论有两只手，左手是基于测度论的严格数学，右手则是概率的思考方法，也可以理解成概率的物理直观。&lt;/p&gt;
&lt;p&gt;虽然测度论是概率论的基本数学语言，但如果真把概率论就当做测度论的一部分去学习，就只抓住了概率论两只手中的一只，而忽略了另一只联系物理直观的右手。而这只右手恰恰是概率论在现代数学之林中最难能可贵的地方。一直以来，概率论都保持了与包括物理学在内的科学领域的亲近，几乎所有的概率研究课题背后都有实际背景问题的支撑：例如离散空间随机游动问题与理论计算机、化学高分子聚合物理论；大偏差理论、粒子系统与统计物理、复杂性科学等等之间的密切联系，都极大推动了概率论这门科学的不断发展。同时，概率论的发展也得到了来自社会科学领域的刺激，特别是以随机微分方程为代表的随机分析学已经成为了数理金融领域中的基本理论和工具之一。更有趣的是，借助概率论广泛联系物理直观的特点，很多数学家纷纷借助概率论的思想帮助解决了一系列传统数学中的很多重大问题，例如当年佩雷尔曼在解决庞加莱猜想的论证过程中即用到了概率论中条件期望的想法。&lt;/p&gt;
&lt;p&gt;因此，为了尽早让大家了解概率论所联系的物理直观以及巨大的应用价值，学校会提早开设本科概率论的课程。本科课程会尽量回避测度论，用一些仅需用微积分和线性代数就讲明白的模型，引入概率论的基本概念，培养大家的概率直观，并熟悉一些基本运算。经过了这一阶段的训练，待到本科高年级或者研究生阶段，再借助测度论的基础，进一步明确概率论的数学理论，从而迈入现代概率论的门槛。&lt;/p&gt;
&lt;p&gt;下面我们就来具体聊聊本科和研究生的课程学习：&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>因果推断简介之四：观察性研究，可忽略性和倾向得分</title>
      <link>https://cosx.org/2012/04/causality4-observational-study-ignorability-and-propensity-score/</link>
      <pubDate>Sun, 01 Apr 2012 14:41:38 +0000</pubDate>
      
      <guid>https://cosx.org/2012/04/causality4-observational-study-ignorability-and-propensity-score/</guid>
      <description>&lt;p&gt;&lt;code&gt;$$ \def\ind{{\perp\!\!\!\perp}} \def\nind{{\not\!\perp\!\!\!\perp}} $$&lt;/code&gt;&lt;/p&gt;
&lt;p&gt;这节采用和前面相同的记号。&lt;code&gt;$Z$&lt;/code&gt; 表示处理变量（&lt;code&gt;$1$&lt;/code&gt; 是处理，&lt;code&gt;$0$&lt;/code&gt;是对照），&lt;code&gt;$Y$&lt;/code&gt; 表示结果，&lt;code&gt;$X$&lt;/code&gt; 表示处理前的协变量。在完全随机化试验中，可忽略性 &lt;code&gt;$Z \ind \{Y(1), Y(0)\} $&lt;/code&gt; 成立，这保证了平均因果作用 &lt;code&gt;$ACE(Z\rightarrow Y) = E\{Y(1) – Y(0)\} = E\{Y\mid Z=1\} – E\{Y\mid Z=0\}$&lt;/code&gt; 可以表示成观测数据的函数，因此可以识别。在某些试验中，我们“先验的”知道某些变量与结果强相关，因此要在试验中控制他们，以减少试验的方差。在一般的有区组（blocking）的随机化试验中，更一般的可忽略性 &lt;code&gt;$Z \ind \{Y(1), Y(0)\} | X$&lt;/code&gt; 成立，因为只有在给定协变量 &lt;code&gt;$ X $&lt;/code&gt; 后，处理的分配机制才是完全随机化的。比如，男性和女性中，接受处理的比例不同，但是这个比例是事先给定的。&lt;/p&gt;
&lt;p&gt;在传统的农业和工业试验中，由于随机化，可忽略性一般是能够得到保证的；因此在这些领域谈论因果推断是没有太大问题的。Jerzy Neyman 最早的博士论文，就研究的是农业试验。但是，这篇写于 1923 年的重要统计学文章，迟迟没有得到统计学界的重视，也没有人将相关方法用到社会科学的研究中。1970 年代，Donald Rubin 访问 UC Berkeley 统计系，已退休的 Jerzy Neyman 曾问起：为什么没有人将潜在结果的记号用到试验设计之外？正如 Jerzy Neyman 本人所说 “without randomization an experiment has little value irrespective of the subsequent treatment（没有随机化的试验价值很小）”，人们对于观察性研究中的因果推断总是抱着强烈的怀疑态度。我们经常听到这样的声音：统计就不是用来研究因果关系的！&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://uploads.cosx.org/2012/04/hume-kant-popper1.png&#34; alt=&#34;&#34;&gt;&lt;/p&gt;
&lt;p&gt;在第一讲 Yule-Simpson 悖论的评论中，有人提到了哲学（史）上的休谟问题（我的转述）：人类是否能从有限的经验中得到因果律？这的确是一个问题，这个问题最后促使德国哲学家康德为调和英国经验派（休谟）和大陆理性派（莱布尼兹-沃尔夫）而写了巨著《纯粹理性批判》。其实，如果一个人是绝对的怀疑论者（如休谟），他可能怀疑一切，甚至包括因果律，所以，康德的理论也不能完全“解决”休谟问题。怀疑论者是无法反驳的，他们的问题也是无法回答的。他们存在的价值是为现行一切理论起到警示作用。一般来说，统计学家不会从过度哲学的角度谈论问题。从前面的说明中可以看出，统计中所谓的“因果”是 &lt;strong&gt;“某种”意义的“因果”&lt;/strong&gt; ，即统计学只讨论 &lt;strong&gt;“原因的结果”&lt;/strong&gt; ，而不讨论 &lt;strong&gt;“结果的原因”&lt;/strong&gt; 。前者是可以用数据证明或者证伪的；后者是属于科学研究所探索的。用科学哲学家卡尔·波普的话来说，科学知识的积累是“猜想与反驳”的过程：“猜想”结果的原因，再“证伪”原因的结果；如此循环即科学。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>因果推断简介之三：R. A. Fisher 和 J. Neyman 的分歧</title>
      <link>https://cosx.org/2012/03/causality3-fisher-and-neyman/</link>
      <pubDate>Fri, 30 Mar 2012 13:10:09 +0000</pubDate>
      
      <guid>https://cosx.org/2012/03/causality3-fisher-and-neyman/</guid>
      <description>这部分谈到的问题非常微妙：完全随机化试验下的 Fisher randomization test 和 Neyman repeated sampling procedure。简单地说，前者是随机化检验，或者如很多教科书讲的Fisher 精</description>
    </item>
    
    <item>
      <title>因果推断简介之二：Rubin Causal Model (RCM)和随机化试验</title>
      <link>https://cosx.org/2012/03/causality2-rcm/</link>
      <pubDate>Wed, 28 Mar 2012 11:48:23 +0000</pubDate>
      
      <guid>https://cosx.org/2012/03/causality2-rcm/</guid>
      <description>$$ \def\ind{{\perp\!\!\!\perp}} \def\nind{{\not\!\perp\!\!\!\perp}} $$ 因果推断用的最多的模型是 Rubin Causal Model (RCM; Rubin 1978) 和 Causal Diagram (Pearl 1995)。Pearl (2000) 中介绍了这两个模型的等价性，但是就应用来看，RCM 更加精确，而 Causal</description>
    </item>
    
    <item>
      <title>因果推断简介之一：从 Yule-Simpson’s Paradox 讲起</title>
      <link>https://cosx.org/2012/03/causality1-simpson-paradox/</link>
      <pubDate>Mon, 26 Mar 2012 10:04:14 +0000</pubDate>
      
      <guid>https://cosx.org/2012/03/causality1-simpson-paradox/</guid>
      <description>在国内的时候，向别人介绍自己是研究因果推断（causal inference）的，多半的反应是：什么？统计还能研究因果？这确实是一个问题：统计</description>
    </item>
    
    <item>
      <title>统计词话（二）</title>
      <link>https://cosx.org/2012/03/statistics-in-chinese-song-poem-2/</link>
      <pubDate>Wed, 21 Mar 2012 01:15:17 +0000</pubDate>
      
      <guid>https://cosx.org/2012/03/statistics-in-chinese-song-poem-2/</guid>
      <description>&lt;p&gt;&lt;img src=&#34;https://uploads.cosx.org/2012/03/galaxy.jpg&#34; alt=&#34;统计词话（二）配图&#34;&gt;&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;抬头，他们看到了诗云。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;blockquote&gt;
&lt;p&gt;诗云处于已消失的太阳系所在的位置，是一片直径为一百个天文单位的旋涡状星云，形状很像银河系。空心地球处于诗云边缘，与原来太阳在银河系中的位置也很相似，不同的是地球的轨道与诗云不在同一平面，这就使得从地球上可以看到诗云的一面，而不是像银河系那样只能看到截面。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;blockquote&gt;
&lt;p&gt;——刘慈欣 &lt;a href=&#34;http://tieba.baidu.com/f?kz=81340576&#34;&gt;《诗云》&lt;/a&gt;&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;时光荏苒，距离&lt;a href=&#34;https://cosx.org/2011/03/statistics-in-chinese-song-poem-1/&#34;&gt;上次论词&lt;/a&gt;已经过去了一年。今天我们接着这一话题，不过这回要看的是词牌和作者。&lt;/p&gt;
&lt;p&gt;既然数据库里面有词牌和作者的记录，那么一个很自然的疑问是，哪些词牌被使用的频率最高？又有哪些词人的词作最为丰盛？这两个问题并不困难，只需要对他们进行频率统计然后排序即可。以下是R语言的代码和结果（&lt;a href=&#34;https://uploads.cosx.org/2011/03/SongPoem.tar.gz&#34;&gt;数据下载地址&lt;/a&gt;）：&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>需要相亲几次才能找到靠谱的对象？</title>
      <link>https://cosx.org/2012/03/find-right-one/</link>
      <pubDate>Sun, 11 Mar 2012 16:34:57 +0000</pubDate>
      
      <guid>https://cosx.org/2012/03/find-right-one/</guid>
      <description>&lt;p&gt;&lt;img src=&#34;https://uploads.cosx.org/2012/03/BFGF.png&#34; alt=&#34;&#34;&gt; 谈到相亲就不得不提到著名的麦穗问题。说有一天，苏格拉底带领几个弟子来到一块成熟的麦地边。他对弟子们说：“你们去麦地里摘一个最大的麦穗，但要求只能摘一次，只许进不许退，我在麦地的尽头等你们。”可以看得出，相亲这种活动就有点类似于摘麦穗，在等待和决断之间达成平衡是解决问题的重点。&lt;/p&gt;
&lt;p&gt;将上述的麦穗问题进一步抽象就是一个经典的概率问题。若一个袋子里有100个不同的球。每个球上标明了其尺寸大小。我们每次随机无放回的从袋中取一个球出来，观察其大小属性之后需决定要或是不要。如果要，取球就此停止。如果不要， 再继续取球，但不准再回头要原先的球。这样下去，直到100个球取完为止。目的就是取到那个最大的球。&lt;/p&gt;
&lt;p&gt;对于这个概率问题，一种思路就是取1到100之间的某个数字n，以它作为分割点将整袋球划分为两组，第一组即从第1个到第n个球，第二组即从第n+1个到第100个球。我们以第一组为观察对象，找到第一组中最大的球M，记录其大小但并不行动。然后从第二组中寻找大于M的第一个球，取该球为最终选择。那么n应该设为多少，才能使取到最大球的概率尽可能的高呢？Ross在其《概率论基础教程》中已经给出了精确的解析（英文版第8版P345；或者陈木法的《随机过程导论》 P105），最优的n公式表达为 &lt;code&gt;$n^*=\inf\{r:\sum_{n=r}^{N-1}\frac{1}{n}\le1\}$&lt;/code&gt;;在N充分大时，n应该取在1/e的比例处，也就是所有球数目的37%处。在解的过程中先运用条件概率得到全概率表达式，再用连续化的积分来近似离散化的概率，将积分求出后进行求导得到最终答案。看到这里各位是否有些惊讶，这个e可是无所不在啊。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>议员是如何投票的？</title>
      <link>https://cosx.org/2012/03/how-to-vote/</link>
      <pubDate>Sat, 03 Mar 2012 14:40:49 +0000</pubDate>
      
      <guid>https://cosx.org/2012/03/how-to-vote/</guid>
      <description>一、议员投票 这个数据在近几年的图模型文章中常能见到，并且已有很多深入的讨论——包括图结构随时间变化、多图联合估计等情况。本文只涉及单个图结构</description>
    </item>
    
    <item>
      <title>25年后的统计系会是什么样？</title>
      <link>https://cosx.org/2012/02/what-is-the-stat-dept-25-years-from-now/</link>
      <pubDate>Tue, 21 Feb 2012 14:21:11 +0000</pubDate>
      
      <guid>https://cosx.org/2012/02/what-is-the-stat-dept-25-years-from-now/</guid>
      <description>&lt;blockquote&gt;
&lt;p&gt;本文是统计学家Leo Breiman1994年在加州伯克利统计系毕业典礼上的讲话，原文请参考&lt;a href=&#34;http://www.stat.berkeley.edu/~dpurdy/Breiman-1994-commencement.html&#34;&gt;此处&lt;/a&gt;。
中文译稿可参见&lt;a href=&#34;http://blog.cos.name/taoshi/2012/02/18/leo-breiman-speech-in-chinese/&#34;&gt;施涛博客&lt;/a&gt;，本文对其进行了修改和润色。
Leo Breiman简介：加州伯克利统计系教授，美国国家科学院院士，20世纪伟大的统计学家，囊括多项统计领域大奖。机器学习先驱者，分类回归树作者之一，Bagging方法发明者，对模式识别领域有巨大贡献。于2005年逝世。更多信息可参考&lt;a href=&#34;http://oz.berkeley.edu/users/breiman/&#34;&gt;此处&lt;/a&gt;和&lt;a href=&#34;ftp://ftp.stat.math.ethz.ch/Research-Reports/Other-Manuscripts/buhlmann/AOAS381.pdf&#34;&gt;此处&lt;/a&gt;。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;&lt;img src=&#34;https://uploads.cosx.org/2012/02/Leo_Breiman.jpg&#34; alt=&#34;Leo_Breiman&#34;&gt; 很久以前，Peter Bickel 就请我来做一个毕业典礼致辞。Peter 是非常聪明的，他知道，如果提前请人在似乎很遥远的将来某天去发言，他们很可能会答应，而我就是如此。但随着时间的临近，要发言的现实紧迫感也逼近了。朋友说，“你可以说些很长的笑话”。但是一来我并不擅长讲笑话，二来我觉得讲笑话似乎也不恰当。因此，我还是决定谈谈我们都熟悉的东西——统计——我们都是他的一份子，一个古怪而有趣的领域。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>用R绘制情人节的礼物</title>
      <link>https://cosx.org/2012/02/valentines-gift-by-using-r/</link>
      <pubDate>Mon, 13 Feb 2012 20:00:05 +0000</pubDate>
      
      <guid>https://cosx.org/2012/02/valentines-gift-by-using-r/</guid>
      <description>&lt;blockquote&gt;
&lt;p&gt;作者简介：林宇，加拿大西安大略大学精算专业在读硕士。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;据说笛卡尔死前寄出的最后一封信，里面只有短短的一行：&lt;code&gt;\(r = a(1- \text{sin}\theta)\)&lt;/code&gt;，这就是有名的心形函数。情人节将至，我用R语言的&lt;strong&gt;grid&lt;/strong&gt;包画了几幅图片，希望借此平台赠与我相恋五年的男友，也希望与各位统计爱好者分享快乐。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>统计学习那些事</title>
      <link>https://cosx.org/2011/12/stories-about-statistical-learning/</link>
      <pubDate>Wed, 14 Dec 2011 01:27:12 +0000</pubDate>
      
      <guid>https://cosx.org/2011/12/stories-about-statistical-learning/</guid>
      <description>编辑部按：本文转载Yang Can主页中的文章，稍有修改，原文链接请点击此处。 作者简介：杨灿，香港科技大学电子与计算机工程系。 主页：https</description>
    </item>
    
    <item>
      <title>第四届中国R语言会议（上海会场）纪要</title>
      <link>https://cosx.org/2011/11/4th-china-r-shanghai-summary/</link>
      <pubDate>Wed, 16 Nov 2011 23:54:35 +0000</pubDate>
      
      <guid>https://cosx.org/2011/11/4th-china-r-shanghai-summary/</guid>
      <description>第四届中国R语言会议（上海会场）于2011年11月12日~13日在华东师范大学学术交流中心（逸夫楼）成功召开。会议由华东师范大学金融与统计学</description>
    </item>
    
    <item>
      <title>分组检测方法和 binGroup 包</title>
      <link>https://cosx.org/2011/11/group-testing-and-bingroup/</link>
      <pubDate>Thu, 10 Nov 2011 12:01:08 +0000</pubDate>
      
      <guid>https://cosx.org/2011/11/group-testing-and-bingroup/</guid>
      <description>本文作者：张博安,University of Nebraska统计系在读博士 今天给大家介绍一下分组检测（group testing）方法和我们写的关</description>
    </item>
    
    <item>
      <title>计算机试验简介</title>
      <link>https://cosx.org/2011/11/introduction-ofcomputer-experiment/</link>
      <pubDate>Wed, 09 Nov 2011 12:40:08 +0000</pubDate>
      
      <guid>https://cosx.org/2011/11/introduction-ofcomputer-experiment/</guid>
      <description>很早就想为COS写一篇关于计算机试验的东西。可是始终也未敢动笔，觉得自己才疏学浅，生怕写得偏颇。但是另外一方面，又觉得这是COS上一块空白的</description>
    </item>
    
    <item>
      <title>从另一个角度看统计学留学申请</title>
      <link>https://cosx.org/2011/11/apply-for-study-abroad-from-another-perspective/</link>
      <pubDate>Thu, 03 Nov 2011 19:13:13 +0000</pubDate>
      
      <guid>https://cosx.org/2011/11/apply-for-study-abroad-from-another-perspective/</guid>
      <description>本文转载自施涛的博客，稍有修改，原文链接请点击此处。^[编者注：这个链接现在已经失效，抱歉。]本文主要介绍了出国留学中申请统计博士会遇到的一</description>
    </item>
    
    <item>
      <title>第四届中国R语言会议</title>
      <link>https://cosx.org/chinar/chinar-2011/</link>
      <pubDate>Tue, 27 Sep 2011 11:12:08 +0000</pubDate>
      
      <guid>https://cosx.org/chinar/chinar-2011/</guid>
      <description>R是一门用于统计计算和作图的语言，其官方机构每年都会举办useR!会议，但会议地点主要局限在欧美地区。自2008年以来，在谢益辉的倡导下，中</description>
    </item>
    
    <item>
      <title>中国统计之网</title>
      <link>https://cosx.org/2011/09/coauthorship-network-of-china-stat/</link>
      <pubDate>Mon, 26 Sep 2011 21:04:14 +0000</pubDate>
      
      <guid>https://cosx.org/2011/09/coauthorship-network-of-china-stat/</guid>
      <description>此拙作成文于几个月之前，与逸波兄的大作《社会网络分析：探索人人网好友推荐系统》属同期同类之作。由于当时担心会引起是非或争议，所以犹豫再三而没</description>
    </item>
    
    <item>
      <title>分类器评价、混淆矩阵与ROC曲线</title>
      <link>https://cosx.org/2011/09/evaluation-of-classifiers/</link>
      <pubDate>Fri, 16 Sep 2011 09:26:46 +0000</pubDate>
      
      <guid>https://cosx.org/2011/09/evaluation-of-classifiers/</guid>
      <description>本文转载自阿稳的博客，原文链接请点击此处。本文主要介绍了数据挖掘中分类器的评价指标，以及混淆矩阵、ROC曲线等内容。 作者简介：阿稳，豆瓣，算</description>
    </item>
    
    <item>
      <title>第四届中国R语言会议(上海会场)通知</title>
      <link>https://cosx.org/2011/09/chinar-2011-sh/</link>
      <pubDate>Wed, 14 Sep 2011 10:43:31 +0000</pubDate>
      
      <guid>https://cosx.org/2011/09/chinar-2011-sh/</guid>
      <description>R是一门用于数据分析和图形展示的语言、平台和环境，其官方机构每年都会举办useR!会议，各个国家及地区也定期有R用户的交流活动。在国内，自 2</description>
    </item>
    
    <item>
      <title>中秋献礼——Layer图形设备</title>
      <link>https://cosx.org/2011/09/layer-graphics-device/</link>
      <pubDate>Mon, 12 Sep 2011 22:23:11 +0000</pubDate>
      
      <guid>https://cosx.org/2011/09/layer-graphics-device/</guid>
      <description>你在用R画图的时候，是否会遇到以下的麻烦： 加图例或文字时总是对不准坐标，要花很多精力调整元素的位置； 某个细节出错，整幅图得重新绘制； 想要更酷</description>
    </item>
    
    <item>
      <title>旅行的意义：一个人大本科女生大学四年的故事</title>
      <link>https://cosx.org/2011/08/meaning-of-traveling/</link>
      <pubDate>Fri, 12 Aug 2011 14:38:11 +0000</pubDate>
      
      <guid>https://cosx.org/2011/08/meaning-of-traveling/</guid>
      <description>很抱歉7月在尼泊尔收到COS约稿的邮件，就答应下来一定完成任务。月底从西藏回来，又开始每天编程完成暑期作业，直到现在才有时间坐下来，静静写下</description>
    </item>
    
    <item>
      <title>用R来给微博添把火</title>
      <link>https://cosx.org/2011/08/fire-weibo-with-r/</link>
      <pubDate>Fri, 05 Aug 2011 00:31:26 +0000</pubDate>
      
      <guid>https://cosx.org/2011/08/fire-weibo-with-r/</guid>
      <description>近两年来微博这东西越来越火了，已经逐渐成了最主流的网络舆论平台。对于最近的网络热点问题大家一定是深有体会，作为统计门人，肯定很多人技痒不已，</description>
    </item>
    
    <item>
      <title>真理在缩水，还是上帝在掷骰子？</title>
      <link>https://cosx.org/2011/07/we-never-know-randomness/</link>
      <pubDate>Wed, 13 Jul 2011 07:06:00 +0000</pubDate>
      
      <guid>https://cosx.org/2011/07/we-never-know-randomness/</guid>
      <description>最近在Google Reader中看见科学松鼠会有两篇文章被频繁分享，名为《真理在缩水——现代科学研究方法并不尽善尽美？》（上）与（下），下文</description>
    </item>
    
    <item>
      <title>精品课程系列：应用随机过程</title>
      <link>https://cosx.org/2011/06/quality-courses-series-applied-stochastic-process/</link>
      <pubDate>Thu, 30 Jun 2011 16:46:09 +0000</pubDate>
      
      <guid>https://cosx.org/2011/06/quality-courses-series-applied-stochastic-process/</guid>
      <description>&lt;h1 id=&#34;一课程简介&#34;&gt;一、课程简介&lt;/h1&gt;
&lt;p&gt;主讲教师：&lt;a href=&#34;http://www.jingjiluntan.com/a/jiaoxuetuandui/jiaoyanshi/2011/0219/121.html&#34;&gt;张波&lt;/a&gt;、&lt;a href=&#34;http://www.jingjiluntan.com/a/jiaoxuetuandui/jiaoyanshi/2011/0219/125.html&#34;&gt;张景肖&lt;/a&gt;、&lt;a href=&#34;http://www.jingjiluntan.com/a/jiaoxuetuandui/jiaoyanshi/2011/0215/68.html?1297946806&#34;&gt;肖宇谷&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;指定教材：张波、张景肖《应用随机过程》，清华大学出版社&lt;/p&gt;
&lt;p&gt;授课对象：中国人民大学统计学、精算专业大三学生&lt;/p&gt;
&lt;p&gt;学分学时：3学分，共48学时&lt;/p&gt;
&lt;p&gt;考核方式：闭卷考试&lt;/p&gt;
&lt;p&gt;目的要求：针对专业特点和专业要求，力求以概率论的观点来讲述随机过程的理论，逐步培养学生利用随机过程的理论和技能解决应用概率问题。培养学生运用随机过程的方法分析问题、解决问题的能力。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>在R中对保险数据建立广义线性模型</title>
      <link>https://cosx.org/2011/06/glm-for-insurance-data-in-r/</link>
      <pubDate>Wed, 01 Jun 2011 23:57:49 +0000</pubDate>
      
      <guid>https://cosx.org/2011/06/glm-for-insurance-data-in-r/</guid>
      <description>作者： 吕定海，南开大学精算专业2010级硕士生 摘要： 本文首先简单分析了传统定价方法的局限性，之后介绍了广义线性模型的理论结构。 最后运用R软件</description>
    </item>
    
    <item>
      <title>第四届中国R语言会议（北京会场）纪要</title>
      <link>https://cosx.org/2011/05/4th-china-r-beijing-summary/</link>
      <pubDate>Tue, 31 May 2011 00:17:52 +0000</pubDate>
      
      <guid>https://cosx.org/2011/05/4th-china-r-beijing-summary/</guid>
      <description>&lt;p&gt;&lt;img src=&#34;https://uploads.cosx.org/2011/05/4th-China-R-BJ.jpg&#34; alt=&#34;第四届中国R语言会议（北京会场）合影&#34;&gt;&lt;/p&gt;
&lt;p&gt;第四届中国R语言会议（北京会场）合影（右键另存为看大图）&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://uploads.cosx.org/2010/06/China-R-Logo.png&#34; alt=&#34;中国R语言会议标识&#34;&gt; 第四届中国R语言会议（北京会场）于2011年5月28日~29日在中国人民大学明德法学楼0201成功召开。会议由中国人民大学应用统计科学研究中心与中国人民大学统计学院主办、统计之都(&lt;a href=&#34;https://cos.name&#34;&gt;cos.name&lt;/a&gt;)协办。在两天的会议时间里，参会者齐聚一堂，就R语言在生物、金融、网络、商业等诸多方面的应用进行了深入的探讨。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>开发R程序包之忍者篇</title>
      <link>https://cosx.org/2011/05/write-r-packages-like-a-ninja/</link>
      <pubDate>Sun, 29 May 2011 13:04:26 +0000</pubDate>
      
      <guid>https://cosx.org/2011/05/write-r-packages-like-a-ninja/</guid>
      <description>&lt;p&gt;作为一个伪程序员，我在做与代码有关的事情时，总是抱以一个念头，即“简化手工劳动到极致”。在这篇文章里，我介绍一下目前我认为最简化的开发R包的流程。本站作者胡荣兴曾经在09年写过一篇开发R包的文章“&lt;a href=&#34;https://cosx.org/2009/02/create-r-packages-under-windows/&#34; title=&#34;在Windows中创建R的包的步骤&#34;&gt;在Windows中创建R的包的步骤&lt;/a&gt;”，其中小部分内容随着R本身的更新已经过时，该文面向Windows，而且介绍的都是一些正统方法，这里我介绍一条“忍者”之路，希望对大家开发R程序包有所帮助。这篇文章本来是去年年底打算写的，时至今日&lt;a href=&#34;https://cosx.org/2011/04/chinar-2011/&#34; title=&#34;第四届中国R语言会议通知&#34;&gt;第四届中国R语言会议&lt;/a&gt;正在人民大学轰轰隆隆召开，索性把它写完，算是一份不到场的报告吧。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>首届全国大学生数据挖掘邀请赛圆满结束</title>
      <link>https://cosx.org/2011/05/summary-of-the-1st-data-mining-competetion/</link>
      <pubDate>Mon, 16 May 2011 16:28:07 +0000</pubDate>
      
      <guid>https://cosx.org/2011/05/summary-of-the-1st-data-mining-competetion/</guid>
      <description>2011年5月8日，来自浙江大学、厦门大学、复旦大学、浙江大学、北京大学、东南大学、中山大学、北京航空航天大学大学等多所高校的获奖队伍聚集于</description>
    </item>
    
    <item>
      <title>一封统计之都读者来信及回复</title>
      <link>https://cosx.org/2011/05/a-letter-to-yihui-xie-and-cos/</link>
      <pubDate>Thu, 12 May 2011 13:52:47 +0000</pubDate>
      
      <guid>https://cosx.org/2011/05/a-letter-to-yihui-xie-and-cos/</guid>
      <description>&lt;p&gt;厦门大学的毛家栋同学几周前给我写了一封邮件，我看了之后觉得有拿出来公开回复的价值，一方面可以省去重复回复类似邮件的劳动，另一方面我也想借此机会说明统计之都（COS）网站的一些理念。本文不属于技术文章，但若能从此打开一个高手与新手互动的局面，那就善莫大焉了（当然我不是什么高手，只是跳梁者先出来献丑而已）。在征得同意之后，我将他的邮件以及其中的问题整理并回答形成本文，原邮件中的文字以引用格式出现（方框缩进），其它文字为我所写。首先声明这只是一家之言，读者大可冷眼旁观。另外，好为人师者往往惹人厌，我也得声明本文无此意。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>第四届中国R语言会议通知</title>
      <link>https://cosx.org/2011/04/chinar-2011/</link>
      <pubDate>Thu, 28 Apr 2011 22:50:38 +0000</pubDate>
      
      <guid>https://cosx.org/2011/04/chinar-2011/</guid>
      <description>&lt;p&gt;R是一门用于数据分析和图形展示的语言、平台和环境，其官方机构每年都会举办useR!会议，各个国家及地区也定期有R用户的交流活动。在国内，自2008年以来，中国已经在北京和上海成功举办了三届R语言会议，促进了R语言在中国的推广和发展。为了进一步加强各领域R语言使用者之间的交流和互动，我们准备在2011年5月28日（北京会场）和2011年11月（上海会场，具体时间待定）举办第四届中国R语言会议。欢迎各地各路朋友踊跃参加及报名演讲。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>社会网络分析：探索人人网好友推荐系统</title>
      <link>https://cosx.org/2011/04/exploring-renren-social-network/</link>
      <pubDate>Thu, 28 Apr 2011 01:30:28 +0000</pubDate>
      
      <guid>https://cosx.org/2011/04/exploring-renren-social-network/</guid>
      <description>&lt;p&gt;最近四五年间，互联网行业似乎总是绕不开社交网络这个概念。无论是旗舰级别的传说中的facebook、LinkedIn，还是如雨后春笋般冒出来的各种团购和微博网站，全都或多或少地体现着SNS（社会网络服务）的特色。这些五花八门的产品，在丰富我们业余生活的同时，也为研究者提供了大量珍贵的数据。以往只能依靠有限的调研或模拟才能进行的社会网络分析（SNA），现在具备了大规模开展和实施的条件。国内著名而典型的SNS网站“人人网”，最近依靠上市新闻重新赢得了大家的关注。本文基于人人网的好友关系数据，应用统计分析软件R做了社会网络分析的一些尝试。&lt;/p&gt;
&lt;p&gt;注：网络边界的确定，是社会网络分析的关键而困难的步骤。由于数据获取的限制，本文分析的对象限制于作者的好友。也就是说，本文分析的网络是作者自己的好友圈子，读者看了这些分析结果或许会觉得索然无味，感兴趣的同学可以分析一下自己的社交网络，看看是否会有类似的结果。&lt;/p&gt;
&lt;p&gt;2013-03-23 做了相应的R包，分别用于&lt;a href=&#34;https://github.com/yibochen/weiBor&#34; title=&#34;github.com/yibochen/weiBor&#34;&gt;新浪微博&lt;/a&gt;和&lt;a href=&#34;https://github.com/yibochen/Renren&#34; title=&#34;github.com/yibochen/Renren&#34;&gt;校内网&lt;/a&gt;，本文的脚本不再做更新。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>分组最小角回归算法（group LARS）</title>
      <link>https://cosx.org/2011/04/group-least-angle-regression-algorithm/</link>
      <pubDate>Wed, 27 Apr 2011 18:31:10 +0000</pubDate>
      
      <guid>https://cosx.org/2011/04/group-least-angle-regression-algorithm/</guid>
      <description>&lt;p&gt;继续前两篇博文中对于最小角回归（LARS)和lasso的介绍。在这篇文章中，我打算介绍一下分组最小角回归算法（Group LARS）。本文的主要观点均来自Ming Yuan和Yi Lin二人2006合作发表在JRSSB上的论文Model selection and estimation in regression with grouped variables.&lt;/p&gt;
&lt;p&gt;首先，我想说明一下，为何要引入分组变量（grouped variable)的概念。举一个简单的例子，在可加的多项式模型中，每一项都是多项式。这个多项式有可能可以通过最初的变量的线性组合来表达。在进行这种类型的回归中，挑选重要的变量其实质是挑选重要的因子（factor），而因子则是最初的那些变量的线性组合。分组变量的回归问题，实际上就是我们一般所说的回归问题的推广。如果我们把每一个单独的变量都看成一个因子，那么这种情况下的回归就是一般意义下的回归。下面用公式更加直白的说明这个问题：&lt;/p&gt;
&lt;p&gt;&lt;code&gt;$$ Y=\sum_{j=1}^JX_j\beta_j+e $$&lt;/code&gt;&lt;/p&gt;
&lt;p&gt;其中$Y$是个$n$维向量，$e~N_n(0,\sigma^2I)$.$X_j$是$n\times p_j$矩阵，代表的是第j个因子（factor，是变量variables的线性组合)。$\beta_j$是$p_j$维的系数向量。依然假定$Y$是中心化的，$X_j$是中心化并且正交化的（$X_j’X_j=I$）。这个就是分组变量的回归模型。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>修正的LARS算法和lasso</title>
      <link>https://cosx.org/2011/04/modified-lars-and-lasso/</link>
      <pubDate>Mon, 25 Apr 2011 17:29:36 +0000</pubDate>
      
      <guid>https://cosx.org/2011/04/modified-lars-and-lasso/</guid>
      <description>&lt;p&gt;在小弟的上一篇文章中，简单的介绍了LARS算法是怎么回事。主要参考的是Efron等人的经典文章least angle regression。在这篇文章中，还提到了一些有趣的看法，比如如何用LARS算法来求解lasso estimate和forward stagewise estimate。这种看法将我对于模型选择的认识提升了一个层次。在这个更高的层次下看回归的变量选择过程，似乎能有一些更加创新的想法。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>LARS算法简介</title>
      <link>https://cosx.org/2011/04/an-introduction-to-lars/</link>
      <pubDate>Sat, 23 Apr 2011 14:53:19 +0000</pubDate>
      
      <guid>https://cosx.org/2011/04/an-introduction-to-lars/</guid>
      <description>&lt;p&gt;最近临时抱佛脚，为了讨论班报告Group Regression方面的文章，研究了Efron等人于2004年发表在Annals of Statistics里一篇被讨论的文章LEAST ANGLE REGRESSION。这篇文章很长，有45页。加上后面一些模型方面大牛的讨论的文章，一共有93页。对于这种超长论文，我向来敬畏。后来因为要报告的文章里很多东西都看不懂，才回过头来研读这篇基石性的文章。&lt;/p&gt;
&lt;p&gt;所谓大牛，就是他能提出一种别人从来没有提出过的想法。大牛们看待问题的角度和常人不同。比如在回归中常用的逐步回归法。我们小辈们只知道向前回归，向后回归还有二者结合的一些最基本的想法。比如向前回归，就是先选择和响应最相关的变量，进行最小二乘回归。然后在这个模型的基础上，再选择和此时残差相关度最高的（也就是相关度次高）的变量，加入模型重新最小二乘回归。之后再如法继续，直到在某些度量模型的最优性准则之下达到最优，从而选取一个最优的变量子集进行回归分析，得到的模型是相比原模型更加简便，更易于解释的。这种方法，牺牲了模型准确性（预测有偏），但是提高了模型的精确度（方差变小）。大多数本科生对逐步回归的理解也就如此了。Efron看待这个问题时，比起常人更高了一个层次。他首先指出，逐步向前回归，有可能在第二步挑选变量的时候去掉和X1相关的，但是也很重要的解释变量。这是因为它每次找到变量，前进的步伐都太大了，侵略性太强。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>正交试验和多因素方差分析</title>
      <link>https://cosx.org/2011/04/orthogonal-experiments-and-multiple-factor-anova/</link>
      <pubDate>Sat, 02 Apr 2011 10:56:31 +0000</pubDate>
      
      <guid>https://cosx.org/2011/04/orthogonal-experiments-and-multiple-factor-anova/</guid>
      <description>&lt;p&gt;英国学者R. A. Fisher等在二十世纪前期开创了近代数理统计这门大学科，开始的标志是学生氏t分布的引入。在统计的发展过程中，Fisher又提出：“在进行一批试验之前，考虑到在取得这批试验的结果后，将要进行统计分析，因此，在试验前怎样合理地安排这批试验使得试验后的结果和统计分析取得更好的效果，是值得思考的。”在这种提法的推动下，在数理统计中形成了一种一分为二和合二而一的试验设计与方差分析这两个庞大的子学科。&lt;/p&gt;
&lt;p&gt;方差分析主要是为检验因子在试验中作用的显著性而引进的一种方法，最早是由R. A. Fisher于1920年前后对农业试验作统计分析时引进。如果能对观察值的方差进行分解且分解出来的每一部分都可作出明确的统计解释，那么这个分解就是方差分析[1]。单因素方差分析在数学方法及其应用上基本没什么问题，所以这里主要讨论多因素方差分析的一些问题。&lt;/p&gt;
&lt;p&gt;方差分析的一个重要假定是各个试验点同方差。这个假定过于强硬，也未必符合实际。例如在农业试验中，高产田产量的方差往往较低产田产量的方差大。当然，在某些条件下可以近似地认为各试验点的方差相等。&lt;/p&gt;
&lt;p&gt;多因素方差分析的一个重要问题是在对因素间交互作用的处理上。可以应用多元方差分析的试验数据要符合严格的要求，它们一般来源于两类试验：完全组合试验和正交试验（正交试验的两个重要特点是均衡分散和整齐可比）。&lt;/p&gt;
&lt;p&gt;交互作用是完全组合意义上的一个概念[2]。做完全组合试验可以得到各因素间的交互作用，若全体交互作用为零则主效应完全可加。然而，按照普遍联系的法则：主效应之间通常不是完全可加的。完全组合试验时，即使验证出了交互作用为零也没有什么太大的实际意义，何况当试验点作些平移，交互作用便随着改变。也正是由于交互作用是完全组合意义上的一个概念，若在某些试验点上没有观测值，那么有些交互效应或主效应就计算不出来了。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>通知：首届全国大学生数据挖掘邀请赛</title>
      <link>https://cosx.org/2011/03/1st-data-mining-competetion-for-college-students/</link>
      <pubDate>Sun, 20 Mar 2011 12:46:27 +0000</pubDate>
      
      <guid>https://cosx.org/2011/03/1st-data-mining-competetion-for-college-students/</guid>
      <description>&lt;p&gt;&lt;img src=&#34;https://uploads.cosx.org/2011/03/DataMiningCompetetion.png&#34; alt=&#34;数据挖掘竞赛&#34;&gt;&lt;/p&gt;
&lt;h1 id=&#34;竞赛背景&#34;&gt;竞赛背景&lt;/h1&gt;
&lt;p&gt;&lt;a href=&#34;http://www.yuanhuaibin.com/?p=727&#34;&gt;Amazon&lt;/a&gt;的数百万图书，&lt;a href=&#34;http://en.wikipedia.org/wiki/Netflix_Prize&#34;&gt;Netflix&lt;/a&gt;的10万部电影，淘宝的8亿件在线商品，以及数以亿万计用户的资料和行为记录……互联网最近十年的迅猛发展伴随着海量数据的积累。然而，在线用户常常面对过多的选择而显得无所适从。心理学研究证实，这类情境下的用户有时会做出放弃交易的决定，从而造成大量潜在的用户流失。针对这一现象，统计技术的发展能够为在线服务商提供更有效的推荐算法，在帮助用户走出&lt;a href=&#34;http://www.columbia.edu/%7Ess957/whenchoice.html&#34;&gt;信息过载&lt;/a&gt;困境、改善用户体验的同时，还能够挖掘商品&lt;a href=&#34;http://en.wikipedia.org/wiki/Long_Tail&#34;&gt;长尾&lt;/a&gt;、提升企业价值。在今天，用户不再局限于通过搜索引擎来寻找感兴趣的信息，推荐系统无所不在地为我们发现自己的潜在需求。&lt;/p&gt;
&lt;p&gt;推荐系统在社交网络中的应用同样受到业界重视。本届统计建模竞赛由上海花千树信息科技有限公司赞助，由&lt;a href=&#34;http://stat.ustc.edu.cn/&#34;&gt;中国科学技术大学管理学院&lt;/a&gt;、&lt;a href=&#34;http://stat.ruc.edu.cn/cn/&#34;&gt;中国人民大学统计学院&lt;/a&gt;和&lt;a href=&#34;../&#34;&gt;统计之都&lt;/a&gt;（COS）网站联合举办，目标是为某个以婚恋为目的的大型交友网站提供会员推荐的智能算法，改善会员推荐的精度，增加网站黏度。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>统计词话（一）</title>
      <link>https://cosx.org/2011/03/statistics-in-chinese-song-poem-1/</link>
      <pubDate>Fri, 04 Mar 2011 22:05:29 +0000</pubDate>
      
      <guid>https://cosx.org/2011/03/statistics-in-chinese-song-poem-1/</guid>
      <description>&lt;p&gt;&lt;img src=&#34;https://uploads.cosx.org/2011/03/image.jpg&#34; alt=&#34;统计词话配图&#34;&gt;&lt;/p&gt;
&lt;p&gt;不知道这个标题是否有足够的吸引力把你骗进来。如果你认为统计是一个到处充满了期望方差分布回归随机多元和概率的东西，那么……你可能是对的，不过本文想要告诉你的是，你其实还可以用统计来做一些你关心的事情，比如现在，我们既谈风月，也谈统计。:D&lt;/p&gt;
&lt;p&gt;相信大家对宋词都不会陌生。无论你是否喜欢，总还是可以吟诵出几句名篇来的。如果你经常找一些宋词来读的话，你可能会发现一个有趣的现象，那就是有些词语或意象似乎特别受到词人的青睐，像是东风，明月，芳草等等。当然，对于这个现象，不同的人有不同的看法。一种观点是这些意象往往具有特定的含义，或是抒发离恨，或是寄托相思，总之是把人们的情感倾注在了这些最常见的事物之中，让人触景生情；而另一种看法则觉得词的雕琢痕迹太明显，内容也相对单调，使得用词容易造成重复。本文当然不是来探讨这些话题的，而是想用统计的方法来给大家展示一下究竟有哪些话语被词人一次一次地书写，被读者一遍一遍地传唱。&lt;/p&gt;
&lt;p&gt;从统计的角度来看，上面这个问题其实非常简单，无非就是计算一下宋词之中词语出现的频率，然后做一个排序就可以了。但这个问题对于中文来说恰恰是最难攻克的一个环节。在英语中，词语与词语之间有着天然的分隔符，但对于中文，只有句子之间有标点符号，句子之内只能通过词语的含义来进行辨别。这也就是为什么在文本挖掘领域中，中文的分词依然是一个富有挑战性的任务的原因。&lt;/p&gt;
&lt;p&gt;不过好在宋词本身的形式帮了我们很大的忙。首先，宋词的句子一般都非常短，这相当于已经有了一次粗略的词语划分；其次，宋词的用词也很简洁，一个词一般是两个字，偶尔可能有三个字、四个字，超过四个字的词就非常罕见了。于是我们就有一种比较“野蛮”的做法，来对宋词中的用词进行划分。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>用R也能做精算——actuar包学习笔记（三）</title>
      <link>https://cosx.org/2011/02/an-tutorial-of-package-actuar/</link>
      <pubDate>Sun, 13 Feb 2011 16:55:18 +0000</pubDate>
      
      <guid>https://cosx.org/2011/02/an-tutorial-of-package-actuar/</guid>
      <description>时隔半年，终于隆重推出了最终版~ 本次包括以下重要更新: 增加了（五） 保单组合的模拟 和 （六） 信度理论 的有关内容。 在（四）风险理论一节增加了VaR</description>
    </item>
    
    <item>
      <title>从线性模型到广义线性模型(2)——参数估计、假设检验</title>
      <link>https://cosx.org/2011/01/how-does-glm-generalize-lm-fit-and-test/</link>
      <pubDate>Mon, 31 Jan 2011 19:46:15 +0000</pubDate>
      
      <guid>https://cosx.org/2011/01/how-does-glm-generalize-lm-fit-and-test/</guid>
      <description>1.GLM参数估计——极大似然法 为了理论上简化，这里把GLM的分布限定在指数分布族。事实上，实际应用中使用最多的分布就是指数分布族，所以这样</description>
    </item>
    
    <item>
      <title>一道抛硬币问题的不同解法和比较</title>
      <link>https://cosx.org/2011/01/different-ways-to-solve-a-tossing-problem/</link>
      <pubDate>Sat, 22 Jan 2011 00:39:45 +0000</pubDate>
      
      <guid>https://cosx.org/2011/01/different-ways-to-solve-a-tossing-problem/</guid>
      <description>简介 本文针对求指定花样在抛硬币时首次出现时间期望的问题，分别从统计模拟、马氏过程、延迟更新过程、鞅、随机图等不同角度出发对该类问题进行了模拟</description>
    </item>
    
    <item>
      <title>从线性模型到广义线性模型（1）——模型假设篇</title>
      <link>https://cosx.org/2011/01/how-does-glm-generalize-lm-assumption/</link>
      <pubDate>Tue, 18 Jan 2011 00:39:53 +0000</pubDate>
      
      <guid>https://cosx.org/2011/01/how-does-glm-generalize-lm-assumption/</guid>
      <description>&lt;p&gt;在统计学里，对特定变量之间的关系进行建模、分析最常用的手段之一就是回归分析。回归分析的输出变量通常记做&lt;code&gt;\( Y\)&lt;/code&gt;，也称为因变量(dependent)、响应变量(response)、被解释变量(explained)、被预测变量(predicted)、从属变量(regressand)；输入变量通常记做&lt;code&gt;\( x_1\)&lt;/code&gt;,…,&lt;code&gt;\(x_p\)&lt;/code&gt;，也称为自变量(independent)、控制变量(control&amp;amp;controlled)、解释变量(explanatory)、预测变量(predictor)、回归量(regressor)。本文根据作者自己的一些学习心得和理解，简单且不严格地介绍在模型假设方面普通线性模型和广义线性模型的区别和联系/推广(generalization)。广义线性模型的拟合检验、推断、诊断等方面的方法和手段依赖于模型所采用的分布类型，难以一概而论，将在作者后续的学习心得文章里具体介绍。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>统计学论文的发表流程、及统计学家的晋升和合作（内幕）</title>
      <link>https://cosx.org/2011/01/publishing-promotion-and-collaboration-in-statistics/</link>
      <pubDate>Sat, 15 Jan 2011 00:32:45 +0000</pubDate>
      
      <guid>https://cosx.org/2011/01/publishing-promotion-and-collaboration-in-statistics/</guid>
      <description>&lt;p&gt;&lt;img src=&#34;https://uploads.cosx.org/2011/01/shapeimage_3.png&#34; alt=&#34;统计学论文的发表流程、及统计学家的晋升和合作（内幕）&#34;&gt;&lt;/p&gt;
&lt;p&gt;这标题很吸引人，所有统计学相关领域的人可能都关心这几件事，但敬请降低对本文的期望。我不能再多说，否则要剧透了（看过的朋友也请不要剧透）。这段35分钟的视频讲述了统计学论文是如何发表的、统计学家在机构内如何得到晋升（影响晋升的指标），以及统计学家和生物学家如何交流和合作的种种“内幕”。新年伊始，我们也不想用大篇技术文章来“折磨”统计之都的读者们，那么，开始欣赏&lt;a href=&#34;https://www.youtube.com/watch?v=Ba5eNi0KzHk&#34;&gt;这部小电影&lt;/a&gt;吧：&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>R软件在精算教学中的应用案例</title>
      <link>https://cosx.org/2011/01/the-application-of-r-in-actual-science-with-case-study/</link>
      <pubDate>Wed, 12 Jan 2011 23:22:04 +0000</pubDate>
      
      <guid>https://cosx.org/2011/01/the-application-of-r-in-actual-science-with-case-study/</guid>
      <description>&lt;p&gt;&lt;strong&gt;本文作者为张缔香，文章由COS编辑部审核发表，略有修改。&lt;a href=&#34;https://uploads.cosx.org/2011/01/R%E8%BD%AF%E4%BB%B6%E5%9C%A8%E7%B2%BE%E7%AE%97%E6%95%99%E5%AD%A6%E4%B8%AD%E7%9A%84%E5%BA%94%E7%94%A8%E6%A1%88%E4%BE%8B.pdf&#34;&gt;点击此处下载/阅读本文PDF版本&lt;/a&gt;&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;R软件做为一种统计软件，因其开源、免费、灵活的诸多优点得到越来越多的关注，无论网络上还是实体书店，关于R的教程铺天盖地，不甚枚举。因此，本文的目标不是做R的教程，而是将R和保险、精算教学结合起来，通过几个案例来说明R在保险、精算专业日常的教学和研究中可用之处。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>Sweave后传：统计报告中的大规模计算与缓存</title>
      <link>https://cosx.org/2011/01/cache-objects-in-sweave-stat-computation-and-graphics/</link>
      <pubDate>Mon, 03 Jan 2011 11:23:59 +0000</pubDate>
      
      <guid>https://cosx.org/2011/01/cache-objects-in-sweave-stat-computation-and-graphics/</guid>
      <description>&lt;p&gt;学无止境。我曾以为我明白了如何在Sweave中使用缓存加快计算和图形，但后来发现我并没有真的理解，直到读了另外一些手册才明白，因此本文作为前文“&lt;a href=&#34;https://cosx.org/2010/11/reproducible-research-in-statistics/&#34;&gt;Sweave：打造一个可重复的统计研究流程&lt;/a&gt;”之续集，向大家介绍一下如何在Sweave的计算和图形中使用缓存，以节省不必要的重复计算和作图，让那些涉及到密集型计算的用户不再对Sweave感到难堪。&lt;/p&gt;
&lt;p&gt;如果你还没读前文，建议先从那里开始读，了解Sweave与“可重复的统计研究”的意义。简言之，Sweave是一种从代码（R代码和LaTeX）一步生成报告的工具，我们可以把整个统计分析流程融入这个工具，让我们的报告具有可重复性。然而，就普通的Sweave而言，这样做的一个明显问题就是，所有计算和作图都被融入一个文档之后，每次运行这个文档都要重复所有的计算和作图，这在很多情况下纯粹是浪费时间；比如，我只想对新添加的部分内容运行计算，而文档中的旧内容希望保持不变。这都是很合理的需求，我们需要的实际上就是一种缓存机制，将不想重复计算的对象缓存起来，需要它的时候再从缓存库中直接调出来用。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>Think SAS(二)</title>
      <link>https://cosx.org/2010/12/think-sas-2/</link>
      <pubDate>Thu, 30 Dec 2010 15:57:41 +0000</pubDate>
      
      <guid>https://cosx.org/2010/12/think-sas-2/</guid>
      <description>有个老本家，著有《白话文学史》（上卷）、《中国哲学史大纲》（上卷），——你知道他叫胡适。然后有朋友问这个“Think SAS”系列有没有下文，</description>
    </item>
    
    <item>
      <title>第三届中国R语言会议（上海会场）纪要</title>
      <link>https://cosx.org/2010/11/3rd-china-r-shanghai-summary/</link>
      <pubDate>Mon, 22 Nov 2010 20:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/2010/11/3rd-china-r-shanghai-summary/</guid>
      <description>本文撰稿：第三届中国R语言会议（上海会场）主席张翔。 第三届中国R语言会议上海会场合影（右键另存为看大图） 第三届中国R语言会议（上海会场）于2</description>
    </item>
    
    <item>
      <title>假设检验初步</title>
      <link>https://cosx.org/2010/11/hypotheses-testing/</link>
      <pubDate>Sun, 14 Nov 2010 16:39:46 +0000</pubDate>
      
      <guid>https://cosx.org/2010/11/hypotheses-testing/</guid>
      <description>准备再尝试一下，用大白话叙述一遍统计推断中最基础的东西（假设检验、P值、……），算是把这段时间的阅读和思考做个梳理（东西不难，思考侧重在如何</description>
    </item>
    
    <item>
      <title>Sweave：打造一个可重复的统计研究流程</title>
      <link>https://cosx.org/2010/11/reproducible-research-in-statistics/</link>
      <pubDate>Fri, 05 Nov 2010 22:37:03 +0000</pubDate>
      
      <guid>https://cosx.org/2010/11/reproducible-research-in-statistics/</guid>
      <description>警告：本文提到的工具在更新中，请暂时不要按本文的配置去做，静候LyX 2.0.3的发布。 我们都痛恨统计造假。我们都对重复性的工作感到厌倦。如果</description>
    </item>
    
    <item>
      <title>强大数定律与康托三分集</title>
      <link>https://cosx.org/2010/10/cantor-set-and-slln/</link>
      <pubDate>Wed, 13 Oct 2010 12:50:48 +0000</pubDate>
      
      <guid>https://cosx.org/2010/10/cantor-set-and-slln/</guid>
      <description>首先从博雷尔正轨数定律(Borel’s Normal Number Theorem)说起。众所周知，(0,1]区间上的每一个实数\(\omega\)都与一列唯一的无穷</description>
    </item>
    
    <item>
      <title>LDA主题模型简介</title>
      <link>https://cosx.org/2010/10/lda-topic-model/</link>
      <pubDate>Fri, 08 Oct 2010 17:55:53 +0000</pubDate>
      
      <guid>https://cosx.org/2010/10/lda-topic-model/</guid>
      <description>上个学期到现在陆陆续续研究了一下主题模型（topic model）这个东东。何谓“主题”呢？望文生义就知道是什么意思了，就是诸如一篇文章、一段</description>
    </item>
    
    <item>
      <title>用R也能做精算——actuar包学习笔记（二）</title>
      <link>https://cosx.org/2010/09/a-tutorial-on-package-actuar-2/</link>
      <pubDate>Sat, 18 Sep 2010 10:57:06 +0000</pubDate>
      
      <guid>https://cosx.org/2010/09/a-tutorial-on-package-actuar-2/</guid>
      <description>本次发布的是actuar包学习笔记的第二部分。 时隔第一篇文章的发布已经一年之久，期间断断续续写了一些，也终于能拿得出一小部分成果。actua</description>
    </item>
    
    <item>
      <title>北京数据管理与生物统计论坛（BBF）第三次聚会见闻录</title>
      <link>https://cosx.org/2010/09/3rd-bbf/</link>
      <pubDate>Sun, 05 Sep 2010 23:39:39 +0000</pubDate>
      
      <guid>https://cosx.org/2010/09/3rd-bbf/</guid>
      <description>9月4号下午，周六，去北大医学部参加了北京数据管理与生物统计论坛（Beijing Biometrics Forum， BBF）的第三次聚会，这次活动由SAS Chin</description>
    </item>
    
    <item>
      <title>泊松低方差计数数据建模问题</title>
      <link>https://cosx.org/2010/08/poisson-count-data-modeling-problem-of-low-variance/</link>
      <pubDate>Sat, 28 Aug 2010 21:08:34 +0000</pubDate>
      
      <guid>https://cosx.org/2010/08/poisson-count-data-modeling-problem-of-low-variance/</guid>
      <description>本文作者为中国人民大学统计学院饶燕芳同学，由COS编辑部审核发表，略有修改。点击此处下载/阅读本文PDF版本 一、问题的引出 在数据分析和数据建</description>
    </item>
    
    <item>
      <title>第三届中国R语言会议（北京会场）纪要</title>
      <link>https://cosx.org/2010/06/3rd-china-r-beijing-summary/</link>
      <pubDate>Wed, 23 Jun 2010 13:32:26 +0000</pubDate>
      
      <guid>https://cosx.org/2010/06/3rd-china-r-beijing-summary/</guid>
      <description>第三届中国R语言会议北京会场合影（右键另存为看大图） 第三届中国R语言会议（北京会场）于2010年6月14日~15日在中国人民大学明德法学楼0</description>
    </item>
    
    <item>
      <title>从中心极限定理的模拟到正态分布</title>
      <link>https://cosx.org/2010/05/from-clt-simulation-to-normal-distribution/</link>
      <pubDate>Sun, 09 May 2010 12:24:58 +0000</pubDate>
      
      <guid>https://cosx.org/2010/05/from-clt-simulation-to-normal-distribution/</guid>
      <description>昨日翻看朱世武老师的《金融计算与建模》幻灯片（来源，幻灯片“13随机模拟基础”），其中提到了中心极限定理（Central Limit Theorem，下</description>
    </item>
    
    <item>
      <title>Think SAS(一)</title>
      <link>https://cosx.org/2010/04/think-sas-1/</link>
      <pubDate>Sun, 18 Apr 2010 15:57:09 +0000</pubDate>
      
      <guid>https://cosx.org/2010/04/think-sas-1/</guid>
      <description>为什么你应该学SAS？本文不想卷入SAS与R，或者与SPSS、S-Plus、Matlab等统计软件孰优孰劣的争论中去，我是说，作为一个有志于</description>
    </item>
    
    <item>
      <title>我国黄金期货市场的VaR风险度量——基于历史模拟法</title>
      <link>https://cosx.org/2010/04/var-risk-measure-in-gold-futures-market-based-on-historical-simulation-method/</link>
      <pubDate>Wed, 14 Apr 2010 21:38:38 +0000</pubDate>
      
      <guid>https://cosx.org/2010/04/var-risk-measure-in-gold-futures-market-based-on-historical-simulation-method/</guid>
      <description>0.引言 VaR(Value at Risk)是上世纪90年代由JP·Morgan公司在风险矩阵中提出的一种新型风险管理工具，VaR定义简单，计算简便具有很高的实用</description>
    </item>
    
    <item>
      <title>有边界区间上的核密度估计</title>
      <link>https://cosx.org/2010/04/kernel-density-estimation-with-bounded-region/</link>
      <pubDate>Sun, 11 Apr 2010 13:07:51 +0000</pubDate>
      
      <guid>https://cosx.org/2010/04/kernel-density-estimation-with-bounded-region/</guid>
      <description>一、一个例子 核密度估计应该是大家常用的一种非参数密度估计方法，从某种程度上来说它的性质比直方图更好，可以替代直方图来展示数据的密度分布。但是</description>
    </item>
    
    <item>
      <title>蒙特卡洛方法与定积分计算</title>
      <link>https://cosx.org/2010/03/monte-carlo-method-to-compute-integration/</link>
      <pubDate>Mon, 08 Mar 2010 17:21:23 +0000</pubDate>
      
      <guid>https://cosx.org/2010/03/monte-carlo-method-to-compute-integration/</guid>
      <description>本文讲述一下蒙特卡洛模拟方法与定积分计算，首先从一个题目开始：设\(0\leq f(x) \leq 1\)，用蒙特卡洛模拟法求定积分\(J=\int_{0}^</description>
    </item>
    
    <item>
      <title>蒲丰投针问题的推广</title>
      <link>https://cosx.org/2010/01/generalization-to-buffons-needle/</link>
      <pubDate>Thu, 07 Jan 2010 20:40:44 +0000</pubDate>
      
      <guid>https://cosx.org/2010/01/generalization-to-buffons-needle/</guid>
      <description>蒲丰投针问题是一个非常经典的问题，两百多年来，一直受到学者们的广泛关注和研究，并衍生出了很多非常有意思的变种问题。本文利用坐标系变换、几何概</description>
    </item>
    
    <item>
      <title>第一届中国R语言会议</title>
      <link>https://cosx.org/chinar/chinar-2008/</link>
      <pubDate>Mon, 21 Dec 2009 09:01:24 +0000</pubDate>
      
      <guid>https://cosx.org/chinar/chinar-2008/</guid>
      <description>时间：2008年12月13日~14日 地点：中国人民大学 会议通知及纪要： 第一届中国R语言会议将于12月中旬在中国人民大学召开 第一届中国R语言会</description>
    </item>
    
    <item>
      <title>第二届中国R语言会议纪要</title>
      <link>https://cosx.org/2009/12/2nd-chinese-r-conference-summary/</link>
      <pubDate>Sun, 20 Dec 2009 15:53:18 +0000</pubDate>
      
      <guid>https://cosx.org/2009/12/2nd-chinese-r-conference-summary/</guid>
      <description>&lt;p&gt;&lt;img src=&#34;https://uploads.cosx.org/2009/12/2nd-R-Conf-BJ.jpg&#34; alt=&#34;第二届中国R语言会议北京会场合影&#34; title=&#34;第二届中国R语言会议北京会场合影&#34;&gt;&lt;/p&gt;
&lt;p style=&#34;text-align: center;&#34;&gt;第二届中国R语言会议北京会场合影&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://uploads.cosx.org/2009/12/2nd-R-Conf-SH.jpg&#34; alt=&#34;第二届中国R语言会议上海会场演讲者和工作人员合影&#34; title=&#34;第二届中国R语言会议上海会场演讲者和工作人员合影&#34;&gt;&lt;/p&gt;
&lt;p style=&#34;text-align: center;&#34;&gt;第二届中国R语言会议上海会场演讲者和工作人员合影&lt;/p&gt;
&lt;p&gt;2009年12月5~6日以及2009年12月12~13日，第二届中国R语言会议分别在北京和上海两个分会场成功召开。北京会场由中国人民大学应用统计科学研究中心和中国人民大学统计学院主办；上海会场由华东师范大学资源与环境科学学院、金融与统计学院主办，Mango Solutions咨询公司提供赞助。对R语言在中国的推广做出了杰出贡献的吴喜之教授和谢益辉博士远在美国为本次会议发来祝贺；中国R语言的领军人物、华东师范大学的汤银才老师也应邀参加会议并做了专题报告。两个会场的会议就R语言在众多领域中的应用展开了广泛的交流和讨论，为R语言在中国的进一步应用和推广开辟了更宽阔的道路。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>也谈提高R语言的运算效率</title>
      <link>https://cosx.org/2009/12/improve-r-computation-efficiency/</link>
      <pubDate>Mon, 14 Dec 2009 16:38:22 +0000</pubDate>
      
      <guid>https://cosx.org/2009/12/improve-r-computation-efficiency/</guid>
      <description>用过底层语言做计算的人转入R语言的时候一般都会觉得R语言的运算太慢，这是一个常见的对R的误解或者对R的设计的不理解。在二三十年前Chambe</description>
    </item>
    
    <item>
      <title>用R也能做精算—actuar包学习笔记（一）</title>
      <link>https://cosx.org/2009/11/a-tutorial-on-package-actuar-1/</link>
      <pubDate>Fri, 27 Nov 2009 12:24:55 +0000</pubDate>
      
      <guid>https://cosx.org/2009/11/a-tutorial-on-package-actuar-1/</guid>
      <description>&lt;p&gt;本文是对R中精算学专用包actuar使用的一个简单教程。actuar项目开始于2005年，在2006年2月首次提供公开下载，其目的就是将一些常用的精算函数引入R系统。目前，提供的函数主要涉及风险理论，损失分布和信度理论。&lt;/p&gt;
&lt;p&gt;如题所示，本文是我在学习actuar包过程中的学习笔记，主要涉及这个包中一些函数的使用方法和细节，对一些方法的结论也有稍许探讨，因此能简略的地方简略，而讨论的地方可能讲的会比较详细。闲话少提，下面正式开始学习！&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>浅谈Buffon投针问题及其推广</title>
      <link>https://cosx.org/2009/11/a-brief-talk-on-buffon-throwing-needle-problems/</link>
      <pubDate>Fri, 13 Nov 2009 17:04:09 +0000</pubDate>
      
      <guid>https://cosx.org/2009/11/a-brief-talk-on-buffon-throwing-needle-problems/</guid>
      <description>&lt;p&gt;公元1777年，法国科学家D·布丰(D.Buffon 1707～1788)设计了一个巧夺天工的实验：往间距为a的平行线族之间投掷长为L 的针，可以计算出针和平行线相交的概率为：&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://web.archive.org/web/20110613061446/http://taiyun.cos.name/wp-content/uploads/2009/11/pi_2ltopia.png&#34; alt=&#34;&#34;&gt;&lt;/p&gt;
&lt;p&gt;根据此式，可以得到pi的近似估计值，这的确是一个伟大的、奇妙而划时代的实验，可算是蒙特卡罗模拟中的鼻祖和经典了。在大多数教材上，这个概率都是用积分或二重积分计算得来的，比较繁琐，在&lt;a href=&#34;http://www.matrix67.com/blog/archives/2494&#34;&gt;matrix67的博客&lt;/a&gt;中，我欣慰而惊奇地看到了一种非常简便、直观的解法，感慨了一番，也稍微思考了一番。&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;期望值的一个最引人注目的性质就是，E(A+B)=E(A)+E(B)，不管A和B是不是独立的。想象一根长度为L的铁丝，不管它被弯成了什么形状，扔到地上后它与地板上的平行线的交点个数的期望值都是一样的，并且这个值是和L成正比的。这是因为，我们可以把一根弯铁丝看作很多很多小的直线段构成；而每个充分小的直线段与平行线交点个数的期望都是相同的，那么由期望值的线性关系，整个弯铁丝与平行线交点数的期望就是c·L，其中c是某个固定的系数。为了求出这个系数是多少，我们只需要考虑一些特殊的情况。注意到，把一根长度为pi的铁丝弯成一个直径为1的圆，则把它扔到地上之后，它与这组平行线总有两个交点。这就是说，pi的c倍就等于2，即c等于2/pi。自然，一根单位长度的针与平行线的交点个数的期望值就是2/pi；而由于这根针与平行线要么没有交点，要么就只有一个交点，因此这个数值就相当于是针与平行线相交的概率了。——matrix67&lt;/p&gt;
&lt;/blockquote&gt;</description>
    </item>
    
    <item>
      <title>第二届中国R语言会议</title>
      <link>https://cosx.org/chinar/chinar-2009/</link>
      <pubDate>Thu, 29 Oct 2009 05:00:27 +0000</pubDate>
      
      <guid>https://cosx.org/chinar/chinar-2009/</guid>
      <description>继2008年第一届中国R语言会议之后，R语言的使用和发展得到了国内各界的广泛关注。为了进一步在国内推广R语言，加强各领域R语言使用者之间的交</description>
    </item>
    
    <item>
      <title>第三届中国R语言会议</title>
      <link>https://cosx.org/chinar/chinar-2010/</link>
      <pubDate>Mon, 26 Oct 2009 05:11:17 +0000</pubDate>
      
      <guid>https://cosx.org/chinar/chinar-2010/</guid>
      <description>&lt;p&gt;R是一门用于统计计算和作图的语言，其官方机构每年都会举办useR!会议，但会议地点主要局限在欧美地区。自2008年以来，在谢益辉的倡导下，中国已经成功举办了两届自行组织的R语言会议，极大促进了R语言在中国的推广和发展。在前两届会议的成功经验下，为了进一步加强各领域R语言使用者之间的交流，我们准备在2010年6月（北京会场）和2010年11月（上海会场）举办第三届中国R语言会议。目前会议正在筹备之中，请大家踊跃提议（留言或邮箱&lt;a href=&#34;mailto:chinar-2010@cos.name&#34;&gt;chinar-2010@cos.name&lt;/a&gt;），谢谢。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>R会议</title>
      <link>https://cosx.org/chinar/</link>
      <pubDate>Mon, 26 Oct 2009 05:04:42 +0000</pubDate>
      
      <guid>https://cosx.org/chinar/</guid>
      <description>中国R语言会议运行机制 一、组委会宗旨 为使得R语言会议在中国可以稳定持续地举办下去，并在此过程中寻找到较优的举办模式，我们建议会议运行机制主要</description>
    </item>
    
    <item>
      <title>风险评价的VaR方法简介</title>
      <link>https://cosx.org/2009/09/an-introduction-to-var-in-risk-evaluation/</link>
      <pubDate>Tue, 29 Sep 2009 08:00:05 +0000</pubDate>
      
      <guid>https://cosx.org/2009/09/an-introduction-to-var-in-risk-evaluation/</guid>
      <description>风险管理作为商业银行维持其正常经营的重要手段，19世纪初就已在世界范围内得到共识。西方发达国家早已建立起一套成熟的风险管理体系，其运作的依 据</description>
    </item>
    
    <item>
      <title>大规模系统内变量关系的研究以及可视化－1因果分析</title>
      <link>https://cosx.org/2009/09/relationships-among-variables-in-large-scale-systems/</link>
      <pubDate>Sun, 20 Sep 2009 08:19:10 +0000</pubDate>
      
      <guid>https://cosx.org/2009/09/relationships-among-variables-in-large-scale-systems/</guid>
      <description>&lt;h1 id=&#34;引言变量关系分析的广泛意义&#34;&gt;引言——变量关系分析的广泛意义&lt;/h1&gt;
&lt;p&gt;在统计分析中，有这样一类具有普遍意义的问题：在测得了（取样）一个变量系统的数据以后，如何从数据中发现并且验证这些变量之间的关系？了解变量之间的关系，无论是对于知识发掘(knowledge discovery)，还是拟合精度的提高，都是很有意义的．比如任何一类回归分析，便是要分析预测变量和响应变量之间的关系．如果我们能用一些方法做回归前的预分析(pre-analysis before regression)，比如，使用方差分析去分析各个预测因素之间的关系，是非常有必要的．为什么呢？一个很简单的原因是出于对复线性的考虑．众所周知，复线性是回归分析的大敌．如果大家还记得回归分析系数的协方差矩阵的话，想必也能记得如果预测因素之间的相关系数太大会导致回归方程系数非常不稳定(请参阅 method of multivariate data analysis by rencher)．又如结构方程模型，是要分析测量变量(measurement)和结构变量(construct)之间的关系．还有最近十分热门的图模型，便是赤裸裸的声称图模型是所有统计模型的一个大综合．&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>用GERT方法求解两个抛硬币问题</title>
      <link>https://cosx.org/2009/09/introduction-and-application-of-gert/</link>
      <pubDate>Sat, 12 Sep 2009 09:44:05 +0000</pubDate>
      
      <guid>https://cosx.org/2009/09/introduction-and-application-of-gert/</guid>
      <description>问题：一枚均匀的硬币，一直抛直至出现HTT（H表示正面，T表示背面），期望要抛多少次？一直抛直至出现HTH（即正反正），期望要抛多少次？假定</description>
    </item>
    
    <item>
      <title>分层线性模型软件HLM6.0操作简介</title>
      <link>https://cosx.org/2009/09/guide-to-hlm/</link>
      <pubDate>Tue, 01 Sep 2009 10:28:45 +0000</pubDate>
      
      <guid>https://cosx.org/2009/09/guide-to-hlm/</guid>
      <description>&lt;p&gt;分层线性模型 (Hierarchical linear Model，简称 HLM，又称多层线性模型，Multilevel Linear Model)，HLM6.0 是分层线性模型软件，包含线性和非线性部分，可以读取大部份统计软件的数据如 SPSS, SAS, SYSTAT及STATA等等。HLM常用于社会科学和行为科学，因为它常有嵌套结构(Nested Structure)的数据，因此需用次模型(Sub-Model)或分层线性模型(Hierarchical Model)，HLM就是设计来专门解决此类问题的，HLM提供的模型包括2-level models、3-level models、Hierarchical Generalized Linear Models (HGLM)和Hierarchical Multivariate Linear Models (HMLM)等。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>我的求学之路：经济学、软件工程、SAS</title>
      <link>https://cosx.org/2009/08/econ-software-sas/</link>
      <pubDate>Sun, 09 Aug 2009 10:36:00 +0000</pubDate>
      
      <guid>https://cosx.org/2009/08/econ-software-sas/</guid>
      <description>&lt;blockquote&gt;
&lt;p&gt;这个青年的经历，只代表他个人，没有任何群体的意义。&lt;/p&gt;
&lt;p&gt;我想写下一段自白,这自白既是我个人的,也具有普遍意义,因为一个人经历过的事情所有的人都可以经历。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;跟武汉博文视点合作，召集些身边的朋友，2009应届生，计算机背景，在毕业之前，讲讲自己求学、实习、找工作等的经历与感悟，文章将由电子工业出版社结集出版，在今天秋季学期开学之前出来。我是主编，也是作者之一，刚好经历跟大伙有重叠：经济学、软件工程、SAS、统计学、数据挖掘，文章贴出来，大伙多拍砖头。文中我提到COS，COS让我长见识，又结识不少好朋友。&lt;/p&gt;
&lt;p&gt;想启蒙至今，我的学习重心从文史哲转到经济学，最后以软件工程收场；在行业方面，在一家软件公司实习了一年多，找工作以药厂收场——用一个朋友的话讲，“背景是复杂得一塌糊涂”。虽然我常以“学一行，爱一行；做一行，爱一行”自勉，有时也不免回首，想想以前经历过的所有分岔口，玩味些那些没有走过的路，无论当时我多么坚决或者犹豫，一条路被选中，然后一路曲折至今。很多事情，很多选择，可能只有以后才能适合评说，现在我选择把它们记下来，在这么一个时点，我就要毕业，我有一个安身立命的去处，我有规划，但我不知道以后生活会给我什么样的分岔口，就跟我以前遭遇的一样。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>R中的极大似然估计</title>
      <link>https://cosx.org/2009/07/maximum-likelihood-estimation-in-r/</link>
      <pubDate>Sun, 19 Jul 2009 08:36:31 +0000</pubDate>
      
      <guid>https://cosx.org/2009/07/maximum-likelihood-estimation-in-r/</guid>
      <description>注：本文的PDF格式版本可以从这里下载。 什么？你问我什么是极大似然估计么？这个嘛，看看你手边的概率或统计教材吧。没有么？那就到维基百科上去看</description>
    </item>
    
    <item>
      <title>R中面向对象编程方法</title>
      <link>https://cosx.org/2009/07/studying-notes-on-oop-in-r/</link>
      <pubDate>Sat, 04 Jul 2009 11:13:09 +0000</pubDate>
      
      <guid>https://cosx.org/2009/07/studying-notes-on-oop-in-r/</guid>
      <description>&lt;p&gt;R主要面向统计计算，似乎很少会用到面向对象的编程方法。但在统计计算中，在下列情形中使用面向对象的编程方法可以编程更有效率。&lt;/p&gt;
&lt;p&gt;1）当需要用一种新的方式来表示数据，该方式与已有的数据类型有区别的时候。&lt;/p&gt;
&lt;p&gt;2）当需要一个新的函数，该函数可以根据不同的参数类型做出不同的反应的时候。&lt;/p&gt;
&lt;p&gt;在R中，经常需要定义一个新的函数，并且定义一个新的函数也是一项繁重的工作。相反，较少去定义一个新的类。但有时候定义一个类是一个很关键的步骤。一个类通常决定了如何对对象进行处理，决定了对象中应当包含什么样的信息。甚至有时候，类的定义决定你的项目的成败。(本文的PDF版本:&lt;a href=&#34;https://uploads.cosx.org/2009/07/S4Method.pdf&#34;&gt;R中的面象对象编程学习笔记&lt;/a&gt;)&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>用R软件绘制中国分省市地图</title>
      <link>https://cosx.org/2009/07/drawing-china-map-using-r/</link>
      <pubDate>Thu, 02 Jul 2009 13:25:03 +0000</pubDate>
      
      <guid>https://cosx.org/2009/07/drawing-china-map-using-r/</guid>
      <description>&lt;blockquote&gt;
&lt;p&gt;【注】新版本的&lt;code&gt;maptools&lt;/code&gt;包对很多函数进行了修改，对于修改的内容，文章中用粗体文字进行了说明。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;鉴于最近有不少人在讨论用R软件绘制地图的问题，我也就跟着凑了凑热闹，对相应的方法学习了一番。下面的这篇文章是一个初步的介绍，还有很多内容仍在学习和探索中，如果大家有什么意见或建议，我将根据自己学习的情况对文章进行进一步的补充。&lt;/p&gt;
&lt;p&gt;在R中绘制地图其实是十分方便的，最直接的办法大概就是安装&lt;code&gt;maps&lt;/code&gt;和&lt;code&gt;mapdata&lt;/code&gt;这两个包，然后输入下面的命令：&lt;/p&gt;
&lt;pre&gt;&lt;code class=&#34;language-r&#34;&gt;library(maps)
library(mapdata)
map(&amp;quot;china&amp;quot;)
&lt;/code&gt;&lt;/pre&gt;
&lt;p&gt;其中&lt;code&gt;map()&lt;/code&gt;函数还可以加上很多参数，在这里就不一一详述，具体的用法只需问号之。然而仔细看一看这张地图你会发现重庆市和四川省仍然是浑然一体，可见该地图的数据应该是有些年头了。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>WinBUGS在统计分析中的应用（第四部分）</title>
      <link>https://cosx.org/2009/06/statistical-analysis-and-winbugs-part-4/</link>
      <pubDate>Mon, 29 Jun 2009 14:15:13 +0000</pubDate>
      
      <guid>https://cosx.org/2009/06/statistical-analysis-and-winbugs-part-4/</guid>
      <description>如何生成一个GeoBUGS格式的中国地图 第一节 导言 之前有些对GeoBUGS感兴趣的同学发邮件询问我有没有GeoBUGS的中国地图，以用于分析</description>
    </item>
    
    <item>
      <title>中国人民大学统计学院研究生会学术期刊《统计功课》第五期(2009)摘要</title>
      <link>https://cosx.org/2009/06/ruc-statistical-coursework-abstract-5/</link>
      <pubDate>Thu, 25 Jun 2009 12:22:58 +0000</pubDate>
      
      <guid>https://cosx.org/2009/06/ruc-statistical-coursework-abstract-5/</guid>
      <description>&lt;p&gt;&lt;strong&gt;期刊简介&lt;/strong&gt;：本刊是中国人民大学统计学院研究生会的学术类期刊，一年出版一期。其目的是为统计学院各专业的硕士博士生提供一个学术交流和展示的平台，同时也为本科生提供一个学习的机会。本刊收录的文章全部是由统计学院各级研究生自主撰写，其中也包括一些专业课的作业。现应允发表其摘要于统计之都，以供广大统计人士学习、指点与探讨。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>中国人民大学统计学院研究生会学术期刊《统计功课》第四期(2008)摘要</title>
      <link>https://cosx.org/2009/06/ruc-statistical-coursework-abstract-4/</link>
      <pubDate>Thu, 25 Jun 2009 10:51:45 +0000</pubDate>
      
      <guid>https://cosx.org/2009/06/ruc-statistical-coursework-abstract-4/</guid>
      <description>&lt;p&gt;&lt;strong&gt;期刊简介&lt;/strong&gt;：本刊是中国人民大学统计学院研究生会的学术类期刊，一年出版一期。其目的是为统计学院各专业的硕士博士生提供一个学术交流和展示的平台，同时也为本科生提供一个学习的机会。本刊收录的文章全部是由统计学院各级研究生自主撰写，其中也包括一些专业课的作业。现应允发表其摘要于统计之都，以供广大统计人士学习、指点与探讨。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>中国人民大学统计学院研究生会学术期刊《统计功课》第三期(2007)摘要</title>
      <link>https://cosx.org/2009/06/ruc-statistical-coursework-abstract-3/</link>
      <pubDate>Wed, 24 Jun 2009 17:04:10 +0000</pubDate>
      
      <guid>https://cosx.org/2009/06/ruc-statistical-coursework-abstract-3/</guid>
      <description>&lt;p&gt;&lt;strong&gt;期刊简介&lt;/strong&gt;：本刊是中国人民大学统计学院研究生会的学术类期刊，一年出版一期。其目的是为统计学院各专业的硕士博士生提供一个学术交流和展示的平台，同时也为本科生提供一个学习的机会。本刊收录的文章全部是由统计学院各级研究生自主撰写，其中也包括一些专业课的作业。现应允发表其摘要于统计之都，以供广大统计人士学习、指点与探讨。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>中国人民大学统计学院研究生会学术期刊《统计功课》第二期(2006)摘要</title>
      <link>https://cosx.org/2009/06/ruc-statistical-coursework-abstract-2/</link>
      <pubDate>Tue, 23 Jun 2009 19:14:09 +0000</pubDate>
      
      <guid>https://cosx.org/2009/06/ruc-statistical-coursework-abstract-2/</guid>
      <description>&lt;p&gt;&lt;strong&gt;期刊简介&lt;/strong&gt;：本刊是中国人民大学统计学院研究生会的学术类期刊，一年出版一期。其目的是为统计学院各专业的硕士博士生提供一个学术交流和展示的平台，同时也为本科生提供一个学习的机会。本刊收录的文章全部是由统计学院各级研究生自主撰写，其中也包括一些专业课的作业。现应允发表其摘要于统计之都，以供广大统计人士学习、指点与探讨。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>中国人民大学统计学院研究生会学术期刊《统计功课》第一期(2005)摘要</title>
      <link>https://cosx.org/2009/06/ruc-statistical-coursework-abstract-1/</link>
      <pubDate>Mon, 22 Jun 2009 09:57:49 +0000</pubDate>
      
      <guid>https://cosx.org/2009/06/ruc-statistical-coursework-abstract-1/</guid>
      <description>期刊简介:本刊是中国人民大学统计学院研究生会的学术类期刊，一年出版一期。其目的是为统计学院各专业的硕、博士生提供一个学术交流和展示的平台，同</description>
    </item>
    
    <item>
      <title>统计学博文导读：内贾德大选作弊？流星撞飞机的概率？买双色球？</title>
      <link>https://cosx.org/2009/06/stat-blog-guide-ahmadinejad-votes/</link>
      <pubDate>Wed, 17 Jun 2009 16:22:06 +0000</pubDate>
      
      <guid>https://cosx.org/2009/06/stat-blog-guide-ahmadinejad-votes/</guid>
      <description>&lt;p&gt;“统计之都”站的“&lt;a href=&#34;https://cos.name/category/website/navigation/&#34; title=&#34;统计之都网站导读&#34;&gt;网站导读&lt;/a&gt;”栏目的设立是为了以简短的形式向大家介绍一些有意思而且有水平的统计学文章，不求理论之复杂，但求统计学之生活化，让大家看到一些统计学的“另类”面目。若这个目的达不到，那么我希望大家读完这些导读文章之后能说一句“哇，原来统计不是会计啊/不是做报表的啊/不是数学啊”也足够了。另外，现在网上很多文章都是抄来抄去（更恶劣的是不加出处的抄袭），我们觉得这种做法极其无聊，是对原始作者的极大不尊重，也容易造成以讹传讹误导不明真相的围观群众，本站这个栏目的建立，也是基于这一点考虑之上提供一种“引用他人文章”的示例，很傻很天真地希望互联网的抄袭现象能够有所收敛。言归正传：&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>漫谈相关与回归</title>
      <link>https://cosx.org/2009/06/correlation-and-regression/</link>
      <pubDate>Thu, 11 Jun 2009 20:56:28 +0000</pubDate>
      
      <guid>https://cosx.org/2009/06/correlation-and-regression/</guid>
      <description>&lt;p&gt;老师不断提醒我要对统计学的基本概念、定义及背景反复思考，这样才不会本末倒置，迷失方向。但是这个做起来很难，因为那些概念定义等看起来实在“太简单”、“没什么东西”，可能还是不能够平心静气吧！&lt;/p&gt;
&lt;p&gt;最近静下来看了David Freedman等著的《统计学》的“相关与回归”部分，以及一篇关于直方图的文章，不免有些感慨！其实统计学中的很多概念、工具、方法等的实际意义或作用可能要比我们认为的要大很多，同时，当我们从一些概念定义等中发现出一些新东西时我们总会欣喜若狂。世界上的很多事物又何尝不是如此，人们对事物的了解总易受到传统或他人的影响仅仅停留在表面，很少达到全面而深刻，而一旦我们获得了那种深刻的洞察力，才发现真实世界是何等的精彩！一直以为直方图很简单，无非是一些代表频数的柱状图的组合而已，感觉没什么作用，但是看了一篇关于直方图制作方面的论文时，才认识到直方图的威力。直方图其实是非参数统计中估计总体分布特征的一项重要工具，选择好适当的组距和边界点（组距和最小边界点是关键），随着样本量的增大，它可以非常接近地反映数据的真实分布情况。其实，在统计中使用一种工具方法的目的也应该是使现有的数据尽可能多地反映出真实的信息，而这项工作往往是一个无底洞（这时又要考虑到效率问题了）。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>比率估计为什么精确</title>
      <link>https://cosx.org/2009/06/why-ratio-estimation-is-more-accurate-in-sampling/</link>
      <pubDate>Mon, 01 Jun 2009 09:33:27 +0000</pubDate>
      
      <guid>https://cosx.org/2009/06/why-ratio-estimation-is-more-accurate-in-sampling/</guid>
      <description>&lt;h1 id=&#34;一比率的方差估计式&#34;&gt;一、比率的方差估计式&lt;/h1&gt;
&lt;p&gt;比率估计量是抽样技术理论里一大重要估计量，其定义为两个总体总量或总体均值之比。借助适当的辅助变量，比率估计也可以得到主要变量的参数估计&lt;/p&gt;
&lt;p&gt;由于通过辅助变量实质上引入了更多的信息，因此有理由&lt;strong&gt;猜测&lt;/strong&gt;比率估计量可能更加精确。但是比率估计的方差和简单估计相比所谓的改进是否确切的存在，即使存在，改进的程度又有多大呢？&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>如何设计一个试验</title>
      <link>https://cosx.org/2009/05/how-to-design-an-experiment/</link>
      <pubDate>Fri, 08 May 2009 18:24:49 +0000</pubDate>
      
      <guid>https://cosx.org/2009/05/how-to-design-an-experiment/</guid>
      <description>&lt;p&gt;R·A·费歇尔爵士说在试验设计中经历的不是一个试验而是一种经验。&lt;/p&gt;
&lt;p&gt;在静静地看了几遍David Freedman等著的《统计学》中关于试验设计的部分后，总觉得应该写点东西发泄一下。该书自从买来就一直放在书架很久没动，也懒得动，因为翻翻前面觉得太简单。最近心情比较平静，翻了翻试验设计部分，同时思考现实中的类似例子，觉得挺有味道的。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>从调查报告中的比例数字说统计人如何甄别统计假象</title>
      <link>https://cosx.org/2009/04/from-proportion-to-conclusion/</link>
      <pubDate>Mon, 27 Apr 2009 14:26:09 +0000</pubDate>
      
      <guid>https://cosx.org/2009/04/from-proportion-to-conclusion/</guid>
      <description>&lt;p&gt;新华网刚发布了一个&lt;a href=&#34;http://news.xinhuanet.com/society/2009-04/22/content_11230487.htm&#34; title=&#34;http://news.xinhuanet.com/society/2009-04/22/content_11230487.htm&#34;&gt;关于学生冬季长跑的调查结果&lt;/a&gt;（于2009年4月27日13:52访问），一共调查了100人，结果中却出现了92.79%这样的比例数字，有常识的读者都知道，世上不存在0.79个人，因此这里面必然有某个地方是错的（姑且不妄言造假）。这则消息让我马上想起《统计陷阱》这本书，我们生活中有多少陷阱呢？&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>统计之都《本周导读》第十一辑</title>
      <link>https://cosx.org/2009/03/cos-navigation-11/</link>
      <pubDate>Sun, 29 Mar 2009 22:53:55 +0000</pubDate>
      
      <guid>https://cosx.org/2009/03/cos-navigation-11/</guid>
      <description>&lt;h1 id=&#34;一主站&#34;&gt;一、主站&lt;/h1&gt;
&lt;p&gt;这周本站共发布了2篇日志：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;
&lt;p&gt;&lt;a href=&#34;https://cosx.org/2009/03/ruc-stat-grad-stat-models/&#34;&gt;中国人民大学统计学院研究生课程“统计模型”&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;高校课堂：感谢程晓月的提供；&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;a href=&#34;https://cosx.org/2009/03/hilbert/&#34;&gt;Hilbert空间视角下的时间序列模型&lt;/a&gt;左辰作品：用两种Hilbert空间为时序模型提供了时域和频域两种不同的视角；&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;</description>
    </item>
    
    <item>
      <title>Hilbert空间视角下的时间序列模型</title>
      <link>https://cosx.org/2009/03/hilbert/</link>
      <pubDate>Sun, 29 Mar 2009 21:43:05 +0000</pubDate>
      
      <guid>https://cosx.org/2009/03/hilbert/</guid>
      <description>Hilbert空间说起来和我国古代数学有着一定的渊源。《九章算术》里记载：“勾股术曰：勾股各自乘，并，而开方除之，即弦”。这条著名的勾股定理</description>
    </item>
    
    <item>
      <title>中国人民大学统计学院研究生课程“统计模型”</title>
      <link>https://cosx.org/2009/03/ruc-stat-grad-stat-models/</link>
      <pubDate>Sat, 28 Mar 2009 22:01:50 +0000</pubDate>
      
      <guid>https://cosx.org/2009/03/ruc-stat-grad-stat-models/</guid>
      <description>&lt;h1 id=&#34;statistical-models&#34;&gt;Statistical Models&lt;/h1&gt;
&lt;p&gt;&lt;strong&gt;Spring 2009&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;Instructor:&lt;/strong&gt; 田茂再  (Email: mztian(at)ruc.edu.cn)&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;Office Hours:&lt;/strong&gt; by appointment&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;Lectures:&lt;/strong&gt; Friday, 2:00-5:00 p.m.,   0308 Mingde Main Building&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;Teaching  Assistant:&lt;/strong&gt; 程晓月  (Email: chengxy(at)ruc.edu.cn)&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>统计之都《本周导读》第十辑</title>
      <link>https://cosx.org/2009/03/cos-navigation-10/</link>
      <pubDate>Sun, 22 Mar 2009 22:21:27 +0000</pubDate>
      
      <guid>https://cosx.org/2009/03/cos-navigation-10/</guid>
      <description>&lt;h1 id=&#34;一主站&#34;&gt;一、主站&lt;/h1&gt;
&lt;p&gt;这周本站共发布了5篇日志：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;
&lt;p&gt;&lt;a href=&#34;https://cosx.org/2009/03/meaning-of-failure-to-reject-h0/&#34;&gt;不拒绝零假设意味着什么&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;郑冰作品：P-value大于a为什么不能说接受原假设；&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;a href=&#34;https://cosx.org/2009/03/ruc-stat-literature-research-course/&#34;&gt;中国人民大学统计学院《主文献研读》博士生课程（2009年春）&lt;/a&gt; 高校课堂：2009年春季中国人民大学统计学院《主文献研读》博士生课程网页；&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;a href=&#34;https://cosx.org/2009/03/scatterplot-matrix-visualization/&#34;&gt;不同版本的散点图矩阵&lt;/a&gt; 魏太云作品：介绍了四个绘制散点图矩阵的函数及详细的R代码；&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;a href=&#34;https://cosx.org/2009/03/running-r-in-batch-mode/&#34;&gt;在Batch Mode下完成无人值守的R项目测试&lt;/a&gt; 齐韬作品：介绍了R测试，调用Rterm；&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;a href=&#34;https://cosx.org/2009/03/data-analysis-of-cos-en-members/&#34;&gt;COS竞赛：英文站点会员类型的识别&lt;/a&gt;COS竞赛：“COS竞赛”系列活动之一，分析统计之都英文网站的会员数据，从中找出识别正规会员和机器人（垃圾、广告、自动注册）会员的规律；&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;</description>
    </item>
    
    <item>
      <title>在Batch Mode下完成无人值守的R项目测试</title>
      <link>https://cosx.org/2009/03/running-r-in-batch-mode/</link>
      <pubDate>Sat, 21 Mar 2009 12:28:31 +0000</pubDate>
      
      <guid>https://cosx.org/2009/03/running-r-in-batch-mode/</guid>
      <description>&lt;p&gt;今天我来谈一点用R编程的经验吧。好像R的很多方面许多牛人都谈过了，比如R的打包啊，R的图形啊，下面我来谈谈R的测试。如果希望真正学到什么的话，还是要自己花时间实践的。&lt;/p&gt;
&lt;p&gt;在很多情况下，你自己或和你的团队在一起开发一个R的项目，而伴随着开发的深入，测试就成了家常便饭。但是往往很多统计算法涉及到比较大的计算，比方说missing data的模型，比方说具有多层次结构的模型。测试这些R程序需要花费大量的时间。当然了如果你的程序规模很小，计算量也不大的情况下，大可不必杀鸡用牛刀，但是一般情况下，再小的一段统计算法，如果需要做一系列的simulation或是case study的话，测试都会花很多的时间。比如，如果你有几个实现了推广的ROC模型的R函数，或者是一个包含这些函数的R包，没有人能说这个程序真正管用，你要测试，那你就需要做simulation和case study。simulation简单的就是模拟出一系列预先设定模型参数的数据，让目标模型去fit，然后比较结果。case study则可以做各式各样的比较研究，特定数据的实例分析等等。好了，废话不多说，总之这篇文章就是告诉你怎么样方便地测试，随时随地想测就测。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>不同版本的散点图矩阵</title>
      <link>https://cosx.org/2009/03/scatterplot-matrix-visualization/</link>
      <pubDate>Fri, 20 Mar 2009 17:10:14 +0000</pubDate>
      
      <guid>https://cosx.org/2009/03/scatterplot-matrix-visualization/</guid>
      <description>&lt;p&gt;散点图矩阵是散点图的高维扩展，它从一定程度上克服了在平面上展示高维数据的困难，在展示多维数据的两两关系时有着不可替代的作用。R 软件就包含了各种不同版本的散点图函数，本文主要介绍散点图矩阵的设计及其在R中的实现方法，并比较它们的长短，从而审时度势，选取自己喜欢的表现方式和相应的函数。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>中国人民大学统计学院《主文献研读》博士生课程（2009年春）</title>
      <link>https://cosx.org/2009/03/ruc-stat-literature-research-course/</link>
      <pubDate>Thu, 19 Mar 2009 16:50:18 +0000</pubDate>
      
      <guid>https://cosx.org/2009/03/ruc-stat-literature-research-course/</guid>
      <description>&lt;p&gt;本页面为2009年春季中国人民大学统计学院《主文献研读》博士生课程网页，旨在提供课程信息通知、加强师生交流与讨论，请选课的同学定期注意页面的更新。请各位教授的弟子帮忙在课前预告或课后总结（Email给页面负责人），若老师同意公开课件，这里也可以上传课件；或以加密的方式上传。谢谢！&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>中国人民大学统计学院《数理统计》精品课程</title>
      <link>https://cosx.org/2009/03/ruc-math-stat-course/</link>
      <pubDate>Wed, 18 Mar 2009 16:46:08 +0000</pubDate>
      
      <guid>https://cosx.org/2009/03/ruc-math-stat-course/</guid>
      <description>&lt;p&gt;这里是中国人民大学统计学院《数理统计》精品课程页面。负责人：吴喜之教授；课程性质：学科基础课。&lt;/p&gt;
&lt;h1 id=&#34;课程简介&#34;&gt;课程简介&lt;/h1&gt;
&lt;h2 id=&#34;课程内容&#34;&gt;课程内容&lt;/h2&gt;
&lt;p&gt;数理统计是统计学院最重要的学科基础课之一。它在数学分析、高等代数以及概率论几门课程的基础上，开始系统讲授统计推断的理论，是学生学习统计专业课的基础。主要内容包括以下几个方面：统计量的概念及其抽样分布；点估计的评价准则和方法以及区间估计；假设检验的理论和各种检验方法；贝叶斯估计和统计决策的基本知识；方差分析。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>COS竞赛：英文站点会员类型的识别</title>
      <link>https://cosx.org/2009/03/data-analysis-of-cos-en-members/</link>
      <pubDate>Tue, 17 Mar 2009 00:15:17 +0000</pubDate>
      
      <guid>https://cosx.org/2009/03/data-analysis-of-cos-en-members/</guid>
      <description>&lt;p&gt;大家好，为了促进大家对统计之都的了解，并锻炼各位会员的统计应用能力，即日起我们推出“COS竞赛”系列活动。第一期活动的主要任务是分析统计之都英文网站（&lt;a href=&#34;https://cos.name/en/&#34;&gt;https://cos.name/en/&lt;/a&gt;）的会员数据，从中找出识别正规会员和机器人（垃圾、广告、自动注册）会员的规律。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>不拒绝零假设意味着什么</title>
      <link>https://cosx.org/2009/03/meaning-of-failure-to-reject-h0/</link>
      <pubDate>Mon, 16 Mar 2009 22:53:19 +0000</pubDate>
      
      <guid>https://cosx.org/2009/03/meaning-of-failure-to-reject-h0/</guid>
      <description>&lt;h1 id=&#34;由一道试题引发的一点思考&#34;&gt;由一道试题引发的一点思考&lt;/h1&gt;
&lt;p&gt;2008年统计学考研真题第四题“食品厂家说：净含量是每袋不低于250g。但有消费者向消协反映不是250g，消协据此要求厂家自检，同时消协也从中随机抽取20袋检验”&lt;/p&gt;
&lt;p&gt;（1）如果厂家自己检验，你认为提出什么样的原假设和备则假设？并说明理由。&lt;/p&gt;
&lt;p&gt;（2）如果从消费者利益出发，你认为应该提出什么样的原假设和备则假设？并说明理由。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>统计之都《本周导读》第九辑</title>
      <link>https://cosx.org/2009/03/cos-navigation-9/</link>
      <pubDate>Sun, 15 Mar 2009 22:43:59 +0000</pubDate>
      
      <guid>https://cosx.org/2009/03/cos-navigation-9/</guid>
      <description>&lt;h1 id=&#34;一主站&#34;&gt;一、主站&lt;/h1&gt;
&lt;p&gt;这三周本站共发布了3篇日志：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;
&lt;p&gt;&lt;a href=&#34;https://cosx.org/2009/03/parallel-coordinates-and-andrews-curve/&#34;&gt;调和曲线图和轮廓图的比较&lt;/a&gt;
魏太云作品：用调和曲线图和轮廓图展示多元数据，并附有详细R代码；&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;a href=&#34;https://cosx.org/2009/03/correlation-matrix-visualization/&#34;&gt;相关矩阵的可视化及其新方法探究&lt;/a&gt; 魏太云作品：用圆圈的大小表示相关系数的大小，黑白色填充分别表示正负相关系数，整个相关系数阵一目了然；&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;a href=&#34;https://cosx.org/2009/03/stat-blog-guide-rocket-cart-nnet/&#34;&gt;统计学博文导读：火箭队比赛与分类树、神经网络与降维&lt;/a&gt; 统计之都网站文章的新形式：以导读介绍有趣、实用的统计相关博文；本文主要介绍了刘思喆的分类树研究火箭队比赛数据一文以及左辰关于神经网络与降维的思考；&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;</description>
    </item>
    
    <item>
      <title>统计学博文导读：火箭队比赛与分类树、神经网络与降维</title>
      <link>https://cosx.org/2009/03/stat-blog-guide-rocket-cart-nnet/</link>
      <pubDate>Sun, 15 Mar 2009 18:02:12 +0000</pubDate>
      
      <guid>https://cosx.org/2009/03/stat-blog-guide-rocket-cart-nnet/</guid>
      <description>&lt;p&gt;即日起，统计之都网站成立“统计学博文导读”栏目，归属于“网站导读”栏目。我们号召广大读者和作者将喜爱的统计学博客文章推荐给我们，以方便更多读者在这个信息爆炸的时代能够快速阅读到优秀的文章；本文是统计之都“统计学博文导读”第一篇，权当示范本栏目的作用。这次我们重点推荐两篇博文，分别来自于刘思喆和左辰，向大家展示统计学理论的生活和思维魅力：&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>相关矩阵的可视化及其新方法探究</title>
      <link>https://cosx.org/2009/03/correlation-matrix-visualization/</link>
      <pubDate>Fri, 13 Mar 2009 00:27:23 +0000</pubDate>
      
      <guid>https://cosx.org/2009/03/correlation-matrix-visualization/</guid>
      <description>&lt;p&gt;相关系数阵对于分析多元数据时非常有用，然而当变量较多时，我们很难从一堆庞大的数字中快速获取信息。正因为如此，相关阵的可视化应运而生。的确，活泼生动的图形对我们的眼球更有诱惑力。已有的相关阵可视化技巧有颜色图、椭圆图、钟表图(参见Deepayan Sarkar所著的《Multivariate Data Visualization with R》中的Fig13.6)等，其思想都非常直观。本文在阐述了颜色图和椭圆图的机理后，又提出了一种新的相关阵的可视化技术——圆圈图，并与颜色图、椭圆图进行了比较。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;2010-4-11更新:本文及扩展工作对应的包corrplot可从&lt;a href=&#34;http://cran.r-project.org/web/packages/corrplot/index.html&#34;&gt;CRAN&lt;/a&gt;下载。&lt;/strong&gt;&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>调和曲线图和轮廓图的比较</title>
      <link>https://cosx.org/2009/03/parallel-coordinates-and-andrews-curve/</link>
      <pubDate>Wed, 11 Mar 2009 23:36:45 +0000</pubDate>
      
      <guid>https://cosx.org/2009/03/parallel-coordinates-and-andrews-curve/</guid>
      <description>&lt;p&gt;多元数据的可视化方法很多，譬如散点图、星图、雷达图、脸谱图、协同图等，大致可分为以下几类：1.基于点（如二维、三维散点图）；2.基于线（如轮廓图、调和曲线图）；3.基于平面图形（如星图、雷达图、蛛网图）；4.基于三维曲面（如三维曲面图）。其思想是将高维数据映射到低维空间（三维以下）内，尽量使信息损失最少，同时又能利于肉眼辨识。调和曲线图和轮廓图(即平行坐标图)都是多元数据的可视化方法，它们基于“线”的形式，将多元数据表示出来，对于聚类分析有很好的帮助。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>统计之都《本周导读》第八辑</title>
      <link>https://cosx.org/2009/02/cos-navigation-8/</link>
      <pubDate>Sun, 22 Feb 2009 22:51:56 +0000</pubDate>
      
      <guid>https://cosx.org/2009/02/cos-navigation-8/</guid>
      <description>&lt;h1 id=&#34;一主站&#34;&gt;一、主站&lt;/h1&gt;
&lt;p&gt;从寒假到现在共发布了5篇日志。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a href=&#34;https://cosx.org/2009/01/r-sas//&#34;&gt;R与SAS之争：一个导读&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href=&#34;https://cosx.org/2009/02/statistical-analysis-and-winbugs-part-3//&#34;&gt;WinBUGS在统计分析中的应用（第三部分）&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href=&#34;https://cosx.org/2009/02/google-visualization-api-and-data-analysis-online//&#34;&gt;Google Visualization API 与在线数据分析&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href=&#34;https://cosx.org/2009/02/measure-classification-model-performance-lift-gain//&#34;&gt;分类模型的性能评估——以SAS Logistic回归为例(3): Lift和Gain&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href=&#34;https://cosx.org/2009/02/create-r-packages-under-windows/&#34;&gt;在Windows中创建R的包的步骤&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;</description>
    </item>
    
    <item>
      <title>在Windows中创建R的包的步骤</title>
      <link>https://cosx.org/2009/02/create-r-packages-under-windows/</link>
      <pubDate>Fri, 20 Feb 2009 10:51:52 +0000</pubDate>
      
      <guid>https://cosx.org/2009/02/create-r-packages-under-windows/</guid>
      <description>&lt;p&gt;本文将向你介绍在Windows下创建包的步骤。在Unix下的创建过程以及如何用R调用C语言代码，请参考Google Group中的&lt;a href=&#34;http://r-forum.googlegroups.com/web/%E5%A6%82%E4%BD%95%E5%86%99R%E7%9A%84%E7%A8%8B%E5%BA%8F%E5%8C%85.pdf?hl=zh-CN&amp;amp;gsc=UkZ_EAsAAAAPPWk_9MdapAnGcC-3E6DA&#34;&gt;如何写R的程序包&lt;/a&gt;一文。&lt;/p&gt;
&lt;p&gt;在Windows下创建R的包(package)比较容易，但也需要十分小心。下面给出了创建一个R的包的步骤。如果需要了解创建包的更多细节，请参考相关的参考文献。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>分类模型的性能评估——以SAS Logistic回归为例(3): Lift和Gain</title>
      <link>https://cosx.org/2009/02/measure-classification-model-performance-lift-gain/</link>
      <pubDate>Wed, 18 Feb 2009 17:38:59 +0000</pubDate>
      
      <guid>https://cosx.org/2009/02/measure-classification-model-performance-lift-gain/</guid>
      <description>&lt;p&gt;书接&lt;a href=&#34;https://cosx.org/2008/12/measure-classification-model-performance-roc-auc/&#34;&gt;前文&lt;/a&gt;。跟ROC类似，Lift（提升）和Gain（增益）也一样能简单地从&lt;a href=&#34;https://cosx.org/2008/12/measure-classification-model-performance-confusion-matrix/&#34;&gt;以前的Confusion Matrix&lt;/a&gt;以及Sensitivity、Specificity等信息中推导而来，也有跟一个baseline model的比较，然后也是很容易画出来，很容易解释。以下先修知识，包括所需的数据集：&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>Google Visualization API 与在线数据分析</title>
      <link>https://cosx.org/2009/02/google-visualization-api-and-data-analysis-online/</link>
      <pubDate>Fri, 13 Feb 2009 15:28:24 +0000</pubDate>
      
      <guid>https://cosx.org/2009/02/google-visualization-api-and-data-analysis-online/</guid>
      <description>近日Google推出了Google Visualization API为在线数据分析开拓了一条崭新的道路。这个项目的初衷就是希望提供一种灵活的在线数据分析的解决方案。之</description>
    </item>
    
    <item>
      <title>WinBUGS在统计分析中的应用（第三部分）</title>
      <link>https://cosx.org/2009/02/statistical-analysis-and-winbugs-part-3/</link>
      <pubDate>Wed, 11 Feb 2009 21:20:12 +0000</pubDate>
      
      <guid>https://cosx.org/2009/02/statistical-analysis-and-winbugs-part-3/</guid>
      <description>&lt;h1 id=&#34;用geobugs做简单的空间数据分析&#34;&gt;用GeoBUGS做简单的空间数据分析&lt;/h1&gt;
&lt;h2 id=&#34;第一节-实例介绍基本的空间模型&#34;&gt;第一节 实例介绍基本的空间模型&lt;/h2&gt;
&lt;p&gt;GeoBUGS是WinBUGS的一个模块，专门用来分析空间数据（spatial data)。由于和WinBUGS的基本模型结合得比较好，所以被广泛地使用。目前的GeoBUGS除了自身的地图格式外，还支持Splus, ArcInfo 以及 EpiMap的地图格式。当然了，在使用的时候需要做适当的转化才行。&lt;/p&gt;
&lt;p&gt;下面是一个简单的例子，大家也可以在GeoBUGS的Manual中找到它。模型假设为条件自回归模型 Conditional Autoregressive（CAR）。数据为苏格兰唇癌疾病数据，反映的是苏格兰56个郡的唇癌发病率。这个数据比较经典，Clayton and Kaldor (1987) 和 Breslow and Clayton (1993)都曾在他们的论著中分析过该数据。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>R与SAS之争：一个导读</title>
      <link>https://cosx.org/2009/01/r-and-sas-new-york-times/</link>
      <pubDate>Tue, 13 Jan 2009 11:41:11 +0000</pubDate>
      
      <guid>https://cosx.org/2009/01/r-and-sas-new-york-times/</guid>
      <description>&lt;p&gt;现在R与SAS社区里，最热闹的大概是源于《纽约时报》的一篇文章而引发的R与SAS之争。&lt;/p&gt;
&lt;p&gt;2009年1月7号，《纽约时报》科技版登了一篇注定要引起四方瞩目的文章, &lt;a href=&#34;http://www.nytimes.com/2009/01/07/technology/business-computing/07program.html&#34;&gt;Data Analysts Captivated by R’s Power&lt;/a&gt;（1月6号就有网络版），作者是该报的记者&lt;a href=&#34;http://topics.nytimes.com/top/reference/timestopics/people/v/ashlee_vance/index.html?inline=nyt-per&#34;&gt;Ashlee Vance&lt;/a&gt;。这大概是开源统计软件包R，自1996年诞生以来，第一次出现在公众视野，而且是出现在《纽约时报》这样的主流媒体。这篇文章里有一句，让R社区和SAS社区都颇为兴奋，而且有很多私人博客也积极跟进：&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>统计之都《本周导读》第七辑</title>
      <link>https://cosx.org/2009/01/cos-navigation-7/</link>
      <pubDate>Sun, 11 Jan 2009 22:21:51 +0000</pubDate>
      
      <guid>https://cosx.org/2009/01/cos-navigation-7/</guid>
      <description>&lt;h1 id=&#34;一主站&#34;&gt;一、主站&lt;/h1&gt;
&lt;p&gt;本周一共发布了2篇日志。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a href=&#34;https://cosx.org/2009/01/regression-with-graphics/&#34;&gt;使用回归分析，样本过少时不妨好先作图看看&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href=&#34;https://cosx.org/2009/01/intro-to-gretl/&#34;&gt;开源的计量经济学软件gretl&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;</description>
    </item>
    
    <item>
      <title>开源的计量经济学软件gretl</title>
      <link>https://cosx.org/2009/01/intro-to-gretl/</link>
      <pubDate>Mon, 05 Jan 2009 21:43:31 +0000</pubDate>
      
      <guid>https://cosx.org/2009/01/intro-to-gretl/</guid>
      <description>&lt;p&gt;gretl（&lt;strong&gt;G&lt;/strong&gt;nu &lt;strong&gt;R&lt;/strong&gt;egression，&lt;strong&gt;E&lt;/strong&gt;conometrics and &lt;strong&gt;T&lt;/strong&gt;ime-series &lt;strong&gt;L&lt;/strong&gt;ibrary）是一款跨平台的计量分析软件。它是开源软件，用C语言写成，由 Allin Cottrell和Riccardo “Jack” Lucchettii 共同开发。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>使用回归分析，样本过少时不妨好先作图看看</title>
      <link>https://cosx.org/2009/01/regression-with-graphics/</link>
      <pubDate>Sun, 04 Jan 2009 22:27:16 +0000</pubDate>
      
      <guid>https://cosx.org/2009/01/regression-with-graphics/</guid>
      <description>&lt;p&gt;回归分析往往是学统计、学计量课程时接触的第一个统计模型了，甚至不少人可能认为回归分析理所当然成为计量的绝大部分内容——毕竟很多教材中提到统计模型的时候，往往就一个OLS为主的讲法。回归分析的内容当然很广泛，也在学科中占据相对基础的位置。&lt;/p&gt;
&lt;p&gt;学会OLS，有人还明白了ML等方法的含义；现在学统计分析的时候，或多或少会安排统计软件的实践课程，于是大家学会了使用Excel，乃至SAS中如何来做经典的回归分析。看过不少的文献，很多都忽略了回归分析模型诊断这个环节——可能很多标准教科书没有强调，甚至是没有讲；这不能不说是一个遗憾。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>统计之都《本周导读》第六辑</title>
      <link>https://cosx.org/2009/01/cos-navigation-6/</link>
      <pubDate>Sun, 04 Jan 2009 13:00:33 +0000</pubDate>
      
      <guid>https://cosx.org/2009/01/cos-navigation-6/</guid>
      <description>&lt;h1 id=&#34;一主站&#34;&gt;一、主站&lt;/h1&gt;
&lt;p&gt;本周一共发布了1篇日志。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a href=&#34;https://cosx.org/2008/12/measure-classification-model-performance-roc-auc//&#34;&gt;分类模型的性能评估——以SAS Logistic回归为例(2): ROC和AUC&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;本周COS主站又有一位作者加入：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;陈堰平：人大统计学院学生&lt;/li&gt;
&lt;/ul&gt;</description>
    </item>
    
    <item>
      <title>分类模型的性能评估——以SAS Logistic回归为例(2): ROC和AUC</title>
      <link>https://cosx.org/2008/12/measure-classification-model-performance-roc-auc/</link>
      <pubDate>Wed, 31 Dec 2008 13:09:43 +0000</pubDate>
      
      <guid>https://cosx.org/2008/12/measure-classification-model-performance-roc-auc/</guid>
      <description>ROC 上回我们提到，ROC曲线就是不同的阈值下，以下两个变量的组合（如果对Sensitivity和Specificity两个术语没有概念，不妨返</description>
    </item>
    
    <item>
      <title>统计之都《本周导读》第五辑</title>
      <link>https://cosx.org/2008/12/cos-navigation-5/</link>
      <pubDate>Sun, 28 Dec 2008 22:09:12 +0000</pubDate>
      
      <guid>https://cosx.org/2008/12/cos-navigation-5/</guid>
      <description>一、主站 大家忙着准备期末复习，本周一共发布了1篇日志。 分类模型的性能评估——以SAS Logistic回归为例(1): 混淆矩阵 期待胡江堂下期对</description>
    </item>
    
    <item>
      <title>分类模型的性能评估——以SAS Logistic回归为例(1): 混淆矩阵</title>
      <link>https://cosx.org/2008/12/measure-classification-model-performance-confusion-matrix/</link>
      <pubDate>Thu, 25 Dec 2008 14:42:45 +0000</pubDate>
      
      <guid>https://cosx.org/2008/12/measure-classification-model-performance-confusion-matrix/</guid>
      <description>&lt;p&gt;跑完分类模型（Logistic回归、决策树、神经网络等），我们经常面对一大堆模型评估的报表和指标，如Confusion Matrix、ROC、Lift、Gini、K-S之类（这个单子可以列很长），往往让很多在业务中需要解释它们的朋友头大：“这个模型的Lift是4，表明模型运作良好。——啊，怎么还要解释ROC，ROC如何如何，表明模型表现良好……”如果不明白这些评估指标的背后的直觉，就很可能陷入这样的机械解释中，不敢多说一句，就怕哪里说错。本文就试图用一个统一的例子（SAS Logistic回归），从实际应用而不是理论研究的角度，对以上提到的各个评估指标逐一点评，并力图表明：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;这些评估指标，都是可以用白话（plain English, 普通话）解释清楚的；&lt;/li&gt;
&lt;li&gt;它们是可以手算出来的，看到各种软件包输出结果，并不是一个无法探究的“黑箱”；&lt;/li&gt;
&lt;li&gt;它们是相关的。你了解一个，就很容易了解另外一个。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;本文从混淆矩阵(Confusion Matrix，或分类矩阵，Classification Matrix)开始，它最简单，而且是大多数指标的基础。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>统计之都《本周导读》第四辑</title>
      <link>https://cosx.org/2008/12/cos-navigation-4/</link>
      <pubDate>Sun, 21 Dec 2008 17:51:18 +0000</pubDate>
      
      <guid>https://cosx.org/2008/12/cos-navigation-4/</guid>
      <description>一、主站 本周一共发布了2篇日志；《第一届中国R语言会议纪要》和《WinBUGS在统计分析中的应用（第二部分）》。 第一届中国R语言会议纪要 介绍</description>
    </item>
    
    <item>
      <title>WinBUGS在统计分析中的应用（第二部分）</title>
      <link>https://cosx.org/2008/12/statistical-analysis-and-winbugs-part-2/</link>
      <pubDate>Thu, 18 Dec 2008 15:15:19 +0000</pubDate>
      
      <guid>https://cosx.org/2008/12/statistical-analysis-and-winbugs-part-2/</guid>
      <description>第一节 WinBUGS数据分析案例 在这一节中，我将拿一个经典的研究数据，利用WinBUGS给出简单的分析。首先介绍一下这个数据：Seeds seed O.</description>
    </item>
    
    <item>
      <title>第一届中国R语言会议纪要</title>
      <link>https://cosx.org/2008/12/1st-chinese-r-conference-summary/</link>
      <pubDate>Tue, 16 Dec 2008 15:02:38 +0000</pubDate>
      
      <guid>https://cosx.org/2008/12/1st-chinese-r-conference-summary/</guid>
      <description>第一届中国R语言会议合影 2008年12月13日~14日，由教育部重点研究基地中国人民大学应用统计科学研究中心与中国人民大学统计学院主办的“第</description>
    </item>
    
    <item>
      <title>统计之都《本周导读》第三辑</title>
      <link>https://cosx.org/2008/12/cos-navigation-3/</link>
      <pubDate>Mon, 15 Dec 2008 20:23:46 +0000</pubDate>
      
      <guid>https://cosx.org/2008/12/cos-navigation-3/</guid>
      <description>主站 过去的一周内，“统计之都”主站共发布两篇文章： P值究竟是个什么东西？继不得不提的P值一文之后，胡江堂继续讨论了P值的含义，参见P-val</description>
    </item>
    
    <item>
      <title>WinBUGS在统计分析中的应用（第一部分）</title>
      <link>https://cosx.org/2008/12/statistical-analysis-and-winbugs-part-1/</link>
      <pubDate>Mon, 08 Dec 2008 19:40:06 +0000</pubDate>
      
      <guid>https://cosx.org/2008/12/statistical-analysis-and-winbugs-part-1/</guid>
      <description>&lt;h1 id=&#34;开篇词&#34;&gt;开篇词&lt;/h1&gt;
&lt;p&gt;首先非常感谢COS论坛提供了这样一个良好的平台，敝人心存感激之余，也打算把一些学习心得拿出来供大家分享，文中纰漏之处还请各位老师指正。下面我将以WinBUGS的统计应用为题，分几次来谈一谈WinBUGS这个软件。其中会涉及到空间数据的分析、GeoBUGS的使用、面向R及SPLUS的接口包R2WinBUGS的使用、GIS与统计分析等等衍生出的话题。如有问题，请大家留下评论，我会调整内容，择机给予回答。&lt;/p&gt;
&lt;h1 id=&#34;第一节-什么是winbugs&#34;&gt;第一节 什么是WinBUGS?&lt;/h1&gt;
&lt;p&gt;&lt;a href=&#34;https://www.mrc-bsu.cam.ac.uk/software/bugs/&#34;&gt;&lt;img src=&#34;https://uploads.cosx.org/2008/12/WinBUGSlogo.jpg&#34; alt=&#34;&#34;&gt;&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;WinBUGS对于研究Bayesian统计分析的人来说，应该不会陌生。至少对于MCMC方法是不陌生的。WinBUGS (Bayesian inference Using Gibbs Sampling）就是一款通过MCMC方法来分析复杂统计模型的软件。其基本原理就是通过Gibbs sampling和Metropolis算法，从完全条件概率分布中抽样，从而生成马尔科夫链，通过迭代，最终估计出模型参数。引入Gibbs抽样与MCMC的好处是不言而喻的，就是想避免计算一个具有高维积分形式的完全联合后验概率公布，而代之以计算每个估计参数的单变量条件概率分布。具体的算法思想，在讲到具体问题的时候再加以叙述，在此不过多论述。就不拿公式出来吓人了（毕竟打公式也挺费劲啊）。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>P-value：一个注脚</title>
      <link>https://cosx.org/2008/12/p-value-notes/</link>
      <pubDate>Mon, 08 Dec 2008 16:58:17 +0000</pubDate>
      
      <guid>https://cosx.org/2008/12/p-value-notes/</guid>
      <description>郑冰刚提到P值，说P值的定义（着重号是笔者加的，英文是从WikiPedia摘来的）： P值就是当原假设为真时，比所得到的样本观察结果更极端的结</description>
    </item>
    
    <item>
      <title>统计之都《本周导读》第二辑</title>
      <link>https://cosx.org/2008/12/cos-navigation-2/</link>
      <pubDate>Sun, 07 Dec 2008 21:29:44 +0000</pubDate>
      
      <guid>https://cosx.org/2008/12/cos-navigation-2/</guid>
      <description>&lt;h1 id=&#34;前言&#34;&gt;前言&lt;/h1&gt;
&lt;p&gt;转眼间一个星期过去了，本周统计之都的主站、维基、论坛有什么值得我们关注的事情呢，请关注本期《每周导读》。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>不得不提的P值</title>
      <link>https://cosx.org/2008/12/p-value/</link>
      <pubDate>Sun, 07 Dec 2008 17:53:55 +0000</pubDate>
      
      <guid>https://cosx.org/2008/12/p-value/</guid>
      <description>&lt;p&gt;在论坛，经常发现有人发关于P值的帖子，搜索了一下，一共有29个关于P值的帖子。的确，P值是最常用的一个统计学指标，几乎统计软件输出结果都有P值。了解P值的由来、计算和意义很有必要。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>闲扯“自由度”</title>
      <link>https://cosx.org/2008/12/degrees-of-freedom/</link>
      <pubDate>Thu, 04 Dec 2008 01:20:43 +0000</pubDate>
      
      <guid>https://cosx.org/2008/12/degrees-of-freedom/</guid>
      <description>&lt;p&gt;“闲扯”是一个四川方言词汇，指的就是大家在没事的时候坐下来吹吹牛，聊聊天。现在正是夜深人静的时候，找人聊聊天是不合适的，就由我一个人来自言自语下什么是自由度。&lt;/p&gt;
&lt;p&gt;我们进行统计分析，就像一个摄影师在拿着镜头在记录世界。但这个摄影师如果用的是广角镜头，那么他将面临一个问题：几何失真。特别是拍近景的时，拍出来的直线是弯曲的。这样就没有真失地反映客观事物的图像。所以这个时候他的反映真实客观现实的“自由”被限制了。虽然他的自由被限制了，但摄影师还是有办法矫正照的几何失真的：他可以尽量避免用广角镜头拍近景；他可以将照片交给专业的图像处理软件修复。所以，这个摄影师是有很多“自由”的手段来矫正照片失真的问题。这就可以当作是自由度的一个不恰当的类比。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>决策与风险</title>
      <link>https://cosx.org/2008/12/decision-and-risk/</link>
      <pubDate>Wed, 03 Dec 2008 17:09:32 +0000</pubDate>
      
      <guid>https://cosx.org/2008/12/decision-and-risk/</guid>
      <description>读书笔记，白话统计系列，力图用普通话讲述统计学的基本概念。这里的题目是“决策与风险”，讲的就是两类错误（type I and type II errors）。以下</description>
    </item>
    
    <item>
      <title>Rcmdr: 山寨版的SPSS</title>
      <link>https://cosx.org/2008/12/rcmdr-looks-like-spss/</link>
      <pubDate>Wed, 03 Dec 2008 16:50:55 +0000</pubDate>
      
      <guid>https://cosx.org/2008/12/rcmdr-looks-like-spss/</guid>
      <description>&lt;p&gt;可以认为Ｒ最传统的工作方式为命令行，估计大多数人最开始使用Ｒ的时候也会直接在console中就干活了。然后就是有的人使用R自带的那个脚本编辑器（至今为止，绝大部分时候面临较为简单的工作的时候，我还是用它），有的人则发现这个编辑器实在是太简陋了点，属于Notepad的精简版，从而会选择一个自己喜欢的编辑器来编写脚本。&lt;/p&gt;
&lt;p&gt;很多人在介绍R的时候，就不约而同会描述“命令行，没鼠标点击完成”，有的人还会过犹不及的介绍说这显示了R的“先进性”等等。其实这应该算误解，在R中 也可以实现SPSS的那种“鼠标为主”的工作方式，其实SAS的一些模块也是“鼠标为主”，Stata、Splus等莫不如此。而我们的R也有完全可以支 持这种“鼠标为主”的用户工作方式，其实John Fox的Rcmdr包就是一个相当赞的尝试。而该包主要使用了R中最基础的tcl/tk等包，可以说只要你安装了推荐的一些包，再加上Rcmdr中的图像 框架就实现了很多人所要求的“鼠标”操作。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>刘重杰：和统计接触的经历</title>
      <link>https://cosx.org/2008/12/my-experience-with-statistics-by-chongjie-liu/</link>
      <pubDate>Wed, 03 Dec 2008 15:20:21 +0000</pubDate>
      
      <guid>https://cosx.org/2008/12/my-experience-with-statistics-by-chongjie-liu/</guid>
      <description>&lt;p&gt;首次遇到益辉应该是在一个论坛上，讨论了各类专业统计软件的使用情况，就聊到了&lt;a href=&#34;http://www.r-project.org&#34;&gt;R&lt;/a&gt;。接着就开始到cos灌水，慢慢就认识了这个领域里面的很多朋友。而益辉等兄弟姐妹为在统计这个领域的推广“正确”方面实在是做出了极其有益处，乃至可以称为辉煌的工作。&lt;/p&gt;
&lt;p&gt;我对统计学所知实在是业余水平。首先，我没系统正式的学过统计专业的课程；最多算一个自学者。其次，所从事的正式工作和职业中，和统计直接相关的几乎没有；最多只是擦边球式的“应用”了下统计技术和相应的软件。所以受邀而来，实在是汗颜。不过接触统计学倒是比较多，也足见这门学科的普遍和重要性。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>打造得心应手的统计编程平台－－Eclipse &#43; StatET</title>
      <link>https://cosx.org/2008/12/eclipse-statet-for-r-editor/</link>
      <pubDate>Wed, 03 Dec 2008 13:31:04 +0000</pubDate>
      
      <guid>https://cosx.org/2008/12/eclipse-statet-for-r-editor/</guid>
      <description>&lt;p&gt;本文的目的是告诉你如何打造一个好的R的编程界面和环境，让你充分享受用R编程的乐趣。这不是一个关于R的教程，可以访问&lt;a href=&#34;http://a-lucky-bird.spaces.live.com/blog/cns!9FE71C3A1FA0267F!662.entry&#34;&gt;这里&lt;/a&gt;以获得更多关于R的资源。大家也可以加入QQ群42131822和&lt;a href=&#34;http://groups.google.com/group/R-Forum?hl=zh-CN&#34;&gt;R的邮件列表&lt;/a&gt;(需要google账号)可以认识正在使用R的更多的朋友，也可以通过&lt;code&gt;hurongxing[at]126.com&lt;/code&gt;和我联系。本文论坛讨论帖参见&lt;a href=&#34;https://cos.name/cn/topic/12136&#34; title=&#34;Eclipse + StatET真的不错&#34;&gt;这里&lt;/a&gt;。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>统计之都《本周导读》第一辑</title>
      <link>https://cosx.org/2008/11/cos-navigation-1/</link>
      <pubDate>Sun, 30 Nov 2008 21:35:22 +0000</pubDate>
      
      <guid>https://cosx.org/2008/11/cos-navigation-1/</guid>
      <description>&lt;h1 id=&#34;前言&#34;&gt;前言&lt;/h1&gt;
&lt;p&gt;大家好，非常感谢大家对统计之都一贯支持。随着统计之都网站结构的调整，《本周导读》也应运而生了。《每周导读》将回顾一周内统计之都的主站、维基、论坛变化，方便大家了解统计之都的最新动态。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>统计学专业应该使用什么样的统计软件（写给在统计学院学习的学弟学妹之四）</title>
      <link>https://cosx.org/2008/11/which-statistical-software-should-we-use/</link>
      <pubDate>Sun, 30 Nov 2008 14:25:39 +0000</pubDate>
      
      <guid>https://cosx.org/2008/11/which-statistical-software-should-we-use/</guid>
      <description>&lt;p&gt;过去两三年为院刊写了一些稿件，其中一部分是统计技术层面的，一部分是方法论和原则层面的，姑且作为对低年级统计学子们的一些学习建议，目的在于让大家学会擦亮自己的眼睛，辨明统计学的是与非。文章观点仅为一家之言，而且大多数情况下这些观点相对于流行的、教科书式的观点可能有显著差异，因此请各位小心阅读。&lt;/p&gt;
&lt;p&gt;这次要求我写一篇关于统计软件的介绍，我想我也没这个本事去介绍所有的软件，因此私自把主题改成了“统计学专业应该使用什么样的统计软件”，窃以为这样写更有意义，不然这篇文章就变成了死板的统计软件使用手册。&lt;/p&gt;
&lt;p&gt;关于统计软件，随着时间的推移，我最终以R语言为中心，基本废弃了其它工具的学习，换句话说，其它统计工具对我来说作用有限，不符合本人的统计分析思想和使用习惯。长话短说，本文的摘要为三个字：&lt;strong&gt;用R吧&lt;/strong&gt;！&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>我的一些统计方法观（写给在统计学院学习的学弟学妹之三）</title>
      <link>https://cosx.org/2008/11/outlook-on-statistical-methods/</link>
      <pubDate>Sat, 29 Nov 2008 23:43:37 +0000</pubDate>
      
      <guid>https://cosx.org/2008/11/outlook-on-statistical-methods/</guid>
      <description>&lt;p&gt;记得高中很讨厌政治课，但是有几个词烙在脑子里，想忘都忘不掉，比如“世界观”和“方法论”，当时那位老爷爷整天给我们灌输这些玩意儿，搞得我现在对这些词汇仍然如鬼神般敬而远之。这次我要写的是关于统计方法的一些思考（主要是思路），但又不太多涉及方法本身的推导证明，因此只好称之为“方法观”。&lt;/p&gt;
&lt;p&gt;现在每天感慨统计领域太宽，模型太多，方法太杂，让人把握不住方向。不过上次高校研究生统计论坛我仍然不知天高地厚地选了一个讲述统计思想的题目，其原因正是觉得方法太杂，应该理出一些头绪来；当然我所理的头绪也仅仅是很局部（local）的，管中窥豹而已。下面我先举几个例子说明一些统计方法的发展思路，这些也是我在上次论坛上发言的部分内容：&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>关于搜索统计资源（写给在统计学院学习的学弟学妹之二）</title>
      <link>https://cosx.org/2008/11/how-to-search-for-statistics-resources/</link>
      <pubDate>Sat, 29 Nov 2008 22:06:26 +0000</pubDate>
      
      <guid>https://cosx.org/2008/11/how-to-search-for-statistics-resources/</guid>
      <description>&lt;p&gt;关于搜集资料，其实是许久以来我很想谈的一个话题，因为身边太多太多的同学在这方面根本就没入门。找点资料，也不知上哪里找。顶多Baidu一下，高级一些的就Google一下，就算完事了。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>浅析试验设计</title>
      <link>https://cosx.org/2008/11/experiment-design/</link>
      <pubDate>Thu, 27 Nov 2008 22:51:03 +0000</pubDate>
      
      <guid>https://cosx.org/2008/11/experiment-design/</guid>
      <description>&lt;p&gt;试验设计是研究计划内关于研究方法与步骤的一项内容。在各种研究工作中，无论试验室研究、临床疗效观察或现场调查，在制订研究计划时，都应根据试验的目的和条例，结合统计学的要求，针对试验的全过程，认真考虑试验设计问题。一个周密而完善的试验设计，能合理地安排各种试验因素，严格地控制试验误差，从而用较少的人力、物力和时间，最大限度地获得丰富而可靠的资料。反之，如果试验设计存在着缺点，就可能造成不应有的浪费，且足以减损研究结果的价值。总之，试验设计是试验过程的依据，是试验数据处理的前提，也是提高科研成果质量的一个重要保证。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>计量经济学概论（郑志姣）</title>
      <link>https://cosx.org/2008/11/an-introduction-to-econometrics/</link>
      <pubDate>Thu, 27 Nov 2008 22:35:50 +0000</pubDate>
      
      <guid>https://cosx.org/2008/11/an-introduction-to-econometrics/</guid>
      <description>&lt;p&gt;计量经济学是以一定的经济理论和统计资料为基础，运用数学、统计学方法与电脑技术，以建立经济计量模型为主要手段，定量分析研究具有随机性特性的经济变量关系。主要内容包括理论计量经济学和应用经济计量学。理论经济计量学主要研究如何运用、改造和发展数理统计的方法，使之成为随机经济关系测定的特殊方法。应用计量经济学是在一定的经济理论的指导下，以反映事实的统计数据为依据，用经济计量方法研究经济数学模型的实用化或探索实证经济规律。广泛采用计算机组织教学，着重培养学生定量分析问题、解决问题的能力。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>次贷冲击下的统计学反思</title>
      <link>https://cosx.org/2008/11/subprimestat/</link>
      <pubDate>Thu, 27 Nov 2008 10:39:10 +0000</pubDate>
      
      <guid>https://cosx.org/2008/11/subprimestat/</guid>
      <description>有点标题党的意思了，确切地说，本文只是一个小小的通讯稿。前两天（11月25-26）我参加一个“中国银行风险管理国际峰会2008”，其中Sun</description>
    </item>
    
    <item>
      <title>概率论的起源、发展、应用</title>
      <link>https://cosx.org/2008/11/probability-theory-origin-development-application/</link>
      <pubDate>Wed, 26 Nov 2008 22:50:37 +0000</pubDate>
      
      <guid>https://cosx.org/2008/11/probability-theory-origin-development-application/</guid>
      <description>&lt;p&gt;概率论源于游戏和赌博，发展过程和数学理论密不可分。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>统计学的历史与今天</title>
      <link>https://cosx.org/2008/11/statistics-history-and-today/</link>
      <pubDate>Wed, 26 Nov 2008 22:13:02 +0000</pubDate>
      
      <guid>https://cosx.org/2008/11/statistics-history-and-today/</guid>
      <description>&lt;p&gt;统计学是一门既古老又崭新的科学。说它古老，是因为它已有300年的历史，它走过了人类历史的农业经济时代、工业经济时代，又走进了正在到来的知识经济时代。说它崭新，因为它虽然已产生了300年，但仍在快速发展。今天，它拥有了更多更新的统计方法和手段，有了更多的研究对象和更广泛的应用领域，显示出更加重要的作用和更广阔的发展前景。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>用局部加权回归散点平滑法观察二维变量之间的关系</title>
      <link>https://cosx.org/2008/11/lowess-to-explore-bivariate-correlation-by-yihui/</link>
      <pubDate>Wed, 26 Nov 2008 13:57:27 +0000</pubDate>
      
      <guid>https://cosx.org/2008/11/lowess-to-explore-bivariate-correlation-by-yihui/</guid>
      <description>&lt;p&gt;&lt;img src=&#34;https://uploads.cosx.org/2008/11/counts.png&#34; alt=&#34;局部加权回归散点平滑法&#34; title=&#34;局部加权回归散点平滑法&#34;&gt;&lt;/p&gt;
&lt;p&gt;二维变量之间的关系研究是很多统计方法的基础，例如回归分析通常会从一元回归讲起，然后再扩展到多元情况。局部加权回归散点平滑法（locally weighted scatterplot smoothing，LOWESS或LOESS）是查看二维变量之间关系的一种有力工具。&lt;/p&gt;
&lt;p&gt;LOWESS主要思想是取一定比例的局部数据，在这部分子集中拟合多项式回归曲线，这样我们便可以观察到数据在局部展现出来的规律和趋势；而通常的回归分析往往是根据全体数据建模，这样可以描述整体趋势，但现实生活中规律不总是（或者很少是）教科书上告诉我们的一条直线。我们将局部范围从左往右依次推进，最终一条连续的曲线就被计算出来了。显然，曲线的光滑程度与我们选取数据比例有关：比例越少，拟合越不光滑（因为过于看重局部性质），反之越光滑。&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>统计学的领域（写给在统计学院学习的学弟学妹之一）</title>
      <link>https://cosx.org/2008/11/domain-of-statistics-by-yihui/</link>
      <pubDate>Tue, 25 Nov 2008 19:19:43 +0000</pubDate>
      
      <guid>https://cosx.org/2008/11/domain-of-statistics-by-yihui/</guid>
      <description>&lt;blockquote&gt;
&lt;p&gt;&lt;strong&gt;作者注&lt;/strong&gt;：本文是为中国人民大学统计学院本科院刊所写的稿件。走过了四年本科，觉得应该对后来人讲一些负责任的话，以使大家能更高效地学习。我认为人生的奋斗，怕的不是没有动力，而是有动力却不知道方向。因此，我把我所了解的统计学的领域介绍给大家，让大家早日了解一下统计学的基本内容，早日找到自己的方向。当然，仅仅四年的学习，得出的观点或多或少会浅薄，所以也请各位大师多多指点批评。&lt;/p&gt;
&lt;/blockquote&gt;</description>
    </item>
    
    <item>
      <title>如何学习统计学，或我的学习之路——初学者写给初学者</title>
      <link>https://cosx.org/2008/11/how-to-learn-statistics-by-jthu/</link>
      <pubDate>Mon, 24 Nov 2008 21:48:21 +0000</pubDate>
      
      <guid>https://cosx.org/2008/11/how-to-learn-statistics-by-jthu/</guid>
      <description>&lt;blockquote&gt;
&lt;p&gt;&lt;strong&gt;选编者谢益辉&lt;/strong&gt;：很幸运刚好在COS博客开张之际江堂兄送来这篇文章，读完之后觉得写得很棒，于是迫不及待把它放在统计之都新站的开篇位置。江堂兄文字功夫很好，本文统计功夫介绍也很到位。我常认为，入门读物应该由非专业人士来写，这样学习体会才更加深刻，而科班五六年的统计学生，也许反倒深陷其中而不见庐山真面目。个人推荐之处有：（1）手算一次回归（为了了解计算细节并理解公式），大量手算就没有必要了；（2）以有趣的书入门；（3）用简单实用的分析而非刻意追求数学模型的复杂，关心数学公式背后的“直觉”；（4）用练习来培养对数据的敏感。本文版权归作者所有，请勿随意转载。作者联系方式：Jiangtang Hu(jiangtanghu[at]gmail.com)&lt;/p&gt;
&lt;/blockquote&gt;</description>
    </item>
    
    <item>
      <title>第一届中国R语言会议将于12月中旬在中国人民大学召开</title>
      <link>https://cosx.org/2008/11/r-conference-notice/</link>
      <pubDate>Mon, 24 Nov 2008 21:07:35 +0000</pubDate>
      
      <guid>https://cosx.org/2008/11/r-conference-notice/</guid>
      <description>&lt;p&gt;第一届R语言将于12月13日~14日在中国人民大学召开，本次会议由中国人民大学应用统计科学研究中心和统计学院共同主办，会议通知如下&lt;/p&gt;</description>
    </item>
    
    <item>
      <title>“统计之都”网站结构调整</title>
      <link>https://cosx.org/2008/11/cos-restructured/</link>
      <pubDate>Sun, 23 Nov 2008 17:22:34 +0000</pubDate>
      
      <guid>https://cosx.org/2008/11/cos-restructured/</guid>
      <description>本文是 2008 年改版时写的，现已过期。以下是原文内容。 大家好，统计之都网站结构已经调整为三大块内容： 主站（博客形式） 维基（统计词条） 论坛（统计学相</description>
    </item>
    
    <item>
      <title>文章列表</title>
      <link>https://cosx.org/archives/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      
      <guid>https://cosx.org/archives/</guid>
      <description>统计之都所有历史文章汇总如下： 2024 2024/10/24 人工阅读 vs AI 阅读：以《苏东坡传》为例 汪利军 2024/10/01 统计月读（2024 年 8-9 月） 2024/10/01 统计月读（2024 年 10 月） 2023 2023/12/22 挑战</description>
    </item>
    
  </channel>
</rss>
