R 语言的优劣势是什么?

数学工具
关注者
2,234
被浏览
1,013,001

44 个回答

就一个R和SAS精通程度几乎相同,在两种环境下都做过比较大(moderately big, ~xx Gb)的数据分析,与其他语言环境嵌合(SQL, Perl, etc...)使用过的个人(统计专业人员,非编程专业人员)的感受而言:

R的优点:

1. 免费... 开源... (这是最重要的一点好不好,也是SAS流行于公司,R流行于研究机构和大学的最主要原因)

2. 是专门为统计和数据分析开发的语言,各种功能和函数琳琅满目,其中成熟稳定的一抓一把

3. 语言简单易学。虽与C语言之类的程序设计语言已差别很大(比如语言结构相对松散,使用变量前不需明确正式定义变量类型等等),但仍保留了程序设计语言的基础逻辑与自然的语言风格。我这样说可能让人听得云里雾里,但是如果你对SAS或者SPSS有一点点了解,就会明白我的意思了...

4. 小... 安装程序只有50Mb左右,比起某些死贵且3个G的付费软件真的是超级迷你小巧玲珑... 因为体积轻便,运行起来系统负担也小。

5. 同各种OS的兼容性好。我两台本本一台Windows,一台Linux,都用得很顺手。相比之下,你有见过人在Mac上用SAS吗... 这人是要多么的想不开... =. =

6. 因为用的人越来越多,又是开源,有很多配套的“插件”为其锦上添花。比如xtable里有一个函数可以直接将R里的表格导出为TeX格式;另有RStudio的插件让你可以在同一个环境里写TeX跑R并可在你的TeX文件中插入你的R代码,多么的贤良淑德... (这个插件我没用过,不过我同学一天到晚在用)

7. 有R GUI和RStudio两种风格供君选择,说实话我觉得这两种风格已经涵括了大多数人的使用偏好...

8. 已经提过了开源,还想再强调一下。各种包和函数的透明性极好,这使得对函数的调整和改良变得非常便利。只需要把源码调出来,自己稍微修改一下就可以了。这种事情放在任何其他统计软件里都近乎奢望。

9. 如果你做Bayesian,用R你有OpenBUGS, WinBUGS, JAGS等各种成熟活泼的包裹,很多语言又简单又附带各种预设的plot,你只需调用即可;还可以自己写MCMC。如果你用SAS/SPSS/Stata,你可以... @@? = =bbb

10. 漂亮又灵活的图,大家也都已经讲过了。原本不是什么特别突出的长处(有则好,没也没啥),不过现在数据可视化越来越热,也就一跃成为主要优点了。

说说缺点:

1. 对大文本(text data)处理极差... 或者说data management本就不是R的强项。SAS于R的最大优势之一可能就在于它兼顾了数据分析和数据管理。在SAS里对数据进行各种复杂操作都相对容易,只需要简单的DATA STEP(必要时结合PROC SQL)即可完成;在R里可就真的是千辛万苦... 虽然也有相应的aggregate, merge之类的函数,但是大都不太好用。这也是为什么大家常常把数据(尤其是数据大时)在别的环境下整好/分割好再喂给R。人家术业有专攻,数据管理真是有些难为它了。

2. 内存管理和平行处理(parallel processing/programming)都为人诟病。数据小时没有感觉,数据大了就各种报错... =. =

3. package的可靠性问题。我第一门完全使用R做作业的课是门统计课,教授已经六十多岁,见过各种统计软件的出生发展和湮没。她同我们说到R时第一句话就是Never use a package before you understand the manual and confirm the validity of the functions. 也就是包裹虽然好,使用需谨慎。主要原因还是在于开源。不常用的package一定要搞清楚函数的用法和核实过输出,不然真的不推荐使用。我个人也是倾向非常用函数尽量自己写,至少错了也容易debug...

4. 不得不提的package的版本问题。 就算你确认了包裹的可靠性并熟知了各个变量要怎么用,还是可能掉入潜在的陷阱=. = 讲个真事:去年工作的时候一个项目是使用11年某项目的一个贝叶斯模型分析新的数据。当年写代码的人因为相信末日说两年前就已经辞职环游世界去了,于是我只好独自研读他的代码。第一步,很自然的,就是重复当年的分析结果。这时发现当年他用的一个package和现在的R已经不兼容,于是就下载了这个package的最新版本。结果有一个简单的credible interval怎么都重复不出来... 怎么怎么都重复不出来... 我都快绝望了。最后经各种推理验证,发现这个区别源自于新旧版本的函数内部在对数据排序之后对NaN的不同处理... 而这个小小的修改未在任何地方留下任何文字记录。所以怎么说呢... 很多时候还是写自己的程序靠谱哇...

5. 当你跑比较大的simulation,对效率有要求的时候,有时还是不得不用C,这可能是10小时和10分钟的差别,毫不夸张。

6. 想不出来乐 =w=

大致就是这样。

最后,因为不是学计算机出身,文中与编程语言和系统相关的措辞可能不准确或有误用,请程序员们多包涵=)

作为一个资深的数据从业者,我和同事们一起讨论过相关工具的优劣是:

R语言

优点:

  1. 免费/包多,上手快,还有其他提到的;
  2. 我们使用下来R最好功能是:画图,(ggplot2,plotly,shiny,ggmap,用起来真的很方便),ggplot2画静态图,plotly画交互图、shiny可以用网页交互,ggmap画地图类可视化
  3. 基于内存,训练速度还算快,代码量少;
  4. 开源,开发者还不少,是个不断壮大的社区,并且也发展的比较成熟了
  5. 轻量,使用数据量相对少的模型项目,几个G的数据,用16G内存的电脑吃得消;
  6. Rstudio用起来真的挺好的,界面非常友好,是个很优秀的IDE;

缺点:

  1. 很多人懂R语言,写出来的代码速度非常慢,特别是有些人老是喜欢写循环,我想说的是R语言恨透了循环。毕竟不是每个人都会用Rcpp写代码的;
  2. 目前主流的DeepLearning的包都没有相关的R package,而python通吃;R现在只有一个明星产品mxnet,h2o勉强算1/4;
  3. 数据量足够大了之后,R肯定是不适合了,内存要爆掉的;
  4. R的package非常的泛,开发包的人水平参差不齐,很多package都没有持续的更新,很多bug都没有修复(python相对来说会好很多,sklearn持续更新)
  5. 如果是在服务器上安装R的package,你想死的心都有,因为依赖、依赖、依赖啊,在不能联网的服务器上,你要手工的把依赖、依赖、依赖包都线安装好,心真累;

给个R,我个人收集的一些资料,有一些常用的入门书籍和一些常用的R的blog:

[github.com/pjpan/DataSc]


另外,机器学习常用的包罗列如下,精通了这些基本上够用了;

有个链接收藏了很多R相关的内容:

GitHub - qinwf/awesome-R: A curated list of awesome R packages, frameworks and software.
  • data.table(fread,load速度最快,有个缺点,有时候识别不出有些数值型变量)
  • readr
  • caret
  • dplyr
  • tidyr
  • lubridate(处理日期最好用的包,R的时间处理实在是太复杂了)
  • ggplot2(图画界的王者 )
  • plotly(交互图,鼠标hover上面可以看到图上的数值)
  • ggmap(很多时候需要翻墙,需要用到googlemap,其他替代方面,网络上有)
  • gbm(要被替代掉了,xgboost已经横行工业界了)
  • xgboost(目前的算法王者,回归、分类、排序通吃)
  • randomforest(速度太慢了,跑模型的时候可以去喝个下午茶)
  • glmnet(L1,L2毫无压力)
  • libsvm(e1071)(需要很有耐心,训练速度很慢;)