我之前分享过R和python语言的区别与联系,python确实有很大的优势,尤其是在数据分析方面,但不代表python战无不胜,他也有自己的短板,不同的语言有自己的长处,我们要结合场景进行选择,
我们已经看过如何使用R和Python分析数据集。我们没有涉及许多任务,例如,保留分析结果,与他人共享结果,进行测试并使产品准备就绪并进行更多可视化。关于此主题还有很多要讨论的内容,但是基于上面所做的事情,我们可以得出一些有意义的结论:
R的功能更多,Python的更面向对象。
正如我们从,和其他函数中看到的那样lm,predictR让函数完成了大部分工作。将此与LinearRegressionPython中的类以及sample数据框上的方法进行对比。
R具有更多内置的数据分析功能,Python依赖于软件包。
在查看摘要统计信息时,我们可以使用summaryR中的内置函数,但必须statsmodels在Python中导入该包。数据框是R中的内置构造,但必须通过pandasPython中的包导入。
Python具有用于数据分析任务的“主要”软件包,R具有较大的小型软件包生态系统。
使用Python,我们可以使用scikit-learn软件包进行线性回归,随机森林等等。它提供一致的API,并且维护良好。在R中,我们有更多的软件包多样性,但也有更大的碎片化和更少的一致性(线性回归是内置的lm,randomForest是单独的软件包,等等)。
R通常具有更多的统计支持。
R被构建为一种统计语言,它可以显示。statsmodelsPython和其他软件包中的XML提供了不错的统计方法覆盖范围,但是R生态系统要大得多。
在Python中执行非统计性任务通常更为直接。
使用BeautifulSoup和请求等维护良好的库,Python中的Web抓取要比R中的要容易得多。这适用于我们没有仔细研究的其他任务,例如保存到数据库,部署Web服务器或运行复杂的工作流程。
两者中的数据分析工作流之间有很多相似之处。
R和Python之间都有明显的灵感点(pandas数据框受R数据框启发,rvest软件包受BeautifulSoup启发),并且两个生态系统都在不断壮大。令人惊讶的是,两种语言中许多常见任务的语法和方法多么相似。
Python vs R的最终结论
最终,您可能最终想要学习Python 和 R,以便可以利用两种语言的优势,根据需要在每个项目中选择一种或另一种。当然,如果您要在数据科学领域中寻找一席之地,那么同时了解两者也会使您成为更灵活的求职者。
一些免费的资料你可以看看#数据分析#小白零基础入门Pythonhdxu.cn