R语言数据分析(一)
前言
在R语言入门系列,我们已经学习了R语言的基本用法,这节开始我们将进一步学习使用R语言进行数据分析的更多方法。学习这部分内容推荐参考书籍:《R for Data Science》。
一、整体介绍
在进行数据分析的时候往往有多种工具可以使用,编程语言中的Python、Julia也都是非常优秀的工具。大多数数据科学团队也都在使用混合语言。但做事情不能贪多,最好一次掌握一种工具,R是一个很好的起点。 接下来的学习中,我将介绍在R处理数据时强有力的实用工具。典型的数据科学研究项目步骤如下图所示:
在进行数据分析时,首先应该先将要分析的数据导入R中。然后根据数据情况进行预处理(整理),将数据整理成方便进行处理的形式。然后会对数据进行转换,可能是缩小数据范围,也可能是根据当前数据来计算新的数据值等。之后就是可视化和建模,这都是解决数据问题的利器(本阶段学习暂不介绍R建模的知识,后续会专门进行专栏介绍)。最后数据处理结果要分享给他人,这是很关键的一步,如何给他人展示自己的数据分析过程和结果,这都是需要学习的。
假设你已经提前对R语言有了一定的了解,知道了R的基本用法(安装了R、RStudio、以及会安装R包),那么就可以开始下面的学习了(相信学习过R语言入门系列的都已经掌握了R基础了)。
二、tidyverse
tidyverse是一个强大的数据分析R包,提供了很多实用的R函数。它是一个组合包,里面包含了9个实用的包。当你加载的时候就会出现:
# 如果没安装该包需要先进行安装: # install.packages("tidyverse") library(tidyverse) #> ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ── #> ✔ dplyr 1.1.3 ✔ readr 2.1.4 #> ✔ forcats 1.0.0 ✔ stringr 1.5.1 #> ✔ ggplot2 3.4.4 ✔ tibble 3.2.1 #> ✔ lubridate 1.9.3 ✔ tidyr 1.3.0 #> ✔ purrr 1.0.2 #> ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ── #> ✖ dplyr::filter() masks stats::filter() #> ✖ dplyr::lag() masks stats::lag() #> ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
注意看加载这个包后会显示函数名与先前加载的包是否冲突(Conflicts)。比如根据冲突显示,在加载该包之前调用fliter()
函数会执行stats
包中的函数,加载后执行的是同名函数dplyr::fliter()
。
处理这些冲突可以实用命名空间来指定包(如:stats::fliter()
)。或者实用conflicted
包设置一个在R对话结束前的规则:
library(conflicted) conflict_prefer("fliter", winner = "dplyr")
后续学习中,当用到新的包时要学会安装和调用。该阶段学习可能会用到的包有:
install.packages( c("arrow", "babynames", "curl", "duckdb", "gapminder", "ggrepel", "ggridges", "ggthemes", "hexbin", "janitor", "Lahman", "leaflet", "maps", "nycflights13", "openxlsx", "palmerpenguins", "repurrrsive", "tidymodels", "writexl") )
三、内容安排
本栏目内容将介绍数据导入(Import)、数据整理(Tidy)、数据转换(Transform)和数据可视化(Visualize)的内容。由于内容较多,每个部分将会分一节或多节进行介绍,另外我们还会在其中穿插介绍R工作流的知识,力求大家写出来的R代码专业简洁好读。
四、参考书目推荐
本部分内容将参考《R for Data Science》进行展开,网站上可以查看该书的全文,对照学习一定会大有裨益 。另外关于数据可视化,再推荐三本书《Fundamentals of Data Visualization》、《R Graphics Cookbook》、《ggplot2: Elegant Graphics for Data Analysis》。大家有时间可以进行查看学习,没时间可以当作工具书,用到相关知识想要进一步理解时可以进行查询。后续有好书还会持续推荐学习。
总结
从这里开始,我们后续将学习使用R进行数据分析处理的方法。数据科学的学习是永无止境的,面对前路漫漫,唯有脚踏实地。虽然当前看来学习的东西可能非常基础,但慢慢地就会发现只有基础打的牢后面才会少走弯路,当你学习的越来越深入,忽然回首会发现轻舟已过万重山。所以,一起加油吧!新年要到了,祝大家新年快乐,龙年大吉!
到此这篇r语言入门数据分析_r语言做回归分析的文章就介绍到这了,更多相关内容请继续浏览下面的相关推荐文章,希望大家都能在编程的领域有一番成就!版权声明:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若内容造成侵权、违法违规、事实不符,请将相关资料发送至xkadmin@xkablog.com进行投诉反馈,一经查实,立即处理!
转载请注明出处,原文链接:https://www.xkablog.com/rfx/1386.html