R 语言教程(建议收藏)
💡一则或许对你有用的小广告
欢迎加入小哈的星球 ,你将获得:专属的项目实战 / 1v1 提问 / Java 学习路线 / 学习打卡 / 每月赠书 / 社群讨论
- 新项目:《从零手撸:仿小红书(微服务架构)》 正在持续爆肝中,基于
Spring Cloud Alibaba + Spring Boot 3.x + JDK 17...
,点击查看项目介绍 ;- 《从零手撸:前后端分离博客项目(全栈开发)》 2 期已完结,演示链接: http://116.62.199.48/ ;
截止目前, 星球 内专栏累计输出 82w+ 字,讲解图 3441+ 张,还在持续爆肝中.. 后续还会上新更多项目,目标是将 Java 领域典型的项目都整一波,如秒杀系统, 在线商城, IM 即时通讯,权限管理,Spring Cloud Alibaba 微服务等等,已有 2900+ 小伙伴加入学习 ,欢迎点击围观
前言
在数据科学与统计分析领域,R 语言凭借其强大的功能和丰富的生态,成为众多开发者和研究者的首选工具。无论是学术研究、商业分析还是机器学习项目,R 语言都能提供高效、灵活的解决方案。然而,对于编程初学者和中级开发者而言,如何快速掌握 R 语言的核心概念并将其应用于实际场景,往往需要系统化的学习路径。本文将以循序渐进的方式,从基础语法到高级应用,结合具体案例,帮助读者逐步构建 R 语言技能体系。
R 语言基础:语法与核心概念
变量与数据类型
在 R 语言中,变量是存储数据的基本单元。通过赋值操作符 <-
或 =
,可以将值或对象分配给变量名。例如:
my_number <- 10
my_text <- "Hello, R!"
my_logical <- TRUE
R 支持多种数据类型,包括数值型(numeric)、字符型(character)、逻辑型(logical)等。值得注意的是,R 的向量(Vector)是核心数据结构之一,可以高效存储同类型数据。例如:
numbers <- c(1, 3, 5, 7, 9)
colors <- c("red", "green", "blue")
比喻理解:
可以将向量想象为一个装满相同类型物品的抽屉,每个元素的位置由索引(从 1 开始)确定。例如,numbers[3]
将返回向量中的第三个元素 5
。
控制结构与循环
R 支持条件判断(if
/else
)和循环(for
、while
),用于实现程序的逻辑控制。
条件语句示例
x <- 15
if (x > 10) {
print("x 是一个大数")
} else {
print("x 是一个小数")
}
for
循环示例
for (i in 1:5) {
print(paste("数字", i, "的平方是", i^2))
}
比喻理解:
for
循环就像一个勤劳的机器人,按照预设的路径(如 1:5
)依次执行任务,每次循环时变量 i
都会更新,直到完成所有步骤。
函数与参数
函数是 R 语言的核心,通过封装代码逻辑,提高复用性和可读性。自定义函数的语法如下:
circle_area <- function(radius) {
area <- pi * radius^2
return(area)
}
result <- circle_area(3)
print(result) # 输出约 28.27433
函数参数可以设置默认值,例如:
greet <- function(name = "World") {
paste("Hello,", name)
}
greet("R 用户") # 输出 "Hello, R 用户"
数据操作:从导入到分析
数据导入与导出
R 支持多种数据格式的读取,常用的包括 CSV、Excel 和数据库连接。以下以 CSV 文件为例:
data <- read.csv("data.csv")
head(data)
write.csv(data, "processed_data.csv", row.names = FALSE)
数据框(Data Frame)操作
数据框是 R 中最常用的数据结构,类似于表格。以下通过 dplyr
包(来自 tidyverse 生态)实现高效数据操作:
安装与加载 dplyr
install.packages("dplyr")
library(dplyr)
常用操作示例
selected_columns <- data %>% select(column1, column2)
filtered_data <- data %>% filter(age > 30)
data <- data %>% mutate(total = sales * price)
summary_data <- data %>% group_by(category) %>% summarise(avg_sales = mean(sales))
合并数据集
使用 dplyr
的 left_join
、inner_join
等函数合并数据框:
merged_data <- customers %>% left_join(orders, by = "customer_id")
数据可视化:ggplot2 入门
基本图形构建
ggplot2
是 R 中最强大的可视化工具之一,基于“语法式绘图”理念。以下以内置数据集 mpg
为例:
绘制散点图
library(ggplot2)
ggplot(data = mpg, aes(x = displ, y = hwy)) +
geom_point() +
labs(title = "发动机排量与高速油耗的关系",
x = "排量(升)",
y = "油耗(英里/加仑)")
添加趋势线
ggplot(mpg, aes(displ, hwy)) +
geom_point() +
geom_smooth(method = "lm", se = FALSE)
图表自定义
通过调整颜色、形状和主题,可以进一步优化可视化效果:
ggplot(mpg, aes(class, hwy)) +
geom_boxplot(aes(fill = class)) +
theme_minimal() +
scale_fill_brewer(palette = "Set2")
统计分析:从描述性统计到回归模型
描述性统计
使用内置函数快速分析数据分布:
mean_values <- mean(data$column)
median_value <- median(data$column)
sd_value <- sd(data$column)
相关性分析
correlation <- cor(data$variable1, data$variable2)
print(paste("相关系数为", round(correlation, 2)))
线性回归模型
model <- lm(hwy ~ displ + year, data = mpg)
summary(model)
new_data <- data.frame(displ = 3.5, year = 2020)
prediction <- predict(model, new_data)
实际案例:分析鸢尾花数据集
数据探索
R 的内置数据集 iris
是经典案例:
head(iris)
summary(iris)
可视化分析
绘制不同品种鸢尾花的花瓣长度分布:
ggplot(iris, aes(x = Species, y = Petal.Length, fill = Species)) +
geom_boxplot() +
labs(title = "不同鸢尾花品种的花瓣长度比较")
统计检验
使用 t 检验比较两种品种的平均花瓣长度:
setosa <- subset(iris, Species == "setosa")$Petal.Length
versicolor <- subset(iris, Species == "versicolor")$Petal.Length
t.test(setosa, versicolor)
进阶技巧与资源推荐
环境管理与调试
- 使用
sessionInfo()
查看当前会话的包版本 - 通过
traceback()
定位错误 - 推荐使用 RStudio 开发环境,支持代码高亮、调试和版本控制
扩展学习资源
- 官方文档:The R Project for Statistical Computing
- 在线教程:
- R for Data Science (Hadley Wickham 著)
- R-bloggers (社区分享平台)
- 实践项目:参与 Kaggle 比赛或分析公开数据集
结论
R 语言凭借其灵活性、丰富的包生态和强大的统计功能,已成为数据科学领域的核心工具。通过本文的系统性讲解,读者可以掌握从基础语法到实际应用的全流程技能。无论是处理数据、构建模型还是生成可视化报告,R 语言都能提供高效且直观的解决方案。建议读者通过实践项目不断巩固知识,并关注 R 社区的最新动态,逐步成长为熟练的数据分析师或开发者。
提示:持续练习是掌握 R 语言的关键!尝试将本文中的代码示例应用到自己的数据中,并逐步探索更复杂的分析场景。