首页
/ 正文

R 语言教程（建议收藏）

更新时间: 2025-04-16 07:47:09

💡一则或许对你有用的小广告

欢迎加入小哈的星球 ，你将获得：专属的项目实战 / 1v1 提问 / Java 学习路线 / 学习打卡 / 每月赠书 / 社群讨论

新项目:《从零手撸：仿小红书（微服务架构）》 正在持续爆肝中，基于 Spring Cloud Alibaba + Spring Boot 3.x + JDK 17...，点击查看项目介绍 ;

《从零手撸：前后端分离博客项目（全栈开发）》 2 期已完结，演示链接： http://116.62.199.48/ ;

截止目前，星球内专栏累计输出 82w+ 字，讲解图 3441+ 张，还在持续爆肝中.. 后续还会上新更多项目，目标是将 Java 领域典型的项目都整一波，如秒杀系统, 在线商城, IM 即时通讯，权限管理，Spring Cloud Alibaba 微服务等等，已有 2900+ 小伙伴加入学习，欢迎点击围观

前言

在数据科学与统计分析领域，R 语言凭借其强大的功能和丰富的生态，成为众多开发者和研究者的首选工具。无论是学术研究、商业分析还是机器学习项目，R 语言都能提供高效、灵活的解决方案。然而，对于编程初学者和中级开发者而言，如何快速掌握 R 语言的核心概念并将其应用于实际场景，往往需要系统化的学习路径。本文将以循序渐进的方式，从基础语法到高级应用，结合具体案例，帮助读者逐步构建 R 语言技能体系。

R 语言基础：语法与核心概念

变量与数据类型

在 R 语言中，变量是存储数据的基本单元。通过赋值操作符 <- 或 =，可以将值或对象分配给变量名。例如：

my_number <- 10  
my_text <- "Hello, R!"  
my_logical <- TRUE

R 支持多种数据类型，包括数值型（numeric）、字符型（character）、逻辑型（logical）等。值得注意的是，R 的向量（Vector）是核心数据结构之一，可以高效存储同类型数据。例如：

numbers <- c(1, 3, 5, 7, 9)  
colors <- c("red", "green", "blue")

比喻理解：
可以将向量想象为一个装满相同类型物品的抽屉，每个元素的位置由索引（从 1 开始）确定。例如，numbers[3] 将返回向量中的第三个元素 5。

控制结构与循环

R 支持条件判断（if/else）和循环（for、while），用于实现程序的逻辑控制。

条件语句示例

x <- 15  
if (x > 10) {  
  print("x 是一个大数")  
} else {  
  print("x 是一个小数")  
}

`for` 循环示例

for (i in 1:5) {  
  print(paste("数字", i, "的平方是", i^2))  
}

比喻理解：
for 循环就像一个勤劳的机器人，按照预设的路径（如 1:5）依次执行任务，每次循环时变量 i 都会更新，直到完成所有步骤。

函数与参数

函数是 R 语言的核心，通过封装代码逻辑，提高复用性和可读性。自定义函数的语法如下：

circle_area <- function(radius) {  
  area <- pi * radius^2  
  return(area)  
}  

result <- circle_area(3)  
print(result)  # 输出约 28.27433

函数参数可以设置默认值，例如：

greet <- function(name = "World") {  
  paste("Hello,", name)  
}  
greet("R 用户")  # 输出 "Hello, R 用户"

数据操作：从导入到分析

数据导入与导出

R 支持多种数据格式的读取，常用的包括 CSV、Excel 和数据库连接。以下以 CSV 文件为例：

data <- read.csv("data.csv")  

head(data)  

write.csv(data, "processed_data.csv", row.names = FALSE)

数据框（Data Frame）操作

数据框是 R 中最常用的数据结构，类似于表格。以下通过 dplyr 包（来自 tidyverse 生态）实现高效数据操作：

安装与加载 `dplyr`

install.packages("dplyr")  
library(dplyr)

常用操作示例

selected_columns <- data %>% select(column1, column2)  

filtered_data <- data %>% filter(age > 30)  

data <- data %>% mutate(total = sales * price)  

summary_data <- data %>% group_by(category) %>% summarise(avg_sales = mean(sales))

合并数据集

使用 dplyr 的 left_join、inner_join 等函数合并数据框：

merged_data <- customers %>% left_join(orders, by = "customer_id")

数据可视化：ggplot2 入门

基本图形构建

ggplot2 是 R 中最强大的可视化工具之一，基于“语法式绘图”理念。以下以内置数据集 mpg 为例：

绘制散点图

library(ggplot2)  
ggplot(data = mpg, aes(x = displ, y = hwy)) +  
  geom_point() +  
  labs(title = "发动机排量与高速油耗的关系",  
       x = "排量（升）",  
       y = "油耗（英里/加仑）")

添加趋势线

ggplot(mpg, aes(displ, hwy)) +  
  geom_point() +  
  geom_smooth(method = "lm", se = FALSE)

图表自定义

通过调整颜色、形状和主题，可以进一步优化可视化效果：

ggplot(mpg, aes(class, hwy)) +  
  geom_boxplot(aes(fill = class)) +  
  theme_minimal() +  
  scale_fill_brewer(palette = "Set2")

统计分析：从描述性统计到回归模型

描述性统计

使用内置函数快速分析数据分布：

mean_values <- mean(data$column)  
median_value <- median(data$column)  
sd_value <- sd(data$column)

线性回归模型

model <- lm(hwy ~ displ + year, data = mpg)  

summary(model)  

new_data <- data.frame(displ = 3.5, year = 2020)  
prediction <- predict(model, new_data)

实际案例：分析鸢尾花数据集

数据探索

R 的内置数据集 iris 是经典案例：

head(iris)  
summary(iris)

可视化分析

绘制不同品种鸢尾花的花瓣长度分布：

ggplot(iris, aes(x = Species, y = Petal.Length, fill = Species)) +  
  geom_boxplot() +  
  labs(title = "不同鸢尾花品种的花瓣长度比较")

统计检验

使用 t 检验比较两种品种的平均花瓣长度：

setosa <- subset(iris, Species == "setosa")$Petal.Length  
versicolor <- subset(iris, Species == "versicolor")$Petal.Length  
t.test(setosa, versicolor)

进阶技巧与资源推荐

环境管理与调试

使用 sessionInfo() 查看当前会话的包版本
通过 traceback() 定位错误
推荐使用 RStudio 开发环境，支持代码高亮、调试和版本控制

扩展学习资源

官方文档：The R Project for Statistical Computing
在线教程：
- R for Data Science （Hadley Wickham 著）
- R-bloggers （社区分享平台）
实践项目：参与 Kaggle 比赛或分析公开数据集

结论

R 语言凭借其灵活性、丰富的包生态和强大的统计功能，已成为数据科学领域的核心工具。通过本文的系统性讲解，读者可以掌握从基础语法到实际应用的全流程技能。无论是处理数据、构建模型还是生成可视化报告，R 语言都能提供高效且直观的解决方案。建议读者通过实践项目不断巩固知识，并关注 R 社区的最新动态，逐步成长为熟练的数据分析师或开发者。

提示：持续练习是掌握 R 语言的关键！尝试将本文中的代码示例应用到自己的数据中，并逐步探索更复杂的分析场景。

R 语言教程（建议收藏）

前言

R 语言基础：语法与核心概念

变量与数据类型

控制结构与循环

条件语句示例

for 循环示例

函数与参数

数据操作：从导入到分析

数据导入与导出

数据框（Data Frame）操作

安装与加载 dplyr

常用操作示例

合并数据集

数据可视化：ggplot2 入门

基本图形构建

绘制散点图

添加趋势线

图表自定义

统计分析：从描述性统计到回归模型

描述性统计

相关性分析

线性回归模型

实际案例：分析鸢尾花数据集

数据探索

可视化分析

统计检验

进阶技巧与资源推荐

环境管理与调试

扩展学习资源

结论

最新发布

Sass 教程（一文讲透）

Sass 安装（一文讲透）

Sass 变量（超详细）

Sass 嵌套规则与属性（长文讲解）

Sass @import 与 Partials（一文讲透）

Sass @mixin 与 @include（手把手讲解）

Sass @extend 与 继承（长文讲解）

Sass 函数（保姆级教程）

Sass String(字符串) 函数（长文讲解）

Sass 数字函数（长文讲解）

`for` 循环示例

安装与加载 `dplyr`

Sass @extend 与继承（长文讲解）