R 语言教程(建议收藏)

更新时间:

💡一则或许对你有用的小广告

欢迎加入小哈的星球 ,你将获得:专属的项目实战 / 1v1 提问 / Java 学习路线 / 学习打卡 / 每月赠书 / 社群讨论

  • 新项目:《从零手撸:仿小红书(微服务架构)》 正在持续爆肝中,基于 Spring Cloud Alibaba + Spring Boot 3.x + JDK 17...点击查看项目介绍 ;
  • 《从零手撸:前后端分离博客项目(全栈开发)》 2 期已完结,演示链接: http://116.62.199.48/ ;

截止目前, 星球 内专栏累计输出 82w+ 字,讲解图 3441+ 张,还在持续爆肝中.. 后续还会上新更多项目,目标是将 Java 领域典型的项目都整一波,如秒杀系统, 在线商城, IM 即时通讯,权限管理,Spring Cloud Alibaba 微服务等等,已有 2900+ 小伙伴加入学习 ,欢迎点击围观

前言

在数据科学与统计分析领域,R 语言凭借其强大的功能和丰富的生态,成为众多开发者和研究者的首选工具。无论是学术研究、商业分析还是机器学习项目,R 语言都能提供高效、灵活的解决方案。然而,对于编程初学者和中级开发者而言,如何快速掌握 R 语言的核心概念并将其应用于实际场景,往往需要系统化的学习路径。本文将以循序渐进的方式,从基础语法到高级应用,结合具体案例,帮助读者逐步构建 R 语言技能体系。


R 语言基础:语法与核心概念

变量与数据类型

在 R 语言中,变量是存储数据的基本单元。通过赋值操作符 <-=,可以将值或对象分配给变量名。例如:

my_number <- 10  
my_text <- "Hello, R!"  
my_logical <- TRUE  

R 支持多种数据类型,包括数值型(numeric)、字符型(character)、逻辑型(logical)等。值得注意的是,R 的向量(Vector)是核心数据结构之一,可以高效存储同类型数据。例如:

numbers <- c(1, 3, 5, 7, 9)  
colors <- c("red", "green", "blue")  

比喻理解
可以将向量想象为一个装满相同类型物品的抽屉,每个元素的位置由索引(从 1 开始)确定。例如,numbers[3] 将返回向量中的第三个元素 5


控制结构与循环

R 支持条件判断(if/else)和循环(forwhile),用于实现程序的逻辑控制。

条件语句示例

x <- 15  
if (x > 10) {  
  print("x 是一个大数")  
} else {  
  print("x 是一个小数")  
}  

for 循环示例

for (i in 1:5) {  
  print(paste("数字", i, "的平方是", i^2))  
}  

比喻理解
for 循环就像一个勤劳的机器人,按照预设的路径(如 1:5)依次执行任务,每次循环时变量 i 都会更新,直到完成所有步骤。


函数与参数

函数是 R 语言的核心,通过封装代码逻辑,提高复用性和可读性。自定义函数的语法如下:

circle_area <- function(radius) {  
  area <- pi * radius^2  
  return(area)  
}  

result <- circle_area(3)  
print(result)  # 输出约 28.27433  

函数参数可以设置默认值,例如:

greet <- function(name = "World") {  
  paste("Hello,", name)  
}  
greet("R 用户")  # 输出 "Hello, R 用户"  

数据操作:从导入到分析

数据导入与导出

R 支持多种数据格式的读取,常用的包括 CSV、Excel 和数据库连接。以下以 CSV 文件为例:

data <- read.csv("data.csv")  

head(data)  

write.csv(data, "processed_data.csv", row.names = FALSE)  

数据框(Data Frame)操作

数据框是 R 中最常用的数据结构,类似于表格。以下通过 dplyr 包(来自 tidyverse 生态)实现高效数据操作:

安装与加载 dplyr

install.packages("dplyr")  
library(dplyr)  

常用操作示例

selected_columns <- data %>% select(column1, column2)  

filtered_data <- data %>% filter(age > 30)  

data <- data %>% mutate(total = sales * price)  

summary_data <- data %>% group_by(category) %>% summarise(avg_sales = mean(sales))  

合并数据集

使用 dplyrleft_joininner_join 等函数合并数据框:

merged_data <- customers %>% left_join(orders, by = "customer_id")  

数据可视化:ggplot2 入门

基本图形构建

ggplot2 是 R 中最强大的可视化工具之一,基于“语法式绘图”理念。以下以内置数据集 mpg 为例:

绘制散点图

library(ggplot2)  
ggplot(data = mpg, aes(x = displ, y = hwy)) +  
  geom_point() +  
  labs(title = "发动机排量与高速油耗的关系",  
       x = "排量(升)",  
       y = "油耗(英里/加仑)")  

添加趋势线

ggplot(mpg, aes(displ, hwy)) +  
  geom_point() +  
  geom_smooth(method = "lm", se = FALSE)  

图表自定义

通过调整颜色、形状和主题,可以进一步优化可视化效果:

ggplot(mpg, aes(class, hwy)) +  
  geom_boxplot(aes(fill = class)) +  
  theme_minimal() +  
  scale_fill_brewer(palette = "Set2")  

统计分析:从描述性统计到回归模型

描述性统计

使用内置函数快速分析数据分布:

mean_values <- mean(data$column)  
median_value <- median(data$column)  
sd_value <- sd(data$column)  

相关性分析

correlation <- cor(data$variable1, data$variable2)  
print(paste("相关系数为", round(correlation, 2)))  

线性回归模型

model <- lm(hwy ~ displ + year, data = mpg)  

summary(model)  

new_data <- data.frame(displ = 3.5, year = 2020)  
prediction <- predict(model, new_data)  

实际案例:分析鸢尾花数据集

数据探索

R 的内置数据集 iris 是经典案例:

head(iris)  
summary(iris)  

可视化分析

绘制不同品种鸢尾花的花瓣长度分布:

ggplot(iris, aes(x = Species, y = Petal.Length, fill = Species)) +  
  geom_boxplot() +  
  labs(title = "不同鸢尾花品种的花瓣长度比较")  

统计检验

使用 t 检验比较两种品种的平均花瓣长度:

setosa <- subset(iris, Species == "setosa")$Petal.Length  
versicolor <- subset(iris, Species == "versicolor")$Petal.Length  
t.test(setosa, versicolor)  

进阶技巧与资源推荐

环境管理与调试

  • 使用 sessionInfo() 查看当前会话的包版本
  • 通过 traceback() 定位错误
  • 推荐使用 RStudio 开发环境,支持代码高亮、调试和版本控制

扩展学习资源

  1. 官方文档The R Project for Statistical Computing
  2. 在线教程
  3. 实践项目:参与 Kaggle 比赛或分析公开数据集

结论

R 语言凭借其灵活性、丰富的包生态和强大的统计功能,已成为数据科学领域的核心工具。通过本文的系统性讲解,读者可以掌握从基础语法到实际应用的全流程技能。无论是处理数据、构建模型还是生成可视化报告,R 语言都能提供高效且直观的解决方案。建议读者通过实践项目不断巩固知识,并关注 R 社区的最新动态,逐步成长为熟练的数据分析师或开发者。

提示:持续练习是掌握 R 语言的关键!尝试将本文中的代码示例应用到自己的数据中,并逐步探索更复杂的分析场景。

最新发布