# 设置清华大学 CRAN 镜像
options(repos = c(CRAN = "https://mirrors.tuna.tsinghua.edu.cn/CRAN/"))5 研究环境搭建
6 研究环境搭建
工欲善其事,必先利其器。在开始数据采集与预处理之前,我们需要搭建一个标准化的研究环境。本章将指导你安装和配置课程所需的全部软件工具。
6.1 R 与 Positron
R 是本课程的主要编程语言,Positron 是 R 最常用的集成开发环境(IDE)。
6.1.1 安装 R
R 是本课程的主要编程语言,推荐使用 R-4.4.x 系列版本。R 的安装相对简单,但有一些细节需要注意,否则后续安装包时可能会遇到问题。
Windows 系统安装
- 访问 R 官方网站:<https://cran.r-project.org/
- 点击 “Download R for Windows” → “base”
- 下载最新版本(如 R-4.4.x-win.exe)
- 双击安装程序,按以下步骤操作:
- 选择安装语言(建议选择 English,避免中文路径问题)
- 接受许可协议
- 选择安装路径(重要:避免中文路径,建议使用
C:\R\R-4.4.x) - 选择组件:保持默认(Core Files + 64-bit Files)
- 启动选项:保持默认
- 是否创建桌面快捷方式:可选
- 安装完成后,点击 “Finish”
为什么不要用中文路径?
R 的很多包在安装和加载时会调用系统命令,如果路径包含中文字符,可能导致莫名其妙的报错。例如,某些包在加载时会尝试读取 DLL 文件,但 DLL 不支持中文路径,导致加载失败。为避免这类问题,建议一开始就将 R 安装在纯英文路径下。
macOS 系统安装
- 访问 R 官方网站:https://cran.r-project.org/
- 点击 “Download R for macOS”
- 根据 Mac 芯片类型选择:
- Apple Silicon (M1/M2/M3):下载
R-4.4.x-arm64.pkg - Intel 芯片:下载
R-4.4.x-x86_64.pkg
- Apple Silicon (M1/M2/M3):下载
- 双击 .pkg 文件,按提示安装
Linux 系统安装
# Ubuntu/Debian
sudo apt update
sudo apt install r-base r-base-dev
R --version# CentOS/RHEL
sudo yum install epel-release
sudo yum install R
R --version安装后验证
安装完成后,打开 Positron(Windows)或终端输入 R(macOS/Linux),验证安装成功:
R.version.string
# [1] "R version 4.4.0 (2024-04-24)"
sessionInfo()
# R version 4.4.0
# Platform: x86_64-w64-mingw32/x64 (64-bit)常见问题
- 安装路径有中文:重装 R,选择纯英文路径
- 安装后找不到 R:在开始菜单搜索 “R”,或检查是否安装成功
- 安装过旧版本:先卸载旧版本,再安装新版本
生态学案例
某同学在安装 R 时,使用了默认路径 C:\Program Files\R\R-4.4.0。后续安装 vegan 包时总是报错,提示”无法找到某个 DLL 文件”。排查了很久,最后发现是路径中的空格(Program Files 有空格)导致的问题。重装到 C:\R\R-4.4.0 后问题解决。这个教训说明:安装路径的细节真的很重要。
扩展记录:2026-04-09 | 目标字数:800+
6.2 安装路径注意事项
- 避免中文路径:不要安装到
C:\程序文件\或包含中文的文件夹 - 避免空格:虽然
Program Files包含空格,但这是系统默认路径,R 可以正确处理 - 推荐路径:
C:\R\R-4.4.x或D:\R\R-4.4.x(更简洁) :::
macOS 系统安装步骤
- 访问 R 官方网站:https://cran.r-project.org/
- 点击 “Download R for macOS”
- 根据你的 Mac 芯片类型选择:
- Apple Silicon (M1/M2/M3):下载
R-4.4.x-arm64.pkg - Intel 芯片:下载
R-4.4.x-x86_64.pkg
- Apple Silicon (M1/M2/M3):下载
- 双击 .pkg 文件,按提示安装
- 可能需要在 “系统偏好设置” → “安全性与隐私” 中允许安装
点击屏幕左上角 图标 → “关于本机” → 查看 “芯片” 或 “处理器” 信息: - 显示 “Apple M1/M2/M3” → 选择 ARM64 版本 - 显示 “Intel Core” → 选择 x86_64 版本
Linux 系统安装步骤
Ubuntu/Debian 系统:
# 更新软件源
sudo apt update
# 安装 R 基础包
sudo apt install r-base r-base-dev
# 验证安装
R --versionCentOS/RHEL 系统:
# 启用 EPEL 仓库
sudo yum install epel-release
# 安装 R
sudo yum install R
# 验证安装
R --version6.2.1 安装 Positron
Windows 系统
- 访问 Positron 下载页面:<https://posit.com/download/
- 页面会自动检测你的操作系统,点击 “Download Positron Desktop for Windows”
- 下载完成后,双击
Positron-2024.x.x.exe安装程序 - 安装步骤:
- 接受许可协议
- 选择安装路径(建议保持默认
C:\Program Files\Positron) - 选择开始菜单文件夹(保持默认)
- 是否创建桌面快捷方式(建议勾选)
- 安装完成后,双击桌面图标启动 Positron
macOS 系统
- 访问 Positron 下载页面:<https://posit.com/download/
- 下载
Positron-2024.x.x.dmg文件 - 双击 .dmg 文件,将 Positron 图标拖到 Applications 文件夹
- 在 “应用程序” 中找到 Positron,双击启动
- 首次启动可能提示 “无法验证开发者”,需要:
- 打开 “系统偏好设置” → “安全性与隐私”
- 点击 “仍要打开” 按钮
Linux 系统
Ubuntu/Debian:
# 下载 Positron(以 Ubuntu 22.04 为例)
wget https://github.com/posit-dev/positron/releases/download/v2024.x.x/Positron-2024.x.x-linux-amd64.deb
# 安装
sudo dpkg -i Positron-2024.x.x-linux-amd64.deb
# 如果有依赖问题,运行:
sudo apt-get install -fCentOS/RHEL:
# 下载 Positron
wget https://github.com/posit-dev/positron/releases/download/v2024.x.x/Positron-2024.x.x-linux-x86_64.rpm
# 安装
sudo yum install Positron-2024.x.x-linux-x86_64.rpm首次启动配置
首次打开 Positron 后,建议进行以下配置:
- 设置工作目录:
- Settings → Application
- 取消勾选 “Restore .RData into workspace at startup”(避免加载旧数据)
- 将 “Save workspace to .RData on exit” 改为 “Never”(避免自动保存)
- 设置代码显示:
- Tools → Global Options → Code → Display
- 勾选 “Show line numbers”(显示行号)
- 勾选 “Highlight R function calls”(高亮函数调用)
- 设置外观:
- Tools → Global Options → Appearance
- 选择你喜欢的编辑器主题(如 Cobalt 或 Tomorrow Night)
- 调整字体大小(建议 12-14)
6.2.2 验证安装
安装完成后,需要验证 R 是否正确安装以及基本功能是否正常。以下是推荐的验证步骤。
基本验证
# 在 Positron 或 Positron 终端中执行
R.version.string
# 应显示类似:
# [1] "R version 4.4.0 (2024-04-24)"
sessionInfo()
# 显示 R 版本、操作系统、已加载的包等信息进阶验证:测试包安装
安装 R 后,建议测试一个简单包的安装和加载:
# 安装并加载一个常用包
install.packages("tidyverse")
library(tidyverse)
# 测试基本操作
tibble(x = 1:5, y = letters[1:5])
# 应输出:
# # A tibble: 5 x 2
# x y
# <int> <chr>
# 1 1 a
# 2 2 b
# 3 3 c
# 4 4 d
# 5 5 e 常见失败及解决
- “package … is not available”:检查网络连接,或尝试切换 CRAN 镜像
- “installation of package … had non-zero exit status”:可能是缺少编译工具,Windows 用户需要安装 Rtools
- “unable to access index for repository”:网络问题或镜像不可用,尝试其他镜像
扩展记录:2026-04-09 | 目标字数:800+
6.3 Positron 界面说明
Positron 默认分为 4 个窗口:
- 左上:脚本编辑器(Script Editor)—— 编写和保存 R 代码
- 左下:终端(Console)—— 交互式运行 R 命令,查看输出
- 右上:环境/历史(Environment/History)—— 查看当前变量和命令历史
- 右下:文件/图表/帮助(Files/Plots/Help)—— 浏览文件、查看图表、阅读帮助文档
首次使用时,左上角可能没有脚本编辑器,点击 File → New File → R File 即可打开。 :::
6.3.1 配置 CRAN 镜像源
在安装 R 包之前,强烈建议先配置国内镜像源,可以大幅提升下载速度。
方法一:临时设置(仅当前会话有效)
方法二:永久设置(推荐)
在 Positron 中:
- 点击 Settings → Extensions → R
- 在 “Primary CRAN repository” 下拉菜单中选择 “Custom”
- 输入镜像地址:
https://mirrors.tuna.tsinghua.edu.cn/CRAN/ - 点击 OK 保存
或者手动编辑配置文件:
# 查看 R 配置文件路径
file.path(Sys.getenv("HOME"), ".Rprofile")
# 编辑配置文件(会自动打开编辑器)
file.edit("~/.Rprofile")在打开的文件中添加以下内容:
# 设置 CRAN 镜像
options(repos = c(CRAN = "https://mirrors.tuna.tsinghua.edu.cn/CRAN/"))
# 设置 Bioconductor 镜像(如果需要生物信息学包)
options(BioC_mirror = "https://mirrors.tuna.tsinghua.edu.cn/bioconductor")保存后重启 Positron,镜像设置即永久生效。
- 清华大学:
https://mirrors.tuna.tsinghua.edu.cn/CRAN/(推荐) - 中国科技大学:
https://mirrors.ustc.edu.cn/CRAN/ - 兰州大学:
https://mirror.lzu.edu.cn/CRAN/ - 北京外国语大学:
https://mirrors.bfsu.edu.cn/CRAN/
如果某个镜像速度慢或无法访问,可以尝试切换到其他镜像。
6.3.2 安装课程常用 R 包
配置好镜像后,开始安装本课程所需的 R 包。
核心数据处理包
# tidyverse 是 R 数据科学的核心包集合
# 包含:dplyr(数据处理)、tidyr(数据整理)、ggplot2(可视化)、
# readr(数据读取)、purrr(函数式编程)、stringr(字符串处理)等
install.packages("tidyverse")
# 数据读取相关
install.packages("readxl") # 读取 Excel 文件(.xls, .xlsx)
install.packages("haven") # 读取 SPSS/Stata/SAS 文件
install.packages("jsonlite") # 读取 JSON 数据
install.packages("xml2") # 读取 XML 数据数据可视化增强包
# 可视化增强
install.packages("corrplot") # 相关性矩阵可视化
install.packages("patchwork") # 图表拼接和布局
install.packages("ggpubr") # 出版级图表
install.packages("scales") # 坐标轴格式化统计分析包
# 荟萃分析
install.packages("metafor") # 荟萃分析核心包
install.packages("meta") # 荟萃分析辅助包
# 其他统计分析
install.packages("psych") # 心理测量和统计
install.packages("car") # 回归分析诊断文档渲染包
# Quarto 和 R Markdown 支持
install.packages("knitr") # 动态文档生成
install.packages("rmarkdown") # R Markdown 支持
install.packages("tinytex") # LaTeX 支持(用于生成 PDF)生态学专用包(可选)
# 生态学数据分析常用包
install.packages("vegan") # 群落生态学分析
install.packages("ade4") # 多元数据分析
install.packages("BiodiversityR") # 生物多样性分析
install.packages("picante") # 系统发育生态学tidyverse包含多个子包,首次安装可能需要 5-10 分钟- 如果提示 “Do you want to install from sources the package which needs compilation?”,选择 No(选择预编译版本,更快)
- 安装过程中可能会看到红色文字,这是正常的编译信息,不是错误
6.3.3 验证 R 包安装
安装完 R 包后,需要验证所有包都能正常加载。以下是推荐的验证流程。
基本加载测试
# 定义需要验证的包列表
packages <- c(
"tidyverse", "readxl", "haven", "jsonlite",
"corrplot", "patchwork", "ggpubr",
"metafor", "knitr", "rmarkdown"
)
# 逐个加载并检查
results <- sapply(packages, function(pkg) {
result <- tryCatch({
library(pkg, character.only = TRUE)
TRUE
}, error = function(e) FALSE)
result
})
# 打印结果
cat("包加载验证结果:\n")
for (pkg in names(results)) {
status <- if (results[pkg]) "\u2713 成功" else "\u2717 失败"
cat(status, pkg, "\n")
}版本检查
# 查看已安装包的版本
installed.packages()[, c("Package", "Version")] |>
as_tibble() |>
filter(Package %in% packages) |>
print(n = 20)
# 查看 R 和关键包的版本
cat("R 版本:", R.version.string, "\n")
cat("tidyverse 版本:", packageVersion("tidyverse"), "\n")常见问题
- 加载失败:检查是否安装成功(无报错才是成功)
- 版本过旧:
update.packages()更新到最新版本 - 包损坏:重新安装该包
install.packages("包名")
扩展记录:2026-04-09 | 目标字数:800+
6.3.4 常见安装问题及解决方案
问题 1:“package ‘xxx’ is not available”
原因:包名拼写错误,或该包已从 CRAN 移除。
解决方案:
# 检查包名是否正确
available.packages()["包名", ]
# 如果包已归档,从归档安装
install.packages("包名", repos = "https://cran.r-project.org/src/contrib/Archive/包名/")问题 2:“installation of package ‘xxx’ had non-zero exit status”
原因:编译失败,通常是缺少系统依赖或编译工具。
解决方案:
Windows 用户:
# 安装 Rtools(R 的编译工具链)
# 访问 https://cran.r-project.org/bin/windows/Rtools/
# 下载对应 R 版本的 Rtools 并安装
# 安装后验证
Sys.which("make")
# 应该显示 Rtools 的路径macOS 用户:
# 安装 Xcode Command Line Tools
xcode-select --install
# 或安装 Homebrew 后安装 gcc
brew install gccLinux 用户:
# Ubuntu/Debian
sudo apt-get install build-essential libcurl4-openssl-dev libssl-dev libxml2-dev
# CentOS/RHEL
sudo yum install gcc gcc-c++ make libcurl-devel openssl-devel libxml2-devel问题 3:“Warning: unable to access index for repository”
原因:网络问题或镜像源不可用。
解决方案:
# 切换到其他镜像
options(repos = c(CRAN = "https://mirrors.ustc.edu.cn/CRAN/"))
# 或使用官方源(较慢)
options(repos = c(CRAN = "https://cran.r-project.org"))
# 重新尝试安装
install.packages("包名")问题 4:“package ‘xxx’ was built under R version 4.x.x”
原因:包是用更新版本的 R 编译的,但这通常不影响使用。
解决方案:
# 这是警告而非错误,可以忽略
# 如果确实有兼容性问题,更新 R 到最新版本
# 检查当前 R 版本
R.version.string
# 访问 https://cran.r-project.org/ 下载最新版 R问题 5:tidyverse 安装卡住不动
原因:tidyverse 包含多个子包,下载量大。
解决方案:
# 分步安装 tidyverse 的核心包
install.packages("dplyr") # 数据处理
install.packages("tidyr") # 数据整理
install.packages("ggplot2") # 可视化
install.packages("readr") # 数据读取
install.packages("purrr") # 函数式编程
install.packages("stringr") # 字符串处理
# 最后安装 tidyverse(会快很多)
install.packages("tidyverse")问题 6:Positron 中文乱码
原因:编码设置不正确。
解决方案:
- Tools → Global Options → Code → Saving
- 将 “Default text encoding” 改为 UTF-8
- 重启 Positron
或在代码中设置:
# 设置终端输出编码
Sys.setlocale("LC_ALL", "Chinese")
# 读取文件时指定编码
read.csv("data.csv", fileEncoding = "UTF-8")问题 7:无法加载共享对象(Linux)
原因:缺少系统库依赖。
解决方案:
# 查看错误信息中提到的缺失库,例如 libgdal
sudo apt-get install libgdal-dev
# 常见依赖库
sudo apt-get install libgeos-dev libproj-dev libudunits2-dev问题 8:“Error in library(xxx) : there is no package called ‘xxx’”
原因:包未安装或安装失败。
解决方案:
# 检查包是否已安装
"包名" %in% installed.packages()[, "Package"]
# 如果返回 FALSE,重新安装
install.packages("包名")
# 如果安装成功但仍无法加载,检查库路径
.libPaths()
# 确保包安装在正确的路径
install.packages("包名", lib = .libPaths()[1])6.4 Python 环境(数据采集用)
Python 在本课程中主要用于网络数据采集(爬虫、API 调用)。
6.4.1 安装 Python
Python 在本课程中主要用于数据采集(网络爬虫、API 调用等)。推荐使用 Anaconda 发行版,它可以方便地管理 Python 环境和包。
为什么推荐 Anaconda?
- 开箱即用:包含 Python 解释器、conda 包管理器和 250+ 预装科学计算包(如 NumPy、Pandas、Matplotlib)
- 环境隔离:可以用 conda 创建独立的 Python 环境,避免不同项目间包版本冲突
- 跨平台:Windows、macOS、Linux 都有对应版本
安装步骤(Windows)
- 访问 Miniconda 下载页面:<https://docs.conda.io/en/latest/miniconda.html
- 下载
Miniconda3-py312_24.3.0-0-Windows-x86_64.exe(Python 3.12 版) - 双击安装程序,保持默认设置即可
- 安装完成后,在开始菜单找到 “Anaconda Prompt”,打开它
安装步骤(macOS)
# 使用 Homebrew 安装
brew install miniconda
# 初始化 conda
conda init zsh
# 重启终端验证安装
# 在 Anaconda Prompt 中执行
python --version
# 应显示:Python 3.12.x
conda --version
# 应显示:conda 24.x.xconda 基础命令
# 创建新环境
conda create -n datacourse python=3.11
# 激活环境
conda activate datacourse
# 退出环境
conda deactivate
# 列出所有环境
conda env list
# 安装包
conda install numpy pandas
# 卸载包
conda remove package-name生态学案例
某同学在 Python 环境中安装了某个数据处理包后,发现之前写好的爬虫脚本全部报错。原来是包版本更新导致的兼容性问题。后来他学会了使用 conda 创建独立环境:每个项目一个环境,问题再也没出现过。
扩展记录:2026-04-09 | 目标字数:800+
6.5 使用 Anaconda Prompt
安装完成后,Windows 用户请使用 Anaconda Prompt(而非普通 CMD 或 PowerShell)来运行 Python 和 conda 命令。Anaconda Prompt 会自动配置好环境变量,避免路径问题。
可以在开始菜单中搜索 “Anaconda Prompt” 打开。 :::
6.5.1 验证安装
安装完成后,需要验证Python环境是否正确配置。这一步骤至关重要,因为Python的安装问题往往要到实际使用时才会暴露。通过系统性的验证,可以提前发现并解决潜在问题,避免在后续数据采集任务中出现环境故障。
基本验证步骤:
验证Python版本
打开Anaconda Prompt(Windows)或终端(macOS/Linux),输入:
python --version预期输出:
Python 3.11.x如果显示的版本号为3.8以上,说明安装成功。如果提示“python不是内部或外部命令”,说明环境变量未正确配置,需要重新安装Anaconda并勾选“添加到PATH”选项。
验证conda工具
conda --version预期输出:
conda 23.x.xconda是Anaconda的包管理器,用于创建虚拟环境和安装包。如果这个命令有效,说明Anaconda安装完整。
验证pip工具
pip --version预期输出:
pip 23.x.x from /path/to/anaconda3/lib/python3.11/site-packages/pip (python 3.11)pip是Python的包安装工具,后续所有Python包的安装都依赖于它。
测试Python交互式环境
在Anaconda Prompt中输入
python进入交互式环境,然后执行简单代码:>>> print("Hello, Data Science!") Hello, Data Science! >>> import sys >>> sys.version '3.11.x ...' >>> exit()如果能正常进入交互式环境并执行代码,说明Python解释器工作正常。使用
exit()或Ctrl+Z(Windows)/Ctrl+D(macOS/Linux)退出。验证基础库导入
测试是否能正常导入Python标准库:
python -c "import os, sys, json; print('Standard libraries OK')"预期输出:
Standard libraries OK如果报错,说明Python安装不完整,需要重新安装。
常见问题排查:
- Windows用户提示“python不是内部或外部命令”:
- 确认使用的是Anaconda Prompt而非普通CMD
- 如果在普通CMD中使用,需要手动添加Anaconda到PATH环境变量
- 或者重新安装Anaconda,安装时勾选“Add Anaconda to PATH”(不推荐,可能与其他Python安装冲突)
- macOS/Linux用户提示“command not found: python”:
尝试使用
python3而非python或者在shell配置文件(
~/.bashrc或~/.zshrc)中添加:export PATH="$HOME/miniconda3/bin:$PATH"然后执行
source ~/.bashrc或重启终端
- 版本号显示为2.x:
- 说明系统默认使用的是Python 2(已过时)
- 尝试使用
python3命令 - 或者在Anaconda环境中执行(见下一节)
生态学案例:某同学在Windows系统上安装了Anaconda,但在普通CMD中输入python时提示“不是内部或外部命令”。后来发现是因为没有使用Anaconda Prompt。切换到Anaconda Prompt后,所有命令都能正常执行。这个案例说明了使用正确终端的重要性。
扩展记录:2026-04-09 | 目标字数:800+
6.5.2 创建课程专用环境
为课程创建独立的 Python 环境,可以避免与其他项目的包版本冲突,也便于管理依赖和复现分析结果。
为什么需要独立环境?
假设你有两个项目: - 项目 A 需要 pandas 1.x - 项目 B 需要 pandas 2.x
如果使用同一个环境,安装一个新版本会破坏另一个项目。使用独立环境可以解决这个问题。
创建 conda 环境
# 创建名为 datacourse 的环境,指定 Python 版本
conda create -n datacourse python=3.11
# 激活环境
conda activate datacourse
# 验证激活成功
# 提示符前会显示环境名:(datacourse)在 Positron 中使用 Python
- Positron 内置 Python 支持,无需额外安装扩展
- 打开命令面板(Ctrl+Shift+P)
- 输入 “Python: Select Interpreter”
- 选择 “datacourse” 环境
环境管理命令
# 列出所有环境
conda env list
# 导出环境配置(分享给队友)
conda env export > environment.yml
# 从配置文件创建环境
conda env create -f environment.yml
# 删除环境
conda env remove -n datacourse共享环境配置
在课程项目中,建议将 environment.yml 提交到 Git 仓库,确保所有队员使用相同的环境:
# 导出当前环境
conda env export -n datacourse > environment.yml
#队友克隆仓库后
conda env create -f environment.yml生态学案例
某研究生在分析数据时安装了某个包,结果导致之前写好的脚本全部报错。原来是因为新包更新了某个底层依赖,影响了旧包的兼容性。解决办法是创建了一个干净的环境重新安装所有包。如果他一开始就使用独立环境,这个问题就不会发生。
扩展记录:2026-04-09 | 目标字数:800+
6.5.3 安装常用 Python 包
Python 在本课程中主要用于数据采集(爬虫、API 调用)。以下是需要安装的核心包。
激活课程环境
在安装包之前,先激活之前创建的课程环境:
conda activate datacourse核心数据采集包
# requests: HTTP 请求库,用于访问网页和 API
pip install requests
# beautifulsoup4: HTML/XML 解析库,用于提取网页内容
pip install beautifulsoup4
# pandas: 数据处理库,用于整理数据
pip install pandas
# lxml: 高性能 XML/HTML 解析器
pip install lxml可选扩展包
# selenium: 自动化浏览器测试,可用于动态网页抓取
pip install selenium
# playwright: 微软的浏览器自动化工具
pip install playwright
playwright install
# requests-cache: 请求缓存,加速重复访问
pip install requests-cache使用国内镜像加速
如果下载速度慢,使用清华镜像:
pip install requests beautifulsoup4 pandas lxml \
-i https://pypi.tuna.tsinghua.edu.cn/simple永久设置镜像
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple验证安装
python -c "import requests; import pandas; import bs4; print('All packages OK')"扩展记录:2026-04-09 | 目标字数:800+
6.6 pip 国内镜像加速
如果下载速度慢,可以使用清华镜像:
pip install requests beautifulsoup4 pandas lxml -i https://pypi.tuna.tsinghua.edu.cn/simple永久设置镜像(推荐):
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple:::
6.7 Git
Git 是版本控制工具,本课程的期末项目需要通过 Git 提交。本节只需完成安装和基本配置,Git 的协作用法(分支、推送、Pull Request)将在 0107 章详细讲解。
6.7.1 安装 Git
Git 是本课程版本控制和团队协作的核心工具。下面介绍在各种操作系统上安装 Git 的方法。
Windows 系统安装
- 访问 Git 官网下载页面:https://git-scm.com/download/win
- 下载对应版本的安装包(约 50MB)
- 运行安装程序,保持默认设置即可
- 安装完成后,在任意文件夹右键菜单中可以看到 “Git Bash Here”
macOS 系统安装
macOS 通常已预装 Git。如果没有,可以通过以下方式安装:
方式一:通过 Homebrew
brew install git方式二:如果安装了 Xcode Command Line Tools,也会包含 Git
xcode-select --install方式三:从官网下载安装包 访问 https://git-scm.com/download/mac
Linux 系统安装
# Ubuntu/Debian
sudo apt update
sudo apt install git
# CentOS/RHEL
sudo yum install git验证安装
安装完成后,打开终端(Windows 用户打开 Git Bash 或 PowerShell),输入:
git --version如果显示类似 “git version 2.40.0” 的版本号,说明安装成功。
安装后配置
Git 安装完成后,还需要进行基础配置(见”配置用户信息”章节):
git config --global user.name "你的姓名"
git config --global user.email "你的邮箱@gxu.edu.cn"扩展记录:2026-04-09 | 目标字数:800+
6.7.2 配置用户信息
安装 Git 后,第一件事是告诉 Git 你是谁。这个信息会记录在每次提交的元数据中,也是 GitHub 正确关联你提交记录的依据。
为什么要配置用户信息?
Git 的每次提交都会记录作者信息(用户名和邮箱)。这些信息:
- 显示在 git log 中,便于追踪代码贡献
- 关联到 GitHub 贡献图,让你的工作可被识别
- 成为团队协作中追溯责任的依据
配置步骤
# 设置用户名(建议使用真实姓名或 GitHub 用户名)
git config --global user.name "张三"
# 设置邮箱(必须与 GitHub 注册邮箱一致!)
git config --global user.email "zhangsan@gxu.edu.cn"
# 验证配置
git config --list配置级别
Git 配置有三个级别:
- –global:全局配置,所有项目都使用这个配置
- –local:项目级别配置,只对当前项目生效
- –system:系统级别配置,对所有用户生效
课程项目使用 –global 配置即可。
常见问题
邮箱与 GitHub 不一致:如果配置的邮箱不是 GitHub 账号邮箱,你的提交不会显示在 GitHub 贡献图中。解决方法:重新设置正确的邮箱。
中文用户名问题:不建议使用中文用户名,可能在某些工具中出现编码问题。建议使用拼音或英文。
多人共用电脑:如果有多人共用一台电脑,可以在项目级别设置用户信息:
# 在项目文件夹中
git config user.name "张三"
git config user.email "zhangsan@gxu.edu.cn"生态学案例
某同学在配置 Git 时,随意填写了邮箱。结果提交记录在 GitHub 上显示为”Anonymous”,导师无法识别是谁提交的。后来他重新配置了正确邮箱,并用 git commit –amend 修改了历史提交,才让提交记录正确关联到自己的账号。教训是:配置信息要一步到位。
扩展记录:2026-04-09 | 目标字数:800+
6.7.3 注册 GitHub 账号
GitHub 是全球最大的代码托管平台,也是本课程进行团队协作的基础。在开始使用 Git 之前,需要先注册一个 GitHub 账号。
注册步骤
- 访问 https://github.com
- 点击 “Sign up” 进入注册页面
- 输入邮箱(建议使用学校邮箱 gxu.edu.cn)、密码、用户名
- 选择订阅计划(免费账号足够课程使用)
用户名建议
选择用户名时考虑以下几点: - 使用真实姓名或姓名的拼音,便于队友识别 - 避免使用奇怪的数字和符号组合 - 长度适中(5-15个字符) - 示例:zhangsan-gxu、li_ming、wanghao2027
使用学校邮箱的优势
使用 .edu.cn 邮箱注册有以下好处:
- 可以申请 GitHub Education 开发者包(免费使用 Copilot)
- 更易于在学术社区展示代码成果
- 学校邮箱便于验证身份
GitHub Education 申请
注册 .edu.cn 邮箱后,可以申请学生开发者包:
- 访问 <https://education.github.com
- 点击 “Get student benefits”
- 上传学生证或在读证明
- 等待审核(通常 1-2 周)
- 审核通过后,获得 GitHub Copilot 等免费工具
生态学案例
某研究生在申请 PhD 时,面试官特意查看了他的 GitHub 主页。看到他在本科期间参与的开源生态学项目,面试官评价说”这个申请者有良好的代码习惯和数据共享意识”。最终他获得了录取资格。这个案例说明:GitHub 不仅是一个工具,更是展示科研能力的平台。
扩展记录:2026-04-09 | 目标字数:800+
6.8 Quarto
Quarto 是下一代科学出版系统,本课程的教材就是用 Quarto 编写的。
6.8.1 安装 Quarto
Quarto 是新一代科学出版系统,本课程的教材就是用 Quarto 编写的。Quarto 支持 R、Python、Julia 等多种编程语言,可以生成高质量的 HTML、PDF、Word 文档。
Windows 系统安装
- 访问 Quarto 下载页面:https://quarto.org/docs/get-started/
- 点击 “Download Quarto CLI”
- 下载 Windows 版本(.msi 文件)
- 运行安装程序,保持默认设置
- 安装完成后,打开 Positron,Quarto 应该会被自动识别
macOS 系统安装
- 下载 macOS 版本(.dmg 文件)
- 双击 .dmg 文件,将 Quarto.app 拖入 Applications 文件夹
Linux 系统安装
# 下载最新版本(替换 VERSION 和 FILE 为实际版本号)
wget https://github.com/quarto-dev/quarto-cli/releases/download/v1.4.550/quarto-1.4.550-linux-amd64.deb
# 安装
sudo dpkg -i quarto-*.deb
# 清理
rm quarto-*.deb验证安装
安装完成后,在终端中输入:
quarto --version如果显示版本号(如 “1.4.550”),说明安装成功。
Positron 集成
Quarto 安装后,Positron 会自动识别。在 Positron 中:
- File → New File → Quarto Document 可以创建新文档
- .qmd 文件会显示 Quarto 渲染按钮
- 点击 “Render” 可以生成 HTML/PDF/DOCX 文档
扩展记录:2026-04-09 | 目标字数:800+
6.8.2 验证安装
安装Quarto后,需要验证它是否正确安装并与Positron集成。Quarto是本课程教材的核心工具,用于生成可重现的数据分析报告。确保它能正常工作是后续学习的基础。
命令行验证:
在终端(Windows用户可使用CMD、PowerShell或Anaconda Prompt)中输入:
quarto --version预期输出:
1.4.550
如果显示版本号(通常为1.3或更高版本),说明Quarto已正确安装到系统路径。如果提示“quarto不是内部或外部命令”,说明安装未成功或环境变量未配置。
Positron集成验证:
检查Quarto菜单项
打开Positron,在顶部菜单栏中应该能看到“Quarto”菜单项。如果没有,说明Positron未识别Quarto,需要:
- 重启Positron
- 或者在Settings → Extensions → Quarto中手动指定Quarto路径
创建测试文档
在Positron中:File → New File → Quarto Document
如果能看到这个选项,说明Positron已正确集成Quarto。点击后会弹出对话框:
- Title: 输入“测试文档”
- Author: 输入你的姓名
- Format: 选择HTML
- 点击Create
渲染测试
创建文档后,点击编辑器上方的“Render”按钮(或按Ctrl+Shift+K)。如果能成功生成HTML文件并在浏览器中打开,说明Quarto工作正常。
验证R代码执行:
在刚创建的Quarto文档中,找到代码块(以```{r}开头),添加一个简单的测试:
::: {.cell}
```{.r .cell-code}
# 测试R代码执行
library(ggplot2)
ggplot(mtcars, aes(x = wt, y = mpg)) +
geom_point() +
labs(title = "Quarto 测试图表")
```
:::点击Render,如果能看到生成的HTML中包含这张散点图,说明Quarto能正确执行R代码并嵌入图表。
常见问题排查:
- 提示“quarto不是内部或外部命令”:
- Windows:重启终端或电脑,让系统重新加载环境变量
- macOS/Linux:检查Quarto是否安装在
/usr/local/bin/,或手动添加到PATH
- Positron中没有Quarto菜单:
- 确认Positron版本≥2022.07(旧版本不支持Quarto)
- 升级Positron到最新版本:<https://posit.com/download/
- Render时报错“Pandoc not found”:
- Quarto内置Pandoc,不应该出现这个错误
- 尝试重新安装Quarto
- 或者在Positron中手动指定Pandoc路径:Settings → Extensions → Quarto
- 生成的HTML中没有图表:
- 检查代码块选项,确保没有设置
eval: false - 检查R包是否安装(如
ggplot2)
- 检查代码块选项,确保没有设置
生态学案例:某同学安装Quarto后,在命令行中能正常运行quarto --version,但Positron中找不到Quarto菜单。检查后发现Positron版本是2021年的旧版本。升级到Positron 2023版本后,问题解决。这个案例说明了保持软件版本更新的重要性。
扩展记录:2026-04-09 | 目标字数:800+
6.8.3 创建第一个 Quarto 文档
Quarto 是新一代科学出版系统,本课程的教材就是用 Quarto 编写的。创建第一个 Quarto 文档是熟悉这个工具的最好方式。
在 Positron 中创建 Quarto 文档
- 打开 Positron
- 点击菜单:File → New File → Quarto Document
- 在弹出的对话框中填写:
- Title:
我的第一个 Quarto 文档 - Author:你的姓名
- Output format:HTML(推荐新手)
- Title:
- 点击 Create,创建空白文档
Quarto 文档的基本结构
---
title: "我的第一个 Quarto 文档"
author: "张三"
date: "2027-04-09"
format: html
---
# 第一章
这是普通文本。
## 代码块示例
{r}
# R 代码会在这里执行
library(tidyverse)
ggplot(mtcars, aes(x = wt, y = mpg)) +
geom_point()6.9 内联代码
圆周率约为 3.1415927,两点间距离可以用公式计算。
**渲染文档**
在 Positron 中,点击编辑器上方的 "Render" 按钮(或按 Ctrl+Shift+K),Quarto 会:
1. 执行所有代码块
2. 将结果(文本、图表)嵌入文档
3. 生成 HTML 文件并在浏览器中打开
**课程中的用途**
在期末项目中,你需要用 Quarto 撰写报告:
- 所有代码可以直接运行,方便老师验证
- 图表自动生成,无需手动粘贴
- 支持交叉引用(图表编号、文献引用)
- 可以导出为 PDF 用于提交
**生态学案例**
某同学在课程报告中使用了 Quarto。报告提交后,老师可以直接点击代码块旁边的按钮重新运行代码,验证分析结果是否正确。这种透明的方式获得了老师的好评,最终报告得了最高分。
**扩展记录**:2026-04-09 | 目标字数:800+
## 代码块示例
::: {.cell}
```{.r .cell-code}
# R 代码会在这里执行
library(tidyverse)
ggplot(mtcars, aes(x = wt, y = mpg)) +
geom_point()
:::
6.10 内联代码
圆周率约为 3.1415927,两点间距离可以用公式计算。 ```
渲染文档
在 Positron 中,点击编辑器上方的 “Render” 按钮(或按 Ctrl+Shift+K),Quarto 会:
- 执行所有代码块
- 将结果(文本、图表)嵌入文档
- 生成 HTML 文件并在浏览器中打开
课程用途
在期末项目中,你需要用 Quarto 撰写报告:
- 所有代码可以直接运行,方便老师验证
- 图表自动生成,无需手动粘贴
- 支持交叉引用(图表编号、文献引用)
- 可以导出为 PDF 用于提交
生态学案例
某同学在课程报告中使用了 Quarto。报告提交后,老师可以直接点击代码块旁边的按钮重新运行代码,验证分析结果是否正确。这种透明的方式获得了老师的好评,最终报告得了最高分。
扩展记录:2026-04-09 | 目标字数:800+
6.11 环境检查清单
完成以上安装后,请逐项确认:
R 相关:
- R 包安装失败:检查网络连接,尝试切换 CRAN 镜像。如果提示需要编译,Windows 用户需安装 Rtools
- Positron 打开后闪退:尝试以管理员身份运行,或重置 Positron 配置(删除
%localappdata%/Positron-Desktop文件夹) - 中文路径问题:R 项目路径中避免使用中文和空格,建议使用纯英文路径如
D:/projects/
Git 相关:
- Git 命令找不到:Windows 用户需要重启终端或将 Git 添加到 PATH
- Positron 找不到 Git:手动在 Settings → Extensions → Git 中指定 Git 路径(通常在
C:/Program Files/Git/bin/git.exe)
Python 相关:
- conda 命令找不到:Windows 用户请使用 Anaconda Prompt 而非普通 CMD
- pip 安装超时:使用国内镜像(见上方 pip 镜像加速部分)
- Python 版本冲突:确保在
datacourse环境中操作,用conda activate datacourse激活
6.12 附录:GitHub Education
使用 .edu.cn 邮箱注册 GitHub 后,可以在 https://education.github.com 申请学生开发者包,获得 GitHub Copilot 等免费工具。申请流程:
- 登录 GitHub,访问 <https://education.github.com/discount_requests/application
- 选择 “Student”,填写学校信息
- 上传学生证或在读证明
- 等待审核(通常 1-2 周)
6.13 课后练习
- 完成所有软件的安装和配置,确保环境检查清单全部通过
- 在 Positron 中创建一个
hello.qmd文件,写入你的姓名和学号,渲染为 HTML - 在 GitHub 上创建一个名为
data-preprocessing-homework的仓库(Git 提交和推送操作将在 0107 章学习后完成)