5  研究环境搭建

6 研究环境搭建

工欲善其事,必先利其器。在开始数据采集与预处理之前,我们需要搭建一个标准化的研究环境。本章将指导你安装和配置课程所需的全部软件工具。

6.1 R 与 Positron

R 是本课程的主要编程语言,Positron 是 R 最常用的集成开发环境(IDE)。

6.1.1 安装 R

R 是本课程的主要编程语言,推荐使用 R-4.4.x 系列版本。R 的安装相对简单,但有一些细节需要注意,否则后续安装包时可能会遇到问题。

Windows 系统安装

  1. 访问 R 官方网站:<https://cran.r-project.org/
  2. 点击 “Download R for Windows” → “base”
  3. 下载最新版本(如 R-4.4.x-win.exe)
  4. 双击安装程序,按以下步骤操作:
    • 选择安装语言(建议选择 English,避免中文路径问题)
    • 接受许可协议
    • 选择安装路径(重要:避免中文路径,建议使用 C:\R\R-4.4.x
    • 选择组件:保持默认(Core Files + 64-bit Files)
    • 启动选项:保持默认
    • 是否创建桌面快捷方式:可选
  5. 安装完成后,点击 “Finish”

为什么不要用中文路径?

R 的很多包在安装和加载时会调用系统命令,如果路径包含中文字符,可能导致莫名其妙的报错。例如,某些包在加载时会尝试读取 DLL 文件,但 DLL 不支持中文路径,导致加载失败。为避免这类问题,建议一开始就将 R 安装在纯英文路径下。

macOS 系统安装

  1. 访问 R 官方网站:https://cran.r-project.org/
  2. 点击 “Download R for macOS”
  3. 根据 Mac 芯片类型选择:
    • Apple Silicon (M1/M2/M3):下载 R-4.4.x-arm64.pkg
    • Intel 芯片:下载 R-4.4.x-x86_64.pkg
  4. 双击 .pkg 文件,按提示安装

Linux 系统安装

# Ubuntu/Debian
sudo apt update
sudo apt install r-base r-base-dev
R --version
# CentOS/RHEL
sudo yum install epel-release
sudo yum install R
R --version

安装后验证

安装完成后,打开 Positron(Windows)或终端输入 R(macOS/Linux),验证安装成功:

R.version.string
# [1] "R version 4.4.0 (2024-04-24)"

sessionInfo()
# R version 4.4.0
# Platform: x86_64-w64-mingw32/x64 (64-bit)

常见问题

  • 安装路径有中文:重装 R,选择纯英文路径
  • 安装后找不到 R:在开始菜单搜索 “R”,或检查是否安装成功
  • 安装过旧版本:先卸载旧版本,再安装新版本

生态学案例

某同学在安装 R 时,使用了默认路径 C:\Program Files\R\R-4.4.0。后续安装 vegan 包时总是报错,提示”无法找到某个 DLL 文件”。排查了很久,最后发现是路径中的空格(Program Files 有空格)导致的问题。重装到 C:\R\R-4.4.0 后问题解决。这个教训说明:安装路径的细节真的很重要

扩展记录:2026-04-09 | 目标字数:800+

6.2 安装路径注意事项

  • 避免中文路径:不要安装到 C:\程序文件\ 或包含中文的文件夹
  • 避免空格:虽然 Program Files 包含空格,但这是系统默认路径,R 可以正确处理
  • 推荐路径C:\R\R-4.4.xD:\R\R-4.4.x(更简洁) :::

macOS 系统安装步骤

  1. 访问 R 官方网站:https://cran.r-project.org/
  2. 点击 “Download R for macOS”
  3. 根据你的 Mac 芯片类型选择:
    • Apple Silicon (M1/M2/M3):下载 R-4.4.x-arm64.pkg
    • Intel 芯片:下载 R-4.4.x-x86_64.pkg
  4. 双击 .pkg 文件,按提示安装
  5. 可能需要在 “系统偏好设置” → “安全性与隐私” 中允许安装
Tip如何查看 Mac 芯片类型

点击屏幕左上角 图标 → “关于本机” → 查看 “芯片” 或 “处理器” 信息: - 显示 “Apple M1/M2/M3” → 选择 ARM64 版本 - 显示 “Intel Core” → 选择 x86_64 版本

Linux 系统安装步骤

Ubuntu/Debian 系统:

# 更新软件源
sudo apt update

# 安装 R 基础包
sudo apt install r-base r-base-dev

# 验证安装
R --version

CentOS/RHEL 系统:

# 启用 EPEL 仓库
sudo yum install epel-release

# 安装 R
sudo yum install R

# 验证安装
R --version

6.2.1 安装 Positron

Windows 系统

  1. 访问 Positron 下载页面:<https://posit.com/download/
  2. 页面会自动检测你的操作系统,点击 “Download Positron Desktop for Windows”
  3. 下载完成后,双击 Positron-2024.x.x.exe 安装程序
  4. 安装步骤:
    • 接受许可协议
    • 选择安装路径(建议保持默认 C:\Program Files\Positron
    • 选择开始菜单文件夹(保持默认)
    • 是否创建桌面快捷方式(建议勾选)
  5. 安装完成后,双击桌面图标启动 Positron

macOS 系统

  1. 访问 Positron 下载页面:<https://posit.com/download/
  2. 下载 Positron-2024.x.x.dmg 文件
  3. 双击 .dmg 文件,将 Positron 图标拖到 Applications 文件夹
  4. 在 “应用程序” 中找到 Positron,双击启动
  5. 首次启动可能提示 “无法验证开发者”,需要:
    • 打开 “系统偏好设置” → “安全性与隐私”
    • 点击 “仍要打开” 按钮

Linux 系统

Ubuntu/Debian:

# 下载 Positron(以 Ubuntu 22.04 为例)
wget https://github.com/posit-dev/positron/releases/download/v2024.x.x/Positron-2024.x.x-linux-amd64.deb

# 安装
sudo dpkg -i Positron-2024.x.x-linux-amd64.deb

# 如果有依赖问题,运行:
sudo apt-get install -f

CentOS/RHEL:

# 下载 Positron
wget https://github.com/posit-dev/positron/releases/download/v2024.x.x/Positron-2024.x.x-linux-x86_64.rpm

# 安装
sudo yum install Positron-2024.x.x-linux-x86_64.rpm

首次启动配置

首次打开 Positron 后,建议进行以下配置:

  1. 设置工作目录
    • Settings → Application
    • 取消勾选 “Restore .RData into workspace at startup”(避免加载旧数据)
    • 将 “Save workspace to .RData on exit” 改为 “Never”(避免自动保存)
  2. 设置代码显示
    • Tools → Global Options → Code → Display
    • 勾选 “Show line numbers”(显示行号)
    • 勾选 “Highlight R function calls”(高亮函数调用)
  3. 设置外观
    • Tools → Global Options → Appearance
    • 选择你喜欢的编辑器主题(如 Cobalt 或 Tomorrow Night)
    • 调整字体大小(建议 12-14)

6.2.2 验证安装

安装完成后,需要验证 R 是否正确安装以及基本功能是否正常。以下是推荐的验证步骤。

基本验证

# 在 Positron 或 Positron 终端中执行
R.version.string
# 应显示类似:
# [1] "R version 4.4.0 (2024-04-24)"

sessionInfo()
# 显示 R 版本、操作系统、已加载的包等信息

进阶验证:测试包安装

安装 R 后,建议测试一个简单包的安装和加载:

# 安装并加载一个常用包
install.packages("tidyverse")
library(tidyverse)

# 测试基本操作
tibble(x = 1:5, y = letters[1:5])
# 应输出:
# # A tibble: 5 x 2
#       x y    
#   <int> <chr>
# 1     1 a    
# 2     2 b    
# 3     3 c    
# 4     4 d    
# 5     5 e    

常见失败及解决

  • “package … is not available”:检查网络连接,或尝试切换 CRAN 镜像
  • “installation of package … had non-zero exit status”:可能是缺少编译工具,Windows 用户需要安装 Rtools
  • “unable to access index for repository”:网络问题或镜像不可用,尝试其他镜像

扩展记录:2026-04-09 | 目标字数:800+

6.3 Positron 界面说明

Positron 默认分为 4 个窗口:

  1. 左上:脚本编辑器(Script Editor)—— 编写和保存 R 代码
  2. 左下:终端(Console)—— 交互式运行 R 命令,查看输出
  3. 右上:环境/历史(Environment/History)—— 查看当前变量和命令历史
  4. 右下:文件/图表/帮助(Files/Plots/Help)—— 浏览文件、查看图表、阅读帮助文档

首次使用时,左上角可能没有脚本编辑器,点击 File → New File → R File 即可打开。 :::

6.3.1 配置 CRAN 镜像源

在安装 R 包之前,强烈建议先配置国内镜像源,可以大幅提升下载速度。

方法一:临时设置(仅当前会话有效)

# 设置清华大学 CRAN 镜像
options(repos = c(CRAN = "https://mirrors.tuna.tsinghua.edu.cn/CRAN/"))

方法二:永久设置(推荐)

在 Positron 中:

  1. 点击 Settings → Extensions → R
  2. 在 “Primary CRAN repository” 下拉菜单中选择 “Custom”
  3. 输入镜像地址:https://mirrors.tuna.tsinghua.edu.cn/CRAN/
  4. 点击 OK 保存

或者手动编辑配置文件:

# 查看 R 配置文件路径
file.path(Sys.getenv("HOME"), ".Rprofile")

# 编辑配置文件(会自动打开编辑器)
file.edit("~/.Rprofile")

在打开的文件中添加以下内容:

# 设置 CRAN 镜像
options(repos = c(CRAN = "https://mirrors.tuna.tsinghua.edu.cn/CRAN/"))

# 设置 Bioconductor 镜像(如果需要生物信息学包)
options(BioC_mirror = "https://mirrors.tuna.tsinghua.edu.cn/bioconductor")

保存后重启 Positron,镜像设置即永久生效。

Tip其他可用的国内镜像
  • 清华大学https://mirrors.tuna.tsinghua.edu.cn/CRAN/(推荐)
  • 中国科技大学https://mirrors.ustc.edu.cn/CRAN/
  • 兰州大学https://mirror.lzu.edu.cn/CRAN/
  • 北京外国语大学https://mirrors.bfsu.edu.cn/CRAN/

如果某个镜像速度慢或无法访问,可以尝试切换到其他镜像。

6.3.2 安装课程常用 R 包

配置好镜像后,开始安装本课程所需的 R 包。

核心数据处理包

# tidyverse 是 R 数据科学的核心包集合
# 包含:dplyr(数据处理)、tidyr(数据整理)、ggplot2(可视化)、
#       readr(数据读取)、purrr(函数式编程)、stringr(字符串处理)等
install.packages("tidyverse")

# 数据读取相关
install.packages("readxl")     # 读取 Excel 文件(.xls, .xlsx)
install.packages("haven")      # 读取 SPSS/Stata/SAS 文件
install.packages("jsonlite")   # 读取 JSON 数据
install.packages("xml2")       # 读取 XML 数据

数据可视化增强包

# 可视化增强
install.packages("corrplot")   # 相关性矩阵可视化
install.packages("patchwork")  # 图表拼接和布局
install.packages("ggpubr")    # 出版级图表
install.packages("scales")     # 坐标轴格式化

统计分析包

# 荟萃分析
install.packages("metafor")    # 荟萃分析核心包
install.packages("meta")       # 荟萃分析辅助包

# 其他统计分析
install.packages("psych")      # 心理测量和统计
install.packages("car")        # 回归分析诊断

文档渲染包

# Quarto 和 R Markdown 支持
install.packages("knitr")      # 动态文档生成
install.packages("rmarkdown")  # R Markdown 支持
install.packages("tinytex")    # LaTeX 支持(用于生成 PDF)

生态学专用包(可选)

# 生态学数据分析常用包
install.packages("vegan")      # 群落生态学分析
install.packages("ade4")       # 多元数据分析
install.packages("BiodiversityR") # 生物多样性分析
install.packages("picante")    # 系统发育生态学
Warning安装时间提示
  • tidyverse 包含多个子包,首次安装可能需要 5-10 分钟
  • 如果提示 “Do you want to install from sources the package which needs compilation?”,选择 No(选择预编译版本,更快)
  • 安装过程中可能会看到红色文字,这是正常的编译信息,不是错误

6.3.3 验证 R 包安装

安装完 R 包后,需要验证所有包都能正常加载。以下是推荐的验证流程。

基本加载测试

# 定义需要验证的包列表
packages <- c(
  "tidyverse", "readxl", "haven", "jsonlite",
  "corrplot", "patchwork", "ggpubr",
  "metafor", "knitr", "rmarkdown"
)

# 逐个加载并检查
results <- sapply(packages, function(pkg) {
  result <- tryCatch({
    library(pkg, character.only = TRUE)
    TRUE
  }, error = function(e) FALSE)
  result
})

# 打印结果
cat("包加载验证结果:\n")
for (pkg in names(results)) {
  status <- if (results[pkg]) "\u2713 成功" else "\u2717 失败"
  cat(status, pkg, "\n")
}

版本检查

# 查看已安装包的版本
installed.packages()[, c("Package", "Version")] |>
  as_tibble() |>
  filter(Package %in% packages) |>
  print(n = 20)

# 查看 R 和关键包的版本
cat("R 版本:", R.version.string, "\n")
cat("tidyverse 版本:", packageVersion("tidyverse"), "\n")

常见问题

  • 加载失败:检查是否安装成功(无报错才是成功)
  • 版本过旧:update.packages() 更新到最新版本
  • 包损坏:重新安装该包 install.packages("包名")

扩展记录:2026-04-09 | 目标字数:800+

6.3.4 常见安装问题及解决方案

问题 1:“package ‘xxx’ is not available”

原因:包名拼写错误,或该包已从 CRAN 移除。

解决方案

# 检查包名是否正确
available.packages()["包名", ]

# 如果包已归档,从归档安装
install.packages("包名", repos = "https://cran.r-project.org/src/contrib/Archive/包名/")

问题 2:“installation of package ‘xxx’ had non-zero exit status”

原因:编译失败,通常是缺少系统依赖或编译工具。

解决方案

Windows 用户

# 安装 Rtools(R 的编译工具链)
# 访问 https://cran.r-project.org/bin/windows/Rtools/
# 下载对应 R 版本的 Rtools 并安装

# 安装后验证
Sys.which("make")
# 应该显示 Rtools 的路径

macOS 用户

# 安装 Xcode Command Line Tools
xcode-select --install

# 或安装 Homebrew 后安装 gcc
brew install gcc

Linux 用户

# Ubuntu/Debian
sudo apt-get install build-essential libcurl4-openssl-dev libssl-dev libxml2-dev

# CentOS/RHEL
sudo yum install gcc gcc-c++ make libcurl-devel openssl-devel libxml2-devel

问题 3:“Warning: unable to access index for repository”

原因:网络问题或镜像源不可用。

解决方案

# 切换到其他镜像
options(repos = c(CRAN = "https://mirrors.ustc.edu.cn/CRAN/"))

# 或使用官方源(较慢)
options(repos = c(CRAN = "https://cran.r-project.org"))

# 重新尝试安装
install.packages("包名")

问题 4:“package ‘xxx’ was built under R version 4.x.x”

原因:包是用更新版本的 R 编译的,但这通常不影响使用。

解决方案

# 这是警告而非错误,可以忽略
# 如果确实有兼容性问题,更新 R 到最新版本

# 检查当前 R 版本
R.version.string

# 访问 https://cran.r-project.org/ 下载最新版 R

问题 5:tidyverse 安装卡住不动

原因:tidyverse 包含多个子包,下载量大。

解决方案

# 分步安装 tidyverse 的核心包
install.packages("dplyr")    # 数据处理
install.packages("tidyr")    # 数据整理
install.packages("ggplot2")  # 可视化
install.packages("readr")    # 数据读取
install.packages("purrr")    # 函数式编程
install.packages("stringr")  # 字符串处理

# 最后安装 tidyverse(会快很多)
install.packages("tidyverse")

问题 6:Positron 中文乱码

原因:编码设置不正确。

解决方案

  1. Tools → Global Options → Code → Saving
  2. 将 “Default text encoding” 改为 UTF-8
  3. 重启 Positron

或在代码中设置:

# 设置终端输出编码
Sys.setlocale("LC_ALL", "Chinese")

# 读取文件时指定编码
read.csv("data.csv", fileEncoding = "UTF-8")

问题 7:无法加载共享对象(Linux)

原因:缺少系统库依赖。

解决方案

# 查看错误信息中提到的缺失库,例如 libgdal
sudo apt-get install libgdal-dev

# 常见依赖库
sudo apt-get install libgeos-dev libproj-dev libudunits2-dev

问题 8:“Error in library(xxx) : there is no package called ‘xxx’”

原因:包未安装或安装失败。

解决方案

# 检查包是否已安装
"包名" %in% installed.packages()[, "Package"]

# 如果返回 FALSE,重新安装
install.packages("包名")

# 如果安装成功但仍无法加载,检查库路径
.libPaths()

# 确保包安装在正确的路径
install.packages("包名", lib = .libPaths()[1])

6.4 Python 环境(数据采集用)

Python 在本课程中主要用于网络数据采集(爬虫、API 调用)。

6.4.1 安装 Python

Python 在本课程中主要用于数据采集(网络爬虫、API 调用等)。推荐使用 Anaconda 发行版,它可以方便地管理 Python 环境和包。

为什么推荐 Anaconda?

  1. 开箱即用:包含 Python 解释器、conda 包管理器和 250+ 预装科学计算包(如 NumPy、Pandas、Matplotlib)
  2. 环境隔离:可以用 conda 创建独立的 Python 环境,避免不同项目间包版本冲突
  3. 跨平台:Windows、macOS、Linux 都有对应版本

安装步骤(Windows)

  1. 访问 Miniconda 下载页面:<https://docs.conda.io/en/latest/miniconda.html
  2. 下载 Miniconda3-py312_24.3.0-0-Windows-x86_64.exe(Python 3.12 版)
  3. 双击安装程序,保持默认设置即可
  4. 安装完成后,在开始菜单找到 “Anaconda Prompt”,打开它

安装步骤(macOS)

# 使用 Homebrew 安装
brew install miniconda

# 初始化 conda
conda init zsh
# 重启终端

验证安装

# 在 Anaconda Prompt 中执行
python --version
# 应显示:Python 3.12.x

conda --version
# 应显示:conda 24.x.x

conda 基础命令

# 创建新环境
conda create -n datacourse python=3.11

# 激活环境
conda activate datacourse

# 退出环境
conda deactivate

# 列出所有环境
conda env list

# 安装包
conda install numpy pandas

# 卸载包
conda remove package-name

生态学案例

某同学在 Python 环境中安装了某个数据处理包后,发现之前写好的爬虫脚本全部报错。原来是包版本更新导致的兼容性问题。后来他学会了使用 conda 创建独立环境:每个项目一个环境,问题再也没出现过。

扩展记录:2026-04-09 | 目标字数:800+

6.5 使用 Anaconda Prompt

安装完成后,Windows 用户请使用 Anaconda Prompt(而非普通 CMD 或 PowerShell)来运行 Python 和 conda 命令。Anaconda Prompt 会自动配置好环境变量,避免路径问题。

可以在开始菜单中搜索 “Anaconda Prompt” 打开。 :::

6.5.1 验证安装

安装完成后,需要验证Python环境是否正确配置。这一步骤至关重要,因为Python的安装问题往往要到实际使用时才会暴露。通过系统性的验证,可以提前发现并解决潜在问题,避免在后续数据采集任务中出现环境故障。

基本验证步骤

  1. 验证Python版本

    打开Anaconda Prompt(Windows)或终端(macOS/Linux),输入:

    python --version

    预期输出

    Python 3.11.x

    如果显示的版本号为3.8以上,说明安装成功。如果提示“python不是内部或外部命令”,说明环境变量未正确配置,需要重新安装Anaconda并勾选“添加到PATH”选项。

  2. 验证conda工具

    conda --version

    预期输出

    conda 23.x.x

    conda是Anaconda的包管理器,用于创建虚拟环境和安装包。如果这个命令有效,说明Anaconda安装完整。

  3. 验证pip工具

    pip --version

    预期输出

    pip 23.x.x from /path/to/anaconda3/lib/python3.11/site-packages/pip (python 3.11)

    pip是Python的包安装工具,后续所有Python包的安装都依赖于它。

  4. 测试Python交互式环境

    在Anaconda Prompt中输入python进入交互式环境,然后执行简单代码:

    >>> print("Hello, Data Science!")
    Hello, Data Science!
    >>> import sys
    >>> sys.version
    '3.11.x ...'
    >>> exit()

    如果能正常进入交互式环境并执行代码,说明Python解释器工作正常。使用exit()Ctrl+Z(Windows)/Ctrl+D(macOS/Linux)退出。

  5. 验证基础库导入

    测试是否能正常导入Python标准库:

    python -c "import os, sys, json; print('Standard libraries OK')"

    预期输出

    Standard libraries OK

    如果报错,说明Python安装不完整,需要重新安装。

常见问题排查

  • Windows用户提示“python不是内部或外部命令”
    • 确认使用的是Anaconda Prompt而非普通CMD
    • 如果在普通CMD中使用,需要手动添加Anaconda到PATH环境变量
    • 或者重新安装Anaconda,安装时勾选“Add Anaconda to PATH”(不推荐,可能与其他Python安装冲突)
  • macOS/Linux用户提示“command not found: python”
    • 尝试使用python3而非python

    • 或者在shell配置文件(~/.bashrc~/.zshrc)中添加:

      export PATH="$HOME/miniconda3/bin:$PATH"
    • 然后执行source ~/.bashrc或重启终端

  • 版本号显示为2.x
    • 说明系统默认使用的是Python 2(已过时)
    • 尝试使用python3命令
    • 或者在Anaconda环境中执行(见下一节)

生态学案例:某同学在Windows系统上安装了Anaconda,但在普通CMD中输入python时提示“不是内部或外部命令”。后来发现是因为没有使用Anaconda Prompt。切换到Anaconda Prompt后,所有命令都能正常执行。这个案例说明了使用正确终端的重要性。

扩展记录:2026-04-09 | 目标字数:800+

6.5.2 创建课程专用环境

为课程创建独立的 Python 环境,可以避免与其他项目的包版本冲突,也便于管理依赖和复现分析结果。

为什么需要独立环境?

假设你有两个项目: - 项目 A 需要 pandas 1.x - 项目 B 需要 pandas 2.x

如果使用同一个环境,安装一个新版本会破坏另一个项目。使用独立环境可以解决这个问题。

创建 conda 环境

# 创建名为 datacourse 的环境,指定 Python 版本
conda create -n datacourse python=3.11

# 激活环境
conda activate datacourse

# 验证激活成功
# 提示符前会显示环境名:(datacourse)

在 Positron 中使用 Python

  1. Positron 内置 Python 支持,无需额外安装扩展
  2. 打开命令面板(Ctrl+Shift+P)
  3. 输入 “Python: Select Interpreter”
  4. 选择 “datacourse” 环境

环境管理命令

# 列出所有环境
conda env list

# 导出环境配置(分享给队友)
conda env export > environment.yml

# 从配置文件创建环境
conda env create -f environment.yml

# 删除环境
conda env remove -n datacourse

共享环境配置

在课程项目中,建议将 environment.yml 提交到 Git 仓库,确保所有队员使用相同的环境:

# 导出当前环境
conda env export -n datacourse > environment.yml

#队友克隆仓库后
conda env create -f environment.yml

生态学案例

某研究生在分析数据时安装了某个包,结果导致之前写好的脚本全部报错。原来是因为新包更新了某个底层依赖,影响了旧包的兼容性。解决办法是创建了一个干净的环境重新安装所有包。如果他一开始就使用独立环境,这个问题就不会发生。

扩展记录:2026-04-09 | 目标字数:800+

6.5.3 安装常用 Python 包

Python 在本课程中主要用于数据采集(爬虫、API 调用)。以下是需要安装的核心包。

激活课程环境

在安装包之前,先激活之前创建的课程环境:

conda activate datacourse

核心数据采集包

# requests: HTTP 请求库,用于访问网页和 API
pip install requests

# beautifulsoup4: HTML/XML 解析库,用于提取网页内容
pip install beautifulsoup4

# pandas: 数据处理库,用于整理数据
pip install pandas

# lxml: 高性能 XML/HTML 解析器
pip install lxml

可选扩展包

# selenium: 自动化浏览器测试,可用于动态网页抓取
pip install selenium

# playwright: 微软的浏览器自动化工具
pip install playwright
playwright install

# requests-cache: 请求缓存,加速重复访问
pip install requests-cache

使用国内镜像加速

如果下载速度慢,使用清华镜像:

pip install requests beautifulsoup4 pandas lxml \
  -i https://pypi.tuna.tsinghua.edu.cn/simple

永久设置镜像

pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple

验证安装

python -c "import requests; import pandas; import bs4; print('All packages OK')"

扩展记录:2026-04-09 | 目标字数:800+

6.6 pip 国内镜像加速

如果下载速度慢,可以使用清华镜像:

pip install requests beautifulsoup4 pandas lxml -i https://pypi.tuna.tsinghua.edu.cn/simple

永久设置镜像(推荐):

pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple

:::

6.7 Git

Git 是版本控制工具,本课程的期末项目需要通过 Git 提交。本节只需完成安装和基本配置,Git 的协作用法(分支、推送、Pull Request)将在 0107 章详细讲解。

6.7.1 安装 Git

Git 是本课程版本控制和团队协作的核心工具。下面介绍在各种操作系统上安装 Git 的方法。

Windows 系统安装

  1. 访问 Git 官网下载页面:https://git-scm.com/download/win
  2. 下载对应版本的安装包(约 50MB)
  3. 运行安装程序,保持默认设置即可
  4. 安装完成后,在任意文件夹右键菜单中可以看到 “Git Bash Here”

macOS 系统安装

macOS 通常已预装 Git。如果没有,可以通过以下方式安装:

  • 方式一:通过 Homebrew

    brew install git
  • 方式二:如果安装了 Xcode Command Line Tools,也会包含 Git

    xcode-select --install
  • 方式三:从官网下载安装包 访问 https://git-scm.com/download/mac

Linux 系统安装

# Ubuntu/Debian
sudo apt update
sudo apt install git

# CentOS/RHEL
sudo yum install git

验证安装

安装完成后,打开终端(Windows 用户打开 Git Bash 或 PowerShell),输入:

git --version

如果显示类似 “git version 2.40.0” 的版本号,说明安装成功。

安装后配置

Git 安装完成后,还需要进行基础配置(见”配置用户信息”章节):

git config --global user.name "你的姓名"
git config --global user.email "你的邮箱@gxu.edu.cn"

扩展记录:2026-04-09 | 目标字数:800+

6.7.2 配置用户信息

安装 Git 后,第一件事是告诉 Git 你是谁。这个信息会记录在每次提交的元数据中,也是 GitHub 正确关联你提交记录的依据。

为什么要配置用户信息?

Git 的每次提交都会记录作者信息(用户名和邮箱)。这些信息:

  • 显示在 git log 中,便于追踪代码贡献
  • 关联到 GitHub 贡献图,让你的工作可被识别
  • 成为团队协作中追溯责任的依据

配置步骤

# 设置用户名(建议使用真实姓名或 GitHub 用户名)
git config --global user.name "张三"

# 设置邮箱(必须与 GitHub 注册邮箱一致!)
git config --global user.email "zhangsan@gxu.edu.cn"

# 验证配置
git config --list

配置级别

Git 配置有三个级别:

  • –global:全局配置,所有项目都使用这个配置
  • –local:项目级别配置,只对当前项目生效
  • –system:系统级别配置,对所有用户生效

课程项目使用 –global 配置即可。

常见问题

  1. 邮箱与 GitHub 不一致:如果配置的邮箱不是 GitHub 账号邮箱,你的提交不会显示在 GitHub 贡献图中。解决方法:重新设置正确的邮箱。

  2. 中文用户名问题:不建议使用中文用户名,可能在某些工具中出现编码问题。建议使用拼音或英文。

  3. 多人共用电脑:如果有多人共用一台电脑,可以在项目级别设置用户信息:

# 在项目文件夹中
git config user.name "张三"
git config user.email "zhangsan@gxu.edu.cn"

生态学案例

某同学在配置 Git 时,随意填写了邮箱。结果提交记录在 GitHub 上显示为”Anonymous”,导师无法识别是谁提交的。后来他重新配置了正确邮箱,并用 git commit –amend 修改了历史提交,才让提交记录正确关联到自己的账号。教训是:配置信息要一步到位

扩展记录:2026-04-09 | 目标字数:800+

6.7.3 注册 GitHub 账号

GitHub 是全球最大的代码托管平台,也是本课程进行团队协作的基础。在开始使用 Git 之前,需要先注册一个 GitHub 账号。

注册步骤

  1. 访问 https://github.com
  2. 点击 “Sign up” 进入注册页面
  3. 输入邮箱(建议使用学校邮箱 gxu.edu.cn)、密码、用户名
  4. 选择订阅计划(免费账号足够课程使用)

用户名建议

选择用户名时考虑以下几点: - 使用真实姓名或姓名的拼音,便于队友识别 - 避免使用奇怪的数字和符号组合 - 长度适中(5-15个字符) - 示例:zhangsan-gxu、li_ming、wanghao2027

使用学校邮箱的优势

使用 .edu.cn 邮箱注册有以下好处:

  • 可以申请 GitHub Education 开发者包(免费使用 Copilot)
  • 更易于在学术社区展示代码成果
  • 学校邮箱便于验证身份

GitHub Education 申请

注册 .edu.cn 邮箱后,可以申请学生开发者包:

  1. 访问 <https://education.github.com
  2. 点击 “Get student benefits”
  3. 上传学生证或在读证明
  4. 等待审核(通常 1-2 周)
  5. 审核通过后,获得 GitHub Copilot 等免费工具

生态学案例

某研究生在申请 PhD 时,面试官特意查看了他的 GitHub 主页。看到他在本科期间参与的开源生态学项目,面试官评价说”这个申请者有良好的代码习惯和数据共享意识”。最终他获得了录取资格。这个案例说明:GitHub 不仅是一个工具,更是展示科研能力的平台

扩展记录:2026-04-09 | 目标字数:800+

6.8 Quarto

Quarto 是下一代科学出版系统,本课程的教材就是用 Quarto 编写的。

6.8.1 安装 Quarto

Quarto 是新一代科学出版系统,本课程的教材就是用 Quarto 编写的。Quarto 支持 R、Python、Julia 等多种编程语言,可以生成高质量的 HTML、PDF、Word 文档。

Windows 系统安装

  1. 访问 Quarto 下载页面:https://quarto.org/docs/get-started/
  2. 点击 “Download Quarto CLI”
  3. 下载 Windows 版本(.msi 文件)
  4. 运行安装程序,保持默认设置
  5. 安装完成后,打开 Positron,Quarto 应该会被自动识别

macOS 系统安装

  1. 下载 macOS 版本(.dmg 文件)
  2. 双击 .dmg 文件,将 Quarto.app 拖入 Applications 文件夹

Linux 系统安装

# 下载最新版本(替换 VERSION 和 FILE 为实际版本号)
wget https://github.com/quarto-dev/quarto-cli/releases/download/v1.4.550/quarto-1.4.550-linux-amd64.deb
# 安装
sudo dpkg -i quarto-*.deb
# 清理
rm quarto-*.deb

验证安装

安装完成后,在终端中输入:

quarto --version

如果显示版本号(如 “1.4.550”),说明安装成功。

Positron 集成

Quarto 安装后,Positron 会自动识别。在 Positron 中:

  • File → New File → Quarto Document 可以创建新文档
  • .qmd 文件会显示 Quarto 渲染按钮
  • 点击 “Render” 可以生成 HTML/PDF/DOCX 文档

扩展记录:2026-04-09 | 目标字数:800+

6.8.2 验证安装

安装Quarto后,需要验证它是否正确安装并与Positron集成。Quarto是本课程教材的核心工具,用于生成可重现的数据分析报告。确保它能正常工作是后续学习的基础。

命令行验证

在终端(Windows用户可使用CMD、PowerShell或Anaconda Prompt)中输入:

quarto --version

预期输出

1.4.550

如果显示版本号(通常为1.3或更高版本),说明Quarto已正确安装到系统路径。如果提示“quarto不是内部或外部命令”,说明安装未成功或环境变量未配置。

Positron集成验证

  1. 检查Quarto菜单项

    打开Positron,在顶部菜单栏中应该能看到“Quarto”菜单项。如果没有,说明Positron未识别Quarto,需要:

    • 重启Positron
    • 或者在Settings → Extensions → Quarto中手动指定Quarto路径
  2. 创建测试文档

    在Positron中:File → New File → Quarto Document

    如果能看到这个选项,说明Positron已正确集成Quarto。点击后会弹出对话框:

    • Title: 输入“测试文档”
    • Author: 输入你的姓名
    • Format: 选择HTML
    • 点击Create
  3. 渲染测试

    创建文档后,点击编辑器上方的“Render”按钮(或按Ctrl+Shift+K)。如果能成功生成HTML文件并在浏览器中打开,说明Quarto工作正常。

验证R代码执行

在刚创建的Quarto文档中,找到代码块(以```{r}开头),添加一个简单的测试:


::: {.cell}

```{.r .cell-code}
# 测试R代码执行
library(ggplot2)
ggplot(mtcars, aes(x = wt, y = mpg)) +
  geom_point() +
  labs(title = "Quarto 测试图表")
```
:::

点击Render,如果能看到生成的HTML中包含这张散点图,说明Quarto能正确执行R代码并嵌入图表。

常见问题排查

  • 提示“quarto不是内部或外部命令”
    • Windows:重启终端或电脑,让系统重新加载环境变量
    • macOS/Linux:检查Quarto是否安装在/usr/local/bin/,或手动添加到PATH
  • Positron中没有Quarto菜单
    • 确认Positron版本≥2022.07(旧版本不支持Quarto)
    • 升级Positron到最新版本:<https://posit.com/download/
  • Render时报错“Pandoc not found”
    • Quarto内置Pandoc,不应该出现这个错误
    • 尝试重新安装Quarto
    • 或者在Positron中手动指定Pandoc路径:Settings → Extensions → Quarto
  • 生成的HTML中没有图表
    • 检查代码块选项,确保没有设置eval: false
    • 检查R包是否安装(如ggplot2

生态学案例:某同学安装Quarto后,在命令行中能正常运行quarto --version,但Positron中找不到Quarto菜单。检查后发现Positron版本是2021年的旧版本。升级到Positron 2023版本后,问题解决。这个案例说明了保持软件版本更新的重要性。

扩展记录:2026-04-09 | 目标字数:800+

6.8.3 创建第一个 Quarto 文档

Quarto 是新一代科学出版系统,本课程的教材就是用 Quarto 编写的。创建第一个 Quarto 文档是熟悉这个工具的最好方式。

在 Positron 中创建 Quarto 文档

  1. 打开 Positron
  2. 点击菜单:File → New File → Quarto Document
  3. 在弹出的对话框中填写:
    • Title:我的第一个 Quarto 文档
    • Author:你的姓名
    • Output format:HTML(推荐新手)
  4. 点击 Create,创建空白文档

Quarto 文档的基本结构

---
title: "我的第一个 Quarto 文档"
author: "张三"
date: "2027-04-09"
format: html
---

# 第一章

这是普通文本。

## 代码块示例

{r}
# R 代码会在这里执行
library(tidyverse)
ggplot(mtcars, aes(x = wt, y = mpg)) +
  geom_point()

6.9 内联代码

圆周率约为 3.1415927,两点间距离可以用公式计算。


**渲染文档**

在 Positron 中,点击编辑器上方的 "Render" 按钮(或按 Ctrl+Shift+K),Quarto 会:
1. 执行所有代码块
2. 将结果(文本、图表)嵌入文档
3. 生成 HTML 文件并在浏览器中打开

**课程中的用途**

在期末项目中,你需要用 Quarto 撰写报告:

- 所有代码可以直接运行,方便老师验证
- 图表自动生成,无需手动粘贴
- 支持交叉引用(图表编号、文献引用)
- 可以导出为 PDF 用于提交

**生态学案例**

某同学在课程报告中使用了 Quarto。报告提交后,老师可以直接点击代码块旁边的按钮重新运行代码,验证分析结果是否正确。这种透明的方式获得了老师的好评,最终报告得了最高分。

**扩展记录**:2026-04-09 | 目标字数:800+

## 代码块示例


::: {.cell}

```{.r .cell-code}
# R 代码会在这里执行
library(tidyverse)
ggplot(mtcars, aes(x = wt, y = mpg)) +
  geom_point()

:::

6.10 内联代码

圆周率约为 3.1415927,两点间距离可以用公式计算。 ```

渲染文档

在 Positron 中,点击编辑器上方的 “Render” 按钮(或按 Ctrl+Shift+K),Quarto 会:

  1. 执行所有代码块
  2. 将结果(文本、图表)嵌入文档
  3. 生成 HTML 文件并在浏览器中打开

课程用途

在期末项目中,你需要用 Quarto 撰写报告:

  • 所有代码可以直接运行,方便老师验证
  • 图表自动生成,无需手动粘贴
  • 支持交叉引用(图表编号、文献引用)
  • 可以导出为 PDF 用于提交

生态学案例

某同学在课程报告中使用了 Quarto。报告提交后,老师可以直接点击代码块旁边的按钮重新运行代码,验证分析结果是否正确。这种透明的方式获得了老师的好评,最终报告得了最高分。

扩展记录:2026-04-09 | 目标字数:800+

6.11 环境检查清单

完成以上安装后,请逐项确认:

Note常见问题

R 相关:

  • R 包安装失败:检查网络连接,尝试切换 CRAN 镜像。如果提示需要编译,Windows 用户需安装 Rtools
  • Positron 打开后闪退:尝试以管理员身份运行,或重置 Positron 配置(删除 %localappdata%/Positron-Desktop 文件夹)
  • 中文路径问题:R 项目路径中避免使用中文和空格,建议使用纯英文路径如 D:/projects/

Git 相关:

  • Git 命令找不到:Windows 用户需要重启终端或将 Git 添加到 PATH
  • Positron 找不到 Git:手动在 Settings → Extensions → Git 中指定 Git 路径(通常在 C:/Program Files/Git/bin/git.exe

Python 相关:

  • conda 命令找不到:Windows 用户请使用 Anaconda Prompt 而非普通 CMD
  • pip 安装超时:使用国内镜像(见上方 pip 镜像加速部分)
  • Python 版本冲突:确保在 datacourse 环境中操作,用 conda activate datacourse 激活

6.12 附录:GitHub Education

使用 .edu.cn 邮箱注册 GitHub 后,可以在 https://education.github.com 申请学生开发者包,获得 GitHub Copilot 等免费工具。申请流程:

  1. 登录 GitHub,访问 <https://education.github.com/discount_requests/application
  2. 选择 “Student”,填写学校信息
  3. 上传学生证或在读证明
  4. 等待审核(通常 1-2 周)

6.13 课后练习

  1. 完成所有软件的安装和配置,确保环境检查清单全部通过
  2. 在 Positron 中创建一个 hello.qmd 文件,写入你的姓名和学号,渲染为 HTML
  3. 在 GitHub 上创建一个名为 data-preprocessing-homework 的仓库(Git 提交和推送操作将在 0107 章学习后完成)