3  研究环境搭建

4 研究环境搭建

工欲善其事,必先利其器。在开始数据采集与预处理之前,我们需要搭建一个标准化的研究环境。本章将指导你安装和配置课程所需的全部软件工具。

4.1 R 与 RStudio

R 是本课程的主要编程语言,RStudio 是 R 最常用的集成开发环境(IDE)。

4.1.1 安装 R

  1. 访问 R 官方网站:https://cran.r-project.org/
  2. 根据你的操作系统选择对应版本:
    • Windows:点击 “Download R for Windows” → “base” → 下载最新版本
    • macOS:点击 “Download R for macOS” → 选择对应芯片版本(Apple Silicon 或 Intel)
  3. 运行安装程序,保持默认设置即可

4.1.2 安装 RStudio

  1. 访问 RStudio 下载页面:https://posit.co/download/rstudio-desktop/
  2. 下载免费的 RStudio Desktop 版本
  3. 运行安装程序

4.1.3 验证安装

打开 RStudio,在控制台(Console)中输入:

R.version.string

如果看到类似 "R version 4.x.x ..." 的输出,说明安装成功。

4.1.4 安装常用 R 包

本课程会用到以下 R 包,建议提前安装:

# 数据处理核心包
install.packages("tidyverse")  # 包含 dplyr, tidyr, ggplot2, readr 等

# 数据读取
install.packages("readxl")     # 读取 Excel 文件
install.packages("haven")      # 读取 SPSS/Stata/SAS 文件

# 数据可视化增强
install.packages("corrplot")   # 相关性矩阵可视化
install.packages("patchwork")  # 图表拼接

# 荟萃分析
install.packages("metafor")    # 荟萃分析

# Quarto 支持
install.packages("knitr")
install.packages("rmarkdown")

4.1.5 验证 R 包安装

安装完成后,运行以下代码确认所有包都能正常加载:

# 逐个加载,检查是否报错
library(tidyverse)
library(readxl)
library(haven)
library(corrplot)
library(patchwork)
library(metafor)
library(knitr)
library(rmarkdown)

cat("所有 R 包加载成功!\n")

如果某个包加载失败,重新安装该包即可。

安装过程中如果提示选择 CRAN 镜像,建议选择国内镜像(如清华大学镜像)以加快下载速度。

Tip国内镜像加速

在 R 中设置清华镜像:

options(repos = c(CRAN = "https://mirrors.tuna.tsinghua.edu.cn/CRAN/"))

可以将这行代码添加到 ~/.Rprofile 文件中,这样每次启动 R 都会自动使用国内镜像。

4.2 Python 环境(数据采集用)

Python 在本课程中主要用于网络数据采集(爬虫、API 调用)。

4.2.1 安装 Python

推荐使用 Anaconda 或 Miniconda:

  1. 访问 Miniconda 下载页面:https://docs.conda.io/en/latest/miniconda.html
  2. 下载对应操作系统的安装包
  3. 运行安装程序,勾选 “Add to PATH”

4.2.2 验证安装

打开终端(Windows 用 Anaconda Prompt),输入:

python --version

4.2.3 创建课程专用环境

建议为本课程创建独立的 conda 环境,避免与其他项目的包版本冲突:

# 创建名为 datacourse 的环境,指定 Python 版本
conda create -n datacourse python=3.11

# 激活环境
conda activate datacourse

以后每次打开终端进行课程相关操作时,先运行 conda activate datacourse

4.2.4 安装常用 Python 包

pip install requests beautifulsoup4 pandas lxml
Tippip 国内镜像加速

如果下载速度慢,可以使用清华镜像:

pip install requests beautifulsoup4 pandas lxml -i https://pypi.tuna.tsinghua.edu.cn/simple

永久设置镜像(推荐):

pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple

4.3 Git 与 GitHub

Git 是版本控制工具,GitHub 是代码托管平台。本课程的期末项目需要通过 Git 提交。

4.3.1 安装 Git

  1. 访问 Git 官方网站:https://git-scm.com/downloads
  2. 下载对应操作系统的安装包
  3. Windows 用户安装时保持默认设置即可

4.3.2 配置 Git

安装完成后,打开终端配置用户信息:

git config --global user.name "你的姓名"
git config --global user.email "你的邮箱@gxu.edu.cn"

4.3.3 注册 GitHub 账号

  1. 访问 https://github.com
  2. 点击 “Sign up” 注册账号
  3. 建议使用学校邮箱注册,可以申请 GitHub Education 免费权益
NoteGitHub Education

使用 .edu.cn 邮箱注册后,可以在 https://education.github.com 申请学生开发者包,获得 GitHub Copilot 等免费工具。

4.3.4 在 RStudio 中配置 Git

RStudio 内置了 Git 支持:

  1. 打开 RStudio → Tools → Global Options → Git/SVN
  2. 确认 “Git executable” 路径正确(通常自动检测)
  3. 点击 “Create RSA Key” 生成 SSH 密钥
  4. 将公钥添加到 GitHub:Settings → SSH and GPG keys → New SSH key

4.4 Quarto

Quarto 是下一代科学出版系统,本课程的教材就是用 Quarto 编写的。

4.4.1 安装 Quarto

  1. 访问 https://quarto.org/docs/get-started/
  2. 下载对应操作系统的安装包
  3. 安装完成后,RStudio 会自动识别 Quarto

4.4.2 验证安装

在终端中输入:

quarto --version

4.4.3 创建第一个 Quarto 文档

在 RStudio 中:File → New File → Quarto Document,选择 HTML 格式,点击 “Render” 按钮即可生成文档。

4.5 环境检查清单

完成以上安装后,请逐项确认:

Warning常见问题

R 相关:

  • R 包安装失败:检查网络连接,尝试切换 CRAN 镜像。如果提示需要编译,Windows 用户需安装 Rtools
  • RStudio 打开后闪退:尝试以管理员身份运行,或重置 RStudio 配置(删除 %localappdata%/RStudio-Desktop 文件夹)
  • 中文路径问题:R 项目路径中避免使用中文和空格,建议使用纯英文路径如 D:/projects/

Git 相关:

  • Git 命令找不到:Windows 用户需要重启终端或将 Git 添加到 PATH
  • RStudio 找不到 Git:手动在 Tools → Global Options → Git/SVN 中指定 Git 路径(通常在 C:/Program Files/Git/bin/git.exe
  • SSH 连接 GitHub 失败:检查是否已将公钥添加到 GitHub,可用 ssh -T git@github.com 测试连接

Python 相关:

  • conda 命令找不到:Windows 用户使用 “Anaconda Prompt” 而非普通 CMD;或将 conda 添加到系统 PATH
  • pip 安装超时:使用国内镜像(见上方 pip 镜像加速部分)
  • Python 版本冲突:确保在 datacourse 环境中操作,用 conda activate datacourse 激活

4.6 课后任务

  1. 完成所有软件的安装和配置
  2. 在 GitHub 上创建一个名为 data-preprocessing-homework 的仓库
  3. 在 RStudio 中克隆该仓库,创建一个 hello.qmd 文件,写入你的姓名和学号,渲染为 HTML 后提交推送