R.version.string3 研究环境搭建
4 研究环境搭建
工欲善其事,必先利其器。在开始数据采集与预处理之前,我们需要搭建一个标准化的研究环境。本章将指导你安装和配置课程所需的全部软件工具。
4.1 R 与 RStudio
R 是本课程的主要编程语言,RStudio 是 R 最常用的集成开发环境(IDE)。
4.1.1 安装 R
- 访问 R 官方网站:https://cran.r-project.org/
- 根据你的操作系统选择对应版本:
- Windows:点击 “Download R for Windows” → “base” → 下载最新版本
- macOS:点击 “Download R for macOS” → 选择对应芯片版本(Apple Silicon 或 Intel)
- 运行安装程序,保持默认设置即可
4.1.2 安装 RStudio
- 访问 RStudio 下载页面:https://posit.co/download/rstudio-desktop/
- 下载免费的 RStudio Desktop 版本
- 运行安装程序
4.1.3 验证安装
打开 RStudio,在控制台(Console)中输入:
如果看到类似 "R version 4.x.x ..." 的输出,说明安装成功。
4.1.4 安装常用 R 包
本课程会用到以下 R 包,建议提前安装:
# 数据处理核心包
install.packages("tidyverse") # 包含 dplyr, tidyr, ggplot2, readr 等
# 数据读取
install.packages("readxl") # 读取 Excel 文件
install.packages("haven") # 读取 SPSS/Stata/SAS 文件
# 数据可视化增强
install.packages("corrplot") # 相关性矩阵可视化
install.packages("patchwork") # 图表拼接
# 荟萃分析
install.packages("metafor") # 荟萃分析
# Quarto 支持
install.packages("knitr")
install.packages("rmarkdown")4.1.5 验证 R 包安装
安装完成后,运行以下代码确认所有包都能正常加载:
# 逐个加载,检查是否报错
library(tidyverse)
library(readxl)
library(haven)
library(corrplot)
library(patchwork)
library(metafor)
library(knitr)
library(rmarkdown)
cat("所有 R 包加载成功!\n")如果某个包加载失败,重新安装该包即可。
安装过程中如果提示选择 CRAN 镜像,建议选择国内镜像(如清华大学镜像)以加快下载速度。
在 R 中设置清华镜像:
options(repos = c(CRAN = "https://mirrors.tuna.tsinghua.edu.cn/CRAN/"))可以将这行代码添加到 ~/.Rprofile 文件中,这样每次启动 R 都会自动使用国内镜像。
4.2 Python 环境(数据采集用)
Python 在本课程中主要用于网络数据采集(爬虫、API 调用)。
4.2.1 安装 Python
推荐使用 Anaconda 或 Miniconda:
- 访问 Miniconda 下载页面:https://docs.conda.io/en/latest/miniconda.html
- 下载对应操作系统的安装包
- 运行安装程序,勾选 “Add to PATH”
4.2.2 验证安装
打开终端(Windows 用 Anaconda Prompt),输入:
python --version4.2.3 创建课程专用环境
建议为本课程创建独立的 conda 环境,避免与其他项目的包版本冲突:
# 创建名为 datacourse 的环境,指定 Python 版本
conda create -n datacourse python=3.11
# 激活环境
conda activate datacourse以后每次打开终端进行课程相关操作时,先运行 conda activate datacourse。
4.2.4 安装常用 Python 包
pip install requests beautifulsoup4 pandas lxml如果下载速度慢,可以使用清华镜像:
pip install requests beautifulsoup4 pandas lxml -i https://pypi.tuna.tsinghua.edu.cn/simple永久设置镜像(推荐):
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple4.3 Git 与 GitHub
Git 是版本控制工具,GitHub 是代码托管平台。本课程的期末项目需要通过 Git 提交。
4.3.1 安装 Git
- 访问 Git 官方网站:https://git-scm.com/downloads
- 下载对应操作系统的安装包
- Windows 用户安装时保持默认设置即可
4.3.2 配置 Git
安装完成后,打开终端配置用户信息:
git config --global user.name "你的姓名"
git config --global user.email "你的邮箱@gxu.edu.cn"4.3.3 注册 GitHub 账号
- 访问 https://github.com
- 点击 “Sign up” 注册账号
- 建议使用学校邮箱注册,可以申请 GitHub Education 免费权益
使用 .edu.cn 邮箱注册后,可以在 https://education.github.com 申请学生开发者包,获得 GitHub Copilot 等免费工具。
4.3.4 在 RStudio 中配置 Git
RStudio 内置了 Git 支持:
- 打开 RStudio → Tools → Global Options → Git/SVN
- 确认 “Git executable” 路径正确(通常自动检测)
- 点击 “Create RSA Key” 生成 SSH 密钥
- 将公钥添加到 GitHub:Settings → SSH and GPG keys → New SSH key
4.4 Quarto
Quarto 是下一代科学出版系统,本课程的教材就是用 Quarto 编写的。
4.4.1 安装 Quarto
- 访问 https://quarto.org/docs/get-started/
- 下载对应操作系统的安装包
- 安装完成后,RStudio 会自动识别 Quarto
4.4.2 验证安装
在终端中输入:
quarto --version4.4.3 创建第一个 Quarto 文档
在 RStudio 中:File → New File → Quarto Document,选择 HTML 格式,点击 “Render” 按钮即可生成文档。
4.5 环境检查清单
完成以上安装后,请逐项确认:
R 相关:
- R 包安装失败:检查网络连接,尝试切换 CRAN 镜像。如果提示需要编译,Windows 用户需安装 Rtools
- RStudio 打开后闪退:尝试以管理员身份运行,或重置 RStudio 配置(删除
%localappdata%/RStudio-Desktop文件夹) - 中文路径问题:R 项目路径中避免使用中文和空格,建议使用纯英文路径如
D:/projects/
Git 相关:
- Git 命令找不到:Windows 用户需要重启终端或将 Git 添加到 PATH
- RStudio 找不到 Git:手动在 Tools → Global Options → Git/SVN 中指定 Git 路径(通常在
C:/Program Files/Git/bin/git.exe) - SSH 连接 GitHub 失败:检查是否已将公钥添加到 GitHub,可用
ssh -T git@github.com测试连接
Python 相关:
- conda 命令找不到:Windows 用户使用 “Anaconda Prompt” 而非普通 CMD;或将 conda 添加到系统 PATH
- pip 安装超时:使用国内镜像(见上方 pip 镜像加速部分)
- Python 版本冲突:确保在
datacourse环境中操作,用conda activate datacourse激活
4.6 课后任务
- 完成所有软件的安装和配置
- 在 GitHub 上创建一个名为
data-preprocessing-homework的仓库 - 在 RStudio 中克隆该仓库,创建一个
hello.qmd文件,写入你的姓名和学号,渲染为 HTML 后提交推送