21 项目工作坊

22 项目工作坊

本章为期末小组项目提供系统指导。你将以 3-5 人小组为单位，完成一个完整的生态学数据采集与分析项目。这是将课程所学技能融会贯通的实践机会。

22.1 项目选题指南

22.1.1 选题原则

好的选题应满足以下条件：

可操作性：在 4-6 周内可完成数据采集和分析
数据可得性：能获取足够的数据量（建议 ≥30 个观测值）
生态学意义：围绕真实的生态学问题展开
技能覆盖：能运用课程中学到的数据采集、清洗、分析和可视化技能

22.1.2 推荐选题方向

以下是适合本课程的选题方向，供各组参考：

方向一：校园生物多样性调查

校园不同生境（草地、林地、水域边）的植物物种组成比较
校园鸟类多样性的时间动态（早、中、晚观测）
校园昆虫多样性与植被类型的关系

方向二：环境因子与生物响应

不同光照条件下植物叶片形态的差异
土壤 pH 值与植物群落组成的关系
水质指标与水生生物多样性的关联

方向三：公开数据集分析

利用 GBIF 数据分析某类群在广西的分布格局
基于气象站数据分析气候变化对物候的影响
利用遥感植被指数（NDVI）分析土地利用变化

方向四：人类活动与生态影响

校园不同区域（教学区、生活区、绿化区）的土壤动物多样性
道路边缘效应对植物群落的影响
不同管理方式（修剪 vs. 自然生长）对草地物种多样性的影响

22.1.3 选题评估清单

确定选题前，请用以下清单自查：

□ 研究问题是否明确？能否用一句话概括？
□ 数据采集方法是否可行？需要什么设备？
□ 样本量是否充足？能否在规定时间内完成？
□ 是否涉及伦理问题（如采集保护物种）？
□ 小组成员是否都能参与数据采集？

22.2 数据采集方案设计

确定选题后，需要制定详细的数据采集方案。一份完整的方案应包含以下内容：

22.2.1 采样设计

1. 研究区域描述
   - 地理位置、面积、基本环境特征

2. 采样策略
   - 随机采样 / 系统采样 / 分层采样
   - 样方大小和数量的确定依据

3. 变量定义
   - 响应变量（因变量）：如物种数、多样性指数
   - 解释变量（自变量）：如海拔、土壤 pH
   - 协变量：如坡度、坡向

4. 时间安排
   - 预调查时间
   - 正式采样时间
   - 数据录入截止时间

22.2.2 数据记录规范

统一的数据记录格式是保证数据质量的基础：

# 推荐的野外记录表结构
field_record <- tibble(
  date       = "2027-04-15",      # 日期（ISO 8601 格式）
  site_id    = "S01",             # 样点编号
  observer   = "张三",            # 记录人
  latitude   = 23.456,            # 纬度（十进制度）
  longitude  = 108.789,           # 经度（十进制度）
  elevation  = 350,               # 海拔（m）
  species    = "Pinus massoniana", # 物种拉丁名
  count      = 12,                # 个体数
  dbh        = 15.3,              # 胸径（cm）
  notes      = "林缘个体"         # 备注
)

22.2.3 质量控制要点

双人录入：关键数据由两人独立录入后比对
即时检查：每天采样结束后检查数据完整性
异常标记：对可疑数据标记 flag，不要直接删除
元数据记录：记录天气、设备型号等可能影响数据的信息

22.3 分组协作流程

22.3.1 角色分工

每组建议设置以下角色（可兼任）：

角色	职责	建议人数
项目负责人	统筹进度、协调分工、汇报展示	1 人
数据采集员	野外调查、数据记录	2-3 人
数据分析员	数据清洗、统计分析、可视化	1-2 人
文档撰写员	撰写报告、整理参考文献	1 人

22.3.2 项目时间线

第 1 周：选题讨论 → 确定研究问题 → 提交选题报告
第 2 周：设计采样方案 → 准备设备 → 预调查
第 3 周：正式数据采集（第一轮）
第 4 周：正式数据采集（第二轮）→ 数据录入
第 5 周：数据清洗 → 探索性分析 → 可视化
第 6 周：撰写报告 → 组内审阅 → 提交 → 汇报展示

22.3.3 每周例会制度

建议每周召开一次小组会议（15-30 分钟）：

各成员汇报本周完成的工作
讨论遇到的问题和解决方案
明确下周任务分配
更新项目进度看板

22.4 Git 协作规范

本课程要求使用 Git 进行版本控制和团队协作。以下是小组项目的 Git 工作流程。

22.4.1 仓库结构

project-name/
├── README.md              # 项目说明
├── data/
│   ├── raw/               # 原始数据（不修改）
│   └── processed/         # 清洗后的数据
├── scripts/
│   ├── 01-data-cleaning.R
│   ├── 02-analysis.R
│   └── 03-visualization.R
├── output/
│   ├── figures/           # 图表
│   └── tables/            # 结果表格
├── report/
│   └── final-report.qmd   # Quarto 报告
└── .gitignore

22.4.2 分支策略

main          ← 稳定版本，仅通过合并更新
  ├── dev     ← 开发分支，日常工作在此进行
  │   ├── feature/data-cleaning   ← 张三负责数据清洗
  │   ├── feature/analysis        ← 李四负责统计分析
  │   └── feature/visualization   ← 王五负责可视化

22.4.3 基本工作流

# 1. 从 dev 分支创建个人功能分支
git checkout dev
git pull origin dev
git checkout -b feature/data-cleaning

# 2. 完成工作后提交
git add scripts/01-data-cleaning.R
git commit -m "feat(data): complete missing value imputation"

# 3. 推送到远程并创建 Pull Request
git push origin feature/data-cleaning
# 在 GitHub 上创建 PR，请队友 review

# 4. Review 通过后合并到 dev

22.4.4 提交信息规范

feat(data): add species abundance data     # 新增功能
fix(analysis): correct diversity index formula  # 修复错误
docs(report): update methods section       # 文档更新

22.4.5 .gitignore 模板

# 数据文件（大文件不入库）
data/raw/*.xlsx
*.csv.gz

# R 临时文件
.Rhistory
.RData
.Rproj.user/

# 系统文件
.DS_Store
Thumbs.db

22.5 项目报告模板

最终报告使用 Quarto 撰写，建议结构如下：

---
title: "项目标题"
author: "组员姓名"
date: "2027-06-XX"
format: html
---

### 1 引言
- 研究背景（为什么研究这个问题？）
- 研究目的（具体要回答什么问题？）

### 2 材料与方法
- 研究区域描述
- 采样设计与数据采集方法
- 数据处理与分析方法（使用的 R 包和统计方法）

### 3 结果
- 描述性统计（表格）
- 数据可视化（图表，附图注）
- 统计检验结果

### 4 讨论
- 主要发现的解读
- 与已有研究的比较
- 研究局限性

### 5 结论
- 核心发现（2-3 句话）

### 参考文献

### 附录
- 原始数据描述
- 补充图表
- 完整代码（或 GitHub 仓库链接）

22.5.1 报告要求

正文 2000-3000 字（不含代码和图表）
至少包含 3 张数据可视化图表
代码需可运行、有注释
引用至少 5 篇参考文献

22.6 评分标准

评分维度	权重	优秀（90-100）	良好（75-89）	合格（60-74）
选题与设计	15%	问题明确，设计合理，有创新性	问题清晰，设计基本合理	问题模糊，设计有明显缺陷
数据质量	20%	数据完整，记录规范，有质控措施	数据基本完整，格式统一	数据有缺失，格式不统一
分析方法	20%	方法恰当，代码规范，结果可靠	方法基本正确，代码可运行	方法有误或代码无法运行
可视化	15%	图表美观专业，信息传达清晰	图表基本规范，能传达信息	图表粗糙，信息不清晰
报告撰写	15%	逻辑清晰，表述准确，格式规范	结构完整，表述基本清楚	结构混乱，表述不清
团队协作	10%	Git 记录完整，分工明确，贡献均衡	有协作记录，分工基本合理	协作记录缺失，分工不均
可重复性	5%	一键运行，结果完全可复现	基本可复现，需少量调整	无法复现

22.6.1 可重复性检查清单

提交前请逐项确认：

□ README.md 包含项目说明和运行指南
□ 所有依赖包已在脚本开头列出
□ 数据文件路径使用相对路径
□ 代码可以从头到尾顺序运行，无报错
□ 随机过程设置了 set.seed()
□ 图表有标题、坐标轴标签和图注
□ Git 仓库历史记录清晰，提交信息规范
□ 敏感信息（如个人数据）已脱敏处理

给同学们的建议

项目工作坊的核心目标不是产出完美的研究成果，而是让你体验完整的数据科学工作流程。遇到问题是正常的——数据有缺失、分析结果不如预期、队友进度不一致——这些都是真实科研中会遇到的挑战。重要的是学会如何应对这些问题，而不是回避它们。