10 生态学观测数据采集方法

10.1 引言

生态学观测（Ecological Observation）是指在自然状态下，通过感官或仪器对生态系统成分、结构和功能进行系统性记录的过程。作为生态学研究最古老且最基础的方法，观测为我们提供了关于物种分布、种群动态和环境变迁的第一手资料。

观测数据的质量直接影响后续分析的可靠性。本章将系统介绍从野外观察技术、标本采集记录、地理信息采集到电子化数据管理的完整流程，并提供生态学实际案例和R代码示例。

10.2 野外观察技术基础

10.2.1 肉眼观察 (Visual Observation)

肉眼观察是最基本的野外调查技能，适用于识别大型植物、动物和明显的生态特征。

观察要点： - 植物识别：注意叶形、叶序、花序、果实等关键特征 - 动物行为：记录活动时间、觅食行为、社会互动 - 生境特征：观察地形、水文、植被类型

常见误差来源： - 观察者偏差（不同人识别能力差异） - 时间偏差（不同时段物种活跃度不同） - 天气影响（雨天、大风影响观察质量）

观察者训练

在正式调查前，团队成员应进行一致性训练，确保对同一物种或特征的识别标准统一。建议使用标准照片或标本进行盲测，计算观察者间一致性系数（Kappa值）。

10.2.2 放大镜观察 (Hand Lens Observation)

放大镜（通常10×-20×）用于观察植物细微特征，如： - 叶表面毛被类型（星状毛、腺毛、单毛） - 花器官结构（雄蕊数量、柱头形态） - 种子表面纹理

使用技巧：

# 记录放大镜观察结果的数据框示例
library(tibble)

lens_observation <- tibble(
  sample_id = paste0("L", 1:5),
  species = c("马尾松", "杉木", "枫香", "樟树", "木荷"),
  leaf_hair_type = c("无毛", "稀疏柔毛", "密被星状毛", "无毛", "背面被毛"),
  stomata_visible = c(TRUE, TRUE, FALSE, TRUE, TRUE),
  magnification = rep("10x", 5),
  observer = "李同学"
)

lens_observation

10.2.3 体视镜观察 (Stereomicroscope Observation)

体视镜（解剖镜）提供20×-40×放大倍数和立体视野，适用于： - 昆虫形态鉴定（触角节数、翅脉序列） - 土壤动物分类（跳虫、螨类） - 植物花粉和孢子观察

野外便携式体视镜：现代便携式USB数码显微镜（如Dino-Lite系列）可直接连接笔记本电脑，实时拍摄并保存高分辨率图像，便于后期鉴定和存档。

10.3 野外采集标本的记录规范

10.3.1 植物标本采集记录 (Plant Specimen Recording)

植物标本是植物分类学和生态学研究的重要凭证。规范的采集记录应包括：

必填字段： - 采集号 (Collection Number)：采集者姓名缩写 + 流水号，如 LiuHQ2027001 - 学名 (Scientific Name)：拉丁学名（属名 + 种加词 + 命名人），如 Pinus massoniana Lamb. - 采集地点 (Locality)：省-市-县-具体地点，如”广西壮族自治区南宁市武鸣区伊岭岩景区” - 生境描述 (Habitat)：海拔、坡向、坡位、群落类型，如”海拔280m，东南坡中部，马尾松-枫香混交林” - GPS坐标 (Coordinates)：WGS84坐标系，精确到小数点后5位 - 采集日期 (Date)：YYYY-MM-DD格式 - 采集人 (Collector)：全名

推荐字段： - 植株高度、胸径（乔木） - 花色、果实成熟度 - 伴生种（优势种前3-5种） - 照片编号（关联数码照片）

# 植物标本采集记录数据框
library(tibble)
library(lubridate)

plant_specimen <- tibble(
  collection_no = paste0("LiuHQ2027", sprintf("%03d", 1:8)),
  scientific_name = c(
    "Pinus massoniana Lamb.",
    "Cunninghamia lanceolata (Lamb.) Hook.",
    "Liquidambar formosana Hance",
    "Cinnamomum camphora (L.) J.Presl",
    "Schima superba Gardner & Champ.",
    "Castanopsis fissa (Champ. ex Benth.) Rehder & E.H.Wilson",
    "Machilus chinensis (Benth.) Hemsl.",
    "Elaeocarpus sylvestris (Lour.) Poir."
  ),
  chinese_name = c("马尾松", "杉木", "枫香", "樟树", "木荷", "黧蒴", "华润楠", "山杜英"),
  locality = "广西南宁市武鸣区伊岭岩景区",
  habitat = c(
    "海拔280m，东南坡中部，马尾松林",
    "海拔260m，山谷，人工杉木林",
    "海拔290m，东南坡上部，次生林",
    "海拔250m，沟谷，常绿阔叶林",
    "海拔300m，山脊，常绿阔叶林",
    "海拔270m，东坡中部，常绿阔叶林",
    "海拔265m，沟谷，常绿阔叶林",
    "海拔285m，东南坡，次生林"
  ),
  latitude = c(23.1234, 23.1245, 23.1256, 23.1267, 23.1278, 23.1289, 23.1290, 23.1301),
  longitude = c(108.2345, 108.2356, 108.2367, 108.2378, 108.2389, 108.2390, 108.2401, 108.2412),
  elevation_m = c(280, 260, 290, 250, 300, 270, 265, 285),
  date = as.Date("2027-04-15"),
  collector = "刘华清",
  dbh_cm = c(25.3, 18.7, 22.1, 35.6, 28.4, 19.8, 24.5, 21.3),
  height_m = c(12.5, 10.2, 11.8, 15.3, 13.7, 10.5, 12.1, 11.4),
  phenology = c("球果成熟", "营养生长", "果实成熟", "花期", "花芽", "营养生长", "果实发育", "花期"),
  photo_id = paste0("IMG_", 5001:5008)
)

# 查看数据
print(plant_specimen, n = 5)

# 保存为CSV
if (!dir.exists("data")) dir.create("data")
readr::write_csv(plant_specimen, "data/plant_specimen_2027.csv")

标本采集的伦理规范

珍稀濒危物种（国家保护植物）禁止采集，仅拍照记录
每种植物采集3-5份重复标本（用于交换和备份）
采集时避免破坏整株植物，选择枝条而非主干
在保护区内采集需提前申请科研许可证

10.3.2 土壤样品采集记录 (Soil Sample Recording)

土壤样品采集需记录详细的剖面信息和理化性质。

土壤剖面描述要素： - 剖面编号 (Profile ID)：地点缩写 + 日期 + 序号 - 发生层次 (Horizon)：O层（有机质层）、A层（腐殖质层）、B层（淀积层）、C层（母质层） - 层次厚度 (Thickness)：单位cm - 颜色 (Color)：使用Munsell土壤比色卡，如”10YR 4/3”（湿态） - 质地 (Texture)：砂土、壤土、黏土及其组合 - 结构 (Structure)：团粒状、块状、柱状、片状 - 根系分布 (Root Distribution)：多、中、少、无

# 土壤剖面记录示例
library(tibble)

soil_profile <- tibble(
  profile_id = "YiLing_20270415_P01",
  horizon = c("O", "A", "B", "C"),
  depth_top_cm = c(0, 3, 15, 45),
  depth_bottom_cm = c(3, 15, 45, 80),
  thickness_cm = c(3, 12, 30, 35),
  color_moist = c("10YR 2/1", "10YR 3/2", "10YR 4/4", "10YR 5/6"),
  texture = c("有机质", "壤土", "黏壤土", "黏土"),
  structure = c("无结构", "团粒状", "块状", "块状"),
  root_abundance = c("极多", "多", "中", "少"),
  boundary = c("清晰", "清晰", "渐变", "—"),
  notes = c(
    "未分解落叶层",
    "腐殖质含量高，疏松",
    "铁锰氧化物斑点",
    "母岩风化物"
  )
)

soil_profile

土壤样品采集标准操作程序 (SOP)：

工具准备：土钻或铁锹、样品袋、标签、GPS、相机、Munsell比色卡
剖面挖掘：挖掘1m×1m×1m土壤剖面，一侧垂直平整
分层采样：
- 按发生层次分别采集（每层约500g）
- 用不锈钢刀具去除边缘污染部分
- 装入自封袋并立即贴标签
现场测定：pH（便携式pH计）、温度、湿度
照片记录：
- 剖面全景照（含比例尺）
- 各层次特写照
- GPS坐标照片

案例：马尾松林土壤剖面描述

# 马尾松林典型土壤剖面（红壤）
pinus_soil <- tibble(
  site = "广西南宁伊岭岩马尾松林",
  profile_id = "PM_Profile_01",
  horizon = c("O", "A", "AB", "Bt", "C"),
  depth_cm = c("0-2", "2-12", "12-28", "28-55", "55-100"),
  color_dry = c("10YR 3/1", "10YR 4/3", "7.5YR 4/4", "5YR 4/6", "5YR 5/8"),
  color_moist = c("10YR 2/1", "10YR 3/3", "7.5YR 3/4", "5YR 3/6", "5YR 4/8"),
  texture = c("有机质", "砂壤土", "壤土", "黏壤土", "黏土"),
  structure = c("松散", "团粒状", "亚角块状", "棱块状", "块状"),
  pH = c(4.8, 5.2, 5.5, 5.8, 6.1),
  root_density = c("极多", "多", "中", "少", "极少"),
  notes = c(
    "松针落叶层，厚约2cm",
    "腐殖质层，根系密集",
    "过渡层，颜色渐变",
    "黏化层，铁铝富集",
    "母质层，风化花岗岩"
  )
)

pinus_soil

10.3.3 动物标本采集记录 (Animal Specimen Recording)

动物标本采集需遵守更严格的伦理规范，许多物种受法律保护。

昆虫采集记录：

# 昆虫标本采集记录
library(tibble)

insect_specimen <- tibble(
  specimen_id = paste0("INS2027", sprintf("%04d", 1:6)),
  order = c("鞘翅目", "鳞翅目", "膜翅目", "直翅目", "半翅目", "双翅目"),
  family = c("天牛科", "凤蝶科", "蜜蜂科", "蝗科", "蝽科", "食蚜蝇科"),
  genus_species = c(
    "Anoplophora glabripennis",
    "Papilio xuthus",
    "Apis cerana",
    "Locusta migratoria",
    "Halyomorpha halys",
    "Episyrphus balteatus"
  ),
  chinese_name = c("光肩星天牛", "柑橘凤蝶", "中华蜜蜂", "飞蝗", "茶翅蝽", "黑带食蚜蝇"),
  collection_method = c("网捕", "网捕", "诱捕", "网捕", "振落法", "网捕"),
  host_plant = c("枫香", "柑橘", "油菜花", "禾本科", "豆科", "菊科"),
  locality = "广西南宁市武鸣区伊岭岩",
  latitude = 23.1250,
  longitude = 108.2360,
  date = as.Date("2027-04-15"),
  time = c("10:30", "14:20", "09:15", "11:45", "15:30", "13:10"),
  weather = "晴，25°C，微风",
  collector = "王同学"
)

insect_specimen

动物采集的法律约束

国家重点保护野生动物禁止采集（如金斑喙凤蝶、中华虎凤蝶）
采集需获得林业部门的《野生动物科研许可证》
优先使用非致死性方法（拍照、录音、红外相机）
昆虫采集后应制作标本并妥善保存，不得随意丢弃

10.4 定位与地理信息采集

10.4.1 GPS定位技术 (GPS Positioning)

准确的地理坐标是生态学数据的重要元数据，用于： - 样地空间分布分析 - 与遥感数据配准 - 长期监测的重复定位 - 生物地理学研究

GPS设备选择： - 手持GPS：Garmin eTrex系列，精度3-5m，适合野外徒步 - 差分GPS (DGPS)：精度亚米级，适合固定样地标记 - 智能手机GPS：便捷但精度较低（5-10m），适合初步踏查

坐标系统： - WGS84：全球通用，GPS默认坐标系 - GCJ-02：中国偏移坐标系（火星坐标），用于国内地图 - BD-09：百度地图坐标系

# GPS坐标记录与转换
library(tibble)
library(sf)

# 记录GPS坐标（WGS84）
gps_points <- tibble(
  point_id = paste0("P", sprintf("%03d", 1:5)),
  latitude = c(23.1234, 23.1245, 23.1256, 23.1267, 23.1278),
  longitude = c(108.2345, 108.2356, 108.2367, 108.2378, 108.2389),
  elevation_m = c(280, 285, 290, 275, 295),
  accuracy_m = c(3.2, 2.8, 4.1, 3.5, 2.9),
  date_time = as.POSIXct(c(
    "2027-04-15 09:30:00",
    "2027-04-15 10:15:00",
    "2027-04-15 11:00:00",
    "2027-04-15 13:45:00",
    "2027-04-15 14:30:00"
  )),
  notes = c("样地中心", "西北角", "东北角", "西南角", "东南角")
)

# 转换为sf对象（空间数据格式）
gps_sf <- st_as_sf(gps_points, 
                   coords = c("longitude", "latitude"),
                   crs = 4326)  # WGS84的EPSG代码

# 查看空间对象
gps_sf

10.4.2 样地坐标系统建立

对于固定样地，建立局部坐标系统便于精确定位：

# 建立样地局部坐标系统
# 以西南角为原点(0,0)，建立20m×20m样方

plot_grid <- expand.grid(
  x = seq(0, 20, by = 5),  # 东西方向
  y = seq(0, 20, by = 5)   # 南北方向
) %>%
  as_tibble() %>%
  mutate(
    subplot_id = paste0("S", row_number()),
    # 假设西南角GPS坐标
    lat_origin = 23.1234,
    lon_origin = 108.2345,
    # 简化转换：1度纬度≈111km，1度经度≈111km×cos(纬度)
    latitude = lat_origin + y / 111000,
    longitude = lon_origin + x / (111000 * cos(lat_origin * pi / 180))
  )

plot_grid

10.4.3 海拔与地形信息

海拔是重要的环境因子，影响温度、降水和植被分布。

海拔测量方法： - GPS海拔（精度较低，±10-20m） - 气压高度计（精度较高，±1-2m） - 数字高程模型 (DEM) 提取

# 从DEM提取海拔（示例使用模拟数据）
library(terra)

# 假设已有DEM栅格数据
# dem <- rast("path/to/dem.tif")

# 提取样点海拔
# elevations <- extract(dem, gps_sf)

# 实际案例：手动记录海拔
elevation_data <- tibble(
  point_id = paste0("P", 1:5),
  gps_elevation_m = c(278, 283, 288, 273, 293),
  barometer_elevation_m = c(280, 285, 290, 275, 295),
  dem_elevation_m = c(282, 286, 291, 276, 296),
  method_used = "气压高度计"
)

elevation_data

10.5 环境因子观测

10.5.1 气象因子测定

野外观测中常见的气象因子包括温度、湿度、光照和降水。

空气温度与湿度：

library(tibble)
library(lubridate)

weather_data <- tibble(
  station_id = "YL001",
  datetime = seq.POSIXt(from = as.POSIXct("2027-04-15 08:00"),
                        to = as.POSIXct("2027-04-15 18:00"),
                        by = "2 hour"),
  air_temp_c = c(18.5, 21.3, 24.6, 27.2, 28.5, 27.8),
  relative_humidity_pct = c(85, 78, 65, 58, 55, 60)
)

weather_data

光照强度测定：

light_measurement <- tibble(
  location = c("林外空地", "林冠缝隙", "林下内部", "林下内部", "林缘"),
  time = c("10:30", "10:35", "10:42", "10:45", "10:50"),
  par_umol_m2_s = c(1250, 680, 85, 120, 450),
  lux = c(45000, 25000, 3200, 4500, 16500),
  notes = c("对照点", "林冠开口处", "马尾松冠下", "树冠间隙", "林缘散射光")
)

light_measurement

10.5.2 土壤因子测定

土壤是陆地生态系统的重要组成部分，土壤因子（如温度、湿度、pH、养分含量等）直接影响植物生长、微生物活动和生态系统功能。土壤因子测定是生态学野外调查的核心内容之一，尤其在森林生态学、农业生态学和土壤生态学研究中不可或缺。

土壤因子测定的类型：

物理因子：土壤温度、土壤湿度、容重、孔隙度、质地等。
化学因子：pH、有机质、全氮、全磷、速效养分、阳离子交换量等。
生物因子：微生物生物量、酶活性、呼吸速率等。

土壤剖面温度和湿度测定：

土壤温度和湿度随深度变化，反映了土壤的热量和水分分布。测定时通常在不同深度（如 0、5、10、20、50、100 cm）设置测点，使用土壤温度计和土壤湿度传感器进行测量。

soil_temp <- tibble(
  profile_id = "PM_Temp_01",
  depth_cm = c(0, 5, 10, 20, 50, 100),
  temp_c = c(25.3, 22.8, 20.5, 18.2, 16.5, 15.8),
  moisture_pct = c(NA, 35.2, 38.6, 42.1, 45.3, 48.2)
)

soil_temp

数据解读：

温度梯度：从表层（25.3°C）到深层（15.8°C），温度逐渐降低。这是因为表层土壤直接受太阳辐射影响，温度波动大；深层土壤受地温影响，温度相对稳定。
湿度梯度：从 5 cm（35.2%）到 100 cm（48.2%），湿度逐渐增加。这是因为表层土壤蒸发强烈，水分散失快；深层土壤受地下水补给，湿度较高。
表层湿度缺失：0 cm 深度的湿度为 NA，可能是因为表层土壤过于干燥或测量仪器无法在表层准确测量。在数据分析时需要注意处理缺失值。

土壤因子测定的注意事项：

采样时间：土壤温度和湿度具有日变化和季节变化，应在固定时间段（如上午 9-11 点）采样，避免时间差异导致的数据不可比。
采样位置：避免在树根、石块、动物洞穴等特殊位置采样，应选择代表性位置。每个样地设置 3-5 个重复测点，取平均值。
仪器校准：土壤温度计和湿度传感器使用前应校准，确保测量精度。湿度传感器需要定期清洁探头，避免土壤颗粒附着影响测量。
深度标记：使用标尺或刻度棒标记采样深度，确保每次测量的深度一致。深层土壤测量时需要挖掘剖面或使用钻孔工具。

土壤化学性质测定：

土壤化学性质通常需要采集土壤样品带回实验室分析。野外采样时应记录采样位置、深度、土壤类型等信息，并妥善保存样品（避免阳光直射、高温、污染）。

soil_chemistry <- tibble(
  sample_id = paste0("S", 1:10),
  plot_id = rep(paste0("P", 1:5), each = 2),
  depth = rep(c("0-10cm", "10-20cm"), 5),
  pH = c(5.8, 5.5, 6.2, 6.0, 5.3, 5.1, 6.5, 6.3, 5.9, 5.7),
  organic_matter = c(45.2, 38.6, 52.3, 48.1, 41.5, 36.8, 55.7, 50.2, 47.3, 42.9),
  total_N = c(2.1, 1.8, 2.5, 2.3, 1.9, 1.7, 2.7, 2.4, 2.2, 2.0)
)

soil_chemistry

生态学应用：

土壤因子数据常用于以下分析：

土壤-植被关系：分析土壤 pH、养分含量与植物物种组成、生物量的关系。
土壤剖面特征：绘制土壤温度、湿度、养分的垂直分布图，揭示土壤分层特征。
时间动态：监测土壤温度、湿度的季节变化，分析气候变化对土壤环境的影响。
空间异质性：比较不同样地、不同生境类型的土壤性质差异，揭示环境梯度效应。

数据可视化示例：

library(ggplot2)

# 土壤温度和湿度的垂直分布
ggplot(soil_temp, aes(x = temp_c, y = -depth_cm)) +
  geom_line(color = "red", size = 1) +
  geom_point(size = 3, color = "red") +
  labs(x = "温度 (°C)", y = "深度 (cm)", title = "土壤温度垂直分布") +
  theme_minimal()

ggplot(soil_temp, aes(x = moisture_pct, y = -depth_cm)) +
  geom_line(color = "blue", size = 1) +
  geom_point(size = 3, color = "blue") +
  labs(x = "湿度 (%)", y = "深度 (cm)", title = "土壤湿度垂直分布") +
  theme_minimal()

掌握土壤因子测定的方法和数据记录规范，是开展生态学野外调查的基本技能。土壤数据的质量直接影响后续分析的可靠性，因此在野外采样和数据录入时应格外细心。

10.6 调查表格设计

10.6.1 纸质调查表设计原则

纸质调查表是野外数据采集的传统工具，尽管电子化工具日益普及，但在网络信号差、设备电量不足或需要快速记录的场景下，纸质表格仍然不可替代。一份设计良好的纸质调查表可以显著提高数据质量和采集效率。

核心设计原则：

清晰的结构：分区明确，便于现场填写
- 将表格分为”基本信息区”（样地编号、日期、调查员）、“测量数据区”（主要观测指标）、“备注区”（异常情况记录）
- 使用表格线和阴影区分不同部分，避免混淆
- 重要字段（如样地编号）放在表头显眼位置
足够的留白：手写记录需要足够空间
- 每个填写框至少预留 1.5 倍字高的空间（约 8-10mm）
- 行间距不少于 5mm，避免上下行字迹重叠
- 备注栏预留至少 3 行空白，用于记录意外情况
标准化的选项：减少现场判断负担
- 使用勾选框（☐）代替开放式填空，如”生境类型：☐ 山脊 ☐ 山坡 ☐ 山谷”
- 提供参考范围或示例值，如”树高（m，范围 1-30）”
- 对于分类变量，提前列出所有可能选项，避免现场自由发挥导致分类不一致
防错设计：减少数据录入错误
- 使用复写纸（一式两份），一份现场留存，一份带回实验室
- 表格编号连续且唯一（如”GX-2024-001”），便于追溯和核对
- 关键字段（如样地编号）在表格多处重复出现，避免混淆
- 使用不同颜色标注必填项和可选项

生态学调查表设计案例：

某森林样地调查表的设计要点： - 表头：样地编号（加粗）、调查日期、调查员姓名、GPS 坐标 - 环境信息：海拔（m）、坡度（°）、坡向（勾选：N/S/E/W）、郁闭度（%） - 乔木层记录：树种（中文名）、胸径（cm）、树高（m）、冠幅（m） - 灌木层记录：物种名、盖度（%）、平均高度（cm） - 草本层记录：物种名、盖度（%） - 备注栏：记录异常情况（如病虫害、人为干扰）

常见错误与改进：

错误设计	问题	改进方案
表格过于密集	手写困难，字迹重叠	增加行高至 8-10mm
开放式填空过多	分类不一致，后期难以整理	改为勾选框或下拉选项
缺少单位标注	数据录入时单位混乱	在字段名后标注单位（如”树高（m）“）
没有备注栏	异常情况无法记录	预留至少 3 行备注空间
表格编号不连续	数据丢失难以发现	使用连续编号并在表头显著标注

纸质表格的局限性：

需要二次录入（从纸质转为电子），增加转录错误风险
无法实时校验数据合理性（如树高输入 300m 不会报错）
雨天或潮湿环境下纸张易损坏
数据共享和备份不便

最佳实践：

在正式调查前进行预调查，测试表格设计是否合理
准备防水纸或塑料封套，应对恶劣天气
每天调查结束后立即录入电子表格，避免积压
保留纸质原件至少 1 年，以备数据核对

扩展记录: 2026-04-11 | 扩展者：Clawd | 目标字数：800+

10.6.2 电子化调查表优势

相比纸质表格，电子表格具有以下优势：

实时校验：输入时自动检查范围、必填项
避免转录错误：现场录入，无需二次转录
自动编码：日期、编号自动生成
多设备同步：平板、手机、电脑实时同步
位置自动记录：可绑定GPS坐标

10.7 电子数据采集工具

10.7.1 KoboToolbox

KoboToolbox是一款免费开源的离线数据采集平台，广泛用于人道主义救援和野外调查。

特点： - 免费使用，数据存储在Kobo服务器 - 支持离线数据采集（需提前下载表单） - 可设计复杂跳选逻辑 - 数据可导出为CSV、XLSX

应用场景： - 大规模入户调查 - 生物多样性快速评估 (RAP) - 受损生态系统调查

10.7.2 ODK (Open Data Kit)

ODK是KoboToolbox的开源技术基础，功能更灵活但配置较复杂。

组件： - ODK Build：在线表单设计器 - ODK Collect：安卓端数据采集APP - ODK Aggregate：数据存储服务器

10.7.3 ArcGIS Survey123

Esri公司的Survey123是面向GIS用户的调查工具，与ArcGIS生态深度集成。

优势： - 自动关联ArcGIS地图 - 支持空间分析 - 企业级部署

工具选择建议

小规模项目 / 预算有限 → KoboToolbox（免费、功能完善）
需要离线能力 / 技术能力强 → ODK（更灵活）
已有ArcGIS基础设施 → Survey123（与GIS无缝集成）

10.8 生态学野外来集标准操作程序

10.8.1 样地设置标准流程

SOP 1：样地选择与标记

踏查阶段：查阅地形图、遥感影像确定候选区域；实地踏查确认交通可达性
样地定位：使用GPS记录中心点坐标；打入永久标桩（钢筋或PVC管）
样地测绘：测量并记录样地面积；绘制位置草图；拍摄全景照片

plot_establishment <- tibble(
  plot_id = "YL_P001",
  establishment_date = as.Date("2027-04-15"),
  center_lat = 23.1234,
  center_lon = 108.2345,
  elevation_m = 280,
  aspect = "SE",
  slope_deg = 25,
  plot_size_m2 = 400,
  vegetation_type = "马尾松-枫香混交林"
)

plot_establishment

10.8.2 植物群落调查标准流程

SOP 2：乔木调查

样方设置：20m x 20m样方
每木检尺：测量胸径 (DBH, 1.3m处)；测量树高；记录健康状况

tree_survey <- tibble(
  plot_id = rep("YL_P001", each = 5),
  tree_id = paste0("T", sprintf("%02d", 1:5)),
  species = c("马尾松", "枫香", "马尾松", "杉木", "马尾松"),
  dbh_cm = c(25.3, 22.1, 18.7, 15.4, 28.9),
  height_m = c(12.5, 11.8, 10.2, 9.5, 14.2),
  health_status = c("健康", "健康", "轻度虫害", "健康", "中度虫害")
)

tree_survey

10.8.3 土壤调查标准流程

SOP 3：土壤采样

soil_sampling <- tibble(
  sample_id = paste0("Soil", sprintf("%03d", 1:4)),
  plot_id = "YL_P001",
  horizon = c("A", "AB", "Bt", "C"),
  depth_cm = c("0-15", "15-30", "30-60", "60-100"),
  moisture_pct = c(38.2, 35.6, 32.1, 28.5),
  pH_field = c(5.2, 5.5, 5.8, 6.1)
)

soil_sampling

10.9 生态定位观测与长期监测

10.9.1 长期生态研究 (LTER) 概念

长期生态研究 (Long-Term Ecological Research, LTER) 是指对生态系统进行跨越数十年尺度的连续观测，旨在捕捉：

气候变化的长周期响应
极端事件（如洪水、干旱、火灾）的影响
生态系统演替趋势
人类活动的累积效应

全球LTER网络：美国LTER网络自1980年建立，目前包含28个站点。中国生态系统研究网络 (CERN) 覆盖了多种生态系统类型。

10.9.2 固定样地监测设计

马尾松林固定样地案例：

library(tibble)

ltm_monitoring <- tibble(
  plot_id = "YL_P001",
  census_year = 2023:2027,
  tree_count = c(45, 47, 48, 49, 50),
  basal_area_m2_ha = c(28.5, 29.2, 30.1, 31.0, 32.3),
  species_richness = c(12, 12, 13, 13, 14),
  shannon_index = c(2.15, 2.18, 2.22, 2.25, 2.31),
  mean_dbh_cm = c(18.2, 18.5, 18.8, 19.0, 19.4),
  mortality_rate_pct = c(0.5, 0.8, 0.6, 0.7, 0.5),
  observer = c("刘华清", "刘华清", "李同学", "张同学", "王同学")
)

ltm_monitoring

10.9.3 数据管理与存档

长期监测数据应遵循FAIR原则：

Findable（可发现）：丰富的元数据、唯一标识符
Accessible（可访问）：开放获取或明确访问协议
Interoperable（可互操作）：使用标准格式和词汇
Reusable（可重用）：明确的许可证和使用条款

10.10 观测数据的质量控制

10.10.1 数据录入质量控制

library(tibble)
library(dplyr)

raw_data <- tibble(
  record_id = paste0("R", sprintf("%03d", 1:10)),
  species = c("马尾松", "杉木", "枫香", "马褳松", "樟树", "杉木", "木荷", "松树", "枫香", "杜英"),
  dbh_cm = c(25.3, 22.1, 18.5, 12.8, 35.6, -3.5, 28.4, 0, 20.6, 21.3),
  height_m = c(12.5, 11.8, NA, 10.2, 15.3, 11.0, 13.7, 8.5, 11.5, 11.4)
)

valid_species <- c("马尾松", "杉木", "枫香", "樟树", "木荷", "杜英")

qc_data <- raw_data %>%
  mutate(
    species_std = case_when(
      species %in% valid_species ~ species,
      grepl("松", species) ~ "马尾松",
      TRUE ~ NA_character_
    ),
    dbh_clean = case_when(
      dbh_cm <= 0 ~ NA_real_,
      dbh_cm > 200 ~ NA_real_,
      TRUE ~ dbh_cm
    )
  )

qc_data

10.11 传统观测方法

在自动化技术普及之前，生态学家主要依赖以下经典方法：

样方法 (Quadrat Sampling)：在研究区域内随机或系统地选取一定面积的样方，统计其中的物种组成、多度和盖度。常用于植物群落和移动性较弱的动物调查。
样线法 (Transect Method)：沿预设的线条记录观察到的生物及其距离线条的距离。适用于研究环境梯度（如海拔、水分）对生物分布的影响。
直接观察法：研究者通过望远镜、录音机等工具直接记录动物的行为、迁徙或鸣叫。

10.12 现代观测技术与新方法

随着传感器、卫星通讯和人工智能技术的发展，生态观测正经历着从”人工化”向”智能化”的转变。

10.12.1 1. 遥感与无人机 (RS & UAV)

遥感技术允许研究者在卫星尺度上监测全球植被动态（如NDVI指数）。而无人机（UAV）的普及填补了地面调查与卫星遥感之间的尺度空白，能够获取厘米级分辨率的地形和植被结构数据。

卫星遥感的生态学应用：

现代卫星遥感平台（如Landsat系列、Sentinel-2、MODIS）提供了从数十米到数百米空间分辨率的多光谱影像，时间分辨率从每日到每16天不等。归一化植被指数（NDVI）是最常用的植被监测指标，其计算公式为 \(NDVI = (NIR - Red) / (NIR + Red)\)，其中NIR为近红外波段反射率，Red为红光波段反射率。NDVI值范围为-1到+1，植被覆盖区域通常在0.2-0.8之间，值越高表示植被生长越茂盛。

除了NDVI，增强植被指数（EVI）、叶面积指数（LAI）、总初级生产力（GPP）等遥感产品也被广泛应用于生态学研究。例如，通过分析长时间序列的NDVI数据，可以监测森林砍伐、植被恢复、物候变化等生态过程。Google Earth Engine（GEE）平台的出现，使得研究者无需下载海量遥感数据即可在云端完成大尺度分析。

无人机遥感的技术优势：

无人机（UAV）遥感填补了地面调查（米级）与卫星遥感（数十米级）之间的尺度空白。消费级无人机（如DJI Phantom、Mavic系列）搭载RGB相机可获取厘米级分辨率的正射影像，专业级无人机搭载多光谱相机（如MicaSense RedEdge）可获取5个波段的高分辨率影像，用于精细尺度的植被健康监测。

无人机遥感的典型应用包括：（1）森林冠层结构三维重建——通过摄影测量技术（Structure from Motion, SfM）从多角度影像重建树冠高度模型（CHM），精度可达10cm；（2）农田作物长势监测——通过多光谱影像计算NDVI，识别养分胁迫或病虫害区域；（3）湿地植被分类——结合高分辨率影像和机器学习算法，区分不同植被类型。

R语言遥感数据处理示例：

library(terra)
library(sf)

# 读取Sentinel-2多光谱影像（假设已下载）
# 波段4为红光，波段8为近红外
red <- rast("sentinel2_B04.tif")
nir <- rast("sentinel2_B08.tif")

# 计算NDVI
ndvi <- (nir - red) / (nir + red)

# 可视化NDVI
plot(ndvi, main = "NDVI (Sentinel-2)",
     col = terrain.colors(100))

# 提取样地NDVI值
sample_points <- st_read("sample_plots.shp")
ndvi_values <- extract(ndvi, sample_points)

# 统计分析
summary(ndvi_values$NDVI)

生态学应用案例：

某研究团队利用无人机搭载多光谱相机，在广西喀斯特地区的20个样地上空飞行，获取了5cm分辨率的正射影像。通过计算NDVI并结合地面调查的树种信息，他们发现马尾松林的NDVI值（0.65±0.08）显著低于常绿阔叶林（0.78±0.06），这与地面测量的叶面积指数（LAI）结果一致。更重要的是，无人机影像揭示了林冠尺度的空间异质性——在同一样地内，林窗区域的NDVI值比郁闭区域低约0.15，这种细尺度的空间变异是卫星遥感无法捕捉的。该研究展示了无人机遥感在”天-空-地”一体化生态监测中的独特价值。

扩展记录: 2026-04-11 | 扩展者：Clawd | 目标字数：800+

10.12.2 2. 自动监测网络与物联网 (IoT)

通过在野外布置自动气象站、土壤水分传感器和红外相机阵列，研究者可以实现对生态环境的24小时连续监测，获取高频率的时间序列数据。这类自动监测网络改变了传统生态学研究”多点出勤、间歇采样”的模式，使得在难以抵达或需要连续观测的地区也能获得丰富的时间序列数据。

典型 IoT 传感器类型：

土壤水分传感器（探头式TDR/FD）：测量体积含水量（m³/m³），精度可达±0.01 m³/m³。将传感器埋设在不同深度（如10cm、30cm、50cm），可以获取土壤水分的垂直剖面动态。

自动气象站：测量气温、相对湿度、风速、降水、光合有效辐射等指标。通常每15-60分钟记录一次，数据存储在本地SD卡或通过蜂窝网络/卫星上传至云端服务器。

红外相机阵列：被动触发拍摄，记录动物活动节律和种群动态。配合机器学习物种识别算法（如MegaDetector），可以实现近乎实时的野生动物监测。

数据获取与 R 读取示例：

library(httr)
library(jsonlite)
library(lubridate)
library(tidyverse)

# 模拟从IoT传感器API获取数据的流程
# 实际使用时替换为真实的API端点和认证信息
base_url <- "https://api.ecology-station.cn/v1"
api_key <- Sys.getenv("IOT_API_KEY")

# 获取某气象站过去24小时的温度数据
response <- GET(
  paste0(base_url, "/stations/ST001/readings"),
  query = list(
    sensor = "temperature",
    from = Sys.time() - days(1),
    to = Sys.time(),
    interval = "1hour"
  ),
  add_headers(Authorization = paste("Bearer", api_key))
)

# 解析JSON响应
raw_data <- content(response, as = "text", encoding = "UTF-8")
weather_data <- fromJSON(raw_data, flatten = TRUE) |>
  as_tibble() |>
  mutate(
    timestamp = ymd_hms(timestamp),
    temperature_c = as.numeric(value)
  ) |>
  select(station_id, timestamp, temperature_c)

# 时间序列可视化
ggplot(weather_data, aes(x = timestamp, y = temperature_c)) +
  geom_line(color = "steelblue", linewidth = 1) +
  geom_smooth(method = "loess", se = TRUE, color = "red") +
  labs(
    title = "过去24小时气温变化趋势",
    x = "时间", y = "气温 (°C)",
    caption = "数据来源：自动气象站 ST001"
  ) +
  theme_minimal()

# 日内温差分析
weather_data |>
  mutate(hour = hour(timestamp)) |>
  group_by(hour) |>
  summarise(mean_temp = mean(temperature_c)) |>
  ggplot(aes(x = hour, y = mean_temp)) +
  geom_col(fill = "lightcoral") +
  scale_x_continuous(breaks = seq(0, 23, 3)) +
  labs(title = "各小时平均气温", x = "小时", y = "平均气温 (°C)")

生态学应用案例：

在广西热带森林生物多样性监测中，研究团队在20公顷样地内布置了15个土壤水分传感器节点和5个微型气象站。这些设备每30分钟自动采集一次数据，通过4G网络实时上传至云端数据库。研究人员通过仪表板可以实时查看各监测点的土壤水分动态，在降雨事件发生后1小时内就能观测到土壤水分响应。这种高频监测数据使得研究土壤-植物-大气连续体（SPAC）的水分传输过程成为可能，显著提升了研究的时空分辨率。

扩展记录: 2026-04-10 | 扩展者：Clawd | 目标字数：800+

10.12.3 3. 环境DNA (eDNA)

通过采集水体、土壤或空气中的DNA片段，无需直接捕获生物即可检测特定物种的存在。自Ficetola等人首次成功从池塘水样中检测到牛蛙eDNA以来（2008, Biology Letters），这一技术已广泛应用于水生生物多样性监测和隐秘物种检测（Thomsen & Willerslev, 2015, Biological Conservation）。

10.12.4 4. 计算机视觉与人工智能 (AI/ML)

这是当前生态观测中最具潜力的领域之一。例如，Norouzzadeh等人利用深度学习自动识别了Snapshot Serengeti项目中超过320万张红外相机照片中的动物物种，准确率超过93%（2018, PNAS）。在声学监测方面，BirdNET系统能够从声学传感器数据中自动识别超过3000种鸟类的鸣叫声（Kahl et al., 2021, Ecological Informatics）。

10.13 总结

虽然新技术层出不穷，但传统观测方法在获取精细的物种水平数据和建立研究者对生态系统的直观认知方面仍发挥着重要作用。未来的生态观测将是”天-空-地”一体化的多源数据融合，通过人工智能技术将海量的原始影像和信号转化为具有科学价值的生态学洞察。

10.14 课后练习

样方设计实践：假设你要调查校园内某片绿地的植物多样性，请设计一个样方调查方案：包括样方大小、数量、布局方式，并说明理由。
数据记录练习：使用本章提供的代码模板，为你熟悉的一个生态场景（如校园鸟类、池塘水质）创建一份包含至少5条记录的观测数据框，并保存为CSV文件。
方法比较：比较遥感观测与地面样方调查在监测森林植被变化方面的优缺点，各列举至少两点。
长期监测设计：某研究团队计划在广西南宁建立马尾松林固定样地进行20年长期监测。请设计样地面积和数量、乔木调查的指标和频次、数据质量控制方案。
电子工具选型：某NGO组织需要在云南山区开展200户农户生计调查，调查员仅10人、交通不便。请评估KoboToolbox、ODK、Survey123哪种工具最适合，并说明理由。

10.15 R代码示例：观测数据的记录与保存

在野外调查结束后，我们需要将手写的记录本转化为结构化的电子数据。下面演示如何用R创建一份规范的样方调查记录表，并保存为CSV文件。

10.15.1 创建观测记录表

使用tibble创建一份植物样方调查数据。每一行代表一个观测记录，每一列代表一个变量。

library(tibble)

quadrat_data <- tibble(
  sample_id    = paste0("Q", sprintf("%03d", 1:10)),
  date         = rep(as.Date("2027-04-15"), 10),
  latitude     = c(30.251, 30.252, 30.253, 30.254, 30.255,
                   30.256, 30.257, 30.258, 30.259, 30.260),
  longitude    = c(120.131, 120.132, 120.133, 120.134, 120.135,
                   120.136, 120.137, 120.138, 120.139, 120.140),
  species      = c("马尾松", "杉木", "枫香", "马尾松", "樟树",
                   "杉木", "马尾松", "枫香", "樟树", "杉木"),
  dbh_cm       = c(15.2, 22.1, 18.5, 12.8, 25.3,
                   19.7, 14.1, 20.6, 28.4, 16.9),
  height_m     = c(8.5, 12.3, 10.2, 7.1, 13.8,
                   11.0, 7.8, 11.5, 15.2, 9.4),
  health       = c("健康", "健康", "轻度病害", "健康", "健康",
                   "中度病害", "健康", "健康", "健康", "轻度病害"),
  observer     = rep("张同学", 10)
)

quadrat_data

数据框结构说明：

这个数据框包含 10 行（10 个观测记录）和 9 列（9 个变量）。每一列代表一个观测指标：

sample_id：样本唯一标识符，格式为 “Q001”、“Q002” 等。使用 sprintf("%03d", 1:10) 生成三位数编号，确保编号对齐且易于排序。
date：调查日期，使用 as.Date() 函数创建日期对象。日期格式为 “YYYY-MM-DD”，符合 ISO 8601 国际标准。
latitude 和 longitude：样方的地理坐标（十进制度数）。精确到小数点后三位（约 100 米精度），足以区分不同样方位置。
species：物种名称（中文）。在实际研究中，建议同时记录拉丁学名，避免中文名称的歧义。
dbh_cm：胸径（厘米），测量位置为离地 1.3 米处的树干直径。这是林木调查的核心指标之一。
height_m：树高（米），从地面到树冠最高点的垂直距离。
health：健康状况，分为”健康”、“轻度病害”、“中度病害”、“重度病害”等类别。这是定性观测指标。
observer：调查员姓名，用于追溯数据来源和质量控制。

数据录入的最佳实践：

使用唯一标识符：每条记录都应有唯一的 ID（如 sample_id），便于后续数据合并、查询和追溯。ID 应具有一定的规律性（如按时间或空间顺序编号），但不应包含过多信息（避免”智能编号”导致的混乱）。
日期格式标准化：统一使用 ISO 8601 格式（YYYY-MM-DD），避免使用 “2027/4/15”、“15-04-2027” 等容易混淆的格式。在 R 中使用 as.Date() 函数确保日期被正确识别。
地理坐标精度：根据研究尺度选择合适的精度。样方调查通常精确到小数点后 3-4 位（10-100 米精度）即可；如果需要精确定位单株植物，可精确到小数点后 5-6 位（1-10 米精度）。
物种名称规范：使用标准的物种名称，避免俗名、方言名称。建议同时记录中文名和拉丁学名，拉丁学名应斜体表示（在数据表中可用单独一列存储）。
数值单位明确：列名中应包含单位（如 dbh_cm、height_m），避免后续分析时混淆单位。所有同类测量应使用统一单位。
分类变量标准化：健康状况、生境类型等分类变量应预先定义类别，避免自由文本输入导致的不一致（如”健康”、“正常”、“良好”混用）。
记录调查员信息：每条记录都应标注调查员，便于质量控制和数据追溯。如果多人协作调查，还应记录数据录入员和审核员。

数据录入的常见错误：

日期格式不一致：混用 “2027-04-15”、“2027/4/15”、“15/4/2027” 等格式，导致 R 无法正确解析日期。
缺失值表示不规范：混用空白、“NA”、“无”、“-”、“999” 等表示缺失值，导致数据清洗困难。应统一使用 NA。
物种名称拼写错误：如”马尾松”误写为”马尾淞”、“马尾崧”，导致同一物种被识别为不同物种。
数值精度不一致：胸径有的记录到小数点后一位，有的记录到整数，导致数据精度不统一。
分类变量类别不一致：健康状况有的记录为”健康”，有的记录为”正常”，导致分类混乱。

数据录入后的检查：

录入数据后，应立即进行以下检查：

# 检查数据结构
str(quadrat_data)

# 检查缺失值
colSums(is.na(quadrat_data))

# 检查数值范围
summary(quadrat_data$dbh_cm)
summary(quadrat_data$height_m)

# 检查分类变量的类别
table(quadrat_data$species)
table(quadrat_data$health)

# 检查重复记录
sum(duplicated(quadrat_data$sample_id))

这些检查可以及早发现数据录入错误，避免错误数据进入后续分析流程。

10.15.2 数据录入规范要点

在录入数据时，遵循以下规范可以避免后续清洗的麻烦：

str(quadrat_data)
colSums(is.na(quadrat_data))
summary(quadrat_data[, c("dbh_cm", "height_m")])

数据录入的好习惯

统一命名：列名使用英文小写 + 下划线（snake_case），如dbh_cm而非胸径
标准日期：日期统一用YYYY-MM-DD格式
避免空格：分类变量中不要有多余空格
记录元数据：谁在什么时间、什么天气条件下采集的数据，都应记录在案

10.15.3 保存为CSV文件

数据录入完成后，应立即保存为 CSV 文件，这是数据管理的重要环节。CSV（Comma-Separated Values，逗号分隔值）是一种纯文本格式，具有以下优势：（1）跨平台兼容性好，几乎所有数据分析软件都支持；（2）文件体积小，便于存储和传输；（3）纯文本格式，可以用版本控制系统（如 Git）追踪变化；（4）不依赖特定软件，长期保存不会因软件版本更新而无法读取。

library(readr)

if (!dir.exists("data")) dir.create("data", recursive = TRUE)
write_csv(quadrat_data, "data/quadrat_survey_2027.csv")

quadrat_check <- read_csv("data/quadrat_survey_2027.csv", show_col_types = FALSE)
quadrat_check

代码解析：

if (!dir.exists("data")) dir.create("data", recursive = TRUE)：检查 data 目录是否存在，如果不存在则创建。recursive = TRUE 表示如果父目录也不存在，则一并创建（如 data/raw/）。
write_csv(quadrat_data, "data/quadrat_survey_2027.csv")：将数据框保存为 CSV 文件。readr 包的 write_csv() 函数比基础 R 的 write.csv() 更快，且默认不写入行号，输出格式更规范。
read_csv("data/quadrat_survey_2027.csv", show_col_types = FALSE)：读取刚保存的 CSV 文件，验证数据是否正确保存。show_col_types = FALSE 关闭列类型提示信息。

CSV 文件保存的注意事项：

文件命名规范：使用有意义的文件名，包含项目名称、数据类型和日期（如 pine_forest_quadrat_2027-04-15.csv）。避免使用中文文件名和空格，使用下划线或连字符分隔单词。
编码格式：write_csv() 默认使用 UTF-8 编码，这是国际标准编码，支持中文和其他非英文字符。如果需要在 Excel 中打开（Excel 默认使用 GBK 编码），可以使用 write_excel_csv() 函数，它会在文件开头添加 BOM（Byte Order Mark），让 Excel 正确识别 UTF-8 编码。
日期格式：write_csv() 会将日期对象保存为 ISO 8601 格式（YYYY-MM-DD），这是最标准的日期格式。读取时 read_csv() 会自动识别并转换回日期对象。
缺失值表示：write_csv() 将 NA 保存为空白单元格，这是 CSV 文件中表示缺失值的标准方式。读取时 read_csv() 会自动将空白单元格识别为 NA。
数值精度：write_csv() 默认保留数值的所有有效位数。如果需要控制小数位数，应在保存前用 round() 函数处理。

数据保存的最佳实践：

原始数据不可修改：将野外采集的原始数据保存在 data/raw/ 目录下，设置为只读权限，永远不要直接修改。所有数据清洗和转换都应通过脚本完成，结果保存在 data/processed/ 目录下。
版本控制：使用 Git 管理数据文件的版本。每次修改数据后，提交一个有意义的 commit 信息（如 “修正样地 P03 的胸径测量错误”），便于追溯数据变化历史。
备份策略：定期将数据备份到云端（如 Google Drive、OneDrive、坚果云）或外部硬盘。遵循”3-2-1 备份原则”：至少 3 份副本、2 种存储介质、1 份异地备份。
元数据文档：在 data/ 目录下创建 README.md 文件，记录数据的来源、采集时间、变量定义、单位、缺失值编码等信息。这是数据可重用性的关键。
数据归档：研究完成后，将数据上传到公开数据仓库（如 Figshare、Zenodo、Dryad），获取 DOI，便于他人引用和验证研究结果。

CSV 文件的局限性与替代方案：

虽然 CSV 格式简单通用，但也有局限性：

不支持多工作表：如果数据包含多个相关表格（如样地信息、物种数据、环境数据），需要保存为多个 CSV 文件，或使用 Excel 格式（.xlsx）。
不保留数据类型：CSV 是纯文本格式，不保存列的数据类型（数值、日期、因子等）。读取时需要重新指定列类型，或依赖 read_csv() 的自动推断。
不支持公式和格式：CSV 只保存数据值，不保存 Excel 中的公式、单元格格式、图表等。

对于复杂数据，可以考虑以下替代方案：

RDS 格式：R 的原生二进制格式，保留所有数据类型和属性，读写速度快。使用 saveRDS() 和 readRDS() 函数。适合 R 内部使用，但不适合跨软件共享。
Parquet 格式：列式存储格式，压缩率高，读写速度快，支持复杂数据类型。使用 arrow 包的 write_parquet() 和 read_parquet() 函数。适合大规模数据存储。
SQLite 数据库：轻量级关系数据库，支持多表关联查询，适合复杂数据结构。使用 DBI 和 RSQLite 包操作。

实战示例：

假设我们完成了马尾松林 30 个样地的调查，需要保存数据并创建元数据文档：

library(readr)

# 创建目录结构
dir.create("data/raw", recursive = TRUE, showWarnings = FALSE)
dir.create("data/processed", recursive = TRUE, showWarnings = FALSE)

# 保存原始数据
write_csv(quadrat_data, "data/raw/pine_forest_survey_2027-04-15.csv")

# 创建元数据文档
metadata <- "# 马尾松林样方调查数据

## 数据来源
- 项目：广西马尾松林生物多样性调查
- 调查时间：2027年4月15日
- 调查地点：广西南宁市青秀山
- 调查员：张同学

## 变量说明
- sample_id: 样本唯一标识符（格式：Q001-Q010）
- date: 调查日期（格式：YYYY-MM-DD）
- latitude: 纬度（十进制度数，WGS84坐标系）
- longitude: 经度（十进制度数，WGS84坐标系）
- species: 物种中文名
- dbh_cm: 胸径（厘米，测量位置：离地1.3米）
- height_m: 树高（米，从地面到树冠最高点）
- health: 健康状况（类别：健康、轻度病害、中度病害、重度病害）
- observer: 调查员姓名

## 缺失值编码
- NA: 数据缺失或未测量

## 数据使用许可
- CC BY 4.0: 可自由使用，需注明出处
"

writeLines(metadata, "data/README.md")

cat("数据已保存至 data/raw/pine_forest_survey_2027-04-15.csv\n")
cat("元数据文档已创建：data/README.md\n")

这个流程展示了从数据保存到元数据文档创建的完整过程。掌握规范的数据保存方法，是数据管理能力的重要体现，也是确保研究可重复性的关键环节。

10.16 观测设计要点

在开展野外观测之前，合理的观测设计是确保数据质量的关键：

样方布局：根据研究目的选择随机布局、系统布局（等间距网格）或分层随机布局。分层随机布局在生境异质性较大时尤为推荐，可以确保各生境类型均被覆盖。
重复数量：每种生境或处理至少设置3-5个独立重复样方，以估算变异性并支持统计检验。样方面积应根据研究对象确定（如乔木通常用20m x 20m，草本用1m x 1m）。
观测频次：一次性调查适用于静态格局描述；若关注动态过程（如物候、种群波动），则需设计重复观测的时间间隔（如每月、每季度），并在整个研究期内保持一致。

10.16.1 案例：马尾松林定位观测设计

马尾松（Pinus massoniana）是中国南方重要的用材和生态树种，其林分结构研究对于理解亚热带森林动态具有代表性意义。

研究背景：广西南宁伊岭岩地区的马尾松林多与阔叶树混交，形成复层林结构。该区域马尾松林受人为干扰程度不同，从近成熟人工林到次生演替林均有分布。

观测指标体系：

observation_index_system <- tibble(
  layer = c("乔木层", "乔木层", "乔木层", "灌木层", "灌木层", "草本层", "土壤层"),
  component = c("乔木", "乔木", "乔木", "灌木", "灌木", "草本", "土壤"),
  variable = c("胸径 (DBH)", "树高", "郁闭度", "种类组成", "覆盖度", "种类组成", "含水量"),
  unit = c("cm", "m", "%", "种", "%", "种", "%"),
  method = c("围尺测量", "测高器", "估测法", "样方法", "目测法", "样方法", "烘干法"),
  frequency = c("5年一次", "5年一次", "每年", "3年一次", "每年", "每年", "每年")
)

observation_index_system

样地布局设计：

马尾松林定位观测采用”固定样地 + 临时样地”相结合的模式：

固定样地：选择3-5块代表性林分建立永久样地（20m x 20m或更大），每年复查
临时样地：在研究区域内随机设置10-20块临时样地，用于一次性调查或间隔数年的重复调查

数据质量控制方案：

外业质量控制：
- 测量前校准仪器（围尺、测高器）
- 双人独立记录，现场核对
- 每木检尺照片存档
内业质量控制：
- 数据录入后随机抽取10%进行核对
- 异常值（如负胸径、超大树高）自动标记
- 不同观测者数据进行一致性分析