课程简介

Huaqing Liu

概述

《数据驱动的可重复性研究》课程旨在教授学生如何在科学研究中实现数据驱动的可重复性,确保研究结果的可验证性和可靠性。

课程资源

📺 点击查看本章教案 (docs) 📺 点击查看本章教案 (docs) 📺 点击查看本章教案 (docs) ::: notes Speaker notes go here. :::

课程目标

  • 理解数据驱动的可重复性研究的概念和重要性
  • 掌握相关工具和技术,能够实施可重复性研究
  • 培养数据分析和代码编写的能力,提高科研水平

课程特色

  • 强调数据和代码的规范化,确保可重复性
  • 以项目为导向,关注实际应用场景
  • 注重实践操作,强调动手能力

课堂组织形式

因为选课场地限制,无法提供机房。请选课的同学自行准备电脑,并根据课程进度安排,确保电脑上安装了 R、Python 等需要用到的软件。

  • 课堂讲解:介绍相关概念、方法和工具
  • 实践操作:通过实际案例进行动手实践
  • 小组讨论:学生之间进行交流与协作
  • 课后作业:巩固所学知识,提高实践能力

如何分组?

  • 请自行分组,每组人数不低于 3 人,不超过 5 人。
  • 在第二次课程开始前,请在雨课堂内确认分组。

如何考察?

  • 使用课程中教授的技能,创建一个数据分析、软件开发、研究复现等类型的项目
  • 3 - 5 人一组共创一个项目,将项目代码提交到课程仓库
  • 需要保证每个人在项目中都有贡献(通过 Git 追踪)。

上课时间

  • 本课程含理论和上机实验。
  • 一共 10 次课,共 32 学时。


2027年春季学期

  • 时间:自 2027-02-17 至 2027-03-20,每周一、周四晚上
  • 地点:相约三教阶梯教室 S2

项目驱动

  • 每次课程围绕一个独立但相互关联的项目展开
  • 所有项目可分为 4 个模块

四个模块

  • 环境搭建模块:在自己的电脑中搭建数据分析环境
  • 数据采集模块:使用 R 进行数据分析和可视化的基本操作
  • 数据预处理模块:借助人工智能工具进行数据分析
  • 实践模块:与全世界开发者协作,开发自己的软件包

课程项目一览

Note

项目内容及讲授顺序会根据实际情况进行调整。

环境搭建模块

环境搭建模块的项目内容包括:

  1. 电脑硬件和操作系统
  2. 可重复的数据分析环境
  3. 现代工具链

数据分析模块

数据分析模块的项目内容包括:

  1. 分组数据统计分析和可视化
  2. 转录组学数据分析和可视化
  3. 微生物组数据分析及可视化

人工智能模块

人工智能模块的项目内容包括:

  1. 调用通用大语言模型执行任务
  2. 机器学习算法及实现
  3. 手搓神经网络模型
  4. 利用拉曼光谱识别病原菌
  5. 计算机视觉辅助分析实验图片

开发协作模块

开发协作模块的项目内容包括:

  1. 与全世界开发者协作
  2. 开发 R 包

课程大纲

Note

课程大纲及讲授内容会根据实际情况进行调整。

环境搭建模块

  1. 电脑硬件和操作系统【自备】
    • 推荐使用 Linux/WSL 系统
  2. 可重复的数据分析环境
    • 安装脚本语言工具 R & RStudio
    • 安装 tidyverseggpubr 等 R 包
    • 安装 Conda & Python
    • 安装 Git,注册 GitHub/Gitee 账号
    • 安装 VSCode、JupyterLab、Quarto 等工具
  1. 现代工具链
    • Markdown 和 Latex
    • R Markdown 和 JupyterLab
    • Quarto 文档
    • Git 和 GitHub/Gitee
    • AI 代码编辑器

数据分析模块

  1. 分组数据统计分析和可视化

    以 2021 年发表在 ISME J 的论文为例,讲解统计分析和可视化的方法 (Gao, Cao, Cai, et al. 2021)

    • ggplot2 软件包及图形语法
    • 统计分析的数学基础
    • 示例数据集的介绍
    • ggpubr 软件包的应用
    • 分组比对、统计和可视化
  1. 转录组学数据分析和可视化

    以 2021 年发表在 ISME Communications 的论文为例,讲解转录组学数据分析和可视化的方法 (Gao, Cao, Ju, et al. 2021)

    • 转录组学分析的基本原理
    • Bioconductor 软件(DESeq2ClusterProfilerenrichplot
    • 基因功能数据库(KEGGGOCAZymeARGCOG
    • 富集分析和 GSEA 分析
  1. 微生物组数据分析及可视化

    以 dada2 软件包提供的示例数据为例,讲解微生物组数据分析和可视化的方法。

    1. dada2 软件包介绍
    2. 微生物组数据分析流程
    3. 微生物组数据可视化

人工智能模块

  1. 调用通用大语言模型执行任务
    • HuggingFace 和 Modelscope
    • ChatGPT 和 ChatGLM
    • 模型性能评估(评测数据集、标准及测评工具Inspect)
  1. 机器学习算法及实现

    以熔解曲线数据建模为例,讲解机器学习算法及实现的方法。

    • 线性回归及其变种
    • 决策树、随机森林
    • 以熔解曲线数据建模为例
  1. 手搓神经网络模型

    以手写字母识别为例,从零搭建一个 LeNet 神经网络模型。

    • 神经网络模型基本概念
    • 评估模型的准确率
  1. 利用拉曼光谱识别病原菌

    以发表在 Nature Communications 上的一篇论文为例,讲解拉曼光谱+残差网络的应用(Ho et al. 2019)

    • 拉曼光谱技术
    • ResNet 及残差网络
  1. 计算机视觉分析实验图片

    以植物图片分割为例,讲解如何使用计算机视觉技术分析实验图片。

    • 分割植株及背景
    • 评价植物生长情况

开发协作模块

  1. 与全世界开发者协作

    讲解如何使用 GitHub 自动化,交流和创建网站。

    • Fork、Pull Request
    • GitHub Actions
    • GitHub Issues
    • 使用 Quarto 创建网站
    • 部署 Netlify 静态网站
  1. 开发 R 包

    以 ggVennDiagram 软件包开发为例,讲解如何开发软件包,让别人可以用来“复现”你的工作(Gao and Dusa 2024)

    • devtools
    • usethis
    • Roxygen2
    • CRAN/Bioconductor

重要提示

  • 这是一门全新的课程,请同学们多提宝贵意见,参与课程完善的过程。
  • 这是一门进阶课,课程有一定难度,请同学们在课堂内外多花有效时间
  • 这是一门实践课,请同学们一定要在自己的电脑上成功运行课程中教授的内容。
  • 这是一门 AI 课,请同学们在学习的过程中主动寻求 AI 工具的帮助
  • 这是一门项目课,请同学们结合自己的研究需求深入的挖掘项目内容。

课后作业

  • 加入课程群组(QQ 群:973581293)
  • 加入课程组织(GitHub Organization:https://github.com/D2RS-2025spring)
  • 自主建立学习小组(在雨课堂自行分组)

References

Gao, Chun-Hui, Hui Cao, Peng Cai, and Søren J. Sørensen. 2021. “The Initial Inoculation Ratio Regulates Bacterial Coculture Interactions and Metabolic Capacity.” ISME Journal 15 (1): 29–40. https://doi.org/10.1038/s41396-020-00751-7.
Gao, Chun-Hui, Hui Cao, Feng Ju, Ke-Qing Xiao, Peng Cai, Yichao Wu, and Qiaoyun Huang. 2021. “Emergent Transcriptional Adaption Facilitates Convergent Succession Within a Synthetic Community.” ISME Communications 1 (1): 46. https://doi.org/10.1038/s43705-021-00049-5.
Gao, Chun-Hui, and Adrian Dusa. 2024. ggVennDiagram: A Ggplot2 Implement of Venn Diagram. https://github.com/gaospecial/ggVennDiagram.
Ho, Chi-Sing, Neal Jean, Catherine A. Hogan, Lena Blackmon, Stefanie S. Jeffrey, Mark Holodniy, Niaz Banaei, Amr A. E. Saleh, Stefano Ermon, and Jennifer Dionne. 2019. “Rapid Identification of Pathogenic Bacteria Using Raman Spectroscopy and Deep Learning.” Nature Communications 10 (1): 4927. https://doi.org/10.1038/s41467-019-12898-9.