跳到正文
生物信息分析笔记
返回

复现 Kang et al. 的 IFN-beta PBMC 单细胞数据:从公开 GEO 到免疫响应图谱

Public data reproduction note

这是一篇把公众号草稿整理成博客长文的复现记录:从 GEO 公开数据出发,系统复现 Kang et al. 经典 PBMC IFN-beta 刺激单细胞数据,并把质控、UMAP、细胞注释、IFN marker 和 IFN response score 串成一条可以复用的分析叙事。

为什么选这组数据?

Kang et al. 的 GSE96583 是单细胞 RNA-seq 里非常适合做复现展示的经典案例。它的实验问题清楚、公开数据可获得、结果也容易解释:同样是 PBMC,经过 IFN-beta 刺激以后,不同免疫细胞会出现不同程度的干扰素响应。

论文和数据来源

这篇复现对应的原始研究是 Kang 等发表于 Nature Biotechnology 的文章:

PaperKang HM et al. Nature Biotechnology, 2018

GEO 页面显示该数据集包含 5 个样本,其中 batch 2 包含 GSM2560248 batch 2 controlGSM2560249 batch 2 stim (IFN-beta)。这两个样本构成了本次复现的主体:一个是未刺激 PBMC,一个是 IFN-beta 处理后的 PBMC。

本次复现重点选择 batch 2 的两个样本:

GEO 样本条件说明
GSM2560248control6 小时未刺激 PBMC
GSM2560249IFN-beta stimulated6 小时 IFN-beta 刺激 PBMC
Control 与 IFN-beta stimulated 两组 PBMC 的 UMAP 对比
图 1. 按实验条件标记的 UMAP。两组细胞数量接近,适合进一步比较刺激前后的免疫响应。

数据和流程

本次复现采用标准单细胞 RNA-seq 分析流程,主要步骤如下:

  1. 整理 GEO matrix、barcodes、genes,构建 10X 输入格式。
  2. 根据 UMI、基因数、线粒体比例进行质量控制。
  3. 合并 control 与 IFN-beta stimulated 两个样本。
  4. 执行归一化、HVG、PCA、邻近图、Leiden 聚类和 UMAP。
  5. 使用 CellTypist Immune_All_High 模型注释免疫细胞类型。
  6. 检查 IFN response marker,并计算 IFN response score。
28,871QC 后细胞
15,586QC 后基因
14Leiden clusters
14,526control 细胞
14,345IFN-beta 细胞

PBMC 主要细胞类型结构

CellTypist 注释结果显示,数据中主要免疫细胞群包括 T cell、myeloid、innate lymphoid cell、B cell 和 dendritic cell。

PBMC 细胞类型 UMAP 注释图
图 2. CellTypist 注释得到的 PBMC 细胞类型结构。UMAP 上可以看到主要免疫细胞群的分布。
细胞类型细胞数占比
T CELL14,22949.3%
MYELOIDS7,80227.0%
INNATE LYMPHOID CELL3,22411.2%
B CELL2,8709.9%
DENDRITIC CELL4641.6%
Control 与 IFN-beta 条件下的 PBMC 细胞类型组成
图 3. 两组样本的细胞类型组成对比。这个视角可以帮助判断刺激响应是否受到细胞组成差异影响。

IFN-beta 刺激后的核心信号

本次复现重点检查了经典 IFN response marker:

ISG15, IFIT1, IFIT2, IFIT3, MX1, MX2, OAS1, OAS2, OAS3, STAT1, IRF7, IFI6, IFI27, RSAD2

这些基因均存在于 QC 后对象中,可以用于展示 IFN-beta 刺激后的响应强度。

干扰素响应 marker 在 UMAP 上的表达分布
图 4. IFN response marker 在 UMAP 上的表达分布。刺激后相关基因被明显点亮。
干扰素响应 marker DotPlot
图 5. IFN marker 的 DotPlot 汇总。相比单基因截图,DotPlot 更适合展示 marker 组在不同细胞类型或条件中的整体模式。

哪些细胞类型响应最强?

为了让文章不只是“看图说话”,我基于 14 个 IFN response marker 计算了每个细胞的 IFN response score,并按细胞类型比较 stimulated 与 control。

细胞类型IFN-beta 中位数control 中位数差值
MYELOIDS1.850-0.5022.352
DENDRITIC CELL1.647-0.6662.313
GRANULOCYTE1.629-0.4542.084
B CELL1.166-0.5741.740
INNATE LYMPHOID CELL1.193-0.5071.700
T CELL0.927-0.5521.480
不同细胞类型的 IFN response score 对比
图 6. 按细胞类型比较 IFN response score。Myeloid 和 dendritic cell 相关群体的响应尤其明显,T cell 和 B cell 也出现清晰上移。
核心结论:IFN-beta 刺激不是只让整体 PBMC “平均升高”,而是在不同免疫细胞类型中呈现出不同强度的响应。单细胞数据的价值,正是在这里把“整体响应”拆成了“细胞类型特异的响应”。

这个案例能说明什么?

不是只跑 UMAP
从公开数据、QC、注释到 marker 验证,复现链条是完整的。
结果可解释
IFN marker 和 response score 能直接对应免疫刺激的生物学问题。
适合展示服务能力
同类 GEO、h5ad、Seurat 对象都可以整理成中文报告和图文素材。

下一步可以增强什么?

如果要把这篇做成更强的商业展示案例,建议继续补三类结果:

增强方向价值
细胞类型内 differential expression证明不是只跑通流程,而是能回答生物学问题
和原文/Seurat 教程结果对照增强“复现”可信度
图文排版和中文解读直接变成公众号、博客和小红书发布素材

这次复现已经可以作为“单细胞论文复现服务”的第一个公开样板。后续如果有论文、GEO 编号、原始矩阵或 h5ad / Seurat 对象,也可以按同样方式整理出 UMAP、marker、细胞注释、差异分析、图表复刻和中文报告。


分享这篇文章:
通过邮件分享