研究團隊開發了sciPENN深度學習模型,可以預測和估算蛋白質表達,集成多個CITE-seq數據集,量化預測和估算不確定性。
單細胞多組學分析在生物學研究中的普及,促進了人們對細胞異質性和亞群體的理解。特別是通過測序對轉錄組和表位進行細胞索引(CITE-seq)方案的可用性不斷提高,極大地促進了相關研究進展。CITE-seq是一種單細胞多組學技術,能夠同時分析RNA基因表達和細胞表麵蛋白,具有發現單模態單細胞RNA測序(scRNA-seq)所遺漏的細胞異質性的潛力,目前已廣泛應用於生物醫學研究,特別是免疫相關疾病和其他疾病(如流感和COVID-19)。
CITE-seq分析的一個挑戰是需整合多個CITE-seq和scRNA-seq數據集,數據集成增加了信息內容,同時也加劇了計算困難。此外,相較scRNA-seq數據,CITE-seq數據的生成成本也很高。對此,一個潛在的解決方案是了解RNA和蛋白質之間的關係,從大型參考數據集中借用信息,然後對scRNA-seq數據進行蛋白質預測。Seurat 4和TotalVI都已被引入來實現這一功能,但其計算成本十分昂貴,且都存在局限性。
近日,美國賓夕法尼亞大學研究團隊在Nature Machine Intelligence上發表了題為“A multi-use deep learning method for CITE-seq and single-cell RNA-seq data integration with cell surface protein prediction and imputation”的文章。研究團隊開發了一種多用途的深度學習方法——sciPENN,支持CITE-seq和scRNA-seq數據整合,能夠預測、插補scRNA-seq、CITE-seq蛋白質表達,量化不確定性以及實現從CITE-seq到scRNA-seq的細胞類型標記轉移。跨多個數據集的綜合評估表明,sciPENN優於當前同類其他方法。
sciPENN的模型架構如圖1所示,其總體目標是從一個或多個CITE-seq參考數據集中學習。當CITE-seq參考數據不完全重疊時,sciPENN可以對每個參考數據集的缺失蛋白質進行估算。在CITE-seq參考數據中學習後,sciPENN能夠預測scRNA-seq查詢數據集的所有蛋白質,並將多個數據集整合到一個共同的嵌入空間中。sciPENN可以估計蛋白的平均表達量,量化估算的不確定性,並選擇性將細胞類型標簽從CITE-seq參考數據轉移到scRNA-seq查詢數據中。
研究團隊使用Seurat 4文章中報告的161,764個人類外周血單核細胞數據集(PBMC)進行分析,其包含224種蛋白質。對於測試集,使用了粘膜相關淋巴組織數據集(MALT),其包含由10x Genomics生成的8,412個細胞。在MALT數據集中的17種蛋白質中,有10種與PBMC數據集重疊。
研究團隊分別使用sciPENN、Seurat 4和TotalVI方法分析了上述數據(圖2)。首先,使用每種方法將PBMC CITE-seq參考數據和MALT scRNA-seq查詢數據共同嵌入到一個潛在空間中(圖2)。由於PBMC和MALT查詢數據之間的巨大差異,即使這三種方法中都采用了內部批量校正策略,sciPENN、TotalVI和Seurat 4仍很難在潛在嵌入空間中完全混合這兩個數據集。但sciPENN整合兩個數據集的能力最優,其在潛在嵌入中實現了這兩個數據集的部分混合。
同時,研究團隊還檢測了三種方法的蛋白表達預測準確性,通過相關性和均方根誤差(RMSE)對其進行量化。結果顯示,sciPENN在所有蛋白質中實現了最高的蛋白質預測精度。這種高蛋白質預測準確性使sciPENN能夠準確地恢複蛋白質表達模式。
考慮到查詢、參考數據集之間更加均衡的平衡,研究團隊使用一個人類血液單核細胞和樹突狀細胞CITE-seq數據集(單核細胞數據集),為測試集保留了真實表達(圖3)。分析顯示,sciPENN在嵌入過程中實現了兩個數據集的完全混合;TotalVI實現了幾乎完全的混合,隻有極少的不重疊;Seurat 4未完全混合兩個數據集。
接下來,研究團隊隨機地將完整的PBMC數據分為訓練一半和測試一半,選擇了CD8亞型的三種蛋白質標誌物(CD45RA,CD44-2和CD38-1)並檢測了sciPENN恢複標記蛋白趨勢的能力(圖4)。CD45RA是CD8幼稚型的明顯標記,CD44-2是CD8 TEM3和CD8 TCM2的明顯標記,CD38-1是CD8 TCM2的明顯標記。
結果顯示,sciPENN的蛋白質預測準確地恢複了這些趨勢,研究人員可僅使用sciPENN預測來檢測蛋白質的高表達細胞亞型。TotalVI和Seurat 4的表現比sciPENN略差,Seurat 4低估了CD8 TEM3中CD44-2的表達,TotalVI低估了CD8 NAIVE 2中CD38-1的表達。
最後,研究團隊檢測了sciPENN在PBMC和H1N1 RNA-seq數據中預測蛋白表達能力,由於TotalVI的損失函數迅速衰減為非數字,因此並未將其納入比較。研究團隊將每個測試數據集中預測的蛋白質分為三類:僅存在於Hanifa、僅存在於Sanger和兩者都存在。結果顯示,與獨特蛋白質相比,sciPENN預測常見蛋白質更準確、預測效果越好。上述結果強調了結合多個CITE-seq數據集對蛋白質表達預測的重要性。
綜上所述,研究團隊開發了sciPENN深度學習模型,可以預測和估算蛋白質表達,集成多個CITE-seq數據集,量化預測和估算不確定性。sciPENN能夠從具有部分不重疊蛋白質panel的多個CITE-seq數據集中學習,估算每個組成CITE-seq數據集的缺失蛋白質,甚至在從部分重疊的CITE-seq數據集學習後預測外部scRNA-seq數據集中的蛋白質表達。此外,sciPENN提供了比totalVI和Seurat 4更可靠、準確的結果,同時還具有高度的可擴展性和計算效率,是綜合CITE-seq和scRNA-seq數據分析的一個理想工具選擇。
參考文獻:
Lakkis, J., Schroeder, A., Su, K. et al. A multi-use deep learning method for CITE-seq and single-cell RNA-seq data integration with cell surface protein prediction and imputation. Nat Mach Intell (2022). https://doi.org/10.1038/s42256-022-00545-w
copyright©醫學論壇網 版權所有,未經許可不得複製、轉載或鏡像
京ICP證120392號 京公網安備110105007198 京ICP備10215607號-1 (京)網藥械信息備字(2022)第00160號