知識的價值不在于占有,而在于使用。

生信自學網-速科生物-生物信息學數據庫挖掘視頻教程

當前位置: 主頁 > 問題解答 >

腫瘤微環境生信高分套路文章是怎樣一個思路?

時間:2019-04-24 09:34來源:生信自學網 作者:樂偉 點擊:
Tumor microenvironment characterization in gastric cancer identifies prognostic and immunotherapeutically relevant gene signatures 胃癌腫瘤微環境特征鑒定預后和免疫治療相關基因特征 GEO/TCGA腫瘤微環境高分生信文
腫瘤微環境火了,大家都在想辦法把自己的分析向腫瘤微環境靠,然后自己摸索的套路是非常艱辛的,參考已經發表的文章,是生信分析的一個捷徑,但是,文獻是好,圖也很漂亮,然后并沒有什么用處,因為很多學員不知道如何做這些分析。零基礎學生信就上生信自學網,生信自學網從推出生信視頻教程,生信培訓,生信答疑以來,一直帶領學員披荊斬棘,很多學員也收獲滿滿,不僅論文發表,而且事業小有所成,我們生信自學網在其中也在不斷進步,謝謝大家的一路陪伴和支持。
那么正式開始我們今天的主題,首先讓我們看看這篇高分生信文章:
Tumor microenvironment characterization in gastric cancer identifies prognostic and immunotherapeutically relevant gene signatures

胃癌腫瘤微環境特征鑒定預后和免疫治療相關基因特征
這個是文章的摘要:


然后帶大家看看文章基本研究步驟:

可能大家對文章的分數很好奇,這個大家可以去查一下,一定不會讓大家失望的。在這里,如果大家希望結合自己的研究方向,做類似的生信分析,可以聯系我們做生信報告合作,合作微信:18520221056
當然大家也可以學習我們推出的腫瘤微環境課程,自己學習入門《TCGA腫瘤微環境》,還可以學習相關課程:
《TCGA腫瘤免疫細胞浸潤模式》
《GEO腫瘤免疫細胞浸潤》
《TCGA腫瘤突變負荷》
《甲基化免疫細胞浸潤基于GEO芯片數據》
不僅可以直接購買課程,還有課程簡介和試學課程哦
接下來看看這篇高分文獻的研究方法:

材料和方法
胃癌數據集和預處理
我們系統地搜索了胃癌基因表達數據集,這些數據集是公開的,并報告了完整的臨床注釋。無生存信息的患者從進一步評估中剔除。本研究共收集了6組胃癌患者的治療樣本:ACRG/GSE62254, GSE57303, GSE84437, GSE15459, GSE26253, GSE29272, and TCGA-STAD。Affymetrix和Illumina生成的微陣列數據集的原始數據從Gene Expression Omnibus(https://www.ncbi.nlm.nih.gov/geo/)下載。在Affy軟件包(23)中,使用用于背景調整的RMA算法處理來自Affymetrix的數據集的原始數據。使用RMA進行背景調整、分位數歸一化以及使用中位數波蘭算法對每個轉錄物的寡核苷酸進行最終總結。使用lumi軟件包處理來自Illumina的原始數據。癌癥基因組圖集(TCGA)的數據從UCSC Xena瀏覽器(GDC hub)下載,詳情見補充方法。對于TCGA數據集,RNA測序數據(FPKM值)被轉換成每千堿基百萬(TPM)值的轉錄物,這與微陣列產生的結果更相似,并且在樣本之間更具可比性(24)。數據集選擇的標準、每個數據集的平臺和來源、樣本數量和臨床終點總結在補充方法和補充表S1中。使用R(3.4.0版)和R生物導體包分析數據。

臨床資料收集
從這些數據集中檢索相應的臨床數據,并在可用時手動組織。對于一些系列,未附在基因表達譜上的臨床數據是通過以下三種方法之一獲得的:i)直接從GEO數據集網站的相應項目頁面下載,i i)從相關文獻的補充材料下載,以及i i i)使用R中的GEOquery包。必要時聯系了相應的作者以獲取進一步的信息。更新的TCGA-STAD樣本的臨床數據和樣本信息來自基因組數據共享(https://portal.gdc.cancer.gov/)使用R包TCGAbiolinks(25)。所有TCGA數據集的總體存活信息均來自最近發表的研究補充數據(26)。
TME中浸潤細胞的推斷
為了量化胃癌樣本中免疫細胞的比例,我們使用CIBERSORT算法(16)和LM22基因標記,這使得對包括B細胞、T細胞、自然殺傷細胞、巨噬細胞、樹突狀細胞和髓系亞群在內的22種人類免疫細胞表型具有高度敏感和特異性的區分。CIBERSORT是一種反褶積算法,它使用一組參考基因表達值(一個帶有547個基因的簽名),被認為是每種細胞類型的最小表示,并基于這些值,使用支持向量回歸從混合細胞類型的大體積腫瘤樣本中推斷出細胞類型比例。基因表達譜使用標準注釋文件編制,數據上傳到CIBERSORT網站(http://cibersort.stanford.edu/),算法使用lm22簽名和1000個排列運行。通過應用微環境細胞群計數器方法估計基質細胞的比例,該方法允許根據轉錄組數據對異質組織中8個免疫細胞群和2個基質細胞群的絕對豐度進行穩健量化(17)。

TME浸潤細胞的共識聚類
利用層次聚集聚類(基于Euclidean distance and Ward's linkage)對具有不同TME細胞浸潤模式的腫瘤進行分類。采用無監督聚類方法(k-均值)(27)進行數據集分析,確定TME模式,并對患者進行分類,以便進一步分析。應用一致性聚類算法確定元數據集和亞洲癌癥研究組(ACRG)隊列中的聚類數,以評估發現的聚類的穩定性。該程序使用ConsenseClusterPlus R包(28)執行,重復1000次以確保分類的穩定性。
與TME表型相關的差異表達基因(DEGS)
為了識別與TME細胞浸潤模式相關的基因,我們將患者分為TMEcluster-A, TMEcluster-B, 和TMEcluster-C三組。使用limma(29)R包確定這三組患者中的DEGs,該方法使用適度的t檢驗來估計基因表達的變化。TME亞型間的DEG由limmaR包中實施的顯著性標準(矯正后p值<0.05)確定。使用Benjamini Hochberg校正(30)計算多次試驗的矯正后P值。

TME基因標記的降維與生成
TME基因的構建過程如下。首先,在ACRG隊列的所有樣本中,TMECluster-ABC中的每個DEG都被標準化。采用無監督聚類法(K-均值)(27)對DEGs進行分析,將患者分為三組進行進一步分析。然后,采用隨機森林分類算法進行尺度約簡,以減少噪聲或冗余基因(31)。接下來,采用clusterprofiler R包(32)來注釋基因模式。采用一致性聚類算法(28)定義基因聚類,并進行主成分分析(PCA)。提取主成分1作為基因標記分。在獲得每個基因標記評分的預后值后,我們采用類似于GGI(33)的方法來定義每個患者的TMEscore:
TMEscore = Σ PC1i ΣPC1j
其中i是cox系數為正的簇的特征值,j是cox系數為負的基因的表達水平。補充方法中描述了詳細的數據預處理步驟。

功能和途徑富集分析
使用clusterprofiler R包(32)對TME標記基因進行基因注釋富集分析。GO富集的確定嚴格限制在P<0.01,錯誤發現率(FDR)小于0.05。我們還通過對所有轉錄物的調整后表達數據進行基因集富集分析(GSEA)(34),確定了TME基因簇A和C對特定TME表型上調和下調的途徑。基因集從Broad研究所的MSigDB數據庫下載(34)。我們從策展基因集/典型途徑收集中包括廣泛的特征和特定的興趣途徑。富集P值基于10000個排列,隨后使用Benjamini-Hochberg程序調整多次試驗,以控制FDR(30)。
免疫檢查點阻斷的基因組和臨床數據集
5份轉移性尿路上皮癌(13)患者用抗程序性死亡配體1(pd-l1)試劑(阿托唑單抗)治療的基因組和轉錄組學數據集,程序性死亡1(PD-1)阻滯劑(35)治療晚期黑色素瘤患者,來自TCGA-SKCM隊列的不同類型免疫治療的晚期黑色素瘤患者(36),采用MAGE-A3抗原免疫治療(37例)和抗CTLA4抗體(38例)小鼠模型治療晚期黑色素瘤,然后分析了TME簽名分數的預測值。補充方法中詳細介紹了數據源和預處理方法。

統計分析
采用Shapiro-Wilk正態檢驗(39)檢驗變量的正態性。對于兩組的比較,用不配對的t檢驗估計正態分布變量的統計顯著性,用Mann-Whitney U檢驗(也叫Wilcoxon秩和檢驗)分析非正態分布變量。對于兩組以上的比較,分別采用Kruskal-Wallis檢驗和方差單向分析作為非參數和參數方法(40)。相關系數由Spearman和距離相關分析計算得出。采用雙側Fisher精確檢驗分析應急表,利用survminer軟件包,根據患者總生存率與各獨立數據集TMEscore之間的相關性,評估各數據集的截止值。使用MaxStat(41)R包對所有可能的切點進行迭代測試,以找到達到最大秩統計的切點,將TMEscore進行二值化,然后將患者分為低和高TMEscore亞型。為了識別差異基因分析中的重要基因,我們采用Benjamini-Hochberg方法將P值轉換為FDRs(30)。采用Kaplan-Meier方法生成各數據集各亞組的生存曲線,采用對數秩(Mantel-Cox)檢驗確定差異的統計顯著性。使用單變量Cox比例風險回歸模型計算單變量分析的風險比。采用多變量Cox回歸模型確定獨立的預后因素。利用pROC R包(42)繪制和可視化接收機工作特性(ROC)曲線,計算曲線下面積(AUC)和置信區間,評價TMB、TMEscore及其組合的診斷準確性。為了比較AUC,采用了兩條相關ROC曲線的似然比檢驗。所有統計分析均使用R(https://www.r-project.org/)或SPSS軟件(版本25.0)進行,P值為雙側檢驗。小于0.05的P值被認為具有統計學意義。

對的,上面就是這篇高分文獻的基本方法
有需要做生信報告合作的學員,請直接聯系微信:18520221056



責任編輯:樂偉
作者申明:本文版權屬于生信自學網(微信號:18520221056)未經授權,一律禁止轉載!
馬上與樂老師QQ聯系 生信自學連
BioWolf二維碼生成器
頂一下
(7)
100%
踩一下
(0)
0%
------分隔線----------------------------
發表評論
請自覺遵守互聯網相關的政策法規,嚴禁發布色情、暴力、反動的言論。
評價:
表情:
用戶名: 驗證碼:點擊我更換圖片
BioWolf騰訊課堂
推薦內容
秒殺活動
生物信息學在線培訓
3d四码组三复式