32 方法
本文涉及到的材料和方法包含了以下内容:
数据收集和整理:Data collection and download
数据整合:Data collection and Integration
差异基因分析:Differential Expression Genes
功能富集分析:Functional enrichment analysis
免疫浸润分析:Immune cell infiltration
候选标记物识别:Potential biomarkers selection
诊断ROC曲线:ROC of diagnostic biomarker
单细胞分析:Single cell transcriptome data processing and analyzing
统计方法:Statistical analysis
从这里可以看出,它们组织和结果部分是一致的。
32.1 数据收集和整理
在生物信息学研究中,尤其是当研究基于公开数据时,详细记录数据的收集和下载过程是至关重要的。这种透明度对于确保研究的可靠性和可重复性至关重要。通过清晰地描述数据的来源、收集方法和下载步骤,我们为其他研究者提供了一个清晰的指南,使他们能够理解数据的合理性和适用性。此外,详细说明数据的获取过程也有助于建立研究的信誉,因为它允许读者评估数据的质量和相关性。这包括提供数据集的详细信息,如数据集的名称、来源链接、访问日期以及任何必要的数据集描述或特征。
Standardized RNA-Seq reads from the LIHC-US and LIRI-JP projects (Release 28) were retrieved from The Cancer Genome Atlas (TCGA, https://cancergenome.nih.gov/) and the International Cancer Genome Consortium (ICGC, https://dcc.icgc.org/), respectively.
Based on the TNM staging system, HCC is classified into four stages: stage I, stage II, stage III, and stage IV.
32.2 数据整合
在分析不同来源的转录组数据时,我们面临着批次效应的挑战,这些效应可能会对生物学变异产生干扰。批次效应的存在可能会影响我们对数据的解释,因此,采取适当的方法来降低这些效应是必要的。在研究中,我们明确指出了用于减少批次效应的策略和技术,包括但不限于数据标准化、批次校正算法或多变量分析方法。我们详细描述了所采用的方法。这些信息对于其他研究者来说是至关重要的,因为它们不仅有助于理解我们如何控制批次效应,而且也为其他研究提供了可能的解决方案。通过这种方法,我们确保了研究结果的生物学解释更加准确,减少了批次效应对数据的潜在影响,从而提高了研究的质量和可信度。
A consolidated dataset incorporating the LIHC-US and LIRI-JP datasets was created using the R packages “limma” (version 3.58.11) and “SNM” (version 1.50.0).
32.3 差异基因分析
在执行差异分析的过程中,我们首先详细说明了所使用的软件工具和版本信息,确保了分析过程的透明度和标准化。此外,我们明确了用于判断基因表达差异显著性的标准,包括使用的统计测试、阈值设定以及校正多重比较的方法。
To identify differentially expressed genes (DEGs) in the merged dataset, we applied a threshold of |logFC| > 0.5 and an adjusted-pvalue < 0.05 using the “limma” (version 3.58.11) R package.
32.4 功能富集分析
功能富集分析需要做和差异分析类型的处理。
Gene Ontology (GO) enrichment analysis was carried out to explore the biological significance of the differentially expressed genes (DEGs) utilizing the clusterProfiler (version 4.10.1) R package.
32.5 免疫浸润分析
同理免疫浸润分析也是类似的道理。
The ImmuCellAI, a gene set signature-driven approach, serves as a deconvolution algorithm capable of estimating the abundance of 24 distinct immune cell types.
32.6 候选标记物识别
该部分是我们研究方法学的核心,详细描述了如何利用机器学习技术识别候选生物标记物。我们采用了三种不同的机器学习方法,并明确了每种方法所涉及的软件工具、分析步骤以及用于评估模型性能的判断标准。
In conclusion, we consolidated the overlapping genes identified by the LASSO-LR, SVM-RFE, and Brouta-RF algorithms for further analysis.
32.7 诊断ROC曲线
在诊断生物标记物的研究中,接收者操作特征(ROC)曲线扮演着至关重要的角色。ROC曲线的绘制和分析对于判断标记物的诊断效能至关重要。为了确保评估过程的透明度和结果的可重复性,我们明确指出了用于生成ROC曲线的软件工具及其版本。
The effectiveness of each diagnostic biomarker was evaluated using receiver operating characteristic (ROC) curves generated by the “pROC” (version 1.18.5) and “multipleROC” (version 0.1.1) R packages.
32.8 单细胞分析
在进行单细胞分析的过程中,我们特别强调了所使用的软件工具及其版本的重要性。详细记录了软件的配置参数和分析流程,包括数据预处理、质量控制、细胞类型鉴定、基因表达模式的聚类分析以及差异表达基因的识别。这些步骤的详细描述不仅有助于其他研究者理解我们的分析方法,而且也便于他们在自己的研究中应用相似的分析策略。
The GSE149614 raw data was retrieved from GEO databases.
32.9 统计方法
统计方法是文章必不可少的部分,明确软件的版本等信息。
Statistical analysis was performed using R (version 4.3.3) and RStudio (version 2023.12.1+402).