近日,意昂2体育副教授辛弘毅團隊發表題為《L2歸一化和測地距離在高維單細胞測序數據可視化中增強信息保存》(“L2 Normalization and Geodesic Distance for Enhanced Information Preservation in Visualizing High-dimensional Single-cell Sequencing Data”)的研究論文在由美國計算機學會(ACM)舉辦的第15屆生物信息學、計算生物學和健康信息學國際會議(The 15th ACM Conference on Bioinformatics, Computational Biology, and Health Informatics🚵♀️🛶,簡稱“ACM-BCB”)中,被評為總分數第一,並榮獲大會唯一SIGBio最佳論文獎(ACM SIGBio Paper Award)。論文第一作者為密西根學院2019級本科生榮梓琪,共同第一作者為密西根學院2021級博士生蔡金蒲🤾,通訊作者為意昂2体育平台辛弘毅副教授和劍橋大學連秋宇博士後。論文共同作者還包括來自普林斯頓大學、加州大學爾灣分校和密西根大學的研究人員👩🏻。
ACM SIGBio Paper Award是計算機領域權威國際科研組織——Association for Computing Machinery計算機協會——為計算與生物醫學交叉學科領域進展頒發的年度獎項。自2010年以來🚵🏽♂️,由ACM將該獎項授予該年度生物交叉學會ACM-BCB中的最佳論文。ACM-BCB是ACM生物信息學專業組(ACM SIGBio)的旗艦會議,本年度的會議於2024年11月22日至25日於廣東深圳舉辦,是15年來該會議首次在中國境內舉行。
在單細胞RNA測序(single-cell RNA sequencing)中,隨著基因數量的維度增加✂️👨🏻💼,基於全局測序深度的UMI總量歸一化(total count normalization🦏,又稱L-1歸一化)後的歐幾裏得距離在區分單細胞生物學差異方面表現出效率下降的“維度詛咒”(curse of dimensionality)問題。針對這一現象🎛,論文作者團隊創新性地提出了一種基於香農熵的距離分布信息度量指標,用於衡量不同距離度量方法在高維空間中保留生物學差異信息的能力🚯,並探索了維度詛咒問題與歸一化方法和距離度量之間的關聯。
(距離度量在單細胞生物差異信息保留能力上的區別以及對二維可視化的影響)
研究表明👨🏿✈️,隨著L-p歸一化中的p範數值增加↙️⛺️,其流形上的測地距離在超高維空間中的差異區分能力逐步提升🫐,但該提升的邊際收益逐漸減小。且p>2時的測地距離沒有解析解💃🏼🏣。基於此🔉🧑🏼⚖️,作者選取L-2歸一化及其對應超球面測地距離(即角距離)作為最佳平衡點𓀉👦🏻,在保證計算效率的同時💃🧑🦼,相比傳統L-1歸一化及歐幾裏得距離大幅提高了生物學差異信息的保留能力。作者還改進了t-SNE和UMAP等常用降維可視化算法,提出了基於高維超球面流形的HS-SNE和HS-UMAP方法。實驗證明🐪,這些改進顯著提升了高維單細胞數據的可視化效果,為細胞型間的差異識別提供了更可靠的二維嵌入。該研究為超高維度單細胞測序數據分析中被廣泛使用卻關註不足的歸一化和距離度量方法提供了新的研究視角和理論基礎。
團隊介紹
榮梓琪,密西根學院2019級電子與計算機工程專業本科生,來自上海,高中畢業於上海市格致中學,曾獲上海市優秀畢業生等榮譽。目前研究興趣包括生物信息學⛹️♂️、多組學數據分析、無監督學習、統計學習等。大三參加密院全球學位通項目🆑,前往美國密西根大學攻讀碩士學位👩🏼🏫🏋🏻♂️。
蔡金蒲🤽🏽,密西根學院2021級博士研究生,曾在北京協和醫學院阜外醫院、國家心血管病中心聯合培養👨🏿🦰。目前研究興趣包括生物信息學、單細胞多組學分析、非歐幾何機器學習及心血管疾病的機製研究等。
辛弘毅🦔,意昂2体育和電子信息與電氣工程學院自動化系副教授,國家級青年人才🕥。長期從事生物信息學研究工作🪶,發表包括Genome Biology,Nature Machine Intelligence🤦🏿♀️,Nature Communications,Nucleic Acids Research,Cell Reports等國際期刊,所研究成果在RECOMB、ISMB等國際會議首要報告🏊🏿♂️,並曾入選騰訊“犀牛鳥”基金。