2月1日,浙江省疾控中心上线自动化的全基因组检测分析平台。利用阿里达摩院研发的AI算法,可将原来数小时的疑似病例基因分析缩短至半小时,大幅缩短确诊时间,并能精准检测出病毒的变异情况。
当前,全国新型冠状病毒肺炎疫情依然严峻,快速、精确诊断对于疫情控制尤其重要。公开信息显示,该病毒是基因组序列最长的病毒之一,全基因组序列全长29847bp,临床诊断需要将患者样本与该病毒基因序列进行比对才能确定诊断结果。
目前,医院普遍采用核酸检测方法,其只能检测到病毒基因的局部。由于病毒存在变异的可能性,对于整个基因序列来说这种检测方法犹如盲人摸象,一旦病毒发生变异,就可能出现漏检的情况。
浙江的全基因组检测分析平台由浙江省疾病预防控制中心、阿里达摩院医疗AI团队和杰毅生物技术公司共同研发。该平台采用全基因组检测技术,对疑似病例的病毒样本进行全基因组序列分析比对,它不同于核酸检测方法,能够有效防止病毒变异产生的漏检,并将原需数小时的全基因分析流程减少到半小时,大幅提高疑似病例的确诊速度和准确率。
据阿里方面披露,此次研发的自动化全基因组检测分析平台属于高通量测序。杰毅生物开发了全自动高通量测序建库仪,把整体常规人工需要12小时的工作缩短到2个小时。每次测序过程会产生海量的数据,达摩院采用分布式设计的分析算法,病毒检测的整体速度由数小时缩短到半小时;同时,由于采用分布式算法,病毒拼接的速度由30分钟至1小时缩短到15至30分钟。
疫情发生后,达摩院算法专家顾斐博士立即奔赴浙江省疾控中心,第一时间针对新型冠状病毒基因进行特征分析,并推出多个算法模型。在序列比对过程中,达摩院对算法增加了分布式设计,有效提升比对效率;在病毒序列拼接阶段使用分布式设计的de Bruijn图算法,变异病毒也能精准检测。
达摩院还针对新冠病毒基因的特征进行了分析,基于pdb等公共数据集的数据进行算法的优化训练。本次分析病毒检测和病毒变异部分主要基于开源算法,设计分布式算法以加速分析流程。病毒序列拼接完成后,通过设计BiLSTM+DNN的方式训练模型预测病毒蛋白二级结构。同时,达摩院还在研究基于序列的蛋白质三维结构预测模型以及药物筛选模型。
阿里方面表示:“检测变异病毒就需要拼接出一个病毒的完整基因组,我们可以百分之百检测到变异病毒。目前无变异病毒案例。”
目前,通过核酸检测方法,新型冠状病毒的检测时间也已经大大缩短。