美国医学实验室正利用大数据为癌症提供个性化治疗

　　不可否认，癌症极为复杂，单个肿瘤所含细胞数量可以超过1,000亿个，每个细胞都能各自突变。这种疾病时刻都在改变、进化和适应。不可否认，癌症极为复杂，单个肿瘤所含细胞数量可以超过1,000亿个，每个细胞都能各自突变。这种疾病时刻都在改变、进化和适应。

　　为了更好地了解癌症的进化过程，临床医生和研究人员需要获取肿瘤的基因构成“快照”。越频繁地获取此类快照，就越容易弄清癌症的进化过程。对快照的分析会产生大量的信息。

　　威尔康奈尔医学院（Weill Cornell Medicine）的奥利维尔·埃利门托（Olivier Elemento）希望从这些信息中，找出有助于预防、诊断、治疗和彻底治愈癌症的模式。

　　为此，埃利门托利用了大数据分析和高性能计算的力量。“新技术为我的研究提供了助力，为我们带来了探索癌症的新方式。”埃利门托说。他最初学的是工程类专业，后来在读研究生时转修计算生物学，因为他意识到，癌症研究拥有巨大的计算需求。

　　现在，埃利门托的实验室致力于识别癌症基因组中的重要突变，了解癌症基因组的进化过程，发现新的抗癌药物。

　　癌症基因组测序会产生大量数据，因为被测序的DNA实在太多。研究人员不得不先把癌症基因组分解成长度为100个碱基对的片段，接着对数亿个这样的片段进行测序。最后，由定制软件和超级计算机把所有的数据重新汇总在一起。

　　“并非所有的突变都同等重要。”埃利门托说，“我们希望找到那些促进肿瘤细胞增殖的突变。这样一来，就可以把这些突变作为目标，就有可能消灭肿瘤细胞。”

　　这时便轮到患者样本、大数据分析和机器学习上场了。研究人员进行化验，测算癌症基因组中各种突变的影响。一个方法是检查组（被表达的全套基因）的变化。化验会提供大量的额外数据，这些数据会接着与DNA测序数据结合在一起。

　　“人类大约拥有2.5万个基因，这些基因的表达水平大不相同，而疾病会干扰表达水平。”埃利门托说，“人类正常细胞的表达模式相对保守，我们必须利用精密的模式和机器学习算法，识别可能与疾病有关的模式。”

　　埃利门托的实验室已经建立了一套机器学习模型，通过分析特定基因的表达水平，来预测患者是否患有甲状腺癌。甲状腺癌通常表现为甲状腺结节，长在脖子下方，约有5%至15%的甲状腺结节是恶性的。通过对结节的基因检测，该模型预测结节是恶性还是良性的准确率超过90%，高于标准的诊断工具。相关研究结果已刊载在2012年的《临床癌症研究》（Clinical Cancer Research）上。

　　“唯一一种能够做到如此高准确率的方法，就是利用机器学习算法，以非线性的方式整合表达水平的相关信息。”埃利门托说。该模型及相关技术现已被注册为该公司专利，正在开展商用测试。

　　除了建立模型以外，埃利门托的实验室还根据他们自己的数据和癌症研究界的发现，打造癌症基因组重要突变数据库。这是一个数据密集型的项目，需要扫描癌症文献，不断进行数据库。但潜在的回报十分巨大。

　　埃利门托的实验室可向临床医生提供报告，展示他口中的“肿瘤身份证”。通过这个数据库，他们能迅速识别某个肿瘤的哪些突变最为重要，并把这些信息和相关说明传达给临床医生。

　　添加进数据库的重要突变越多，该数据库就会变得越有用。“我们的数据库正在以非常快的速度扩大。”埃利门托说，“我们正在考虑向更多的癌症研究人士这座数据库，实现众包。”他说，根据他设想的理想图景，将有很多癌症研究人员和临床医生能够更新和访问这座数据库，只是管理权限各有不同。鉴于该领域的发展如此迅猛，癌症研究人士通过互助所能发挥出的力量，让他感到振奋不已的。

　　合作在埃利门托的研究中发挥了重要作用，他已经与威尔康奈尔医学院和其他机构的很多研究人员和临床医生建立了联系。

　　“我们和临床医生始终保持着联系。对一名科学家而言，这非常好，因为能得到很多反馈。”他说，“这很有意义，因为大数据研究拥有为实际治疗的巨大潜力。”

　　埃利门托与威尔康奈尔医学院的血液病理学专家韦恩·塔姆（Wayne Tam）合作，在美国国家癌症研究所（National Cancer Institute）的资助下，识别和验证淋巴瘤患者病情复发的生物标记。在接受化疗的淋巴瘤患者中，大约40%的人先是出现肿瘤缩小，但最后又会复发。埃利门托和塔姆将努力弄清楚为什么有些患者会复发，而其他患者不会。

　　在这个研究项目中，埃利门托的工作涉及到外显子测序、组测序和淋巴瘤DNA甲基化图谱数据的计算分析。目标是识别出淋巴瘤复发的生物标记。完成识别后，便可利用这些信息建立模型，预测复发的可能性。在2015年发表于《自然通讯》（Nature Communications）的一篇论文中，埃利门托和塔姆已经能够利用DNA甲基化图谱，识别出有望预示淋巴瘤复发机率的生物标记。

　　得益于新的技术，癌症研究和治疗的未来变得日益。埃利门托说，他希望整合从测序基因组到健康状况追踪的多个数据来源，从而实现更加个性化的癌症治疗。

　　“核心思想就是整合信息，为患者提供更好的个性化治疗。”埃利门托说，“整合基因组信息、表型信息和其他信息，从而知道应该使用什么药物和如何使用那些药物。”

　　癌症研究无疑充满挑战性，因为它涉及到大量数据的处理和识别。但这正是埃利门托及其同事的专长，也是该领域最激动的地方。埃利门托说：“全靠有了这项技术，让我们有很大希望能在今后更好地认识和治疗癌症。”

大众论文网

美国医学实验室正利用大数据为癌症提供个性化治疗