23andMe：大数据引发大责任

责任编辑：editor006 作者：CSHOOTER |来源：企业网D1Net 2015-04-17 13:42:40 本文摘自：大数据文摘

23andMe是一家谷歌支持的面向消费者的基因检测公司，最近他们宣布将他们已有的海量基因数据应用于药物开发。我想这是一个非常好的主意，但我们要提醒谷歌记住他们的“不作恶”原则。

23andMe是什么?

23andMe 提供通过邮件下单的个人基因组测序服务：下了单，你会收到一套试剂盒，用棉棒刮擦口腔上颚提取DNA样本，并寄回给测序公司，然后等待自己的基因检测结果 (在线显示)。听起来很炫，不是吗?数据来源形式是一块“SNP面板”，这意味着测试一长串已知的在一般人群中很常见的单核苷酸突变。我们所继承的 SNPs的独特模式可以描述我们祖先在世界各地的进化路径，并告诉我们可能携带的或风险比较大的疾病。

我的一个南非同事为了好玩做过其中一项测试。他惊喜地发现他家族中关于他的曾曾曾祖母是黑人的传言是真的，他的整个家族都继承了她的一些非洲黑人的SNP模式。在一次家庭聚会上，在一些令人不快的种族主义亲戚面前，他非常高兴地宣布了这个发现。这些科学证据无疑给了那些种族偏执狂们一记响亮的耳光，呵呵，没有比这更令人高兴的了。

这些数据如何应用于药物开发?

在药物开发领域，一个很流行的实践是：通过DNA测序从一群具有相同疾病人群中寻找出共同的因子，以确定治疗的靶目标。大部分时候，基因突变通过增加、减少或改变特定蛋白的产物引发疾病。明确影响某个蛋白表达的基因的突变给研究者提供一个靶点。然后他们能够尝试开发药物替代缺陷蛋白，或者阻止它的过分表达或错误表达。接下来，他们能够采用模型生物测试药物的有效性，如通过改变老鼠的基因结构使其携带相同的基因突变。

听起来很科学是吧?这种药物开发有时候会成功，但是更多的时候是失败，导致药物开发非常昂贵。制药公司存在的很多问题都源于这样一个事实: 药物开发是一个令人难以置信的昂贵和风险极高的事业。这导致了 “绑架信息”的行业氛围，阻碍了医学发现的共享。23andMe可能会改变这一局面，把信息共享的力量还给公众。当然，他们也可能会成为其他像葛兰素史克一样封闭的公司。

23andMe介入药物开发是好事吗?

我并不同意这一观点，即医药公司必然是“邪恶”的 - 但他们的行业的特性使得他们在盈利的时候兼顾道德几乎是不可能的。开发一种药物，平均而言，大约需要15年，耗资20亿美元，才能把它推向市场。按照法律规定，一个公司新药的专利保护只有五年，之后药物进入非专利保护的一般生产。在这些苛刻的条件下，企业如何能够盈利?他们或者在五年中拼命提高药价，或玩一些其他花样，如每4.9年召回'有问题'的药物，然后以不同的名称重新包装上市。

如果我们想要得到免费的信息和负担得起的药品，药物开发应留给各国政府和慈善机构，而不是企业。或者，你可以利用社会的头脑众筹来做这个事情。广大人民群众是个巨大的智力资源，具有难以估量的计算能力。目前已经有一些非常成功的智力众筹的例子：

- Galaxy Zoo 该项目让广大市民从望远镜和卫星图片中帮助分类数以千记的星系。电脑做这种工作不给力，而广大群众的头脑风暴推进了项目，并得以跨越式发展(漂亮吧!)

- The Yellow Card Scheme (黄色卡片计划)，使人们能够自我记录报告任何药物的不良反应。成千上万的人填写卡片，详细记录了他们那一天吃了什么东西，他们是如何用药的，这些详细信息使我们可能发现一些以前很多年都没有注意到的重要发现，比如在服用某些药物时，饮用西柚汁是危险的。

西柚汁的某些成分能影响一些药物在人体内的代谢效率，进而影响药物剂量的有效性

我喜欢把科学交回人们手中的想法，它不应该被笼罩着神秘的面纱。科学不只是属于寥寥几个头发凌乱的天才 - 不管是谁，只要他有意解决问题，就可以推动科学前进。 23andMe公司有机会从大众手里获得极其丰富的数据，在科学发现上作出前所未有的贡献。我希望他们选择保持低调：越来越多的人会贡献和参与他们的项目，使更丰富的数据集成为可能。

自我报告数据集，会带来一些偏差。你能记住，你的姑妈是死于中风或动脉瘤?你究竟是否清楚你的大家庭的家族遗传关系?任何这种大规模的数据集都会出现可靠性问题。我认为，来自公众的公开报告数据和科学分析结合得越紧密越好。处理大数据时，强大的分析和自我报告产生的偏差都是大问题，搞不好会导致虚假的相关分析和结果。除此之外，这些23andMe的测试结果还会带来另外的偏差：他们没有测试全基因组，甚至没有检测大段DNA的的突变。所以，利用该项目的数据我们虽然有可能找到一些新的药物靶标或未知的相互作用，但我们对结果需要谨慎对待。一个突变的存在或不存在仅仅是预测疾病的第一步：一个小的突变的表现型效应，像导致镰状红细胞疾病的突变那样，可以是非常难预测的，因为它依赖于一系列在基因、细胞和环境等不同水平的相互作用的因素。

大数据引发大的责任。我将继续跟踪23andMe，也许我还会买他们的测试盒 !不过，更多的数据可能来自政府牵头的巨资项目，虽然现在还是未雨绸缪阶段：比如100,000基因组计划。

关键字：谷歌药物靶标大数据