蜕变：转化系统生物学的未来变革 -

2009年10月12日
第7卷，第9期

蜕变：转化系统生物学的未来变革

未来，计算机将挖掘患者数据，以提供更快、更廉价的医疗保健，但我们将如何设计它们来提供信息丰富的因果解释？来自哲学、模型检查和统计测试的思想可以为所需的转化系统生物学铺平道路。

萨曼莎·克莱因伯格和布德·米什拉，纽约大学

一天早上，格雷戈里娜·萨姆莎从焦虑的梦中醒来，她发现自己患上了一种神秘的流感样症状，这种症状没有任何预警就出现了。同样令人恼火的是，这种反复无常的蜕变似乎无法用因果关系的理性解释来解释。“我怎么了？”她想。在去看医生之前，她决定了解更多关于自己可能患了什么病的信息。她登录了一个网站，在那里她用自己能记住的内容注释了一条时间线。从三月份开始，她比平时更频繁地头痛，然后在四月份，她开始在运动后感到更加疲劳，截至七月份，她还偶尔出现记忆力衰退。“我为什么不回去再睡一会儿，把这一切愚蠢的想法都忘掉呢，”她想。正当她要放弃这项差事时，系统重新启动，提出了一连串问题：她是女性吗？过去几个月她经历过任何重大压力吗？她注意到任何关节或肌肉疼痛吗？它还获得了她的许可，可以下载她的基因组谱。

在回顾了萨姆莎夫人的病史和收集到的其他信息后，系统建议她可能患有慢性疲劳，并且她患有特定类别的慢性疲劳。考虑到她与其他患者的相似性，系统显示了她的疾病轨迹，并表明它可能始于二月初。由于其他患者的病史和基因组谱——包括他们的康复情况——是已知的并且已经被分析过，因此它预测了她未来的情况，以及她的最佳治疗方案。萨姆莎夫人（与上个世纪的同名人物不同）是幸运的；现在是2019年，她可以获得个性化医疗，这种医疗是在多年的基因组学技术发展以及计算和系统生物学研究的基础上发展起来的。（随附的侧边栏列出了当前关于个性化医疗的网站。）

现在想象一下，您是一位当今的研究人员，正在进行患者研究，以了解CFIDS（慢性疲劳和免疫功能障碍综合征）。最有可能的是，您的数据来自观察少数患者疾病过程的医生，但他们主要收集信息，记录这些患者描述的事件。这些病史是不完整的，不仅会遗漏信息，而且信息也不准确。患者可能不确定他的疲劳何时开始，是突然发作还是缓慢进展，或者是否可能伴随抑郁症的诊断。这些医生自己关于疾病病因的理论会影响他们推荐的医学检查。从这些部分病史和小样本患者中，您希望了解疾病的病因，这是一个源自希腊语词根 (aitia) 的词，意思是原因。

在医学中，病因现在代表着处理疾病原因或起源的科学，即产生或使人易患某种疾病或障碍的因素。CFIDS的病因一直难以捉摸、异质且复杂：现在人们认为，对于所有患者来说，潜在的因果关系可能不尽相同，并且可能存在不同形式的综合征，这些综合征具有不同的病因并根据不同的规则发展。个性化医疗需要对患者进行分类并了解其特定病情的更精细细节，在个性化医疗中，治疗干预是为每位患者量身定制的。

对于CFIDS来说，这个普遍问题有些严重，但并非它独有。我们本可以同样轻松地描述撒哈拉以南非洲地区的人口，那里每年有超过一百万人（其中大部分是儿童）死于由寄生虫恶性疟原虫传播的致命耐药性疟疾。传统上，生物学家会专注于精确描述整个生物体的一小部分——也许只是一种代谢途径或少数蛋白质的相互作用。系统生物学的方法是将整个系统作为一个整体来理解其运作方式，并在整体背景下看待各个部分。这种知识对于靶向许多不同恶性疟原虫菌株共有的途径中的特定基因和蛋白质以设计有效的疫苗非常有用。

在系统生物学中，有两种相互竞争（可能最终互补）的方法旨在理清无数的因果关系。每种方法都在局部运作，但它们共同作用于整个系统，以确定其全局属性。这两种方法可以分为自下而上（机制/分子）或自上而下（现象学/因果）。机制/分子方法创建的模型允许对各种变化和事件进行详细模拟；这些模型根据它们预测系统对变化的反应的程度来判断。在这种情况下，人们首先从一系列关于事物如何运作的数学模型开始，然后通过实验测试模型的预测。相反，现象学/因果方法从已知的理论和观察开始，并产生新的可反驳的假设，通过新的实验来驱动对代理和机制的搜索。

机制/分子方法是演绎的，其可靠性取决于其对基本机制的先验信念，以及先验的完整性。现象学/因果方法也是演绎的，但其完整性取决于其观察的维度、大小和分辨率（时间和空间）。在下文中，我们将描述我们一直在开发的用于生物系统（生态系统、种群、生物体、细胞、途径和分子）的现象学和因果分析的新数学和算法工具。

因果关系

理解因果关系

网络上的个性化医疗
疾病社交网络	www.patientslikeme.com
基因检测	www.23andme.com www.decodeme.com www.navigenics.com
全基因组测序	www.knome.com
病史和基因信息	www.personalgenomes.org
医疗搜索引擎	www.medstory.com

让我们从以下基本问题开始：什么是因果关系？是什么将因果关系与仅仅是相关性区分开来？关于因果关系的大部分工作都在哲学领域，哲学家们已经提炼出少数几种描述因果关系的基本方法，其中一种是概率。（其他包括反事实¹⁷和过程。^4,22）在“因果关系的概率论”中，原因 просто 发生在结果之前，并提高了结果的概率，a 和 b 之间的因果关系意味着 a 导致 b 或 b 导致 a。²⁶

然而，许多事件或因素在这种简单的定义下可能会错误地表现为原因。例如，气压计读数通常在下雨前下降，并且给定气压计读数下降的情况下下雨的概率大于仅仅是下雨的概率。然而，说气压计读数导致下雨将是相当愚蠢的。这个问题通过考虑它们的共同原因来解决：气压下降是气压计读数下降和下雨的实际原因。为了识别和避免这种错误的（或虚假的）原因，必须更精确地定义原因和结果之间的关系。

虚假原因是可能看起来与真正原因无法区分的原因——通过看似提高结果的概率——但实际上对结果的发生几乎没有或根本没有影响。识别这种原因的一种方法是寻找其他更早的原因，这些原因至少可以像潜在的虚假原因一样解释结果。在气压计的情况下，气压在气压计下降之前下降，一旦我们知道气压已经下降，下降的气压计就不会添加任何信息。我们不一定希望施加如此严格的条件——也许只是气压计添加的信息很少（通过有此事件和没有此事件的条件概率的差异来衡量）。此外，我们不一定希望只寻找更早的条件，或者仅仅因为我们可以检测到另一个更好地解释结果的原因而满足于称某个原因是虚假的。相反，我们可能希望通过平均概率差异来估计某个原因相对于结果的所有其他假定原因所产生的差异，并使用它来区分虚假原因和真正原因。（有关检测虚假性的哲学问题的更多信息，请参阅Suppes²⁶和Eells.⁶）由于这些微妙之处，因果关系的表示、定义和算法搜索必须精确地进行。

表示因果关系

在计算机科学中，因果推理的主要方法是通过使用图形模型，例如贝叶斯网络和动态贝叶斯网络，它们允许具有时间成分的系统。（有关因果关系中的图形模型的更多信息，请参阅Pearl²¹和Spirtes等人²³。动态贝叶斯网络的详细描述可以在Friedman等人¹⁰、Murphy和Mian¹⁹以及Langmead¹⁶中找到。）在所有情况下，模型都由图定义，其中节点之间的边表示依赖关系，缺失的边表示节点之间的独立性。这些模型表示系统的联合概率分布，可以通过测试条件独立性来推断。（找到因果模型有些复杂，特别是在没有时间成分的数据的情况下。在这种情况下，图的边根据找到的条件独立性关系和关于系统的假设来定向。）在这些模型中，没有自然的方法来推理或测试复杂的因果关系，并且我们不希望将我们的方法限制为仅处理一个事件导致另一个事件的情况。

考虑我们经常听到的警告：“吸烟会导致肺癌。” 英国的香烟包装警告更进一步，声明“吸烟会致命”和“吸烟会导致致命的肺癌”。您将如何解释这些声明？它们隐含地处理了两个概念——即，如果您吸烟，患肺癌的概率以及您需要多长时间才能患上肺癌。如果概率接近于 1，但需要几十年，那么您可能对吸烟做出与如果概率可能是四分之一，但肺癌在 10 年内发展起来时非常不同的决定。因此，我们必须能够推断和表示原因产生其效果的时间，以及它这样做的概率。概率因果关系的方便且可有效计算的形式主义（也包含时间优先级）已经在概率时序逻辑和为此逻辑开发的有效模型检查算法中可用。

时序逻辑允许我们不仅推理公式是否为真，而且推理它何时为真。也就是说，命题不仅仅是可能或必然为真，我们可以做出诸如“如果气压计下降，在下一个状态它会下雨”之类的陈述。概率时序逻辑，例如PCTL（概率计算树逻辑）¹¹，将这个想法扩展到包括带有概率以及显式截止时间的陈述。然后我们可以声明，“如果气压计下降，那么它将在 1 到 2 天内以 0.9 的概率下雨。” PCTL 中公式的真值是相对于概率结构定义的。这些结构由一组状态、描述状态内为真的属性的标签以及告诉我们哪些状态可以跟随其他状态以及以什么概率跟随的其他状态的转移概率组成。状态标签来自一组原子命题——例如事件或事实——它们将成为原因和结果的构建块。

更正式地说，我们有两种类型的公式：状态和路径，就像在经典 CTL 中一样。状态公式，例如 p∧q，如果属性在状态中成立（即，如果它同时标记有 p 和 q），则在特定状态下为真。路径公式指的是公式必须成立的状态序列。有效公式的集合可以定义为以下内容

1. 每个原子命题都是状态公式。

2. 如果 ƒ₁ 和 ƒ₂ 是状态公式，那么 ¬ƒ₁、(ƒ₁∧ƒ₂)、(ƒ₁∨ƒ₂)、(ƒ₁→ƒ₂) 也是状态公式。

3. 如果 ƒ₁ 和 ƒ₂ 是状态公式，并且 t 是非负整数或 ∞，那么 ƒ₁U^≤tƒ₂ 和 ƒ₁U^≤tƒ₂ 是路径公式。

4. 如果 f 是路径公式，并且 p 是介于 0≤p≤1 之间的实数，那么 [ƒ]_≥p 和 [ƒ]_>p 是状态公式。

项目 3 中的“Until”公式是路径公式，因为它们指的是状态序列。第一个（涉及强 until），ƒ₁U^≤tƒ₂，意味着 ƒ₁ 将在每个状态下保持成立直到 ƒ₂ 成立，这将发生在小于或等于 t 个时间单位内（其中每次转换都被认为需要一个时间单位）。第二个公式（涉及弱 until）类似，只是条件是 ƒ₂ 不保证成立。在这种情况下，ƒ₁ 必须至少保持 t 个时间单位。项目 4 将概率添加到这些路径公式中，将其转换为状态公式。例如，如果我们取

（可以缩写为 ƒ₁U_≥p^≤tƒ₂），这意味着以至少 p 的概率，ƒ₂ 将在 t 个时间单位内变为真，并且 ƒ₁ 将沿着路径保持成立直到这种情况发生。此状态公式通过计算状态的可能路径集上的概率来评估，其中路径的概率是沿路径的转移概率的乘积。我们还将使用一个名为“leads-to”的运算符，写为

它被解释为：从 ƒ₁ 成立的状态开始，ƒ₂ 将在 t₁ 和 t₂ 个时间单位之间成立，概率为 p。我们已将下限时间添加到标准 leads-to 运算符中，如 Hansson 和 Jonsson¹¹ 中所述，以便适应因果关系的时间优先级条件。

定义因果关系

现在可以使用 PCTL 公式定义因果关系。（定义在这里有点用词不当。这就是当我们说因果关系时我们将要指代的内容，也是我们的算法将识别的内容；然而，这些并没有定义什么是事物的原因，也没有暗示真正的原因必须符合所有这些标准。我们将有一些原因无法通过这种方法识别，但我们并不是说这些不是原因；而是说，必须通过其他方法推断出来。）

然而，对这些主题的正式处理不感兴趣的读者可以跳过数学部分，直接阅读以下部分末尾的过程概述，然后继续阅读标题为“简短示例”的部分中的应用程序。首先，可能（也称为表面）原因是那些早于其结果并提高其结果概率的原因。这意味着如果 c 和 e 是有效的 PCTL 公式，并且以下所有条件都为真，则 c 是 e 的可能原因

第一项 просто 表示 c 以非零概率发生。第二项意味着在可能的原因之后，结果以至少概率 p 发生（当背景知识使其成为可能时，我们也可以进一步限制此时间窗口，但最低条件是 c 比 e 至少早一个时间单位）。第三项表示结果的概率小于 p；因此，c 提高了 e 的概率。

如前所述，此定义承认许多错误的原因。为了评估特定 c 作为特定 e 的原因的重要性，我们计算 c 相对于 e 的所有其他可能原因对 e 产生的差异。这些其他原因可能在 e 之前的任何时间（它们可能与 c 同时甚至在 c 之后）。我们从 X 开始，X 是 e 的表面原因集。然后，对于每个 x∈X\c，我们计算

这些的平均值给出

对于每个可能的原因，我们现在已经计算出其作为结果预测因子的平均效力。然后，我们使用此 Ɛ_avg 来确定 c 的显着性，其中值小于某个阈值的原因被认为是微不足道的。我们将讨论如何以严格的方式选择此 Ɛ，但首先我们概述从数据到因果假设的过程。

推断因果关系

推断过程如何运作？想象一下，通过观察其他人如何使用微波炉来学习如何使用微波炉。烤箱的门可以打开或关闭，开关可以打开或关闭，并且可能或可能没有食物放入其中。大多数时候，烤箱处于“休眠状态”，门关闭，开关关闭，并且不含食物；但是当门关闭，开关打开并且包含食物时，烤箱也可以进入“活动状态”。存在不可能的状态（例如，门打开时开关打开），以及可能但徒劳的状态（例如，门关闭，开关打开，但烤箱中没有食物）。从休眠状态开始，最常观察到烤箱通过打开门、放入食物、关闭门并最终打开开关而移动到活动状态；并且通过关闭开关、打开门、取出食物并关闭门而恢复到休眠状态。我们可能会在少数情况下观察到烤箱以不寻常的方式运行。我们的每次观察都向我们展示了系统的可能状态（特定时间为真的一组属性）。

如果底层结构是前面描述的概率类型，那么我们观察到的是正在研究的系统的一条可能路径。我们已经看到了系统允许遍历的状态序列（具有一定的概率），并且由于时间顺序，我们可以推断出哪些状态可能跟随其他状态。根据这些观察的频率，我们可以估计转移概率。因此，根据数据，我们可以确定在进行模型检查时满足了哪些感兴趣的属性（参见Clarke等人³）。在满足的属性中，我们随后知道哪些是基于其概率及其结果概率的表面原因，并且我们可以为每个计算。请注意，这是一项计算密集型任务。在最坏的情况下，当每个项目都是每个其他项目的可能原因时，计算这些 epsilon 的复杂度为 O(N³T)，其中 N 是项目数，T 是时间点数。最坏情况下的空间复杂度相对小得多，O(NT + N²)，但相对于数据集而言仍然很大。

一旦我们测试了我们的因果假设并计算了每个假设的强度，我们就可以对它们进行统计测试，以确定哪些是显着的。如果我们正在测试单个假设，我们可以根据在零假设下看到这种结果的概率（例如，不存在因果关系）来接受或拒绝它。然而，当我们正在测试大量假设时，我们增加了看到异常行为的机会，因此如果我们不考虑这一点，我们可能会在测试中犯错误。为了在进行多重测试时保持相同的显着性水平（在零假设为真时拒绝零假设的概率），我们必须调整我们拒绝零假设的方式。（有关假设检验和错误发现率的更多信息，请参阅Storey和Tibshirani²⁵、Efron⁷以及Benjamini和Yekutieli¹。）我们专注于控制这些错误，而不是当我们未能做出发现时（错误地接受零假设）的错误。直观地说，当我们正在测试少量假设时，即使做出少量错误发现也是不受欢迎的；然而，当我们正在测试数千个假设时，我们可以更加宽容，而 просто 尝试控制错误发现的比例。

控制 FDR（错误发现率）⁷的一种方法使用经验零值，使我们无需指定零假设——相反，它是从数据中估计出来的。此方法还控制依赖情况下的 FDR，这在具有复杂因果结构的数据集中特别有用。从 N 个假设及其检验统计量 z₁、z₂、...、z_n 开始（z 值，也称为标准分数，表示一个值与平均值相差多少个标准差），我们假设我们的检验分为两类：“有趣的”和“不有趣的”，分别对应于拒绝和接受零假设。我们隐含地假设有趣假设的数量相对于 |N| 而言很小。检验（此处为因果假设）落入不有趣和有趣类别的先验概率分别为 p₀ 和 p₁ = 1 - p_0'，其中 p₀ 很大（可能为 0.99）。密度 ƒ₀(z) 和 ƒ₁(z) 描述了这些概率的分布。当使用理论零值时，ƒ₀(z) 是标准 N(0,1) 密度。请注意，我们不需要知道 ƒ₁(z)。我们定义混合密度

那么，给定 z 的情况下，案例不有趣的后验概率为

局部错误发现率为

请注意，p₀ 被省略了。我们可以估计此值并将其包含在计算中，但由于我们假设它几乎为 1，因此这不会严重高估 fdr。

因此，总体过程如下

1. 使用背景知识或测试复杂程度达到指定级别的逻辑公式，枚举逻辑公式。

2. 测试哪些公式由系统满足并满足表面因果关系的条件。

3. 对于每个表面原因，计算相关的 Ɛ_avg。

4. 将 Ɛ 的值转换为 z 值。

5. 从观察到的 z 值估计 f(z)。

6. 从数据或使用理论零值定义零密度 ƒ₀(z)。

7. 使用方程 ƒdr(z) ≡ ƒ₀(z) /ƒ(z) 计算 fdr(z)。

8. 对于每个因果假设，其中 Ɛ_avg(c,e) 对应于 z₁，使得 fdr(z₁) 小于阈值（例如，0.01），将其标记为显着，其余标记为不显着。

此过程的优点是我们不需要指定任意阈值来确定原因必须对其结果产生的差异，才能被认为是显着的。相反，我们可以测试大量任意复杂的原因，并使用严格的统计方法（对数据做出最少的假设）来确定每个假设的显着性。最后，请注意，所有这些方法都可以应用于各种领域（生物学、金融等）中的时间数据集。我们对 Common Lisp 的选择允许快速原型设计和实施，以及处理异构数据的能力。

简短示例

软件挑战

最密集的计算（epsilon 值的计算）可以并行化，以便在许多节点上同时运行，因为每个结果都是独立的。
在涉及以下情况时，结果可视化是一项艰巨的任务：许多元素；高度依赖性；或两者兼而有之。我们需要开发图形表示，以捕获复杂性以及推断关系的 временной 成分。

让我们重新审视恶性疟原虫的案例，恶性疟原虫是导致最致命疟疾形式的寄生虫。使用前面描述的系统，我们分析了一组时间序列基因表达数据，这些数据是使用微阵列技术收集的，涵盖了恶性疟原虫的 48 小时 IDC（红细胞内发育周期）。²微阵列数据（可以在其中同时测量数千个基因的表达水平）一直是关于多重假设检验^5,8以及因果推断^{9,12,19,20,24}的许多研究的主题。

为了稍微缩小焦点，让我们以恶性疟原虫生命周期中导致大多数疟疾症状的阶段为例，看看如何破译控制此 IDC 的规则，以及如何利用此信息来识别药物或疫苗的潜在靶点。尽管恶性疟原虫基因组已被测序，但只有大约一半的基因具有功能注释。由于其与其他生物甚至其他疟原虫菌株的序列相似性较低，因此很难提出新的注释。在相关工作中，我们结合了多个数据来源来更好地预测注释，但没有找到任何方法来指导我们的方法朝着可能特别感兴趣的基因方向发展——这是许多基于本体的生物信息学工具¹⁸共有的问题。通过推断因果关系，我们更有机会找到关键基因，其注释指向新的实验研究，并可能更好地揭示这种发育周期背后的复杂机制。

IDC 有三个主要阶段，所有基因在周期中的某个时间点都处于活跃状态，形成所谓的“级联”活动。除了查看整个时间序列中的关系外，我们还使用了我们在早期工作¹⁵中发现的关键时间点，将数据分段为五个大小不均匀的窗口。这些窗口对应于三个阶段以及阶段之间的过渡期。在每个窗口中，我们使用 PCTL 公式生成了许多推定的关系，主要是通过考虑所有基因对，其中假设一个基因对另一个基因的影响最多持续一个时间单位。换句话说，我们考虑了所有形式的公式

其中 c 和 e 代表特定基因的低表达或高表达。请注意，在实践中，我们遇到了大量的潜在假设，但只有相对较少的时间点可以解释它们，并且我们期望大多数推定的假设都是偶然发生的，并且属于零模型。

在检查了整个时间序列后，我们决定将我们的数据集限制为 только 已知参与蛋白质-蛋白质相互作用的基因，剩下 N=2,846 个独特的基因。在所有情况下，我们都使用我们先前描述的方法的 Common Lisp 实现计算了可能的原因及其 epsilon，并使用 Jin 和 Cai 的方法以及他们提供的 R 代码计算了经验零值。¹³

图 1：恶性疟原虫微阵列示例

在这里，我们正在测试整个时间序列中所有基因对之间的因果关系。直方图显示了具有给定 z 值的表面原因的数量。

在图 1 中，请注意，实际上所有数据都落在绘制的理论零值 N(0,1) 内，因此（在该零假设下）没有显示任何非常有趣的内容。经验零值 N(-1.00,0.89) 校正了偏差以及正偏斜（右侧长尾），因此比理论零值偏移得更远。

请注意，我们看到了大量（数千个）表面原因，其中 ƒ(z_i) < 0.01——这一事实需要一些生物学解释。人们认为，生物系统必然非常稳健¹⁴，由大量相关的因果关系组成，这些关系以故障安全的方式协调系统动力学。在这个特定的例子中，我们看到在 IDC 的每个阶段，与该阶段相关的基因协同作用，产生级联并创建许多相关的依赖关系：（1）许多基因与在同一 IDC 阶段活跃的许多其他基因存在因果关系，并组织在一个复杂的相互作用网络中；（2）存在许多备份机制，以允许级联在系统受到某些扰动的情况下不间断地继续进行。因此，我们推测，像这个系统一样，大多数生物系统都表现出两类因果关系：真正的 первостепенные 原因和真正的备份原因。

图 2：窗口 2（小时 7 至 16）计算出的 Ɛ_avg 直方图

我们发现最有趣的窗口是第二个和第四个（小时 7-16 和 28-43），它们对应于 IDC 阶段之间的转换以及监管活动的重大重组。第二个窗口跨越了第一阶段的结束到第二阶段的开始。同样，第四个窗口跨越了第二阶段的结束和第三阶段的大部分时间（在此期间它开始、发生并开始减弱）。图 2 和图 3 显示了在这些窗口中发现的所有表面原因计算出的 Ɛ_avg 值的直方图。第二个时间窗口的经验零假设由 N(-1.32,0.71) 给出，与理论零假设 N(0,1) 存在显着差异。对于第四个窗口，经验零假设 N(-0.62,1.13) 与理论零假设相似，但向左偏移。在这两种情况下，根据计算出的 Ɛ_avg，数千个表面原因将被视为具有统计学意义或真实的。也就是说，它们具有较低的 fdr 值。

图 3：窗口 4（小时 28 至 43）计算出的 Ɛ_avg 直方图

为了了解时间动态对结果的影响程度，我们将这些结果与早期对整个时间过程的分析结果进行了比较。然后，我们从窗口 2 和 4 以及整个时间过程（总计分别为 5,996、8,087 和 1,963）中选取了最显着的假设，并进一步分析了它们的交集。结果如表 1 所示。尽管假设数量很大，但我们看到两个时间窗口之间的交集非常小。还需要进一步研究以检测这两个窗口共有的假设是否显着，或者更可能是管家基因，其活动在整个 IDC 中是一致的。我们可视化了这两个时间窗口的这些假设的网络，如图所示，网址为：http://bioinformatics.nyu.edu/~skleinberg/supp/dgc.shtml。

结论

表 1
数据	交集大小
窗口 2 和 4	117
窗口 2 和整个时间过程	285
窗口 4 和整个时间过程	347
窗口 2、4 和整个时间过程	25

我们正在构建一个软件工具，该工具主要专注于理解疾病病因；各种疾病之间的相互关系；疾病与多态性、生物标志物和通路的关系；以及最终，使用这些知识以个性化和高精度的方式为患者选择诊断、预后和治疗方法的方法。这些方法起源于我们在 GOALIE¹⁵ 中开发的方法，该方法采用了时序基因表达数据，并从生成的数据中获得了生物系统的相关定性解释，这些解释可以采用时间逻辑正式描述，也可以用自然语言表达。通过这些方式，这些工具可以为基础生物科学以及它们在生物医学领域的应用做出巨大贡献。

有两个问题需要更好地理解。首先，当一位新患者带着单一的症状时间线前来就诊时，如何在先前积累的知识背景下解释它？这个问题与关于类型级别（一般属性，如“吸烟导致癌症”）和标记级别（特定案例，如“鲍勃的吸烟导致他的癌症”）因果关系之间关系的问题密切相关。其次，当我们从两组不同的患者中获得两个独立开发的病因时，如何调和这些不一致之处？当我们试图将文献中出现的关于疾病病因的假设和结论与从患者数据中推断出的类型级别因果关系结合起来时，自然会出现类似的情况。

最后，虽然我们这里的重点是系统生物学和生物医学应用，但毫无疑问，我们的读者已经正确地推测到这些想法的应用范围更广：神经科学、金融、政治、互联网社交网络等等。事实上，在 2019 年，萨姆萨夫人不仅使用基于这些想法的系统来了解她的慢性疲劳，还用来管理她的财务、履行她的日常社会责任、形成对政治候选人的看法以及找到最合适的新闻博客——选择她的新闻煤矿中的金丝雀。
问

参考文献

1. Benjamini, Y., Yekutieli, D. 2001. 多重检验中依赖性条件下错误发现率的控制。《统计年鉴》29(4):1165-1188。

2. Bozdech, Z., Llinás, M., Pulliam, B.L., Wong, E.D., Zhu, J., 等. 2003. 恶性疟原虫红内期发育周期的转录组。《PLoS Biol》1(1):e5。

3. Clarke, E.M., Grumberg, O., Peled, D.A. 1999. 《模型检验》。马萨诸塞州剑桥市：麻省理工学院出版社。

4. Dowe, P. 2000. 《物理因果关系》。剑桥大学出版社。

5. Dudoit, S., Shaffer, J.P., Boldrick, J.C. 2003. 微阵列实验中的多重假设检验。《统计科学》18(1):71-103。

6. Eells, E. 1991. 《概率因果关系》。剑桥大学出版社。

7. Efron, B. 2004. 大规模同步假设检验：零假设的选择。《美国统计协会杂志》99(465):96-105。

8. Efron, B., Tibshirani, R. 2002. 微阵列的经验贝叶斯方法和错误发现率。《遗传流行病学》，23(1):70-86。

9. Friedman, N., Linial, M., Nachman, I., Pe'er, D. 2000. 使用贝叶斯网络分析表达数据。《计算生物学杂志》，7(3-4):601-620。

10. Friedman, N., Murphy, K., Russell, S. 1998. 学习动态概率网络的结构。载于《第十四届不确定性人工智能会议 (UAI'98) 会议论文集》：139-147。

11. Hansson, H., Jonsson, B. 1994. 关于时间和可靠性推理的逻辑。《计算的形式方面》6(5):512-535。

12. Heckerman, D. 1995. 学习因果网络的贝叶斯方法。技术报告 MSR-TR-95-04（3 月）。

13. Jin, J., Cai, T. 2006. 估计大规模多重比较中的零效应和非零效应的比例。《美国统计协会杂志》，102:495-506。

14. Kitano, H. 2004. 生物鲁棒性。《自然评论：遗传学》，5(11):826-837。

15. Kleinberg, S. Casey, K., Mishra, B. 2007. 通过重述和本体论的系统生物学 (i)：寻找相变及其在疟疾时间数据中的应用。《系统与合成生物学》1(4):197-205。

16.Langmead, C.J. 2008. 使用广义证据在动态贝叶斯网络中进行推理和学习。《卡内基梅隆大学技术报告 CMU-CS-08-151》。

17. Lewis, D. 1973. 因果关系。《哲学杂志》70(17):556-567。

18. Mitrofanova, A., Kleinberg, S., Carlton, J., Kasif, S., Mishra, B. 2008. 通过重述和本体论的系统生物学 (iii)：使用疟疾寄生虫的时间转录组谱进行蛋白质分类。载于《BIBM》，宾夕法尼亚州费城（11 月）。

19. Murphy, K. Mian, S. 1999. 使用动态贝叶斯网络对基因表达数据进行建模。《加利福尼亚大学伯克利分校技术报告，加利福尼亚州伯克利》。

20. Opgen-Rhein, R., Strimmer, K. 2007. 从相关性到因果网络：一种简单的近似学习算法及其在高维植物基因表达数据中的应用。《BMC 系统生物学》1(1):37。

21. Pearl, J. 2000. 《因果关系：模型、推理和推断》。剑桥大学出版社。

22. Salmon, W.C. 1980. 因果关系：产生和传播。《PSA：哲学科学协会双年会议论文集》1980:49-69。

23. Spirtes, P., Glymour, C., Scheines, R. 2000. 《因果关系、预测和搜索》。麻省理工学院出版社。

24. Spirtes, P., Glymour, C., Scheines, R., Kauffman, S., Aimale, V., Wimberly, F. 2001. 从微阵列数据构建基因表达网络的贝叶斯网络模型。《大西洋计算生物学、基因组信息系统和技术研讨会论文集》。

25. Storey, J.D., Tibshirani, R. 2003. 全基因组研究的统计显着性。《美国国家科学院院刊》，100(16):9440。

26. Suppes, P. 1970. 《概率因果关系理论》。北荷兰。

喜欢它，讨厌它？请告诉我们

[email protected]

萨曼莎·克莱因伯格 ([email protected]) 是纽约大学计算机科学博士候选人。她专注于开发理解随时间观察到的系统（例如人类和金融市场）的方法。

巴德·米什拉 ([email protected]) 是纽约大学柯朗研究所和医学院的计算机科学、数学和细胞生物学教授。他还是冷泉港实验室的访问学者，以及 IEEE 和的院士。

最初发表于 Queue vol. 7, no. 9—
在数字图书馆中评论这篇文章

更多相关文章

斯蒂芬·V·坎特里尔 - 患者护理中的计算机：希望与挑战
一位来自纽约市的 29 岁女性凌晨 3 点来到加利福尼亚州的一家急诊室 (ED)，主诉突发剧烈腹痛，将她痛醒。她报告说她正在加利福尼亚州参加婚礼，并且最近也曾患有类似的腹痛，最近一次导致阑尾切除术。急诊医生进行腹部 CAT 扫描，发现他认为是阑尾切除术后腹腔内的伪影。除了她能够告诉他的内容外，他对患者的既往病史一无所知；他无法访问阑尾切除术之前或之后拍摄的任何图像，也无法获得有关手术记录或随访的任何其他重要信息。

詹姆斯·C·菲利普斯，约翰·E·斯通 - 使用图形处理器探测生物分子机器
计算机模拟已成为生物分子结构和功能研究不可或缺的一部分。多年来，并行计算机一直被用于进行这些计算量大的模拟并分析其结果。这些模拟充当“计算显微镜”，使科学家能够观察分子过程的细节，这些细节太小、太快或太脆弱，无法用传统仪器捕获。随着时间的推移，商品 GPU（图形处理单元）已发展成为大规模并行计算设备，最近，可以用流行的 C/C++ 编程语言的方言对其进行编程。

马修·T·多尔蒂、迈克尔·J·福克、埃雷兹·扎多克、赫伯特·J·伯恩斯坦、弗朗西斯·C·伯恩斯坦、凯文·W·埃利塞里、维尔纳·本格尔、克里斯托夫·贝斯特 - 使用 HDF5 统一生物图像格式
生物科学需要一种通用的图像格式，该格式适用于长期存储并且能够处理非常大的图像。图像传达了生物学中的深刻思想，跨越了学科。数字图像处理始于 50 年前，是一种鲜为人知的技术现象。现在它已成为不可或缺的计算工具。它产生了各种不兼容的图像文件格式，其中大多数格式已经过时。

肯尼斯·N·洛丁 - 生物形态软件的搭便车指南
自然世界可能是我们解决计算机问题所需的灵感。虽然“地图不是领土”当然是正确的，但大多数到异国他乡的游客确实更愿意随身携带至少一本指南，以帮助他们在开始探索时定位自己。这就是本文的目的。尽管没有足够的时间参观所有主要的旅游景点，但只要稍加努力并使用文章中的信息作为路标，勇敢的探险家就可以轻松找到许多其他有趣的探索路径。