Tagged: bio

NatureMedicine首次人体实验PD1单抗治疗艾滋病

艾滋病(AIDS),全称为获得性免疫缺陷综合征,是由人类免疫缺陷病毒(HIV)感染所引起的免疫系统进行性衰竭的疾病阶段。据统计,目前全世界有约有 4000 万人感染了 HIV 病毒,这导致艾滋病成为全球公共卫生的重要威胁。 抗逆转录病毒疗法(ART)是通过联合使用多种抗逆转录病毒药物来抑制 HIV 病毒复制的标准治疗方案,能够将 HIV 病毒载量抑制在低水平,从而有效降低传播风险以及疾病进展和死亡风险。 然而,ART 并不能治愈患者,持续的低水平炎症依然存在,合并症风险以及长期治疗相关的毒副作用也依然存在,此外,ART 疗法需要每天服药,这对用药依从性来说颇具挑战性。如果能够实现一次给药,长期持续抑制 HIV 病毒,将从根本上改变当前的 HIV 治疗模式,并显著改善感染者的的生活。 BudigalimabBudigalimab (ABBV 181; PR 1648817) 是一种靶向程序性细胞死亡蛋白 1 (PD-1)的人源化单克隆抗体,具有Fc突变,可减少Fc受体相互作用和效应因子抑制作用 2025 年 10 月 15 日,加拿大麦吉尔大学、艾伯维(AbbVie)公司的研究人员在国际顶尖医学期刊 Nature Medicine 上发表了题为:Budigalimab, an anti-PD-1 inhibitor, for people living with HIV-1: a randomized, placebo-controlled phase 1b study 的研究论文。 该论文报告了抗 PD-1 单抗 Budigalimab 在 HIV 感染者中的随机、安慰剂对照的 1b 期临床试验数据,这也是使用抗 PD-1 单抗治疗 HIV 感染者的首次人体临床试验,该临床试验达到了预先设定的终点,初步展示了安全性以及“无 ART 控制 HIV”的潜力。 慢性 HIV-1 感染会,导致免疫耗竭和 T 细胞响应减弱,而 PD-1 抑制剂为在不使用抗逆转录病毒疗法(ART)的情况下通过逆转这些影响来实现病毒控制提供了一种潜在方法。 Budigalimab 是艾伯维(AbbVie)开发的一款人源化抗 PD-1 单克隆抗体。在这项随机、双盲、多中心、安慰剂对照的 1b 期临床试验中,研究团队对 HIV 感染者(n=41)进行了多次低剂量静脉注射治疗,第 1 阶段:2 毫克剂量(n=10)、10 毫克剂量(n=10)、安慰剂组(n=5),每 4 周注射 2 次;第 2 阶段:10 毫克剂量(n=11),安慰剂组(n=5),每 2 周注射 4 次,并通过分析性治疗中断(ATI)来确定在 HIV 感染者中具有良好安全性的有效治疗方案。该临床试验的主要终点指标为安全性、耐受性和药代动力学。各治疗组的人口统计学特征和基线特征基本均衡,性别方面以男性居多。 结果显示,在长达 44 周的治疗期间,Budigalimab 药物耐受性良好,41 名参与者中有 29 人出现不良事件(AE),其中包括 2 名参与者各出现 1 次 1 级可逆性免疫相关不良事件(甲状腺炎、甲状腺功能亢进);2 名参与者报告了 3 例 3 级不良事件,1 名参与者报告了 1 例严重不良事件;这些不良事件均被认为与治疗本身无关。 每 2 周注射 4 次 10 毫克 Budigalimab,导致药物在血清中略有蓄积,在外周血中,浓度在约 10 周内保持在估计的可使 CD8+ T 细胞上 PD-1 受体近乎完全(>95%)饱和所需的浓度之上。 在为期 12 周的 ATI 探索性疗效分析中,该中断治疗始于每 2 周注射 4 次 10 毫克 Budigalimab 的首次给药,在 11 名参与者中,有 6 名出现了 HIV 病毒延迟反弹,表现为较低的病毒峰值和/或停用 ART 后病毒控制(<200 copies/ml)≥6 周,其中 2 例在整个研究期间(第 204-252 天)维持无 ART 的病毒控制。 总的来说,这项 1b 期临床试验达到了预先设定的临床终点,Budigalimab 初步展示了安全性和潜在疗效,支持了进一步开展 2 期临床试验,为开发 HIV 有限疗程策略提供了新方向,其核心价值在于通过免疫调控机制探索“无 ART 控制 HIV”的可行性,这有望颠覆当前的 HIV 感染者的终身治疗模式,从而改善 HIV 感染者的长期生活质量。



Read more

NatureBiotechnology合成生物学新里程碑DIAL框架下的启动子编辑新策略实现基因表达的无级变速

在生命的宏大交响曲中,基因是谱写一切旋律的音符。然而,长久以来,我们对这些音符的控制,似乎还停留在“开”与“关”的简单逻辑上,就像老式收音机上那个只能按下或弹起的开关。我们能让一个基因表达,也能让它沉默。但是,生命过程的精细与复杂,远非这样非黑即白的逻辑所能概括。真正的生命乐章,不仅在于音符的“有”或“无”,更在于其音量的“强”与“弱”。一个基因应该表达多少?是低声吟唱,还是高亢激昂?这种对表达“剂量 (dosage)”的精确控制,是合成生物学、基因与细胞治疗领域亟待突破的核心瓶颈。 想象一下,在细胞重编程或癌症治疗中,如果关键基因的表达“音量”过高,可能导致细胞毒性或脱靶效应;如果“音量”太低,则可能收效甚微。传统的诱导系统,就像一个不太灵敏的音量旋钮,轻轻一拧,结果往往不是所有细胞都发出微弱的声音,而是一部分细胞依旧沉默,另一部分细胞则突然声嘶力竭。这种在细胞群体中表现出的“你有我没”的两极分化,即“双峰分布 (bimodal distribution)”,让精准调控变得遥不可及。 10月13日,《Nature Biotechnology》的研究报道“Programmable promoter editing for precise control of transgene expression”,为我们带来了全新的答案。研究团队开发了一套名为 DIAL (Dial-in Editable Promoters,可调谐可编辑启动子) 的创新框架。这套系统不再是一个简单的开关,更像是一个拥有预设档位的精密“变速箱”,能够对转基因的表达水平进行可编程、可遗传且高度稳定的精细设定,实现了从“开关”到“档位”的跨越。这不仅仅是一项技术革新,更可能为我们理解和驾驭生命过程的方式带来一场深刻的变革。 音量旋钮的困境:为何精准控制如此之难? 在深入了解DIAL系统的巧妙之前,我们先来看看它所要解决的那个根本性难题:基因表达的剂量敏感性 (dosage-sensitivity)。在发育生物学中,微管蛋白的量稍有偏差,就可能导致神经系统发育异常;在肿瘤学里,一个原癌基因的表达水平是维持正常细胞功能还是走向癌变深渊,往往只有一线之隔。生命对“量”的计较,远比我们想象的要苛刻。 然而,现有的工具箱却显得有些力不从心。最常用的策略是利用化学诱导物,比如四环素 (tetracycline) 或多西环素 (doxycycline),通过调节诱导物的浓度来控制转录激活蛋白的水平,进而调控下游基因的表达。理论上,这是一个完美的“模拟信号”调控方案。但在现实中,细胞内的分子世界充满了随机性和“噪音”。由于质粒转染效率、蛋白质表达的随机波动等因素,不同细胞内的转录激活蛋白水平参差不齐。 这就导致了一个尴尬的局面:当我们试图通过降低诱导物浓度来实现“低表达”时,系统并不会听话地让所有细胞都进入“低音量”模式。相反,由于激活蛋白在很多细胞中低于启动表达所需的阈值,这些细胞干脆保持沉默 (OFF);而在少数激活蛋白浓度恰好越过阈值的细胞里,表达一旦开启,便会达到一个较高的水平 (ON)。最终,我们在流式细胞仪上看到的,便是一个分裂成两半的细胞群体:一个“沉默的大多数”和一个“喧哗的少数派”。这种“双峰”现象,是实现均一、可预测调控的巨大障碍,它让基于群体平均水平的实验结论变得不可靠,更让需要全体细胞协同响应的治疗方案举步维艰。 我们需要一种新的设计哲学:一种能够将“表达水平的设定”与“表达水平的波动”解耦的系统。我们需要一个能为所有细胞设定同一个“音量档位”的机制,而不是一个反应迟钝、容易跑偏的旋钮。这正是DIAL系统登场的舞台。 DIAL的首次亮相:一把基因剪刀与一个可移动的信号放大器 DIAL系统的核心思想,源于一个对基因转录基本原理的深刻洞察:转录因子 (transcription factor) 结合位点与核心启动子 (core promoter) 之间的物理距离,会显著影响转录效率。距离越近,激活效果越强。DIAL巧妙地将这一原理转化为一个可编程的分子机器。 让我们来拆解一下这个系统的三大核心组件:

  1. 合成锌指激活蛋白 (Synthetic Zinc Finger activator, ZFa):这是一个“信号放大器”。它由两部分构成:一部分是锌指结构域,能够特异性地识别并结合到启动子上的一段特定DNA序列;另一部分是转录激活结构域 (transactivation domain, TAD),负责招募细胞内的转录机器,启动基因表达。
  2. 可切除的间隔序列 (Spacer):这是一段被精确设计的DNA序列,位于ZFa结合位点和核心启动子之间,扮演着“可变电阻”的角色。它的两端分别被安上了一对特殊的“分子路标”——比如,最常用的 loxP位点。
  3. 重组酶 (Recombinase):这是一把“基因剪刀”,例如 Cre重组酶。Cre能够特异性地识别loxP位点,并精准地切除两个loxP位点之间的DNA序列。 这三个组件如何协同工作?研究人员设计了一个包含 203个碱基对 (bp) 间隔序列的DIAL启动子,并在HEK293T细胞中进行了验证。其逻辑非常清晰: • OFF档 (关闭):在没有ZFa的情况下,无论间隔序列是否存在,启动子都处于沉默状态,几乎没有基因表达。 • LOW档 (低速):当细胞内表达ZFa时,它会结合到启动子上。但由于间隔序列的存在,ZFa与核心启动子之间隔着203 bp的距离,这削弱了它的激活能力。此时,系统进入一个稳定的“低表达”状态。 • HIGH档 (高速):如果在表达ZFa的同时,引入Cre重组酶,神奇的事情发生了。Cre酶会找到间隔序列两端的loxP位点,手起刀落,将这段203 bp的DNA永久性地从基因组上切除。ZFa结合位点与核心启动子的距离瞬间从原来的 316 bp缩短至79 bp。物理距离的拉近,极大地增强了ZFa的激活效率,系统随之切换到一个稳定的“高表达”状态。 通过流式细胞术检测,研究人员证实,这三种输入组合(无ZFa、仅ZFa、ZFa+Cre)确实产生了三个截然不同且高度均一的表达水平。最关键的是,每一个表达水平都呈现出清晰的 “单峰分布 (unimodal distribution)”。这意味着,在特定档位下,几乎所有细胞都表现出相似的表达强度,彻底告别了恼人的“双峰”问题。荧光显微镜下的图像也直观地展示了这一点:在“高档”条件下,视野中的细胞呈现出明亮而均匀的绿色荧光,而在“低档”条件下,则是柔和而均一的微光。 从简单开关到复杂调音台:DIAL系统的“自定义”潜力 如果DIAL仅仅能提供三个固定的档位,那它已经足够出色。但它的真正魅力在于其惊人的“可编程性”和“模块化”特性,使其远不止一个三档开关,更像一个可以自定义参数的专业调音台。
  4. 自由调节“档位”间距 研究人员猜想,既然间隔序列的长度决定了“低档”的表达水平,那么改变它的长度,是否就能调节“低档”和“高档”之间的差异(fold-change)?他们构建了一系列含有不同长度间隔序列(从27 bp到263 bp)的DIAL启动子。 实验结果与预期完全一致:间隔序列越长,ZFa与核心启动子的距离就越远,导致切除前的“低档”表达水平越低。当Cre酶切除间隔序列后,所有启动子的“高档”表达水平均趋于一致(因为最终的结构是相同的)。这意味着,通过简单地改变间隔序列的长度,研究人员就可以精确地“编程”系统的动态范围。一个长间隔序列的DIAL系统,可以实现一个非常低的初始表达和一个巨大的激活倍数,而一个短间隔序列的系统则提供了一个较高的初始表达和较温和的激活。
  5. 更换“放大器”功率 DIAL系统的另一个可调参数是信号放大器ZFa本身。研究人员将结合了不同强度转录激活域(如VP64、VPR)的ZFa与DIAL系统组合。结果显示,使用更强的激活域,不仅能全面提升“低档”和“高档”的表达水平,还能显著增大两者之间的变化差异。例如,使用最强的VPR激活域,其激活倍数超过了22倍,远高于标准VP16激活域的约6倍。这就像给调音台换上了一个功率更强的放大器,整体音量和动态范围都得到了提升。
  6. “嵌套”设计实现四档变速 最巧妙的设计之一,是“嵌套式DIAL (nested DIAL)”的提出。研究人员在一个标准的被loxP位点包围的间隔序列内部,又嵌入了一个由另一对正交的重组酶位点,VloxP,所包围的更短的间隔序列。与VloxP位点匹配的“基因剪刀”是 VCre重组酶。 这个精巧的“嵌套”结构,像俄罗斯套娃一样,创造出了四个可编程的稳定状态: • OFF档:无ZFa。 • LOW档:有ZFa,但无任何重组酶。 • MEDIUM档:有ZFa,并加入VCre。VCre只识别VloxP位点,切除内部较短的间隔,使表达水平提升至“中档”。 • HIGH档:有ZFa,并加入Cre。Cre识别外层的loxP位点,将整个间隔序列(包括内部的VloxP结构)全部切除,使表达达到“高档”。 通过这种组合逻辑,仅仅利用一个启动子序列,研究人员就实现了四个跨越一个数量级的稳定表达设定点。这种可扩展性,为构建更复杂的基因表达提供了前所未有的可能。 稳定的艺术:DIAL系统如何“无视”细胞噪音? DIAL系统最深刻、最具变革性的一个特性,在于其对细胞内“噪音”的超强稳健性 (robustness)。如前所述,传统诱导系统最大的痛点,就是其输出对诱导物或转录激活蛋白的浓度极为敏感。而DIAL系统,在特定条件下,能够神奇地“屏蔽”这种敏感性。 研究人员通过两种独立的实验方法,系统地探究了DIAL系统对ZFa表达水平变化的响应。第一种方法是“质粒滴定”,即在转染时使用不同剂量的ZFa表达质粒。第二种方法是使用不同强度的组成型启动子来驱动ZFa的表达。 两种方法都指向了同一个惊人的结论:DIAL系统的响应曲线存在一个“拐点”。在ZFa浓度较低时,DIAL的输出确实随着ZFa的增加而增加,并呈现出双峰分布,这与传统系统类似。然而,一旦ZFa的表达水平超过一个特定的阈值,DIAL的输出便进入了一个 “剂量不敏感 (dosage-invariant)” 的平台期。在这个区间内,即便ZFa的浓度再增加十倍,输出基因的表达水平均保持恒定,并且呈现完美的单峰分布。 这背后的原理可能是启动子饱和 (promoter saturation)。当ZFa足够多时,启动子上所有的结合位点都被占据,系统达到了其最大转录潜能。此时,细胞内ZFa浓度的进一步波动,已无法再影响输出。 这个特性至关重要。它意味着,只要我们确保ZFa的表达水平足够高,使其工作在“剂量不敏感”区间,DIAL系统就能提供一个极其稳定的输出平台。而Cre重组酶的作用,不是在这个敏感的曲线上滑动,而是直接将整个稳定的“平台”向上或向下移动一个台阶。这种设计,巧妙地将“设定档位”这一操作,与细胞内固有的表达噪音隔离开来,确保了输出的稳定性和可预测性。 短暂的指令,永恒的记忆:DIAL的可遗传性 DIAL系统的另一个核心优势在于其“记忆”功能。由于Cre重组酶对启动子的编辑是DNA水平上的永久性改变(间隔序列一旦被切除,就无法复原),这意味着一个短暂的外部信号,可以触发一个长期、稳定且可遗传的状态变化。 为了验证这一点,研究人员将DIAL系统通过慢病毒整合到HEK293T细胞的基因组中,构建了一个稳定的细胞系。然后,他们不再使用质粒共转染的方式,而是通过递送编码Cre重组酶的修饰信使RNA (modRNA) 来触发状态切换。modRNA是一种瞬时表达工具,它在细胞内翻译出Cre蛋白后,会在一两天内被降解,信号随之消失。 实验结果显示,接受了Cre modRNA的细胞,其报告基因的表达水平在72小时内稳定地上升到“高档”状态。研究人员对这些细胞进行了长达14天的连续传代培养。结果发现,即便在瞬时的Cre信号消失了近两周后,这些细胞及其后代依然牢牢地维持在“高档”表达水平,与未接受Cre modRNA的对照组之间保持着清晰的界限。这有力地证明了DIAL设定的档位是可遗传的,能够随着细胞分裂稳定地传递给子代。 有趣的是,研究人员还观察到一个细微的现象:处于“高档”表达的细胞,其增殖速度似乎略低于“低档”细胞。这暗示了高水平的外源基因表达可能会给细胞带来一定的代谢负担 (burden)。DIAL系统为研究这类由基因剂量引起的微妙生理效应,提供了一个理想的、高度可控的平台。 DIAL在真实生物学场景中的强大应用 一个优秀的合成生物学工具,不仅要在模型细胞(如HEK293T)中表现优异,更要能在更复杂的、与疾病和治疗相关的细胞类型中发挥作用。研究团队在多个维度上展示了DIAL系统的广泛适用性。 首先,该系统具有出色的 “可移植性 (portability)”。研究人员成功地将DIAL系统应用于原代小鼠胚胎成纤维细胞 (MEFs) 和人类诱导多能干细胞 (iPSCs) 中,在这些更“挑剔”的细胞里,DIAL同样能够生成稳定、可控的表达档位。 其次,DIAL框架是 “可扩展的 (extensible)”。研究人员将其与经典的 Tet-On诱导系统 相结合,创造了 TET-DIAL。在这个“混合动力”系统中,小分子药物多西环素 (DOX) 充当了总开关,负责控制系统的“ON/OFF”;而Cre重组酶则负责设定“ON”状态下的具体档位是“Low-ON”还是“High-ON”。这套组合拳兼具了可逆调控(通过添加或移除DOX)和永久档位设定(通过瞬时添加Cre)的优点,大大增强了系统的灵活性。 而最激动人心的,无疑是DIAL系统在模拟真实生物学过程中的应用: 调控细胞命运的直接重编程。研究人员选择了一个经典的细胞命运转变模型:将成纤维细胞直接转化为诱导运动神经元 (induced motor neurons, iMNs)。这个过程受到一个关键信号通路,MAPK通路,的调控,其核心分子 HRas 的一个激活突变体 (HRasG12V) 已被证明是这一过程的正向调节因子。但HRasG12V的最佳表达剂量是多少?过高或过低会有什么影响? 这正是DIAL大显身手的绝佳场景。研究人员构建了一个由DIAL系统控制HRasG12V表达的慢病毒,并将其导入到MEFs中。通过组合使用ZFa和Cre,他们精确地在细胞中设定了三个HRasG12V的表达水平:OFF、LOW和HIGH。 实验结果清晰地描绘出了一条剂量-效应曲线。 在14天后检测iMN的转化效率,OFF组 几乎没有转化。LOW组 表现出了一定程度的转化。而 HIGH组 的转化效率则显著高于LOW组。由于这三组细胞来源于同一批病毒感染,唯一的变量就是DIAL系统设定的HRasG12V表达档位,这为“更高剂量的HRasG12V能更有效地促进细胞向运动神经元转化”这一结论,提供了强有力的证据。 不仅如此,利用TET-DIAL系统,研究人员还进一步探究了HRasG12V表达的“时间”和“剂量”如何共同影响细胞命运。他们发现,在“高档”表达水平下,一个中等时长的瞬时脉冲(例如,诱导表达7天),其转化效率几乎与持续14天的长脉冲相当。这揭示了细胞命运转变过程中可能存在的“时间窗口”效应,即在关键时期给予足够强度的信号,可能比长期微弱的信号更为有效。 重塑基因调控的未来版图 DIAL系统的问世,为合成生物学和基因工程领域提供了一套全新的设计理念和强大的工具。它通过巧妙地利用DNA编辑实现启动子重构,成功地将基因表达的“剂量设定”与细胞内外的“噪音干扰”分离开来。它所提供的可编程、均一、稳定且可遗传的表达档位,解决了传统诱导系统长期以来面临的“双峰”和“不均一”的痛点。 回顾DIAL的设计,它不再是一个简单的模拟“调光器”,而是一个数字化的“档位选择器”,拥有清晰、可靠、可记忆的预设状态。这种模式的转变,意味着我们对基因线路的设计将变得更加“数字化”和可预测,从而大大提高复杂基因线路的性能和成功率。 这项工作也为我们留下了广阔的想象空间。未来,DIAL框架是否可以集成更多的正交重组酶系统,从而实现拥有十几个甚至更多档位的“超级变速箱”?我们是否可以将内源性转录因子的结合位点整合到DIAL中,构建出能够响应细胞自身状态、并能“锁定”响应强度的智能启动子? 在细胞治疗领域,DIAL或许能为CAR-T等疗法提供更精细的安全控制。通过设定治疗性蛋白的多个表达档位,我们或许可以在确保疗效的同时,将副作用控制在最低水平。在基础研究中,DIAL将成为剖析剂量敏感性基因网络、绘制精细“表型-剂量”图谱的利器。 生命之歌的演奏,终将告别粗糙的“开”与“关”。以DIAL为代表的精准调控工具,正将指挥棒交到我们手中,让我们有机会以前所未有的精度,去谱写、去编辑、去微调那些决定细胞命运与功能的生命乐章。一个基因表达可被精确编程的时代,已然拉开序幕。


Read more

NatureBiotechnologyFUGAsseM利器出鞘一种基于微生物群落共表达的功能预测新范式

在浩瀚的宇宙中,95%的组成是暗物质和暗能量,它们神秘莫测,却主宰着宇宙的运行规则。而在我们身体内部,同样存在一个微观宇宙,肠道微生物组 (microbiome)。令人惊讶的是,这个内在宇宙也充满了大量的“暗物质”。这里的“暗物质”并非天体物理学概念,而是指那些已经被我们测序、存在于基因目录中,但功能完全未知的基因和蛋白质。这些“功能暗物质” (functional dark matter) 在人体肠道微生物中占比高达70%,它们像一本用未知语言写成的天书,静静地躺在那里,记录着关乎我们健康与疾病的秘密,而我们却束手无策,无法解读。 10月15日,《Nature Biotechnology》的研究报道“Predicting functions of uncharacterized gene products from microbial communities”,为我们递上了一把开启这本天书的钥匙。研究人员开发出一种名为 FUGAsseM 的创新计算方法,它能够以前所未有的规模和精度,预测这些未知蛋白质的功能,为我们深入理解肠道生态系统的复杂运作机制,打开了一扇全新的大门。 困境:当基因测序“看得到”却“看不懂” 想象一下,你得到了一份庞大无比的机器零件清单,上面列出了数百万个零件的编号,但绝大部分零件都没有功能说明。你只知道其中一小部分是齿轮、螺丝或轴承,而其余的则完全陌生。这就是过去几十年微生物组研究面临的窘境。 随着高通量测序技术的发展,我们获取微生物基因序列的能力呈指数级增长。我们能够轻松地“看到”一个微生物群落中存在哪些基因,就像拿到那份零件清单一样。然而,“看懂”它们的功能却异常困难。传统的功能预测方法主要依赖于“同源比对”,即通过将未知基因序列与已知功能的基因序列进行比较来推断其功能。这个方法很直观,就像你看到一个陌生的零件长得很像一个已知的螺丝,你便猜测它也是个螺丝。 但这种方法有两个致命的短板。首先,它严重依赖于一个已经注释好的、功能明确的数据库。对于那些在进化上与已知蛋白质相去甚远的全新蛋白质家族,这个方法就彻底失灵了。其次,许多微生物在实验室环境中难以培养,我们无法通过传统的生物化学实验来验证其基因功能,这导致我们的已知功能数据库本身就存在巨大的空白。正是这两个原因,导致了肠道微生物功能“暗物质”的普遍存在,构成了一个巨大的知识壁垒,阻碍了我们从根本上理解微生物如何影响宿主健康,以及如何开发基于微生物的精准干预策略。 破局:FUGAsseM的“因罪关联”逻辑 面对这一挑战,研究人员决定换一个思路。他们不再孤立地看待每一个基因,而是将整个微生物群落视为一个动态的、相互协作的社会。在这个社会里,执行相似或相关任务的成员(基因)往往会协同行动。FUGAsseM 方法的核心思想,正是基于这种“协同行动”的逻辑,研究人员称之为“因罪关联” (guilt-by-association)。 这个名字听起来有点像刑侦术语,但其原理却十分巧妙。它认为,如果一个功能未知的基因总是和一群功能已知的、共同参与某个特定生物过程(比如消化某种糖类)的基因“同进同出”,那么这个未知基因很可能也是这个过程的“同伙”。 为了捕捉这种“同进同出”的行为模式,FUGAsseM 创造性地将宏转录组学 (metatranscriptomics, MTX) 数据作为核心证据。如果说宏基因组学 (metagenomics) 告诉我们微生物群落中“有哪些基因”(静态的潜力),那么宏转录组学则告诉我们“哪些基因在特定时间和环境下是活跃的”(动态的表达)。通过分析来自“整合人类微生物组计划” (HMP2/iHMP) 的800份肠道宏转录组样本,研究人员得以倾听整个微生物群落的“工作噪音”。那些在不同样本中表达水平总是同步起伏的基因,被认为存在共表达关系,它们的功能很可能紧密相关。这就像通过监听城市噪音,发现每当交通信号灯控制中心的信号响起时,路口的汽车引擎声也随之增强,从而推断出这两者之间存在功能关联。 当然,仅有共表达这一条线索还不够。FUGAsseM 像一位经验丰富的侦探,整合了多种维度的证据,构建了一个多层次的证据链:

  1. 基因组邻近性 (Genomic Proximity):在原核生物中,功能相关的基因常常被组织在一起,形成操纵子 (operon)。因此,在基因组上物理位置相近的基因,其功能相关的可能性也更大。这相当于调查“犯罪团伙”时,发现几个嫌疑人住在同一栋楼里。
  2. 序列相似性 (Sequence Similarity):虽然不能解决所有问题,但同源比对依然是重要的信息来源,尤其对于那些有远亲的蛋白质家族。这就像通过DNA比对寻找嫌疑人的远房亲戚。
  3. 结构域-结构域相互作用 (Domain-Domain Interactions):蛋白质通常由不同的功能结构域模块组成。通过分析已知的结构域相互作用模式,可以推断包含这些结构域的未知蛋白质可能参与的互作网络。这好比通过分析工具的部件(比如锤头和把手),来推断这个工具的用途。 FUGAsseM 采用了一种巧妙的两层机器学习架构——随机森林 (Random Forest, RF) 分类器。在第一层,针对每一种证据类型(如共表达、基因组邻近性等),都训练一个独立的分类器。这些分类器各自为未知蛋白质的功能打出一个“嫌疑”分数。在第二层,一个“总指挥”式的集成学习模型会对来自第一层的所有证据分数进行加权整合,综合判断后,给出一个最终的功能预测置信度。这种分层整合的方式,使得模型能够根据不同功能的特点,动态地调整对各类证据的依赖程度,从而做出更准确的判断。 严格的“大考”:FUGAsseM如何证明自己? 一个新方法的诞生,必须经过严格的检验才能令人信服。研究人员为 FUGAsseM 设计了一系列严苛的“考试”,以证明其预测的准确性和可靠性。 首先是 与“行业标杆”的正面比较。研究人员将 FUGAsseM 的预测结果与领域内公认的、基于单个分离培养微生物的权威功能预测工具 STRING 进行了比较。结果令人振奋:仅使用宏转录组共表达数据的 FUGAsseM-MTX 模型,其预测准确性就与 STRING 基于分离株共表达数据的预测相当(对于生物学过程 (BP) 条目,两者预测值的皮尔逊相关系数 R 达到0.43)。而整合了所有多组学证据的 FUGAsseM-full 模型,其预测性能更是与 STRING 的综合预测模型不相上下。 但这还不是最重要的。STRING 这类工具的局限在于,它们只能用于那些有高质量参考基因组的分离株。而在HMP2研究的336个肠道物种中,只有极少数(如大肠杆菌和铜绿假单胞菌)在 STRING 数据库中有直接的表达数据。FUGAsseM 的巨大优势在于其 无与伦比的覆盖度,它能够直接从群落数据中为任何被检测到的微生物(无论是否可培养,是否有参考基因组)预测功能。这标志着功能预测从“精英模式”走向了“全民模式”。 接下来是 更具挑战性的“时间旅行”测试。为了避免陷入“用A预测B,而B本身就是根据A注释的”这种循环论证的陷阱,研究人员设计了一个类似国际蛋白质功能预测竞赛 (CAFA) 的时间延迟验证。他们使用2019年的UniProt数据库作为训练集来训练 FUGAsseM,然后用它来预测那些在2019年时还没有实验证据,但在2019年至2022年期间被新的实验所证实的功能。这就像让模型回到过去,预测未来的科学发现。 结果再次证明了 FUGAsseM 的强大能力。以研究最深入的大肠杆菌 (E. coli) 为例,FUGAsseM 的 MTX 模型和完整模型在预测这些全新的、被实验验证的生物学功能时,其受试者工作特征曲线下面积 (AUROC) 的平均值高达0.80,这是一个非常出色的表现。这说明,FUGAsseM 的预测不是简单的数据库信息搬运,而是真正具有发现新知识的能力。 最后,研究人员还进行了一项“消融研究 (ablation study)”,即依次去掉某一种证据,观察模型性能会受到多大影响,以此来评估每种证据的重要性。结果清晰地显示,宏转录组共表达数据是整个预测框架中不可或缺的基石。当移除共表达数据后,模型在预测那些有新增实验证据的功能时,性能出现了最显著的下降。这强调了直接从微生物群落的“现场”活动中获取信息是多么重要。对于预测全新的生物学过程 (BP) 注释,宏转录组共表达的平均重要性得分高达0.42以上,即使这些注释是基于其他证据类型(如序列相似性)做出的。 点亮星图:肠道微生物世界的惊人发现 通过了重重考验,FUGAsseM 终于可以大展身手,开始系统性地解码肠道中的功能“暗物质”。研究人员将它应用于HMP2项目的数据,其结果堪称一场功能的“大发现”。 在 FUGAsseM 处理的超过54万个蛋白质家族中,它成功地为超过443,000个家族给出了高置信度的功能预测。令人震惊的是,在这些预测中,有82.3%是针对先前完全没有功能注释的蛋白质家族。这包括了超过33,000个与已知蛋白序列相似度极低,甚至完全没有同源性的“全新”蛋白质家族。 这项工作极大地扩展了我们对肠道微生物功能图谱的认知。以生物学过程 (BP) 注释为例,对于那些富含新基因的前25个物种,其蛋白质家族被功能注释的比例,在使用 FUGAsseM 后,平均从12.1%飙升至57.4%,实现了4.7倍的惊人增长。这意味着,许多我们曾经认为功能贫乏的物种,实际上拥有着远比我们想象中更丰富、更多样的功能武库。 更重要的是,FUGAsseM 的预测为我们讲述了许多生动的“微生物故事”: 故事一:肠道“维和警察”的隐藏防御系统 普氏粪杆菌 (Faecalibacterium prausnitzii) 是肠道中最著名的“益生菌”之一,被誉为健康的守护者。然而,由于其培养条件苛刻,我们对它的许多基因功能知之甚少。FUGAsseM 的分析揭示了一个惊人的秘密:在普氏粪杆菌的基因组中,存在着大量未被发现的、与病毒防御相关的蛋白质。 研究人员发现,许多功能未知的普氏粪杆菌蛋白质,与一些已知的噬菌体蛋白 (phage portal protein) 表现出强烈的共表达。FUGAsseM 基于此将它们预测为参与“病毒生命周期” (viral life cycle)。更有趣的是,FUGAsseM 还识别出了多个全新的 CRISPR-Cas 系统相关蛋白。CRISPR-Cas 是细菌对抗噬菌体入侵的“适应性免疫系统”。这些新发现的蛋白虽然与已知的 CRISPR 蛋白序列相似性不高,但它们的共表达网络、结构域组成都与典型的 CRISPR 系统高度一致,提供了它们作为防御体系一部分的有力证据。这一发现表明,即使是肠道中的“和平主义者”,也装备了精良的武器来应对无处不在的病毒威胁,这对于我们理解肠道微生态的稳定性和动态平衡至关重要。 故事二:多形拟杆菌的“碳水”盛宴 多形拟杆菌 (Bacteroides thetaiotaomicron) 是肠道中降解复杂碳水化合物的“专家”。它们拥有一套被称为“多糖利用位点” (Polysaccharide Utilization Loci, PULs) 的基因簇来完成这项工作。FUGAsseM 的分析进一步扩展了我们对这个“专家”工具箱的认识。 许多功能未知的蛋白被预测参与了“细胞碳水化合物分解代谢过程” (cellular carbohydrate catabolic process)。尽管这些新预测的蛋白质与已知的 PUL 蛋白同源性不强,但它们的共表达模式却揭示了真相:它们与那些负责识别、摄取和分解淀粉等复杂多糖的核心 PUL 蛋白(如 SusG、SusF)在转录水平上高度同步。此外,对它们蛋白质结构域的分析也发现,它们普遍含有糖基水解酶 (glycosyl hydrolase) 和外膜蛋白相关的结构域,这些都是PUL系统的关键组件。这表明,多形拟杆菌的碳水化合物代谢网络比我们之前认为的更加庞大和复杂,FUGAsseM 帮助我们识别出了这个网络中隐藏的新成员。 从“管家”到“专才”:功能的普适性与特异性 FUGAsseM 的预测不仅揭示了具体的生物学故事,还描绘了肠道微生物功能的宏观图景。研究发现,许多被广泛注释的功能是“管家功能 (housekeeping functions)”,比如DNA修复、核糖体RNA (rRNA) 处理等,这些是生命活动的基础,在大多数物种中都存在。FUGAsseM为这些核心通路补充了大量新的、物种特异性的蛋白质成员,极大地丰富了我们对这些基础生命过程多样性的理解。 与此同时,它也发现了很多高度物种特异性的功能,这些功能往往与微生物如何适应特定的生态位、如何与宿主及其他微生物互动有关。例如,毒素代谢 (toxin metabolism)、铁离子稳态 (iron ion homeostasis) 和铵离子代谢 (ammonium ion metabolism) 等功能,它们通常只在少数几个物种中被预测出来,但预测的准确率 (AUROC > 0.88) 却非常高。这些发现暗示了肠道微生物在处理环境毒素、争夺关键营养素(如铁)以及参与氮循环等方面,存在着高度专业化的分工。这些特异性功能可能是决定一个物种在复杂肠道环境中能否成功定植和发挥作用的关键。 迈向理解微观生态的第一步 FUGAsseM 的问世,不仅仅是提供了一个功能预测的工具,它更深远的意义在于,它推动了微生物组研究范式的转变——从关注单个、孤立的微生物,转向理解整个群落的协同运作。要真正理解一个基因的功能,不能只看它的序列,更要看它在真实的、动态的群落环境中,和谁“交谈”,和谁“合作”。 当然,任何方法都有其局限性。FUGAsseM 的性能依赖于宏转录组数据的深度和质量,对于丰度极低的微生物和转录本,其敏感性可能会受到限制。此外,宏基因组的组装质量也会影响基因组邻近性证据的准确性。然而,这些局限性并不能掩盖其开创性的光芒。 这项研究为我们打开了一扇通往微生物功能“暗物质”世界的大门。它提供的海量高置信度功能预测,不是研究的终点,而是新一轮探索的起点。它们为实验科学家提供了成千上万个高质量的、可验证的假说。我们可以根据这些预测,更有针对性地设计实验,去验证那些可能在炎症性肠病、代谢综合征或癌症中扮演关键角色的未知蛋白质的功能。 未来,我们可以期待将更多维度的数据,如宏蛋白质组学(研究哪些蛋白质被实际翻译出来)、宏代谢组学(研究微生物产生了哪些代谢物)甚至蛋白质三维结构预测数据,整合进 FUGAsseM 这样的框架中。当我们将基因的潜力、转录的活性、蛋白质的执行以及代谢的产出全部联系起来时,我们将不再仅仅是“阅读”微生物的基因组,而是真正开始“理解”这个复杂微观生态系统的运行法则。而这一切,都始于我们学会了如何倾听并解码它们在群落中的“窃窃私语”。FUGAsseM,正是那个开创性的“解码器”。


Read more