我博士阶段侧重污染物环境过程研究,在博后阶段逐渐过渡到暴露组学,研究思路其实有了明显变化,形象点说就是从一对一到多对一,一对多然后到多对多,这里总结一下,反正以后也会忘。

一对一

一种污染物对应一种健康风险或毒性终点,这是环境化学与环境毒理学研究的基本问题。环境化学的起点之一就是重金属污染,《爱丽丝梦游仙境》中疯帽子的原型就是当年做皮帽所遭受的慢性汞中毒症状的工匠,在这里一种单一的污染物对应一种病症,但这种一一对应的污染物-毒性终点并不常见。这里我们看下遗传病例如镰刀型细胞贫血,一个点突变就能造成病症,但更多的毒性终点或疾病并不是一个点突变就可以引发的。同理,对于环境毒理学研究而言,单一污染物引发独立疾病的情况也不常见,所以一对一研究在逻辑上虽然最清晰,但预测性很有限。一对一的研究范式目前还是主流,不论是构建毒理动物模型还是污染物迁移转化模型,这类研究很容易培养出某一污染物的专家,但这类专家视野会很有限。

一对一的环境化学研究范式基本就是针对某一污染物进行三间分布研究,也就是污染物的空间分布、时间分布与人群分布。如果深入一些会加入该污染物的结构类似物或代谢产物,但这类研究更多是调查性质的,结合物化性质研究其环境行为。如果有环境毒理学配合,就可以对污染物风险进行评估,例如QSPR预测、离体实验(例如肝微粒体模型、植物瘀伤组织、斑马鱼胚胎)、活体实验(例如小鼠与植物模型),主要研究剂量效应关系、组织分布及代谢还有毒理效应。如果没毒性那么其实环境化学的调查就会非常尴尬,这倒是生态毒理学的一个来源,总能找到污染物影响。

多对一与一对多

单一污染物的毒性很容易做到死胡同,此时就要拓展污染物,从一种污染物扩展到一类或一组污染物,但健康终点还是一个,例如多溴联苯醚与多氯联苯还有双酚类污染物。此时就非常需要毒理学模型与环境调查的结果来缩小污染物清单,缩到那些确实有毒且环境介质中可以检测到的单体。在这里环境介质测到是相对容易的,但有没有毒就不容易说了,一方面是因为毒性终点实在多的没法数,以人体为例,肝毒性、肾毒性、皮肤毒性等等靶器官可能不同,同样的靶器官里组织、细胞形态还有分子毒理都可能不一样;另一方面则是毒性还有个剂量与暴露途径问题,很多人喜欢用癌细胞来做污染物毒性,但很多污染物压根就过不了皮肤,没有暴露途径空谈毒性对实际问题的讨论没有太大意义。

多对一的研究伴随环境分析化学的发展而快速发展,现在同时测定多种污染物非常简单。然而,多对一的瓶颈在于多种污染物是否适合放在一个框架下讨论,因为理论上你随意找100种污染物去测毒性,总能找到一些有毒的,这不是说明他们真的有毒,而仅仅是随机性导致的。很遗憾,环境化学背景的研究人员对统计学的理解往往很肤浅,所以很多时候他们并不能正确解释实验数据,而是摘樱桃式报道那些有毒的单体,有的则简单套用QSPR预测结果来做并声明发现新兴污染物,采样地点也很讨巧地关注工厂附近或污水处理厂这类几乎一定会有检出率的地方。这样的研究可看作暴露研究但对风险的讨论往往比较有限,但配合后续的毒理研究则可以给出更多实际意义,不过坦白说没有流病研究支持的毒理学与环境调查如果遇到经费消减将会第一顺位被拿掉。

多对一的一通常需要一个很综合的毒理指标,例如致死率、ROS之类,多对一的高端技术就是在线效应引导分析,样品经过分离后切割,一部分用质谱进行定性定量,另一部分走96孔板做一些通用的毒性终点,这对仪器平台及自动化水平要求都很高,作坊式的小课题组通常采用离线技术,配合半制备色谱来分离富集疑似高毒污染物进行鉴定。效应引导分析一般都是环境浓度,所以省了很多后期实际意义的讨论,但也正是因为环境浓度,经常你什么结果都看不到。套用基因组学概念多对一就是基因芯片与表型关系研究,人体也就两万多基因,表型固定为一个,看哪个基因在搞事情。在暴露研究中可把基因替换为污染物,当然一种表型可以是某种疾病也可以是某种毒理学指标。我们经常看到某类疾病即可能是基因相关也可能是污染物相关,这里面就牵扯到先天后天问题了,我个人认为表型或风险是基因、环境与随机性共同作用的结果,比例不好说,我并不相信单一污染物会是某种表型或风险的银色子弹,逻辑性很强的东西一般现实中都不太好使。

一对多则是一对一在环境毒理学的延拓,此时毒性终点并不单一,而是用动植物活体模型或细胞模型仔细研究污染物的致毒机制。另一层意义上的一对多则是环境流行病学里生态学调查的研究领域,可以看某种污染物对人群中多种疾病的影响,这里面倒不能说多种毒性终点了,而是看你怎么对人群分类了,这类一对多对实验设计或调查问卷设计比较高,对统计模型要求也很高。一对多的经典案例是吸烟,除了肺癌,吸烟对喉癌、口腔癌、食道癌、膀胱癌、胰腺癌、肾癌及血癌的患病风险都有影响,所以现代流行病学里默认会把吸烟与否当成暴露研究的协变量,与之待遇类似的还有年龄、性别、BMI等。一对多在基因组学里有但不常见,不过一些经典通路的激活几乎是很多毒性终点的必经之路。

多对多

多对多是目前暴露研究的终极目标,复杂性极高,逻辑性很差,通常找不到单一理论来概括。多对多的第一个多是非目的分析,旨在找出样品中所有内源代谢物、标志物与外源污染物;第二个多则是暴露风险的多样性,这里也没有预设。这样的研究看起来就像是科学问题都不清楚就拿到了一大把数据做分析,很多传统分析的人很不喜欢这类研究,认为是瞎做。但传统分析的还原思路却可能事实上低估了复杂性。目前比较折衷的研究领域一个是代谢组学,关注内源代谢物在不同生命过程中的变化,实际上还是多对一。另一个研究领域就是暴露组学或环境非目的分析,关注外源污染物的健康风险,这一块接近多对多,因为健康风险可以有很多。

多对多研究也是个神坑,能把第一个多搞清楚就已经凤毛麟角了,第二个多则必然需要与医院或公共卫生部门合作才能有数据。研究者需要对样品从采样到前处理到仪器分析有很深刻地全流程理解,这只是个起点,拿到数据后的分析才是坑中之坑,就算你好不容易对未知物进行了鉴定,下一步与健康对接则需要对生物化学、流行病学及病理学有着透彻的了解,然后你还要有足够的统计学背景与编程背景来应对你遇到数据的特殊性。全流程都能做通的人几乎不存在,所以多对多的研究一般需要依赖样品库、仪器平台、合成制备平台、医院与数据库等多领域人的合作,强强联合。

在这个过程中,千万不要轻信商业软件,商业软件设计者为了商业化做了很多愚蠢的事,很多研究人员其实被软件给卡了研究思路而自己又写不了软件。同时,商业软件经常过于保守,NIST的谱库可以把一个物质在20种碰撞能下做二级,同时做三五种母离子,看起来很全面,但环境样品的基质效应会出现完全不同的母离子,此时谱库比对就成了垃圾。卖谱库的用标品来做没问题,但只要你处理过实际样品就会知道很多基质效应前处理根本就除不掉,同时很多中间产物根本就没有标品。如果你是个做科研的,就不要把复杂性甩包给软件,探索性研究尤其如此,用商用软件你很难发现新东西而仅仅是做验证。

另一个坑就是要对统计方法足够警惕。不要别人用什么自己就跟着学什么,统计方法都有其历史背景与应用场景。如果你感觉实际问题很复杂,建议多使用仿真模拟重采样的方式来探索数据内在结构,模型使用上不要一味深度学习这类看似高大上的东西,谁不知道就是几行代码的事,其实线性模型与层级模型理解透了可以自由构建统计量来精准描述你关心的问题。模型的可解释性要更多从专业知识出发而不是单纯讨论模型本身,这个活很艺术。要时刻警惕p值的滥用与随机数的使用,保证结果的可重现性。

最后要提的是多对多的科学问题,做科研不是为了炫技,不能创造不存在的问题。这个趋势在分析化学中很明显,有些技术所需的条件实际样品根本就不符合。而在风险这边则更有意思,20种污染物1个风险会出现1个假阳性,那20个风险会怎样呢?说不好听的,只要你数据属性够大,污染物够多,多对多研究你总能找到一些指标来指示差异,但这个结果真的可靠吗?有没有额外验证?应该说这是个很费脑子与体力的过程,可重复性尤其重要,不但你的数据支持,最好还要有开放数据集的支持。

总之,在我看来,一对一的研究时代已经要过去了,当前多对一与一对多正在快速发展,而多对多眼下能做的地方并不多且问题一大堆。不过,这样才有趣。