日前,化学品和废物三公约缔约方大会于瑞士日内瓦召开,大会主题为“让无形变得有形:化学品和废物的健全管理”。化学污染物具有种类繁多、来源广泛、危害巨大等特点,已成为全球亟待解决的新型污染治理
难题。以大数据、机器学习等为核心的人工智能技术,为新污染物治理开创了新的科学范式。
要实现新污染物治理的智能化,关键在于掌握系统、清晰且准确的数据资源。自上世纪中后期起,欧美发达国家及国际组织积极建设化学物质数据集,为全球治理和履约谈判提供了有力支撑。为提升我国新污染物治理能力和在国际上的话语权,我国正积极推进全国新污染物生态毒理和健康毒理数据集成专项工程,构建国家新污染物计算毒理和暴露预测大数据平台,凭借中国力量为“无形”的化学污染提供切实可行的“有形”解决方案。
一、主要成果
生态环境部南京所携手生态环境部信息中心、中国科院生态环境研究中心、天津大学等20余家国内顶尖科研机构,聚焦新污染物环境与毒理数据集构建、计算毒理和暴露预测工具开发、应用场景适配三大核心方向,持续进行技术攻关。通过系统集成环境和毒理数据资源,不断提升新污染物计算毒理与环境暴露预测的模拟能力,已基本实现面向应用场景的新污染物生态环境风险智能评估。
(一)建立新污染物环境与毒理数据集。一是系统集成多源多模态数据。利用Apache Nutch、Scrapy等大数据技术系统集成了国际国内数据集、文献和技术报告等来源公开发表的多模态(结构化、非结构化)数据,累计收录化学物质超40万种,分为3类,一是我国有可能在产在用的“所有”化学物质约38万种(类),二是新登记化学物质46,928种(类)(最近更新为2025年4月30日),三是我国环境标准中涉及的污染物、优评优控化学物质和重点管控新污染物(2023版)共574种(类)。二是构建数据集多维参数体系。数据集包含生态毒理、健康毒理和环境暴露等超过1600项参数,其中生态毒理数据包含1.3万余种环境生物的40类参数;健康毒理数据包含358种实验生物的1522类参数;理化性质共36类参数,环境行为12类参数。数据总量已超1300万条,替补国内空白。三是建立全生命周期质控体系。数据集收录了来自我国良好实验室规范的实测数据,提供了一手本土化环境生物(2028种)急/慢性毒性数据资源,也为新污染物元数据参数体系构建提供了研究依据。融合多模态AI技术,构建跨文本/图像关联分析模型,数据审查效率提升3倍以上。
(二)开发计算毒理和暴露预测工具。一是开发新污染物急性毒性预测模型。基于定量-构效关系(QSAR)与机器学习技术开发了环境敏感生物的智能化急性毒性预测模型及其配套软件,可快速预测新污染物毒性水平,识别毒性警示片段,为绿色化学设计、高通量毒性预测等提供了支撑技术。二是开发本土场景新污染物环境迁移与暴露模拟器。结合我国气象气候、生态系统及地理环境等区域特征,开发环境新污染物迁移与暴露模拟器,模拟敏感区域新污染物在污染源-暴露途径-受体迁移过程的动态变化,为今后新污染物实施分区域差异化风险精准管控提供了研究基础与平台支撑。
(三)建立场景化的生态环境风险评估“智能”模型。一是建立可交互的数据发表平台。该平台允许用户以单个或批量形式自主上传新污染物数据,系统能够自动开展数据格式校验与内容审核工作,达成数据上传与审核的智能化、可追溯管理,保障数据的可靠性与可信度。二是建立本土化的数据查询平台。此平台不仅弥补了我国本土数据的空白,还研发出基于化学信息学的化学名称检索工具,提供精准、模糊和自定义检索服务,支持批量识别与检索,大幅提高信息识别能力与检索效率。三是研发生态阈值智能研判模型。该模型支持用户根据自身需求个性化选择应用场景(土壤/淡水)及毒性数据(急性/慢性),经由数据自动检索和算法匹配,完成数据正态分布检验、SSD拟合、最优模型筛选和生态阈值计算,将研究过程和结果进行可视化呈现,支持以PDF与Word格式输出报告。四是研发场地新污染物生态环境风险评估智能模型。该模型依据环境风险评估流程,整合危害识别、效应评估、环境暴露与风险计算模块,实现“一键式”场地新污染物生态环境风险的智能评估。
江苏、广东、
西藏等多地示范项目中,成本降低20%—30%,运行周期最大缩短50%。
(四)构建场景化的生态环境风险评估“智能”模型。其一,搭建可交互的数据发布平台。该平台允许用户以单个或批量形式自主上传新污染物数据,系统能够自动开展数据格式校验与内容审核工作,达成数据上传与审核的智能化、可追溯管理,保障数据的可靠性与可信度。其二,构建本土化的数据查询平台。此平台不仅弥补了我国本土数据的空白,还研发出基于化学信息学的化学名称检索工具,提供精准、模糊和自定义检索服务,支持批量识别与检索,大幅提高信息识别能力与检索效率。其三,研制生态阈值智能研判模型。该模型支持用户根据自身需求个性化选择应用场景(土壤/淡水)及毒性数据(急性/慢性),经由数据自动检索和算法匹配,完成数据正态分布检验、SSD拟合、最优模型筛选和生态阈值计算,将研究过程和结果进行可视化呈现,支持以PDF与Word格式输出报告。其四,研发场地新污染物生态环境风险评估智能模型。该模型依据环境风险评估流程,整合危害识别、效应评估、环境暴露与风险计算模块,实现“一键式”场地新污染物生态环境风险的智能评估。江苏、广东、西藏等多个示范项目运行显示工作周期最大缩短50%,成本降低20%—30%。
尽管我国在新污染物环境与毒性数据的集成、计算毒理及暴露预测开发方面取得了显著进展,但目前仍面临数据完整性和覆盖度不足、数据规范和标准缺失,以及数据挖掘与垂直场景应用不充分等挑战。
(一)数据完整性不足。一是新污染物关键参数匮乏。目前,仅有少数新污染物具备完整的环境迁移、归趋及毒理的监测和实验数据,难以构建涵盖多介质、多物种、多终点的新污染物全景式数据视图。例如,环境监测数据在空间覆盖上有限,且缺乏连续的时间序列;毒理实验数据普遍缺少慢性低剂量暴露、长期毒性以及联合污染效应等复杂毒性终点信息。二是实验条件元数据缺失。无论是国际主流数据集,还是文献、报告等资料,大部分数据均未提供完整的数据生成试验条件,缺乏溯源信息及可追溯性,这使得数据建模过程受到限制。三是多模态数据自动获取难。大量新污染物的相关信息散布于学术论文、技术报告、监测报告等非结构化或半结构化文本之中。此外,部分实验数据仅以半定量或定性形式呈现(如光谱图、色谱图等)。然而,由于缺乏专业的判断以及计算机融合技术,这些数据尚未得到充分的采集与整合,从而削弱了数据的完整性与全面性。
(二)数据标准化不足。一是新污染物目前尚无通用的身份标识符。现行的化学文摘社登记号(CASRN)在不同数据集中可能关联多条记录,存在重复或歧义现象,导致跨数据集信息的自动化整合面临困难;此外,混合物、聚合物以及未知或可变成分物质(UVCBs)等复杂化学物质,仍缺乏清晰、系统和一致的识别机制。二是数据字段体系复杂且异构。不同数据集在参数术语、字段命名规则、单位标注方式以及数据结构层级深度上存在差异,这导致在数据集合并或比对过程中,需要额外复杂的映射逻辑。此外,字段含义注释不充分,多数字段仅以简短的术语或缩写形式呈现,缺乏标准化的定义和说明,容易引发跨平台解释上的歧义。三是数据“加工流程”缺乏标准化管控。当前,各数据集在数据的筛选、清洗和质量评价等方面缺乏统一的规范标准和流程。例如,对同一参数或研究结果的不同来源,其可信度判断和可靠性分级存在不一致性;同时,缺乏针对冗余、重复、异常等数据的操作技术规范,以及新生成数据的标注规范。此外,数据质量评估的评价指标体系亦显不足,这些问题共同降低了数据的可用性和可靠性。
(三)数据挖掘度不足。一是我国新污染物种类尚未完全厘定。数据显示,全球主要国家已登记使用的化学品及其混合物数量已超过35万种。然而,由于各国在监管体系、产业结构及应用场景方面存在显著差异,我国迫切需要进一步排查并梳理出符合本土情况的新污染物清单。二是多模态数据融合不足。由于缺乏多源异构数据的对接技术和统一标准,难以对多源数据信息的语义关联、时空动态识别及混合效应进行深入分析。三是算法与模型应用局限。计算毒理和环境暴露的算法与模型在面对大规模、非线性、高阶及多源异构数据时的自适应能力仍需进一步提升。例如,毒性预测的QSAR模型尚无法自动从多终点毒性数据(包括急性毒性、慢性毒性、生殖毒性、内分泌毒性等)中识别出潜在的毒性机制。
三、工作建议
新污染物环境与毒理数据集成具备专业性、应用性、动态性和长期性等显著特点。以本数据集为基石,借助人工智能等数字技术的赋能,系统性强化高质量数据资源的开发,全面提升新污染物生态环境风险防控能力,共同构筑美丽健康的世界的目标。
(一)构建统一的数据标准化体系。一是明确数据采集、编码、审核和存储各环节的标准和规范。制订统一的数据筛选标准及采集技术标准,构建定量化的数据评估质量指标体系,建立新污染物数据集字段命名指南,明确必填的元数据项,如新污染物标识、参数类型、实验条件、测试方法等。建立数据字典与字段注释说明库,对每一个字段提供标准化定义、数据类型、允许取值范围及示例,确保不同来源的数据能够统一格式化、校验去重与归档。二是编制本土化与受控词表指南。开展我国高关注新污染物及特色区域环境场景的调研与梳理工作,并增补相关受控词条,构建层级化结构并制定映射规范,以确保系统的兼容性与可扩展性。三是制订合成数据与交换协议标准。建立标准化的数据检测、清洗及处理规范,制定“合成数据标注标准”及数据版本管理规范,明确区分“计算值”与“实测值”,确保派生数据可追溯至原始数据及计算流程。同时,制定数据交换协议和数据导入/导出接口规范,构建字段校验、格式校正和错误反馈机制,保障不同来源的数据能够按照统一标准实现无缝对接。
(二)持续开发多源多模态数据资源。一是建立智能化数据收集和提取体系。开发基于环境领域的大数据技术,实现对非结构化和半结构化文本的自动化批量抽取与结构化处理,并构建自动抽取结果的人工智能校验机制,确保批量数据的品质与精准度。二是开发新污染物多模态数据标注技术。构建涵盖图片、视频、声音等多模态数据的高效标注框架,融合先进的跨模态学习算法,研发自动化标注工具,以显著降低标注成本并提升标注效率。三是构建新污染物语义知识图谱。基于我国化学物质基础数据、地理信息、环境状况及毒理数据等核心基础信息,并整合
政策法规、环境标准等多维要素,构建全面的关系语义网络,旨在为深入挖掘多源数据间的潜在关联提供丰富语料。
(三)创新数据挖掘与算法模型。一是提高算法模型适用性。构建数据资源-模型开发-场景应用-优化评估-结果验证的闭环模型体系,建立完善的模型性能评估指标体系,深入进行模型可解释性分析及外部验证,旨在全面提升算法在各类应用场景中的可靠性与稳定性。二是持续迭代新污染物环境暴露模拟器。构建新污染物空间与时序模拟监测网络,研发全生命周期虚实映射的数字孪生技术,开发适用于不同尺度的环境暴露数字化仿真系统,实现对多区域、多介质及不同时间序列新污染物的精准数据模拟,从而弥补环境暴露监测数据的不足。三是开发智能决策辅助系统。研发针对细分场景的知识蒸馏轻量化技术,构建垂直领域的大模型矩阵,以实现新污染物在环境评价、污染协同治理及应急管控等场景中的高效精准分析。