【从企业资料治理实例看AI治理基础功】为强化透明度,日本制药大厂三阶段改造真实世界资料新药研发

图片来源: 

塩野义制药

生成式AI激起产业革新,但也引发不少实用性讨论,尤其是幻觉、偏见和引用来源不明,进而催生出一系列AI治理新方法。医药产业的另一场转型:运用真实世界资料(Real world data,RWD)和真实世界证据(Real world evidence,RWE)的医药研究,业界常简称为RWD研究,也面临了类似的资料透明度不足的治理挑战。

日本老牌制药大厂塩野义制药特别点出这个问题,传统新药开发以临床试验为主,流程明确、资料标准化、伦理与法规兼备。但当资料来源扩大到病历资料、健保申报数据甚至穿戴装置时,这类非临床试验的RWD研究,开始暴露出系统性的透明度问题,像是没人知道资料如何取得、分析、是否有偏差,甚至没人要求研究人员揭露这些细节。

对此,塩野义制药选择主动治理。他们从2018年自建的临床试验AI分析平台出发,延伸打造一套适用于RWD研究分析流程的工具,透过标准化、半自动化与程式化治理,来提高RWE可信度和研究效率。

RWD研究兴起,却充满问号

塩野义制药成立于1878年,是日本最老牌的制药公司之一,专攻药物开发和创新工具研发,自己有一组专门的资料科学团队。

该团队工程师Takuji Komeda引用一份研究,指出日本产学界用RWD进行药品或疗效分析的研究数量,正在快速增加。然而,资料取得和分析缺乏制度化监管,导致外界时常对RWD研究存疑。


塩野义制药指出,日本真实世界资料(RWD)研究缺乏制度化监管,比如研究员可向供应商取得大量RWD资料,不必经过伦理审查,也不必向伦理委员会提出分析计划,多数期刊更不会要求投稿者公开原始资料。图片来源/塩野义制药


他举例,研究人员可以直接透过商业授权,不必经过伦理审查,向供应商取得大量RWD资料。而且因为不是临床试验,研究人员也不必向伦理委员会提出分析计划,而大部分刊登研究成果的医药期刊,更不会要求投稿者公开程式码或原始资料,其中更缺乏独立审核的第三方。换句话说,任何人都可能从商业授权取得的RWD资料中,「挑出自己想看的结果」,然后写一篇论文就发表了。这种状况与生成式AI幻觉、缺乏明确出处和人类审查的问题非常类似,治理缺失、过程不透明,让RWD研究价值大打折扣。

无法直接套用临床试验SOP,决定另外开发


塩野义制药本想以自建的临床试验AI平台为基础,来打造RWE半自动化和监管工具,却面临资料格式、资料规模、分析方法等差异的挑战,于是决定重新开发一套专属工具。图片来源/塩野义制药


塩野义制药早在20年前就采用商用数据分析产品,来辅助药物研发和临床试验,2018年时用SAS的Viya平台为基础,开发出临床试验专用的AI-SAS平台工具。后来,他们想进一步扩大这个平台,发展一套让RWD研究更透明且能自动化的工具。

团队先评估原有工具使用真实世界资料的可行性,但因原有系统设计以临床试验为主,能处理的资料格式、规格、分析方法和模型,都与RWD截然不同。

比如在资料格式上,临床试验采用CDISC国际标准,但RWD的标准没有统一,会因资料供应商而有不同,另外在资料规模上,临床试验顶多几千笔案例,但RWD动辄高达上千万笔。不只如此,在分析方法上也有所差异,比如临床试验为随机对照设计,可控制偏误,但RWD多混杂因子,需额外建模。

因此,塩野义制药决定重新打造一个可支援大规模资料、格式弹性、分析半自动化且记录完整的RWD分析架构。

先将资料标准化,再半自动化分析

接著,塩野义找来原厂提供技术支援,打造可用于真实世界资料研究的新版分析工具AI-SAS for RWE。这套系统分为2大关键模组,包括资料标准化模组,以及半自动化的RWD分析流程,同时保有版本控管与审查记录。

以资料标准化模组来说,为解决不同RWD来源格式不一的问题,塩野义制药采用国际OMOP提出的CDM通用资料模型,作为资料标准,好将世界各地供应方提供的RWD,转换为CDM,方便后续分析。

不过,Takuji Komeda坦言,日本的RWD难以完全转换为CDM,因此,塩野义只针对栏位格式和栏位命名进行一致化,让各种格式资料在平台中具备一致结构。他们称这种CDM为「实用型标准化」做法,保留原始资料语意,但透过结构统一达到跨资料比对的目的,避免因代码转换,丢失资讯。

接著是半自动化RWD分析,塩野义团队规画了3个阶段来完成。第一,研究人员只要填好一份概念表(Concept Sheet),列出要研究什么、需要哪些变数和使用哪些统计方法,系统就会根据先前资料定义,自动套用变数格式、建立分析资料集(ADS)及其规格。

建好初步分析资料集后,系统会进一步分析哪些变数需要扩充或转换,并根据既有规则或过往范例,自动补足这些内容,同时生成统计图表(TLF),并根据这些图表,自动产出报告草稿,来供研究员参考。

所有分析流程都会自动记录在Git中,包含程式版本、资料栏位定义版本、报表更新纪录等。这种设计类似软体工程的CI/CD流程,可让研究人员能追踪任何一步的修改,达到可溯源的治理效果。未来若监管机构、伦理委员会或期刊审查要求提出分析过程依据,他们就能快速汇出完整纪录。


最终,塩野义制药打造一套AI-SAS for RWE工具,透过标准化、半自动化与程式化治理,来提高RWE可信度和研究效率。他们目前已完成第一阶段,包含半自动化和Git记录,接下来要用AI改善分析效率,还要建成App来强化可用性。图片来源/塩野义制药


上述这些做法,只是分析流程半自动化的第一阶段。Takuji Komeda指出,塩野义团队预计,第二阶段要进一步使用AI来加强分析效率,还要扩大可以自动化的规模。而在第三阶段,他们要将整个分析作业包装成App,让非程式专业的研究人员,也能用图形介面完成RWD分析设定,提高可用性。

塩野义制药的RWD/RWE治理做法,成了RWE用于未来药物研发和监管的可信依据。