您好, 歡迎來到化工儀器網(wǎng)! 登錄| 免費(fèi)注冊| 產(chǎn)品展廳| 收藏商鋪|
行業(yè)產(chǎn)品
當(dāng)前位置:上海漢堯儀器設(shè)備有限公司>>技術(shù)文章>>關(guān)于拉曼模型的深度探討
一、前言:
過去20年來,拉曼光譜法在制藥應(yīng)用中取得了長足的發(fā)展。晶型分析是拉曼在分析實(shí)驗(yàn)室的藥物分析中提供的一項(xiàng)功能,以及用于顆粒、基質(zhì)和表面分析的拉曼光譜共聚焦顯微鏡功能。
從2010年代末開始,手持式拉曼系統(tǒng)在制藥領(lǐng)域的應(yīng)用激增。這些儀器配置了專用操作系統(tǒng),用于GMP環(huán)境中的輔料和API定性分析、固體劑型確認(rèn)和防偽分析,現(xiàn)在已成為事實(shí)上的高效GMP原材料來料檢測標(biāo)準(zhǔn)。
生物過程監(jiān)測是光譜平臺(tái)非常適用的領(lǐng)域。早在20世紀(jì)90年代末,近紅外和中紅外光譜系統(tǒng)就已被研究用于生物過程代謝物監(jiān)測應(yīng)用,但水對紅外光譜的吸收嚴(yán)重限制了可用于吸收測量的光程,從而導(dǎo)致檢測背景噪音過大。拉曼光譜受益于相對較弱的水散射截面,因此從本世紀(jì)初開始研究拉曼光譜的這種應(yīng)用也就不足為奇了。拉曼技術(shù)在光學(xué)采樣表面也提供了相當(dāng)大的靈活性,無論使用塑料、玻璃和其他礦物質(zhì)作為采樣接觸表面的干擾都非常小。
早期拉曼生物過程工作的重點(diǎn)領(lǐng)域是各種生物系統(tǒng)中的細(xì)胞代謝物,并且隨著人們的興趣迅速擴(kuò)大,這種應(yīng)用仍在繼續(xù)。許多研究者還發(fā)表了關(guān)于評(píng)估關(guān)鍵產(chǎn)品質(zhì)量屬性的可能性文獻(xiàn),如蛋白質(zhì)翻譯后修飾和聚合等的相關(guān)研究。
根據(jù)Google Scholar的 數(shù)據(jù),過去10年,與“Raman+ BioProcess"相關(guān)的引用呈指數(shù)級(jí)增長(圖1),到2023年,引用次數(shù)將超過4000次。
二、傳統(tǒng)經(jīng)驗(yàn)?zāi)P?/span>的挑戰(zhàn):
復(fù)雜生物系統(tǒng)中拉曼數(shù)據(jù)的分析需要計(jì)算輔助。正如Ryder所評(píng)論的那樣,在這項(xiàng)工作中可以采用多種化學(xué)計(jì)量學(xué)和多變量工具。關(guān)于關(guān)鍵工藝參數(shù)和關(guān)鍵質(zhì)量屬性(CPP 和 CQA)的建模,絕大多數(shù)文獻(xiàn)中采用偏最小二乘 (PLS) 回歸。PLS 是一大類潛變量/正則化經(jīng)驗(yàn)線性校準(zhǔn)方法之一。它在化學(xué)應(yīng)用中占據(jù)明顯主導(dǎo)地位的原因很大程度上是歷史和商業(yè)原因,但它相比于其他方法并沒有更好的表現(xiàn)。不過所有經(jīng)驗(yàn)方法確實(shí)都有一個(gè)優(yōu)點(diǎn),即幾乎不需要詳細(xì)了解底層細(xì)胞培養(yǎng)環(huán)境、分析儀器的物理化學(xué)原理。
但是,使用這些經(jīng)驗(yàn)校準(zhǔn)方法對生物過程數(shù)據(jù)進(jìn)行建模存在一些重大挑戰(zhàn),如下所示:
1, 非平穩(wěn)性(Nonstationarity)和方差齊性(Homoscedastivity):在數(shù)學(xué)和統(tǒng)計(jì)學(xué)中,“平穩(wěn)性"是一個(gè)術(shù)語,意味著每個(gè)數(shù)據(jù)(在本研究中為光譜數(shù)據(jù))都是從具有固定分布特性的隨機(jī)分布中得出的。大多數(shù)商業(yè)軟件中的 P LS 等經(jīng)驗(yàn)方法僅在理論上是準(zhǔn)確的,并且是使用“平穩(wěn)"數(shù)據(jù)進(jìn)行優(yōu)化的。這意味著每個(gè)生物反應(yīng)過程必須以相同的方式運(yùn)行,并且化學(xué)物質(zhì)之間具有一致的相關(guān)性。它還意味著儀器中的測量方差在時(shí)間和通道上始終相同(方差齊性)。對于拉曼光譜(或近紅外或中紅外光譜吸收)來說,情況并非如此,特別是在生物過程中,當(dāng)大量生物量(Biomass)可能導(dǎo)致生物反應(yīng)過程運(yùn)行中或不同批次之間的熒光差異非常大時(shí),從而導(dǎo)致數(shù)據(jù)噪音波動(dòng)顯現(xiàn)數(shù)量級(jí)的差異。
2, 協(xié)變量:根據(jù)定義,在生物反應(yīng)過程中許多物質(zhì)之間存在時(shí)間相關(guān)性。廣泛使用的經(jīng)驗(yàn)方法旨在利用這些經(jīng)驗(yàn)時(shí)間相關(guān)性;但這些關(guān)聯(lián)方法非常容易產(chǎn)生非特異性關(guān)聯(lián),從而降低預(yù)測準(zhǔn)確性和通用性。
3, 可交換性和交叉驗(yàn)證:與上述兩點(diǎn)相關(guān),交叉驗(yàn)證通常作為數(shù)據(jù)建模工作中經(jīng)驗(yàn)?zāi)P偷臏?zhǔn)驗(yàn)證評(píng)估來完成。為了使交叉驗(yàn)證結(jié)果有效且具有代表性,數(shù)據(jù)必須是“可交換的";但由于協(xié)變量的原因,生物過程數(shù)據(jù)通常嚴(yán)重違反了這一原則。
4, 試錯(cuò)法:這些經(jīng)驗(yàn)方法中的大多數(shù)都包括變量選擇、預(yù)處理、歸一化和校正方法的一系列選項(xiàng)。推薦的方法是“嘗試一下,看看什么似乎有效",因?yàn)橥ǔ]有什么理論依據(jù)來指導(dǎo)選擇這種方法而不是另一種方法。
5, 質(zhì)量因數(shù):與上述內(nèi)容相關(guān),大多數(shù)商業(yè)軟件中報(bào)告的主要指標(biāo)是“RMSEC/RMSECV/RMSEP":[校準(zhǔn)/交叉驗(yàn)證/預(yù)測]的均方根誤差]。藥典分析標(biāo)準(zhǔn)通常期望對選擇性、線性、精密度、檢測限和靈敏度進(jìn)行估計(jì);但不幸的是,經(jīng)驗(yàn)建模方法不能直接估計(jì)這些質(zhì)量因數(shù)。用戶可以進(jìn)行實(shí)驗(yàn)工作來評(píng)估這些值,但這是相當(dāng)具有挑戰(zhàn)性的,通常需要定制化的編程/分析。
6, 光譜儀變化:當(dāng)開發(fā)經(jīng)驗(yàn)?zāi)P蜁r(shí),單個(gè)光譜儀的個(gè)體特性和非理想效應(yīng)也會(huì)成為開發(fā)者的協(xié)變量。當(dāng)更換光譜儀或更換激光器/探測器時(shí),經(jīng)常需要校正多變量模型以確保與新光譜儀的個(gè)體相關(guān)性。經(jīng)常需要使用多種數(shù)學(xué)方法來執(zhí)行這種“校準(zhǔn)遷移"。
7, 監(jiān)管挑戰(zhàn):經(jīng)驗(yàn)建模方法的?箱性質(zhì)需要廣泛的經(jīng)驗(yàn)驗(yàn)證工作來證明其靈敏度、選擇性、線性和穩(wěn)定性。監(jiān)管指導(dǎo)文件(如ICH Q 14 10.3)中提供了一些通用指南,但它們并不是特別明確,也不是以這些方法的數(shù)學(xué)基礎(chǔ)為理論依據(jù)。
考慮到這些挑戰(zhàn),毫無疑問,穩(wěn)健的拉曼方法開發(fā)和部署一直是生物反應(yīng)過程應(yīng)用中特別棘手的挑戰(zhàn)。人們已經(jīng)做出了許多努力來克服其中的一些障礙。設(shè)計(jì)故意擾動(dòng)實(shí)驗(yàn)可用于試圖“打破"本質(zhì)上存在的協(xié)變量并擴(kuò)大可用于建模的經(jīng)驗(yàn)數(shù)據(jù)的范圍。
不同文獻(xiàn)報(bào)告了使用 PLS 和 各種預(yù)處理方法成功構(gòu)建“通用"模型,并報(bào)告在特定平臺(tái)方法的合理成功;但這些工作通常涉及 25?30 次以上的生物反應(yīng)實(shí)驗(yàn),需要花費(fèi)大量的時(shí)間和人力物力;并且還不包括隨后的實(shí)驗(yàn)部署和維護(hù)成本。這些文獻(xiàn)結(jié)果與行業(yè)研討會(huì)報(bào)告的內(nèi)容思路基本一致。
三、Maverick的全新模型:
我們的目標(biāo)是改善將拉曼光譜方法引入生物反應(yīng)過程監(jiān)測的技術(shù)挑戰(zhàn)。我們從哺乳動(dòng)物 C HO 和 HEK293 細(xì)胞系開始,這些細(xì)胞系廣泛用于蛋白質(zhì)(單抗)和病毒載體的生產(chǎn),并且可用于放大生產(chǎn)。
僅憑借純粹的經(jīng)驗(yàn)建模/校準(zhǔn)很難規(guī)避上述挑戰(zhàn)。混合模型在生物學(xué)和生物反應(yīng)過程領(lǐng)域越來越受到關(guān)注。迄今為止,這些方法在很大程度上結(jié)合了基本生物機(jī)制的知識(shí)、化學(xué)工程知識(shí)、計(jì)算流體動(dòng)力學(xué)和其他知識(shí)領(lǐng)域,以及使用一些經(jīng)驗(yàn)測量或觀察的數(shù)據(jù),以提高對生物反應(yīng)過程的理解。模型中更多的固定元素限制了經(jīng)驗(yàn)優(yōu)化,以降低過度擬合/局部最小值的風(fēng)險(xiǎn),并引導(dǎo)整體模型達(dá)到可解釋且產(chǎn)生持續(xù)穩(wěn)定的近似值。使用第一性原理或構(gòu)建砌塊信息來預(yù)測復(fù)雜的結(jié)果有時(shí)被稱為全新的方法,例如全新的蛋白質(zhì)結(jié)構(gòu)建模,這是我們用來描述Maverick算法原理的術(shù)語。
MAVERICK的全新模型源自1970年代開始研究的關(guān)于多變量校準(zhǔn) ( MVC) 的概率框架,例如Morgan等人的早期研究。它與圖2中常見的經(jīng)驗(yàn)多變量校準(zhǔn)模型形成對比。
在存在一些參考誤差(e)的情況下,經(jīng)驗(yàn)MVC方法根據(jù)觀測到的光譜數(shù)據(jù) X (X~)和配對參考數(shù)據(jù)(y) 的近似值來估計(jì)預(yù)測變量b;b本身的計(jì)算是基本的。上述挑戰(zhàn)1-7主要表現(xiàn)在每個(gè)領(lǐng)域中‘X’的近似值上,應(yīng)該做什么實(shí)驗(yàn)、在什么硬件上、設(shè)置哪些參數(shù)、在計(jì)算b之前應(yīng)該如何修正/處理原始數(shù)據(jù),以及最終的模型在真正預(yù)期的條件下如何執(zhí)行。
X的近似值對于控制經(jīng)驗(yàn)方法過度擬合的風(fēng)險(xiǎn)至關(guān)重要,并且在實(shí)踐中有許多、許多、許多不同的X (X~)的可能“近似值"。 PLS(偏最小二乘法)是許多模型方法之一,在許多商用軟件中廣泛使用。在創(chuàng)建X(X~)的過程中,也通常會(huì)消除波長范圍或應(yīng)用其他線性或非線性變換。過多可用于建模的‘近似’步驟選項(xiàng)是過度擬合的重要次級(jí)來源,因此有時(shí)會(huì)需要評(píng)估數(shù)百或數(shù)千個(gè)選項(xiàng),浪費(fèi)了大量的廣義自由度。
相比之下,MAVERICK 的全新模型不使用任何憑經(jīng)驗(yàn)觀察到的X或y數(shù)據(jù)。相反,它使用圖2中術(shù)語(一些靜態(tài)和一些動(dòng)態(tài))在時(shí)間t為主動(dòng)測量下的系統(tǒng)創(chuàng)建“最佳線性預(yù)測器" 。雖然這個(gè)模型的核心是概率性的,但它的幾個(gè)關(guān)鍵參數(shù)可以直接從基于光學(xué)、電子學(xué)和多元統(tǒng)計(jì)學(xué)的第一性原理中推導(dǎo)出來。由于這些效應(yīng)在拉曼系統(tǒng)中是動(dòng)態(tài)的,所以觀察生物反應(yīng)過程,幾個(gè)模型選項(xiàng)也是動(dòng)態(tài)的(這不足為奇)。
公式中參數(shù)K,Ψ代表可觀察拉曼光譜可能的化學(xué)/生物化學(xué)貢獻(xiàn)者的“主要參數(shù)"以及相關(guān)的預(yù)測概率密度函數(shù),從中產(chǎn)生濃度估計(jì)值。人們可能想知道,如何才能涵蓋公式中的所有可能性。雖然生物反應(yīng)過程中化學(xué)/生化物質(zhì)的數(shù)量很可能有數(shù)千種。但拉曼光譜的靈敏度意味著人們實(shí)際上只需要考慮0.01 g/L 以 上的主要成分。在哺乳動(dòng)物培養(yǎng)基中,超過0.01g/L的,我們發(fā)現(xiàn)數(shù)百種常用物質(zhì)以及添加劑(例如表面活性劑、消泡劑)的數(shù)據(jù)。用那么多參數(shù)數(shù)據(jù)對觀測到的拉曼光譜進(jìn)行去卷積通常是一個(gè)不合適的問題;但使用全新模型,是一個(gè)充分自我調(diào)節(jié)的解決方案,以產(chǎn)生低方差的濃度估值。
其余條件既取決于設(shè)備,也取決于時(shí)間。F是從每個(gè)MAVERICK系統(tǒng)的多維出廠特征導(dǎo)出的濾波器函數(shù),并且實(shí)時(shí)適應(yīng)于變化的樣本和系統(tǒng)條件。拉曼系統(tǒng)中許多重大誤差來自于光學(xué)系統(tǒng)設(shè)計(jì)和電子原件。MAVERICK的內(nèi)部系統(tǒng)模型使其能夠?qū)崟r(shí)估計(jì)∑t 的測量誤差協(xié)方差。相應(yīng)的,系統(tǒng)模型還允許Et自適應(yīng),例如變化的室內(nèi)照明、溫度和濁度條件。最后,由于在生物反應(yīng)過程中,時(shí)間t的系統(tǒng)狀態(tài)與時(shí)間t-1的狀態(tài)有關(guān),因此惰性模型中包括環(huán)境和自回歸分量(Λ)。
質(zhì)量因數(shù)
這個(gè)估計(jì)模型的幾個(gè)重要性質(zhì)先前已經(jīng)討論過,例如預(yù)測均方誤差(MSEP)的解析解。
如上所述,經(jīng)驗(yàn)?zāi)P烷_發(fā)中的一個(gè)一致性挑戰(zhàn)是模型屬性的不透明性。很少有證明生物過程拉曼應(yīng)用文獻(xiàn)引用所得模型的標(biāo)準(zhǔn)分析優(yōu)值,例如靈敏度、選擇性、LOD,因?yàn)槎嘧?/span>量模型的文獻(xiàn)定義很復(fù)雜。符合IUPAC定義的靈敏度和選擇性因子可以根據(jù)文獻(xiàn)中所述的過程全新模型直接估計(jì)。最后,還可以推斷出其他模型診斷,如平面內(nèi)和平面外一致性,類似于Hoteling或杠桿統(tǒng)計(jì)和F參數(shù):
四、 模型快速校準(zhǔn):
MAVERICK系統(tǒng)的MAVERICK方法減輕了用戶的巨大建模負(fù)擔(dān),但并不能使其擺脫所有形式的“校準(zhǔn)"。由于MAVERICK系統(tǒng)被設(shè)計(jì)為在測量模塊、光路模塊和探頭之間即插即用,因此在開始生物反應(yīng)過程分析之前,需要進(jìn)行一個(gè)準(zhǔn)備步驟來確認(rèn)定量系統(tǒng)的適用性。這是一個(gè)3步過程,由MAVERICK的軟件在HUB屏幕上引導(dǎo):
1. 將拉曼探頭浸入“LOW"標(biāo)準(zhǔn)液中,按下 ‘GO’并等待大約4分鐘;
2. 將拉曼探頭浸入“HIGH"標(biāo)準(zhǔn)液中,按下 ‘GO’并等待大約4分鐘;
3. 將拉曼探頭插入反應(yīng)器中與反應(yīng)器一起滅菌;
步驟1+2檢查MAVERICK+探頭的一些參數(shù)是否符合全新模型,并對MAVERICK測量模型、光路模塊和探頭的特定組合的全新模型輸出進(jìn)行快速的標(biāo)品定標(biāo)。該參數(shù)還允許對使用帶序列號(hào)和芯片的探頭進(jìn)行自動(dòng)的審計(jì)追蹤。MAVERICK還支持單點(diǎn)“實(shí)時(shí)"校準(zhǔn),這有助于消除離線分析儀器和MAVERICK之間的數(shù)據(jù)偏差。
五、 實(shí)測案例:
圖3顯示了與一些常見的離線生化分析儀(酶膜法)相比,使用MAVERICK在CHO和HEK293工藝上的分析數(shù)據(jù)。
圖4展示了全新模型提供的一些后臺(tái)診斷信息。這些信息是從CHO培養(yǎng)過程中提取的,該過程在一個(gè)有大窗戶的實(shí)驗(yàn)室中運(yùn)行。在上圖中,在估計(jì)的RMSE(g/L)中可觀察到的小波動(dòng)與預(yù)期一致——全新模型正在跟蹤整個(gè)晝夜周期的基本背景噪音變化,影響∑t。同樣的影響正在傳播到下圖中對葡萄糖的選擇性,該圖繪制了葡萄糖對前20種其他細(xì)胞培養(yǎng)基成分的選擇性:隨著環(huán)境光照的增加,盡管環(huán)境光照發(fā)生了變化,但全新模型仍進(jìn)行了調(diào)整和自適應(yīng),以保持選擇性。谷胱甘肽以綠色曲線顯示,雖然它恰好是該生物過程中葡萄糖選擇性“較低"的物種,但正如y軸所示,葡萄糖選擇性仍然很好(>0.99)。
在生物過程的后期階段,細(xì)胞/蛋白質(zhì)濃度的增加可以誘導(dǎo)中重度的自發(fā)熒光,這會(huì)給經(jīng)驗(yàn)校準(zhǔn)模型帶來很大的困難。全新模型的優(yōu)值反映了這種影響,可以觀察到RMSE的緩慢上升趨勢,但由于全新模型持續(xù)跟蹤和補(bǔ)償背景噪音的增加,從測量誤差模型中的熒光來看,這種影響處理得相當(dāng)良好。
六、 Maverick全新模型的限制與機(jī)會(huì)
全新模型的關(guān)鍵優(yōu)勢—即透明度和避免經(jīng)驗(yàn)推導(dǎo)模型的陷阱—也可以被認(rèn)為是其關(guān)鍵局限性。如上所述,如果生物過程的光學(xué)活性成分沒有提前確認(rèn),則全新模型報(bào)告的結(jié)果容易有偏差。數(shù)據(jù)偏差的程度在很大程度上取決于‘未知’物質(zhì)的光學(xué)活性:低微克/升水平的痕量金屬元素不會(huì)產(chǎn)生影響,因?yàn)閍)它們是光學(xué)無活性的,b)濃度太低,無法在溶液中用拉曼觀察到。通常,只有0.01g/L及以上范圍內(nèi)的共價(jià)鍵合有機(jī)物質(zhì)才被認(rèn)為是相關(guān)的。
全新模型也無法支持所謂的“間接傳感器"—即沒有直接的光譜效應(yīng)(如pH),也可以從經(jīng)驗(yàn)觀測數(shù)據(jù)中推斷出虛擬參數(shù)。如果沒有公式包含的光譜效應(yīng),就無法使用全新模型。對于那些對間接傳感器建模或擴(kuò)展預(yù)測模型感興趣的人,可以選擇將MAVERICK的全光譜導(dǎo)出,該導(dǎo)出可以通過OPCUA實(shí)時(shí)訪問,也可以在測量會(huì)話結(jié)束時(shí)作為合并數(shù)據(jù)文件訪問。
還有更多的機(jī)會(huì)利用Ψ和K的混合建模方法。目前,單個(gè)Ψ似乎足以用于哺乳動(dòng)物的生物過程,但我們正在探索更多樣的自適應(yīng)Ψ培養(yǎng)基系統(tǒng)(例如非CHO或HEK293哺乳動(dòng)物細(xì)胞、鳥類細(xì)胞、昆蟲細(xì)胞等)。或者,如果從數(shù)據(jù)中發(fā)現(xiàn)明顯不存在的特定配方組分,則對K的動(dòng)態(tài)進(jìn)行約束。例如,通過L1型正則化方法。我們注意到,動(dòng)態(tài)系統(tǒng)模型(如所謂的數(shù)字孿生)也可能直接與全新模型連接,進(jìn)行連續(xù)的時(shí)間數(shù)據(jù)更新。
七、 后語:
隨著我們在其他分析物和其他細(xì)胞/培養(yǎng)基過程中驗(yàn)證性能,我們有機(jī)會(huì)繼續(xù)擴(kuò)展MAVERICK的參數(shù)。此外,隨著流程從早期工藝開發(fā)過渡到中試和生產(chǎn)規(guī)模,全新模型的靈活性可以幫助提高跨規(guī)模/幾何結(jié)構(gòu)的工藝穩(wěn)定性。
請輸入賬號(hào)
請輸入密碼
請輸驗(yàn)證碼
以上信息由企業(yè)自行提供,信息內(nèi)容的真實(shí)性、準(zhǔn)確性和合法性由相關(guān)企業(yè)負(fù)責(zé),化工儀器網(wǎng)對此不承擔(dān)任何保證責(zé)任。
溫馨提示:為規(guī)避購買風(fēng)險(xiǎn),建議您在購買產(chǎn)品前務(wù)必確認(rèn)供應(yīng)商資質(zhì)及產(chǎn)品質(zhì)量。