混合建模在基于數字孿生的實驗設計中的應用
生物過程的動力學和相關的機械復雜性不包括在傳統的統計實驗設計 (DoE) 技術中,這些技術可以幫助研究人員找到生物過程的最佳條件。這些方法通常用于研究過程參數之間的相互作用,并確定每個參數對目標響應變量的影響的顯著性,例如滴定度和產量,特別是在合格的規??s小模型中,以量化跨規模的關鍵工藝參數的設定點和允許范圍。
近年來,以模擬給定生物過程為目的的數字孿生,即實際系統的數字虛擬復制,引起了GSK、Atos和Siemens等公司的極大關注。此外,數字孿生聯盟于 2019 年成立,以推進數字孿生技術的學術研究以及工業應用,并擴大數字孿生的概念驗證和試點計劃。
一種新的、有前途的方法涉及將基于知識的機械信息從數字孿生模型轉移到 DoE 方法以縮小實驗邊界空間,從而顯著減少實驗成本和生物反應器優化時間。在模型輔助 DoE 計劃的背景下,實驗室實驗被數字孿生模型取代,以根據 DoE 策略預測響應。然后篩選模擬結果,以確定新的實驗空間,然后選擇新實驗的性能。重復此過程,直到適當地確定最佳條件。具有 Monod 類型相關性的質量平衡可用作生物反應器(即數字孿生)的表示。作為一個典型的例子,M?ller 等人 (2019) 使用 DoE 方法為生物量、葡萄糖、谷氨酰胺、乳酸、氨和單克隆抗體集成動態質量平衡方程。這種基于模型的 DoE 策略用于優化中國倉鼠卵巢細胞在批次和補料分批生物反應器中的抗體生產。在這項研究中,初始邊界空間被選擇為三個可變因素,包括葡萄糖、谷氨酰胺和補液速率,以設計基于行列式或 D 最優和綜合或 I 最優 DoE 技術的實驗。與正交經典響應面方法不同,變量效應在這些優化設計中是相關的。D 最優和 I 最優設計分別最小化參數協方差和平均預測方差的決定因素。由于測量了多個響應,包括活細胞密度、抗體、乳酸和氨濃度,因此根據用戶定義的可接受響應下限和上限創建了合意性函數,以將多維優化問題標準化為一個合意性功能。盡管模擬和實驗設計在最佳補液速率以及補液中的葡萄糖和谷氨酰胺濃度方面對最佳條件給出了相同的建議,但模擬的用戶定義合意性函數與實驗確定的用戶定義合意性函數存在偏差。這種不一致歸因于與機械模型相關的不確定性,因為只有四個實驗用于參數估計,因此該模型無法反映過程變量的整個范圍。然而,這個例子說明了將機械洞察力應用到 DoE 實驗中的潛力。
圖7. 一種用于開發規??s小模型過程表征的、基于數字孿生的實驗設計 (DoE) 混合建模方法的示意圖。
混合模型也可以納入 DoE 實驗中,它們可以在生物反應器數字孿生模型中提供更準確的參數預測。圖 7 顯示了基于模型的 DoE 與混合模型集成的示例。根據此工作流程,初始實驗集(圖 7 I)首先在計算機中用于訓練混合模型和優化人工神經網絡架構(圖 7 II)。然后,根據關鍵過程參數 (CPP) 的給定設計空間,將開發的混合模型用于響應變量(例如,時空產量和生物量濃度)的動態評估。在下一步中,使用過程模擬對結果進行全面評估,以確定最佳 CPP 組合,給出最佳目標響應值(圖 7 III)。假設最佳 CPP 推薦已經包含在實驗集中,然后通過與實驗數據的比較來確定最佳條件(圖 7 IV);否則,將從推薦的 CPP 獲得的新實驗數據添加到訓練數據集(圖 7 I),并重新訓練混合模型(圖 7 II),重復優化循環,直到獲得實驗和模擬之間的最佳一致性并且沒有生成新的 CPP 推薦(圖 7 V)。
用于規模放大的混合建模
前文所述的研究描述了混合方法在生物反應器建模、控制和優化以及規模縮小模型中的過程表征方面的潛力。為生物反應器規模放大目的進一步開發和應用這些新興模型是一個具有重要意義的新課題,因為為小型生物反應器開發的純機械動力學模型不一定能夠描述生產規模的狀態變量。相比之下,混合模型的更高靈活性可能允許進行包括與規模相關的特征的調整。為此,可以使用小規模和大規模的測量來訓練模型。此外,混合模型的數據驅動部分可以配置為表示特定規模的變量。更重要的是,考慮到根據部分已知或未知的規則,參數范圍可能會在不同規模上發生顯著差異,因此包含數據驅動模型可以提供一個補充組件,其中黑盒方法可以促進生物反應器的規模放大。使用基于數字孿生的 DoE 方法構建具有代表性的規??s小模型將提供有關關鍵過程參數和響應變量之間交互關系的有見地的信息,從而加速優化和表征研究。
在最近的一項研究中,開發了一系列混合模型結構來預測 300 mL 搖瓶和 15 L 實驗室規模生物反應器中的活細胞濃度和產物滴度。人工神經網絡被用作數據驅動組件來估計該模型中的特異性增長率和產品形成率。為了測試用于預測 15 L 生物反應器中細胞濃度和產物滴度的搖瓶混合模型性能的可轉移性,作者在搖瓶 DoE 數據上訓練了該模型。該數據集還包括三個 15 L 生物反應器實驗,以捕獲搖瓶和生物反應器之間的特定比例差異,特別是 15 L 生物反應器實驗數據被用作設計中心點三次重復??傮w而言,結果表明該模型可以轉移到預測來自 15 L 生物反應器的新過程數據?;罴毎麧舛鹊臍w一化均方根誤差 (10.92%) 較低,而滴度誤差較高 (17.19%)。這種誤差差異歸因于在 15 L 規模下獲得的一些更高的滴度值,這些值在訓練數據中不存在。盡管這項研究展示了混合建模概念示例的極好證明,但仍需要進一步研究來檢驗這種方法在生產規模生物反應器中的潛力,其中,細胞代謝與較小體積的生物反應器(如搖瓶或實驗室生物反應器)的差異更大。
總結和未來展望
生物反應器內生化過程的復雜性要求研究人員從基于經驗法則和反復試驗的工藝開發轉向更系統的數字化框架。這篇綜述概述了基于數字化的創新戰略,如果認真實施,這些戰略將使生物制藥行業更有效地向大規模細胞培養系統發展。
此處回顧了生物工藝放大的三種方法,包括知識驅動、數據驅動或混合方法,每種方法各有優缺點。盡管它們在歷史上被廣泛使用,但傳統方法是高度特定于過程的。相比之下,數字工具可以潛在地跨規模分析生物反應器的性能,特別是在幾何形狀不同的反應器方面,允許不同細胞系和產品之間的知識轉移,實現可比性和合并的定量評估,將工程設計參數和過程變量轉化為過程模型,盡管迄今為止幾乎沒有實際例子。
基于知識的研究將是該領域進一步發展的關鍵。一系列數學公式已經可用于描述生物藥物生物合成中涉及的基本機械步驟,提供對生物過程的更全面的理解。這種機制模型包含許多未知參數,這些參數通常代表生理特征和參數估計,通過合適的全局擬合方法以及隨后使用統計推斷工具測量不確定性,在模型準確性中起著重要作用。雖然這些模型已應用于分析跨規模的過程動力學,但仍需要更高級的模型來整合生物反應器設計參數的影響,這些參數對細胞代謝行為的影響因規模而異。要構建這些模型,需要對細胞行為與規模相關因素之間的關系進行深入的數學理解。這種方法將生成具有更多未知參數的高度非線性模型,其中參數之間的聯系并不為人所知或在數學上不相關。因此,為這些參數的可靠估計提供足夠的實驗數據可能是一個進一步的挑戰。
研究已經提出了幾種可以幫助開發生物工藝的數據驅動工具。引入多變量數據分析作為比較不同規模的生物反應器過程變量和檢測任何偏離控制集的批次數據的強大技術。機器學習算法被描述為對生物系統的非線性特性進行建模;鑒于規模依賴和非依賴性特征與生物反應器中結果變量之間復雜的相互關聯,這些工具具有廣泛使用的巨大潛力。盡管如此,當預測變量的數量顯著增加時,這些模型更有可能失敗,這表明可解釋性和特征提取技術對于識別最具影響力的預測變量和減少必須考慮的參數數量的重要性。我們還將遷移學習確定為一種有效利用從不同過程中獲得的數據的策略,例如各種細胞系或抗體產品,用于針對新工藝過程訓練機器學習模型,特別是在數據不足可能成為問題的大規模工藝過程中。
本文中提供的示例顯示了數字工具在生物生產的不同領域(包括哺乳動物和微生物系統)的潛在應用。此類示例包括 CHO 細胞生產單克隆抗體、微生物發酵和大腸桿菌生產蛋白質或微藻細胞生產有機化合物。細胞農業是另一種可能受益于數字生物生產進步的新興技術,因為實現細胞農業的可放大工藝將是一項艱巨的任務,其中細胞增殖和分化過程需要保持規模。例如,生產 1 kg 肌肉細胞蛋白質需要大約 8 ×10^12 個細胞的細胞擴增。使用傳統的攪拌式生物反應器獲得如此高的細胞數量需要 5,000 L 的規模。因此,在如此大的體積下為組織工程和間充質干細胞建立實用的細胞擴增方法是一項巨大的挑戰。因此,隨著 2019 年 Cultivated Meat Modeling Consortium (人造肉模型聯合會) 的成立,基于計算機的細胞農業生物反應器建模和分析的開發正受到相關行業機構的關注,這些基于計算機的方法可用于協助解決來自從細胞系篩選到生物反應器優化的問題。
要釋放基于計算機的生物生產的全部潛力并從開發的早期階段取得進展,需要克服廣泛的挑戰。最初的努力可能既費錢又費時,但鑒于數字化轉型提供的更快價值實現時間、改進的生產以及降低的風險,預計從長遠來看將獲得顯著的成本節約和競爭優勢。盡管如此,鑒于全球對生物制藥產品的需求快速增長,我們相信未來五年將進行重要的全球研究,以解決當前通過數字化轉型放大生物反應器的挑戰,從而提高工藝生產率和質量。為此,將科學和工程方面的知識與計算和數據科學技術相結合的合作研究將極大地促進數字化生物生產的加速。
原文:M. K. Alavijeh, I. Baker, Y. Y. Lee, et al., Digitally enabled approaches for the scale up of mammalian cell bioreactors, Digital Chemical Engineering 4 (2022) 100040