臨床研究
對臨床試驗統(tǒng)計學(xué)假設(shè)檢驗中非劣效、等效和優(yōu)效性設(shè)計的認識
 

對臨床試驗統(tǒng)計學(xué)假設(shè)檢驗中非劣效、等效和優(yōu)效性設(shè)計的認識

藥品臨床試驗設(shè)計要求隨機、盲法和對照藥物比較,以判斷和區(qū)別其實際的療效。我國藥品研發(fā),以仿制國外已上市藥品為主;基于臨床認識和倫理學(xué)因素,臨床研究也多選擇針對目標適應(yīng)癥的已有治療藥物為對照,即所謂的陽性對照藥。目前,已公認的傳統(tǒng)假設(shè)檢驗(又稱顯著性檢驗)在臨床試驗中用于判斷藥物的療效是不合理的,它不能準確區(qū)分2藥療效差異的方向性和體現(xiàn)差異大小所揭示的臨床實際意義。因此,國際上根據(jù)研究目的不同,普遍用非劣效、等效或優(yōu)效性假設(shè)檢驗。
1 顯著性檢驗
無效假設(shè)H0:A藥療效一B藥療效=0
備擇假設(shè)H :A藥療效≠B藥療效
結(jié)論:如P>0.05,按Or.=0.05的檢驗水準,不能拒絕H0假設(shè);如尸≤0.05,則接受H 假設(shè)。
問題是這種假設(shè)檢驗推斷的2個總體均數(shù)是否不相等,是純粹的統(tǒng)計學(xué)意義,而未體現(xiàn)實際的臨床意義,雖然有單雙側(cè)之分,如單側(cè)為H0: 。一 2=0,H。:。一 2>0(或 。一 2<O),它檢驗的依然是樣本所代表的總體均數(shù)的統(tǒng)計學(xué)含義,而未將實際臨床意義包含進來考慮。
此外,對檢驗結(jié)論:①如P>0.05,表示2藥療效的差別無統(tǒng)計學(xué)意義,不拒絕H0假設(shè),說明現(xiàn)有數(shù)據(jù)尚無法對2藥療效的總體均數(shù)是否不等的判斷下結(jié)論,并不是當然的接受H0假設(shè),即并非認為H0假設(shè)必然成立;而2藥療效的總體均數(shù)一定相等,此時有可能2藥療效的總體均數(shù)確實近似,也有可能是檢驗效能(把握度)不夠,尚需更大樣本量進行檢驗。②如P≤0.05,2藥療效的差別有統(tǒng)計學(xué)意義,2藥療效的總體均數(shù)確實不相等;但這種統(tǒng)計學(xué)意義的差異不一定具有實際的臨床意義,可能其臨床意義卻是優(yōu)效、等效或非劣效的,因此傳統(tǒng)的假設(shè)檢驗,無論是何結(jié)論,都無法判定所比較的2藥是優(yōu)效、等效、還是非劣效。顯然,這種方式所得結(jié)論是不符合臨床試驗的目的要求的;但在國內(nèi)的臨床試驗中,這種檢驗卻屢見不鮮。本文就對非劣效、等效或優(yōu)效性試驗設(shè)計中的有關(guān)統(tǒng)計檢驗原則,進行相應(yīng)的闡釋,關(guān)于臨床試驗中的統(tǒng)計學(xué)一般原則,見ICH E9
?。
2 非劣效、等效和優(yōu)效性檢驗
2.1 統(tǒng)計學(xué)原理
統(tǒng)計學(xué)家們提出了區(qū)間假設(shè)檢驗的方法,以臨床意義的差異△來進行假設(shè)檢驗,即非劣效、等效和優(yōu)效性檢驗的概念和方法。這種臨床意義的差異△,不是特指藥物的療效指標,也可用于評估安全性,本文主要探討療效方面的應(yīng)用。盡管安全性指標也可確
定差異△,但對療效終點的許多討論,不適用于評估安全性試驗。
2.1.1 非劣效檢驗
非劣效性試驗
?指主要研究目的是顯示對試驗藥的反應(yīng),在臨床意義上不差于(非劣于)對照藥的試驗。設(shè)A藥為待確證療效的試驗藥,B藥為對照藥,下同。非劣效試驗的假設(shè)檢驗如下。
無效假設(shè)H。:A藥療效一B藥療效≤ 一△

備擇假設(shè)H,:A藥療效一B藥療效>一△
結(jié)論:如P>0.025,按單側(cè) =0.025的檢驗水準不能拒絕Hn假設(shè),即無法判斷A藥不差于B藥;如P≤0.025,則接受H 假設(shè),可認為A藥不差于B藥。根據(jù)非劣效試驗的統(tǒng)計學(xué)原理,治療差異(A藥療效一B藥療效)>0,則試驗藥的療效較好;治療差異<O,則對照藥療效較好;如果治療差異>一△,則試驗藥非劣效于對照藥,此處的△表示臨床意義上判斷療效不差、所允許的最大差異值,即非劣效試驗的判斷界值。
2.1.2 等效性檢驗
等效性試驗指主要研究目的是要顯示2種或多種處理的反應(yīng)間差異的大小,在臨床上并無重要性的試驗,通常通過顯示真正的差異、在臨床上可以接受的等效的上下界值間來證實。等效性試驗的假設(shè)檢驗如下。
無效假設(shè)H。:A藥療效一B藥療效≤ 一△

或A藥療效一B藥療效≥△
備擇假設(shè)H,:一△<A藥療效一B藥療效<△
結(jié)論:如Pl>0.025或P2>0.025,按2a=0.05的檢驗水準不能拒絕H。假設(shè),即無法判斷A藥等效于B藥;如P ≤0.025且Pz≤0.025,則接受H 假設(shè),可認為A藥等效于B藥。
2.1.3 優(yōu)效性檢驗
優(yōu)效性試驗指主要研究目的是顯示所研究的藥物反應(yīng)優(yōu)于對比制劑(陽性或安慰劑對照)的試驗。優(yōu)效性試驗的假設(shè)檢驗如下。
無效假設(shè)H。:A藥療效一B藥療效≤△

備擇假設(shè)H,:A藥療效一B藥療效>△
結(jié)論:如P>0.025,按單側(cè) =0.025的檢驗水準不能拒絕Hn假設(shè),即無法判斷A藥優(yōu)于B藥;如P≤0.025,則接受H 假設(shè),可認為A藥優(yōu)于B藥。實際應(yīng)用中,更多采用的是可信區(qū)間法檢驗,它是分析時最直接的方法,且比假設(shè)檢驗可提供更多的信息。非劣效性試驗中,僅關(guān)注1個方向的可能差異,因此試驗藥與對照藥的療效差異的單側(cè)97.5%(或雙側(cè)95%)可信區(qū)間,應(yīng)當完全在一△值的右側(cè),即其單側(cè)97.5%(或雙側(cè)95%)可信區(qū)間的下限應(yīng)該大于設(shè)定的判斷界值一△,即[單側(cè)97.5%CI(A—B)的下限]>一△(或[雙側(cè)95% CI(A—B)下限]>一△);同理,在等效性試驗中,等效的結(jié)果應(yīng)該是其95%可信區(qū)間范圍,包括在一△一△,即一△< [95%CI(A—B)]<△;而優(yōu)效性試驗的結(jié)果,則應(yīng)該是其單側(cè)97.5%(或雙側(cè)95%)可信區(qū)間的下限大于△值,即[單側(cè)97.5% CI(A—B)下限]>△或[雙側(cè)95% CI(A—B)下限]>△。 recruit.druggcp.net
2.2 適用范圍
對1個新研發(fā)的試驗藥,通常具有某方面的優(yōu)勢,如給藥方便、耐受性較好、毒性較低或價格便宜等;一般需與安慰劑進行優(yōu)效性試驗,以比較其真正的療效和安全性,來判斷其上市的利益風險。如果當前已有上市、曾用優(yōu)效性試驗證實為有效藥物,還常與其進行比較,并判定待驗證藥物的療效至少不差于(非劣于)已上市的有效藥物。作為其上市的最低標準,非劣效性試驗通常用于與已上市的有效藥物或標準治療方案進行比較,以求能提供1個新的治療選擇。少數(shù)情況下,當安慰劑對照不被允許或違反倫理時,用以間接證明試驗藥優(yōu)于安慰劑。等效性試驗的應(yīng)用多見于對同一活性成分的生物等效性以及血漿無法測定時的臨床等效驗證。對國內(nèi)尚未上市的藥品,無論是創(chuàng)新藥還是仿制藥,如選安慰劑為對照,則應(yīng)證實其優(yōu)效性。如選國內(nèi)已上市的同一治療領(lǐng)域的藥物作為陽性對照藥,則應(yīng)至少驗證其具有非劣效性。與已上市藥物具有相同活性成分的藥品,應(yīng)進行生物等效性或臨床等效性驗證。這既是我國非劣效、等效和優(yōu)效性試驗的適用范圍,也是國際多數(shù)藥品注冊管理機構(gòu)共同的基本要求。
2.3 判斷界值(△
)的確定
非劣效、等效和優(yōu)效性試驗的區(qū)間檢驗與傳統(tǒng)假設(shè)檢驗最大的不同是考慮了臨床意義,以臨床意義的差異△來進行假設(shè)檢驗。因此,如何確定這個療效差異的判斷界值就至關(guān)重要。若△太大,將把療效遠不如對照藥的藥物,判斷為有效或等效;若△太小,則可能將本來可推廣應(yīng)用的有效藥物,誤判為無效而得不到及時上市,并且所需的樣本含量可能會大得不切實際。因此,△的確定應(yīng)當合適,理論上應(yīng)該是藥效間具有臨床意義的最大允許差異值;但實際確定起來往往較困難和復(fù)雜,需要根據(jù)已有的文獻數(shù)據(jù),設(shè)計類型及數(shù)據(jù)的分布類型,從臨床認識水平及成本效益來綜合考慮,將統(tǒng)計學(xué)推理和臨床判斷相結(jié)合。
2.3.1 非劣效檢驗
非劣效檢驗的△值的確定最為復(fù)雜,通常參考陽性對照藥與安慰劑間的療效差異,即陽性對照藥的絕對療效來判定,需要達到2個目標(滿足2個條件)才是適合的判斷界值:使試驗藥物(A)療效既要優(yōu)于安慰劑(P)以保證藥物的有效性(A—P>0);又要好到不差于陽性對照藥(B)(A—B>一△
)。因此,ICH及EMEA等均推薦,同時包括安慰劑對照和陽性對照藥的3個試驗組設(shè)計的研究,試驗藥必須證明在統(tǒng)計學(xué)意義上優(yōu)于安慰劑(試驗產(chǎn)品與安慰劑差異的雙側(cè)95%可信區(qū)間的下限必須>0;如果試驗藥和參照藥均未能顯示、在統(tǒng)計學(xué)意義上優(yōu)于安慰劑,可能提示試驗不靈敏或者是測定方法不靈敏);然后,要用臨床判斷來評價所觀察到的結(jié)果與安慰劑的差異,是否具有臨床意義。
在國內(nèi)研究設(shè)計中,更多見僅為試驗藥組和陽性對照組2試驗組研究;而沒有安慰劑對照組,且陽性對照藥的絕對療效常不易確定,這時就要檢索文獻,參考歷史數(shù)據(jù),并利用薈萃分析等以找出所用陽性對照藥和安慰劑進行比較的同類研究,估計在目標患者人群中、陽性對照藥物和安慰劑之間的差異,確定藥效靈敏度(sensitivity to drug efects)。關(guān)于對照藥的選擇原則及其優(yōu)缺點的考慮,請參見ICH—El0_2]。需注意,藥效靈敏度和試驗的檢測靈敏度(assay sensi—tivity)是不同的,很多情況下,藥效靈敏度難以維持恒定不變。由于臨床實踐可能發(fā)生變化,或者測量效果的標準或方法的不同,某些既往的研究結(jié)論可能會毫無意義。當前試驗設(shè)計中,應(yīng)考慮和既往試驗進行比較,看是否有可能會影響治療結(jié)果的變化。例如,人選標準、診斷方法、允許的合并治療、參照產(chǎn)品的給藥方案、測定終點、評價時間等。如果試驗設(shè)計有不可避免的差異,那么其差異的意義應(yīng)當認真考慮,這有可能導(dǎo)致無法確定合適的非劣效性界值。另外,還應(yīng)當考慮陽性對照藥的療效隨時間發(fā)生的變化。例如,在某些情況下,可能由于醫(yī)療水平總體改善,疾病或事件的發(fā)生率降低了,計算時只能用較近期的研究,如果不能確保近期的試驗與當前試驗中治療效果的恒定性,那么選擇非劣效性邊界時,應(yīng)當保守一些。為保持已確定的△值的可靠性,應(yīng)當重視試驗的檢測靈敏度和嚴格控制試驗的質(zhì)量,保證陽性對照藥在試驗中、顯示出其應(yīng)有的療效。在充分考慮了以上因素的基礎(chǔ)上,當試驗?zāi)康氖峭ㄟ^與陽性對照藥比較,間接說明試驗藥優(yōu)于安慰劑時,在確保試驗藥和安慰劑的間接療效差異的95%可信區(qū)間的下限>0時,△可選為試驗藥與對照藥療效差異95%可信區(qū)間的下限;但通常選擇比這一間接計算提示的數(shù)值小一些的值。對試驗?zāi)康氖菫檎f明試驗藥可代替陽性對照藥而療效無顯著降低時(非劣效性試驗最常見的目的),通常做法是以陽性對照藥與安慰劑之間預(yù)期療效差異的百分比來確定△值。FDA認為,應(yīng)該不大于有效藥物與安慰劑間療效差異值的1/2。有些學(xué)者提出_3],選定療效指標測定的1/5~1/2個標準差,或陽性對照藥療效均數(shù)的1/10~1/5,相對數(shù)(如率、比值)最大不超過陽性對照組樣本率的1/5。但如此確定的理由尚不充分,還須通過臨床證據(jù)來確認和認可△值無重要差異的意義 ]。實際做法(尤其對市場上目前只有1個有效藥物時)是對臨床醫(yī)生進行調(diào)查,了解他們認為無關(guān)緊要的差異,有多大范圍,根據(jù)他們回答結(jié)果和分析選擇△。如果預(yù)期試驗藥的安全性優(yōu)于陽性對照藥(其他情況包括:給藥途徑更方便、劑量更方便、次要療效終點更優(yōu)等),由于有安全性方面的受益作為補償,可稍微降低療效,選擇較大的△值,但應(yīng)能證明療效優(yōu)于安慰劑。這種情況下,選擇復(fù)合的主要終點十分有用,可以用1個終點證明安全性的優(yōu)效性;而另1個終點證明療效的非劣效性。
2.3.2 等效性檢驗
等效性檢驗的△一般較為確定,在生物等效性研究中,當評價2種劑型的藥代動力學(xué)參數(shù)平均值是否足夠接近時,2者比值90%可信區(qū)間在80% ~125%成為可接受的標準,此時的△為±Ln 0.8。當用生物等效性試驗不可能時(例如仿制的吸人藥或外用藥等局部用藥),可進行臨床等效性試驗,得出雙側(cè)95%可信區(qū)間,其等效界值的確定仍然是統(tǒng)計學(xué)推理和臨床判斷相結(jié)合,具體藥品具體分析,而無恒定的界值數(shù)值。
2.3.3 優(yōu)效性檢驗
對優(yōu)效性檢驗,一般情況下取A=0(絕對數(shù)指標)或1(相對數(shù)指標);特殊情況,需確定另外的數(shù)值。
2.4 樣本含量和檢驗效能
對樣本含量和檢驗效能的具體計算公式,請參考有關(guān)文獻[3,5—7]。需注意,所用公式的假定前提和適用條件,通常受試者被隨機分配到試驗組(A藥)和對照組(B藥);2組方差齊性。雙側(cè)檢驗取僅:0.05,單側(cè)檢驗取僅=0.025;B取0.1或0.2。目前認為,在生物等效性研究中例外,取單側(cè)為0.05。通常用陽性對照的非劣效性試驗、等效性試驗、優(yōu)效性試驗,所需樣本含量均較安慰劑對照試驗大。因為,一般確定的優(yōu)效界值小于等效界值,也小于非劣效界值。因而所得樣本含量由少到多可依次排列為:安慰劑對照優(yōu)效試驗、非劣效性試驗、等效性試驗和陽性對照優(yōu)效試驗。若取非劣效界值為陽性對照與安慰劑療效差異△的1/2,則進行陽性對照非劣效性試驗所需的樣本含量,至少是安慰劑對照優(yōu)效性試驗的4倍。試驗中,還應(yīng)考慮到病人的脫落、2組比例不同、因依從性問題而引起稀釋效應(yīng)等因素,來校正估計實際的樣本含量(Ⅳ
),例如,設(shè)脫落率為Q,則Ⅳl 。 =Ⅳ re /(1一Q) .5 統(tǒng)計推斷【8 J
從實際的國內(nèi)臨床試驗看,將試驗藥和陽性藥在臨床療效上的非劣效、等效甚至優(yōu)效,錯誤地稱為“療效相當”的現(xiàn)象并不少見,有時會將非劣效性試驗誤認為是設(shè)計為等效性試驗。只有認清不同研究設(shè)計所要達到的目的,才能正確地下結(jié)論。對非劣效性試驗,下結(jié)論時一定要注意考察檢測靈敏度和研究質(zhì)量,必須分析其可能的影響因素,估計對檢測靈敏度的影響。如果按照非劣效性試驗設(shè)計,結(jié)果試驗藥的效應(yīng)好于陽性對照藥。當非劣效性試驗的無效假設(shè)被拒絕,可進一步檢驗其是否具有優(yōu)效性;如果治療作用的95%可信區(qū)間既大于一△,也大于0,那么在5%水平(P<0.05)有優(yōu)效性的證據(jù)。在這種情況下,可計算與優(yōu)效性檢驗相關(guān)的P值,并評價這一P值是否足夠小,以拒絕無差異的假設(shè)。只要新藥與對照藥的安全性特點相似,通常證明優(yōu)效本身就足夠;但當不良事件增加時,一定要估計作用的大小,以評價臨床上受益是否足以超越不良反應(yīng)。即從非劣效性試驗向優(yōu)效性試驗轉(zhuǎn)換是可行的,前提是:試驗要按照非劣效性試驗的嚴格要求來設(shè)計和實施,并按照意向治療原則進行分析。如果優(yōu)效性試驗結(jié)果表明,治療組間差異無顯著性,試驗?zāi)康膹膬?yōu)效性向非劣效性轉(zhuǎn)換是可行的,前提是對照治療的非劣效性邊界,要事先指定或具有充分的合理理由(可能性極小,僅限于有廣泛接受的公認△值的情況);意向治療原則(nTI')的全分析集(FAS)和符合方案集(PP)分析的結(jié)果應(yīng)相似,顯示劣效性無效假設(shè)的可信區(qū)間和P值;試驗按照非劣效性試驗的嚴格要求設(shè)計和實施(見ICH E9和El0);試驗的靈敏度足夠高,以確保能夠檢測出實際的差異;有直接或間接證據(jù)表明,對照治療顯示其應(yīng)有的療效。
3 審評要求
藥品審評部門常關(guān)注以下幾方面內(nèi)容。研究設(shè)計非劣效性試驗有時會被誤認為是試驗設(shè)計為等效性試驗,而產(chǎn)生混淆。應(yīng)該根據(jù)不同的研究目的,選擇適當研究比較類型,注意非劣效、等效和優(yōu)效性設(shè)計3者之間的聯(lián)系和區(qū)別,選擇合適的對照組。關(guān)于對照藥的選擇,ICH—El0已進行了全面的闡釋。應(yīng)該在試驗方案中,對研究的假設(shè)事先明確,須注意傳統(tǒng)的假設(shè)檢驗,由于不能準確區(qū)分2藥療效差異的方向性和體現(xiàn)差異大小所揭示的臨床實際意義,不適于判斷藥物臨床試驗的療效。非劣效界值的確定 要比較的藥效間差異的判斷界值的確定至關(guān)重要,尤其是非劣效界值的確定,需要詳細分析論證,對其數(shù)值的計算和假定,應(yīng)合理有據(jù),并且無精確統(tǒng)一的算法;而是統(tǒng)計學(xué)推理和臨床判斷綜合考慮的結(jié)果。在設(shè)計階段確定,研究中一般不得更改。
研究的把握度試驗結(jié)果應(yīng)得出統(tǒng)計學(xué)結(jié)論,以確保足夠的把握度,臨床意義的差異△越小,所需的樣本量越大。進行陽性對照的非劣效性試驗所需的樣本含量,至少是安慰劑對照優(yōu)效性試驗的4倍。統(tǒng)計分析過程用正確的統(tǒng)計量,建議療效間的差異以雙側(cè)95%可信區(qū)間表示。統(tǒng)計學(xué)結(jié)果所揭示的臨床意義應(yīng)當重視試驗的檢測靈敏度和試驗質(zhì)量的控制,保證陽性對照藥在試驗中顯示出其應(yīng)有的療效,分析既往成功的同類試驗的設(shè)計要點和結(jié)果,分析可能降低檢測靈敏度的種種因素及其對結(jié)論的影響。應(yīng)注意,試驗中的以下因素常能降低試驗的檢測靈敏度:如研究人群對藥物作用的反應(yīng)較差;對治療的依從性差;同時合并其他用藥,干擾了或降低了對受試藥物的反應(yīng)范圍、程度;部分受試者有自發(fā)改善而不會對藥物有反應(yīng);診斷標準不明確,而入選了無所研究疾病的陰性患者;療效指標不敏感;療效指標測量變異太大;盲法不嚴格,導(dǎo)致評價偏倚等。

全國服務(wù)熱線:

400-9905-168

關(guān)注我們

粵ICP備13059948號 廣州格慧泰福(GHTF)生物科技有限公司 版權(quán)所有 

??