A がん臨床試験の開発相
B がん臨床試験のデザインと解析
1.第I相試験のデザインと解析
2.第II相試験
3.第III相試験
文献

臨床試験は第I相、第II相、第III相のように段階的に実施される。相が進むにつれて検証性が高まるように計画されるのが一般的である(図1)。

(*クリックすると拡大表示します)

がん領域で実施される場合、一般に第I相試験は安全性の観点からのスクリーニングを主たる目的として実施し、この結果をもとに用量の最適化などが行われる。第II相試験は有効性の観点からのスクリーニングを主たる目的として実施し、この結果をもとに続く第III相試験に進むべき有望な治療であるかを評価することになる。検証性を高めた大規模試験として実施される第III相試験では、第II相試験までの数々のスクリーニングを突破した新しい治療法に対する最終段階の評価として標準治療と直接比較される。これにより新しい治療法に関する総合的な評価が行われる。

1.第I相試験のデザインと解析

第I相試験は、新しい治療の初期の安全性に関して評価することを主たる目的として実施される(表1)。人に初めて投与する試験(first-in-human study)として実施されることも多い。初期の安全性に関する典型的な評価デザインとして、急性・亜急性の毒性について、有害事象に関する国際的な共通用語規準であるNational Cancer Institute Common Terminology Criteria for Adverse Event(NCI-CTCAE)によるGrade 4血液毒性またはGrade 3の非血液毒性を評価し、これにより用量制限毒性(dose limiting toxicity: DLT)の発現状況を評価することがあげられる。この結果として、最小不耐量や最大耐量(maximum tolerated dose: MTD)の推定が行われ、次相の第II相試験に用いる推奨用量(recommended dose: RD)が決定される。この他にも薬物動態の評価、投与方法(投与スケジュールや投与経路など)の選択、また初期の探索的な有効性に関する評価なども副次的な目的とされうる。

リスク・ベネフィットのバランスの観点から、がん領域では他の領域に比べるときわめて高い頻度での毒性発現を許容範囲としている。このため、その評価を行う第I相試験でも、他の領域に比べるときわめて高い頻度での毒性発現が予想される。被験者保護の観点から、がん領域で実施する第I相試験では患者、特に他に有効な治療法が存在しない患者を対象とすることになる。健常人を対象として第I相試験を実施することが一般的である他の領域と大きく異なる。また患者を対象とする一方で、第I相試験を実施する一定期間にわたった詳細な観察を可能とするため、一般には全身状態のよい患者に限定して対象とすることになる。これより、第I相試験の対象となる患者集団は選択された限られた集団であるといえる。

一般に第I相試験の主たる評価対象は安全性にあり、有効性ではない。このため、特別な必要性を有する状況を除いては、がん種を1つに特定せず、複数のがん種を対象として実施することも一般的である。

第I相試験の典型的なデザインとして、安全性が十分に担保できる用量を開始用量とし、毒性を確認しながら徐々に増量するものを採用することが多い。開始用量としてはマウスの10%致死量(lethal dose for 10% of animals: LD10)の1/10、イヌの最小中毒量(toxic dose low: TDL)の1/3などがよく用いられている。増量手順としては、3例ずつ段階的に投与して増量の可否を判断する3例コホート法(3+3デザイン)が慣習的に好まれて用いられている(図2)。また近年ではより効率性に優れる試験デザインとして、高度な統計モデルに基づく逐次的再評価法(continual reassessment method: CRM法)、個体内増量法、薬物動態情報に基づく方法なども提案され、それぞれの適応事例も報告されている。通常、第I相試験は非盲検下で実施される。

第I相試験の結果を得てから実施される第II相試験や第III相試験に比べると、情報の不確実性がきわめて高く、この観点からリスクの高い試験である。このため、厳密な被験者管理を行う必要性があり、単施設または少数精鋭施設で実施されることが望ましいとされている。症例数に関しては、十数から数十例の規模までの範囲で実施されることが多い。

2.第II相試験

1)第II相試験のデザインと解析

第II相試験では、第I相試験のスクリーニングを突破した治療法の有効性についての探索的評価が主たる目的となる(表2)。有効性を評価することを目的とし、一般にがん種を限定し、第I相試験で決定した推奨用量について評価が行われる。

第II相試験では、新しい治療法が次相の第III相試験での評価に進むべき有望な治療であるかという観点からの評価が可能となるように計画される。奏効率(response rate)、完全奏効率(complete response rate: CR率)などの抗腫瘍効果指標を早期有効性の指標として用い、実際の有効性の程度の推定が行われることが一般的となっている。第I相試験に引き続いて安全性も評価され、毒性プロファイルに関しても情報を更新する。また推奨用量における薬物動態解析なども実施されうる。

試験デザインとしては、非盲検の単群試験として実施されることが多いものの、開発過程における必要性から、後述するようなランダム化を伴う多群試験として実施されることもある。また、早期に有望でないことが判断される場合に試験中止(早期無効中止)を行うことを目的として、第II相試験の途中での1回の中間解析を含むようなデザイン(二段階デザイン two-stage design)が用いられることも多い。第I相試験に比べて幅広い複数の施設で実施されるが、第III相試験に比べると不確実性が高くリスクも高いため、適切な管理が可能な専門施設に限って実施されることが望ましい。症例数に関しては、数十から100例規模までの範囲で実施されることが多い。

2)第II相試験の検定に基づく症例数設計の一例

臨床試験を計画する際には、科学性・倫理性の双方の観点から、適切な症例数設計を行うべきである。がん領域で実施される典型的な第II相試験では、奏効など二値の評価項目(エンドポイント)を用いた単群試験デザインが採用されることが多く、そこでは検定に基づく症例数設計法が一般に用いられる。一例として、ここでは当該試験で否定したい奏効率の値を閾値奏効率、真の奏効率がそれ以上であった場合に第III相試験へ進む価値があると考える値を期待奏効率としてそれぞれ設定する典型的な状況を考える。この状況で閾値奏効率を20%とすることは、その試験の結果を得た後に奏効率を算出し、この20%を帰無仮説とする検定において有意差が示された場合、新しい治療法を第III相試験の評価を行うべき有望なものであると考えることを意味する。

ここで奏効率はその典型的な分布である二項分布に従うとし、また閾値奏効率を20%、期待奏効率を40%とする。最初の思考実験として、臨床試験の症例数を仮に20例とする。真の奏効率が閾値奏効率、期待奏効率にそれぞれ等しい場合の別に、20例の臨床試験を実際に実施した場合に得られる結果のバラツキを数理的に求めたものを図3に示した。この図より、真の奏効率が閾値奏効率に等しいとすると「4例の奏効」が最も観察されやすく、期待奏効率に等しいとすると「8例の奏効」が最も観察されやすいことが確認できる。一方、実際に観察される奏効例数にはランダムな偶然誤差が含まれるため、閾値奏効率20%に等しい状況でも、偶然により期待奏効率を上回る結果も得られることが確認できる。

この2つの分布に基づいて症例数設計が行われる。閾値奏効率20%を帰無仮説とした場合にp値が5%未満になるのは、20例中8例(40%)以上の奏効が得られた場合である。これは、もしも奏効率20%が正しいとすると、8例以上の奏効例が観察される確率が5%未満であることを意味し、p値のそもそもの定義である。p値に基づいて判断するうえでp>5%であれば有意差なし、p≦5%であれば有意差ありと判断するのは、αエラーを5%以内に抑えることに等しい。厳密に言い換えれば、この判断方式に基づいて検定を行った場合、真の奏効率が閾値奏効率20%に等しいのにもかかわらず、p<5%となり、これにより誤って有意差ありと判断してしまう確率が5%以内に抑えられていることに対応する。これは前述のp値の定義、および検定における判断方式から自明である。

p≦5%の場合に有意差ありとする判断方式を用いるとすると、このαエラーと両極に位置するものとしてβエラーが存在する。この状況では、期待奏効率40%に等しいにもかかわらず、偶然により奏効例が7例以下(p>5%)となり、誤って有意差なしと判断するものとして整理できる。このβエラーを1から減じた値を検出力という。この状況で検出力は、βエラーの定義から、期待奏効率に等しい場合に有意差(p≦5%)を検出できる確率として導くことができる。図3より、これまでに想定した症例数を20例とする設定での検出力を算出すると58%となる。

真の奏効率が第III相試験へ進む価値があると考えている値40%に等しいにもかかわらず、試験結果に基づいて有意差あり(p≦5%)と判断できる確率を意味する検出力が60%にも足らないのは試験の精度として十分なものであるとはいえない。この検出力は症例数を増加するにつれて高めることができる。このため、概念的には20例から1例ずつ症例数を増加し、検出力が十分になる症例数を求めればよいことがわかる。たとえば40例まで増加させると40例中13例(33%)の奏効例が観察された場合にp≦5%となり、これより検出力は87%に到達する(図4)。症例数20例の場合に比べて、検出力として十分な値まで上昇することがわかる。一般に、臨床試験の症例数設計では検出力の適切性の目安として80-90%が用いられていることが多い。

3)第II相試験の例:ソラフェニブの進行肝細胞がん患者を対象とした第II相試験

進行肝細胞がん患者を対象としてソラフェニブ(ネクサルバール(R))の有効性スクリーニングを目的とした第II相試験が実施された[1]。残念ながら、本試験の公表論文の記述では症例数設計に関しては詳細が不明である。しかしながら断片的な記載をたどると、奏効率が7%以下の場合にこの治療法を否定したいと述べていることから閾値奏効率として7%を想定していると考えられる。また最終的に完全奏効(CR)または部分奏効(partial response: PR)の症例が15例以上となった場合に有意と判断すると述べていることから、有意水準としてα=約10%としていると考えられる。これらより、以下では閾値奏効率7%、有意水準α=10%として説明をする。本試験の症例数は147例であった。これより、本試験は期待奏効率12-14%に対して80-90%程度の検出力をもつものとしてデザインされたものであると解釈することができる。期待奏効率として12-14%を用いることが本試験において適切であるかは、本試験の目的とするものに依存している。

本試験の結果として、3例のPR、8例のminor response(MR)、46例のstable disease(SD)が報告されている。これらより、CR/PR率は2.2%、MRまで含めると8%となる。残念ながら、閾値奏効率を7%とすると有意差なしとなる。しかしながら、本試験に引き続いて第III相試験が実施されている。このあたりが本論文の歯切れの悪さにつながっているのかもしれないが、本試験の副次エンドポイントの結果や関連する試験のデータを最大限に咀嚼したうえで、総合的な観点からソラフェニブが本対象集団に対して有望であると判断されたのであろう。

4)多群第II相試験デザイン

第II相試験の段階で多群試験デザインが採用されることがある。しかしながら、検証的な目的に対して直接比較デザインが用いられる第III相試験とは異なる目的で、多群試験デザインが用いられることに留意する必要がある。

第II相試験の段階で多群試験デザインが採用される典型例として、

(1)治療の候補が同時に複数存在する状況で、そのなかで開発の優先順位をつけたい場合(複数の新しい治療法から選択したい状況)

(2)複数の用量や投与スケジュールの候補が存在する状況で、そのなかで最適化を行いたい場合(新しい治療法の最適化を目的とする状況)

(3)単群試験の結果と比較可能性となるよいヒストリカル・コントロールが存在しない場合(同時対照の設定が不可避である状況)

があげられる。それぞれ目的に応じて適切な試験デザインを用いる必要があるが、第II相試験の主たる目的は検証的比較にあるのではなく、新しい治療法が次相の第III相試験での評価に進むべき有望な治療であるかを評価することにあることに特に留意すべきである。

(1)や(2)の場合、標準治療を含まず、複数の候補治療法にランダム化するデザインが用いられる。特に(1)の場合には、優先順位をつけるという目的に合致する選択デザイン(selection design)を用いることが一般的である。

(3)の典型例として、単群試験では評価可能な適切なエンドポイントが存在しない状況があげられる。たとえば、生存エンドポイントは患者背景への依存度が高く、症例登録の恣意性(選択バイアス)がその結果に大きな影響を与えやすいため、単群試験デザインでは適切な評価が難しいとされている。生存エンドポイント以外には適切なエンドポイントが存在しないような場合、スクリーニングを行う第II相段階でもランダム化により同時対照群(一般に標準治療群)を設定することが求められうる。

多群第II相試験デザインの欠点として、症例数の規模が検証的試験に近づくにつれて、たとえ検証的試験設定ではないとしても、その試験結果がエビデンスとして過大に位置づけられてしまいやすいことがよくあげられる。もともと第II相試験として検証的設定で計画されたものでないことを十分に考慮すべきである。たとえ第II相試験で予想よりも大きな群間差を示していたとしても、慎重な解釈を行うのが賢明であろう。

3.第III相試験

1)第III相試験のデザインと解析

第III相試験には、新しい標準治療を決めるという観点から、検証性の高いデザイン(検証的試験デザイン)が用いられる。一般に、新しい治療法の有効性の検証を目的として、標準治療を同時対照群に設定したランダム化比較試験が行われる(表3)。標準治療がいまだ確立されていない疾患においては、支持療法(best supportive care: BSC)群やプラセボ群を含む無治療群と比較することもある。第III相試験のエンドポイントは、第III相試験の検証性から、真のエンドポイントである全生存期間が第一選択となる。全生存期間とは、死因を問わないあらゆる死亡をイベントとして測定したイベント発生までの期間を指す。ただし状況に応じて、真のエンドポイントに対する代替性(surrogacy)が認められた代替エンドポイント(surrogate endpoint)が存在する場合には、より効率性に優れるエンドポイントとして無増悪生存期間や無再発生存期間などを用いることも一般的になってきている。代替エンドポイントを利用する場合には、当該エンドポイントの代替性が劣るほど、エンドポイントとして誤った結論を導きやすくなることを十分に理解したうえで、臨床試験の計画、結果の解釈を行うべきである。代替エンドポイントの利用にあたっては事前に十分な検討を行うのが賢明である。安全性を含む他のエンドポイントについても、大規模試験の設定で同時対照と比較することで、早期試験よりも詳細な検討が可能となる。

標準治療との位置づけにより、優越性試験あるいは非劣性試験として実施される。ランダム化試験に対しては、主にintention-to-treat(ITT)の原則に基づく解析が用いられる。がん領域では、試験途中で群間比較を行う中間解析が計画されることも多い。

第III相試験は多施設で実施されることが一般的であり、日常診療により近い症例が登録される。この点において、第I相試験や第II相試験よりも一般化可能性を有する試験結果として解釈することができる。症例数は数百以上の規模で実施されることが多いものの、当該の必要性に応じて1000例以上となることも決してまれではない。

2)優越性試験と非劣性試験

新しい治療法の毒性が標準治療に比べて相対的に強いと想定される場合、優越性試験(superiority trial)として計画される(図5)。リスク・ベネフィットバランスの観点から、新しい治療は安全性で負ける可能性が予想されている以上、有効性において標準治療に優らなければ新たな標準治療として受け入れられ難い。典型的な例として、同時対照がBSCやプラセボを含む無治療である場合、ベースとなる治療法に新たな薬剤を追加(add-on)する場合などをあげることができる。これらの場合、当然ながら、有効性において同時対照に優らなければ、新しい治療法の有効性を認めるわけにはいかない。一方、新しい治療法の毒性が標準治療に比べて総合的に軽減される等、新しい治療法に有効性以外にも著しいメリットを有する場合、非劣性試験(non-inferiority trial)として計画される(図5)。そこでは新しい治療法が標準治療と比べて一定(δとする)以上劣らないかを評価することになる。δは非劣性許容下限(non-inferiority margin)と呼ばれるものであり、新しい治療法の有効性以外のメリットとのバランスを考慮するなどにより設定される。

(*クリックすると拡大表示します)

試験目的に対応した計画をするうえで、適切なδを設定することが重要である。δの設定根拠の妥当性により、非劣性試験の質は大きく左右されうる。δを大きく設定しようとすれば必要症例数も少なくなるが、一方でその精度の低下により、有効性以外のメリットとのバランスを考えると、一般に臨床試験の解釈が難しくなる。δを大きくすればするほど、必要症例数は少なくなり、有意差が出やすくなる。この場合、実際は臨床的に明らかに問題となるほどかなり負けているのに、統計的には非劣性が証明できてしまう。つまり、非劣性試験の結果が有意(たとえばp<5%)になった状況でも、観察された試験結果に基づいて否定できるのは、厳密には同時対照群に比べてδ以上は劣らないことのみであることを十分に理解しておくべきである。それぞれの状況において、δをどのように設定するのが最も適切であるかに関しては現在でも議論が多いため、個々の試験計画時には少なくとも研究者間での意思疎通を十分にはかるべきであろう。

3)ランダム化

ランダム化とは、ある患者を複数の治療法のなかの一つに、何らかの任意の確率(厳密には>0 かつ <1)に基づいて割り付けることをいう。ランダム化を伴う試験またはそのデザインをランダム化比較試験(randomized controlled trial: RCT)と呼ぶ(図6)。

ランダム化の重要性を簡潔に説明するため、ここでは例として手術群と化学療法群を比較する目的でランダム化を伴わない研究を実施し、その結果を図7のように得ている状況を考える。ここではその結果として、手術群が化学療法群に比べて有意に優っていることがわかる(図7)。しかしながら、この試験結果には大きなピットフォールがある。実は、全身状態(performance status: PS)が良好なグループと良好でないグループの別に結果をまとめ直してみると、それぞれのグループで手術群と化学療法群にまったく差がないことがわかる(図8)。それぞれのグループ内では生存曲線も完全に重なっているにもかかわらず、結果的に手術を受けられた患者はもともと全身状態も良好であり、一方で全身状態が良好でない患者が化学療法群に偏っていたため、全身状態によるグループを併合した全体での結果では手術群が優れているようにみえたのである。このような現象を交絡という。ここではいずれの治療を受けるかは病状にも関連する全身状態に関連があったため、交絡が生じたと考えられる。交絡がある状況では適切な群間比較が行えないことは明らかである。この交絡を防ぐための最善の方法がランダム化になる。確率のみに基づいて複数の群をつくることで群間の比較可能性が担保される。ここで比較可能性とは、いずれの群にも同じ治療を行うとしたら、いずれの群の結果も等しくなることが期待できることを表す。つまり、ランダム化によって得られたそれぞれの群に異なる治療を行った後に群間差が観察されたならば、それは治療の差のみによってもたらされたと結論づけることが可能であることを意味する。直感的にも、群毎の症例数が増えるにつれてこの結論の確からしさが増すことはご理解いただけよう。この意味において、ランダム化を行わない限り、厳密な比較可能性を保証することは困難である。

がん領域では重要な予後因子のいくつかがすでにわかっていることが多いため、ランダム化の際に群間でこれらのバランスがとれるような何らかの工夫を伴うことが多い。そもそもランダム化は、既知の予後因子のみに限らず、未知の予後因子でさえも群間でバランスをとるという意味で比較可能性を保証するため、すべての既知の予後因子を必ず考慮しなければならないわけではない。しかしながら、既知の予後因子の重要性が先行研究からも明白な場合には、これらを考慮することで精度の向上(検出力の向上)を期待できる。実際上には、統計的な問題ではないと先に断っておくが、試験結果を発表する際の見栄えの問題から、背景因子に明らかな偏りが生じないように考慮することもよくある。ランダム化の手順さえ適正であればバイアスを生み出すものではないが、現状は往々にして、些細な背景因子の偏りにより公表された試験結果の信憑性に嫌疑をかけられてしまうことも多い。なお本来的には、過剰な数の予後因子を考慮することによって失われる比較可能性のほうが問題になりうる。説明のために極端な例をあげれば、複数の遺伝子情報を因子として群間でバランスがとれるようにすることを想定すると、遺伝子情報を密にするほど、各水準の症例数は減少してしまい、実際的にランダム化できない状況になることが想像できよう。

実際に重要な予後因子を考慮するランダム化法として、層別割付法や最小化法(Pocock-Simon法)などがあげられる。層別割付法は、因子ごとにランダム化を行う方法である。たとえば臨床病期2と3で別々にランダム化を行えば、群間で臨床病期のバランスをとることができる。最小化法は、試験に新たに登録された患者をランダム化する際に、それまでに登録された患者の背景によって生じていた群間バランスの不均衡が解消されやすいようにランダム化する方法である。それまでの割付けの結果に基づいて、動的に治療割付けを行うという意味で動的割付法に分類される。前述した層別割付法は、それまでの割付けの結果には依存しないという意味で静的割付法に分類することができる。

4)intention-to-treat(ITT)解析

ランダム化比較試験ではintention-to-treat(ITT)の原則に基づく解析が一般的である。この種の解析法をITT解析という。ここでは説明のため、薬剤A投与群(以下A群)と薬剤B投与群(以下B群)のそれぞれに100例ずつ、両群200例のランダム化比較試験を想定する。この試験では不幸にも多数の患者が割付けどおりの治療が行われていないことがわかっている(図9)。詳細には、A群に割り付けられた患者のうち正しく治療を遵守した患者は60例(60%)のみであり、残り40例(40%)は割付けの不遵守により治療Bが行われている。また他方、B群でもA群よりは遵守状況が良好であるものの、20例(20%)の患者には反対の治療Aが行われている。

このような場合に、どのように群間比較を行えばよいであろうか。ここではいくつか考えられる方法のうち、以下の3つの解析について順に整理してみよう。

方法1:各群の遵守例のみに限った比較
方法2:実際に受けた治療で再定義した群を用いた比較
方法3:割り付けられた群を用いた比較

まず、方法1として提示した遵守例のみに限って解析する場合を考える。図9に示したとおり、方法1を用いた場合にはA群が優っている。試験の目的は薬剤間で比較を行うことにあるので、正しく薬剤を投与された症例のみに限って群間比較を行うことは直感的にも理にかなっているようにみえる。しかしながら結論を先に述べると、この方法1は妥当な群間比較とはいえない。治療に反応しない患者ほど遵守しない傾向があると考えるのは医学領域ではよくあることである。あるいは目の前の試験結果において、その傾向が否定できると考えるよりも、否定できないと考えるほうが一般に自然であろう。図9の試験においても、治療効果のない患者ほど遵守しないとする。この状況で方法1を用いるとA群からはそのような患者が多く除かれやすくなるため、A群の結果は過大評価となり、その結果として群間差を過大評価することにつながる。

(*クリックすると拡大表示します)

方法2として示した、実際に受けた治療で再定義した群を用いて群間比較を行った場合も同様のことがいえる。方法1と同様に直感的には妥当な解析のようにみえるかもしれないが、同様の偏りにより過大評価の傾向がある。

方法3のように、治療遵守状況に依存せず、割り付けられた群をそのまま用いて群間比較を行う場合を最後に考える。この解析では反対の治療を受けている患者が一定割合で含まれることにより、群間差を過小評価傾向してしまう傾向がある。直感的な理解のために補足すると、たとえば薬剤Bがプラセボであったとすると、A群でも一定数が有効成分の含まれないプラセボで治療されることになるため、群間差は全患者が正しく治療を受けた場合に比べて薄まってしまう。しかしながら、この過小評価傾向は薬剤Aと薬剤Bの治療効果に差がある場合だけに生じる問題である。もしも薬剤Aと薬剤Bの有効性が等しいとすると、方法3を用いて群間比較を行った場合には群間差がないという結果を正しく観察することができる。直感的な理解のために補足すると、実は薬剤Aと薬剤Bはまったく同じ薬剤であるとすると、薬剤Aを投与しようと薬剤Bを投与しようと得られる結果は同一となり、これより薬剤Aと薬剤Bの効果は等しいと正しい判断を得ることができる。同じ治療効果の場合に同じ結果になるのは、前述した「ランダム化による比較可能性」にも通じるものである。方法3をITT解析といい、前述の方法1と方法2とは異なり、前述した比較可能性を正しく保つことができる方法であるといえよう。ここで述べた性質により、ITT解析はランダム化比較試験の解析で第一選択として用いるべき標準的な方法として広く認知されるに至っている。

5)中間解析

中間解析は、試験途中に行われる有効性に関する試験治療群間の比較を意図したすべての解析と一般に定義されている。試験の症例数は、個々の試験目的に対応する評価に十分な精度を確保するべく設計されているにもかかわらず、この点において精度が十分ではないといえる試験途中で有効性を評価することの正当性はどこから導かれているのであろうか。実は、その正当性は研究倫理および被験者保護の観点からの要請に基づいている。ヘルシンキ宣言の第20条(表4)でも「医師は潜在的な利益よりもリスクが高いと判断される場合、または有効かつ利益のある結果の決定的証拠が得られた場合は、直ちに研究を中止しなければならない」とされている。試験途中であっても有効性における優劣、あるいは安全性の問題が明らかになったような場合、被験者保護の観点から、試験を継続するのは適切ではないと考えられるからである。

中間解析は試験を実施する研究者に対する独立性が確保された委員によって一般に構成される効果安全性評価委員会(data and safety monitoring committee: DSMC)によって実施される。米国Food and Drug Administration(FDA)のガイドラインでも、死亡率などを評価することになる致死性疾患を対象とした臨床試験に対してDSMCの設置およびそれによる中間解析を求めている。

ここで説明のため、ある全25例の単群試験を想定する。この試験では全25例の結果を得た後に最終解析を行うと奏効率として13/25(52%)が得られ、閾値奏効率45%に対してp値を算出すると有意ではない(p>37%)との結果が得られる(図10)。ここで、この試験において1例の結果が得られる度に毎回p値を計算したとするとどうなったであろうか。実際に行ってみると、試験途中で実に3回も有意性(p<5%)を観察することができる(図10)。この現象が本治療法の有効性を示していると考えるのは早計であろう。この結果は単に、通常の有意水準5%を用いて中間解析を何度も行うと誤った判断(ここではαエラー)を犯す可能性が高まることを表しているのである。またたとえば、5年間の試験で毎年末に計5回の解析を同様に実施するならば、誤って有効であると早合点してしまう確率は13%になることが知られている。p値の算出を複数回行うことにより、多重性が生じ、αエラーを犯す確率が当該試験において事前に定めていた有意水準よりも大きくなってしまう。

(*クリックすると拡大表示します)

s

中間解析を試験計画に含める場合、ここにあげたような多重性の問題を回避することを目的として、各解析には多重性を調整した有意水準を用いる方法を用いることができる。この方法を中間解析法という。また、中間解析の実施により試験の信憑性が失われることを避けるため、事前に計画した少数回の解析を行うことが一般にすすめられている。

代表的な中間解析法としてPocock法やO’Brien-Fleming法、あるいはそれらを一般化した方法として位置づけることが可能なα消費関数法などがある。たとえば、試験期間のちょうど真ん中でO’Brien-Fleming法を用いて1回のみの中間解析を行う場合、中間解析の有意水準は0.52%、最終解析の有意水準は4.8%となる。

早期有効中止した試験の結果は治療効果・群間差を過大評価する傾向があるので注意が必要である。「瞬間風速」的に群間差が開いた瞬間で試験中止の判断が行われうるためであり、平均的な「風速」ではないためである。生存時間をエンドポイントとする場合、生存曲線は真実に対して過大に曲線間が開くことになり、またハザード比も過大に1から離れた値が観察される。また同様の理由により、早期無効中止した試験の結果も過小評価傾向を有する。特に、早期有効中止した試験の結果は、その程度に大小はあるものの、真実に対して過大かつ印象深い結果として提示され、一流雑誌に掲載される傾向があるため、十分な注意が必要である。実際に、早期有効中止した試験はその後で追加追跡を行うと、たとえクロスオーバー治療がなかったとしても、平均値への回帰という現象により、群間差が薄まる結果が観察されやすい。

1. Abou-Alfa GK, et al. Phase II study of sorafenib in patients with advanced hepatocellular carcinoma. J Clin Oncol 2006; 24(26): 4293-300. [PubMed]