科学的方法

科学的方法（かがくてきほうほう、英: scientific method）は、知識を獲得するための経験的方法である。科学的手法、科学的検証などとも呼ばれている。

科学的方法の意味と概略

科学的方法とは、断片化された散在している雑情報あるいは、「新たに実験や観測をする必要がある未解明な対象」に関連性、法則を見出し、立証するための体系的方法である。

「科学的」という言葉についての辞書的定義として、国語辞典（デジタル大辞泉）には以下のように記載されている^[1]。

考え方や行動のしかたが、論理的、実証的で、系統立っているさま。
特に自然科��の方法に合っているさま。

「すべてのアメリカ人のための科学」では、調査、論証、あるいはそれらの手法が、科学的であるために必要な要件として、証拠、推論過程、結論に関するいくつかの特徴、及び調査手段におけるいくつかの特徴（仮説－検証型等）に関して、ある程度の共通理解が存在する、とされた^[2]。

しかしながら科学的方法に関する具体的な指針については、さまざまな時代の、様々な者が発言を行っている。「発言者の立場」に基づいて大別すると、科学者、技術者などの科学サイドの人間によるものと、哲学者、社会学者、教育学者等の社会的サイドの人間によるものがあり、概して両者の間には温度差がある^[3]。

科学が満たす「一定の基準とはそもそも何か」という問題は諸論があるが、大まかにいえば、その推論過程において「適切な証拠から、適切な推論過程によって推論されていること」^[4]、「仮説検証型」^[4]の調査プロセスが要求される。また、扱う対象が、測定、定量化が可能であることが望まれることも多い。

古典的な基本

放送大学の濱田嘉昭によれば、科学的な方法の古典的な基本は、17世紀にデカルトが『方法序説』で示した以下の原則である^[5]^[6]。

明瞭判明の規則	明らかに真理と認められたものだけを判断の基準とする。
要素分解	解決可能な要素に分解して考察する。
具体から抽象へ	単純なものから複雑なものへと順番に認識をすすめる。
総合	見落としがないことを十分に確かめて、完全な列挙と再構成により全体を再構成する。

これは17世紀に提示されたものであるが「現在でも研究論文を書きあげる指針として十分光を放つものである」という。

現代における科学的な方法

「科学的方法」についての言及は、さまざまなものがある^{[注釈 1]}。

2009年の『高等学校学習指導要領解説理科編』119頁には、「理科課題研究の目的」として、以下のような解説がなされている ^[7]。

「科学に関する課題を設定し」とあるのは，自然や科学技術に関して観察，実験などの探究的な活動を通じて習得した探究の方法を用いることにより解決できる課題を設定することを示している。

「観察，実験などを通して研究を行い」とあるのは，仮説の設定，実験の計画，実験による検証，実験データの分析・解釈，推論など探究の方法にしたがって研究を進めることを示している。

「科学的に探究する能力と態度を育てる」とあるのは，探究の方法を用いて研究を行う過程で，設定した課題を科学的に解決する方法を見いだす能力と態度を育成することを示している。

「創造性の基礎を培う」とあるのは，研究の実施や報告書の作成を通して，研究においては独自性が重要であることに気付かせ，創造的な思考力を養うことを示している。そのためには，文献等の調査，研究に必要な器具や装置の製作などについて，適切な助言が必要である。

上記の「探究の方法」、「科学的に探究する能力と態度」等の要件定義から、科学的な方法（「探究」）の特徴に関する規定がある程度読み取れる。

世界各国を見渡すと^[8]、一つとしてアメリカ科学振興協会が1989年に提出した報告書、「すべてのアメリカ人の科学」^[2]^{[注釈 2]}がある。

「すべてのアメリカ人の科学」(SFAA)は、草記、審査、承認に関して、さまざまな領域から、世界的に権威を認められた者が多数関わっている点に特徴がある^[2]。F. James Rutherfordは、（その文書の編纂に携わったひとりだが）同文書について、「（いろいろありはしたが）結果としては「多くの地域の科学者たちは、“尊敬されるメンバーが行った表明として”受け入れてくれた」と主張した^[2]。だが、この文書には多くの免責事項が書かれている。例えば、 F. James Rutherfordは同文書の「日本向けの序文」の中で、以下のような免責事項を述べている。たとえば、同書の名前として『すべてのアメリカ人のための科学』といった、米国限定であるようなタイトルをついていることについて、「この文書の作成には、基本的に他国の科学者が参加しておらず、他国の優秀な科学者の見解が反映されていないことから、これを勝手に「すべての人のための科学」としてしまっては、他国の科学者たちがそれぞれの見解を表明するという権限を侵してしまう可能性があり、そうはしなかった」と述べている。またラザフォードは、この『すべてのアメリカ人のための科学』も、（そして、他のいかなる刊行物も）1冊では科学的リテラシーを保証するものとはならないと述べてこの冊子で提示できることがらの限度に対し一定の理解を示している。

同文書などでは、「科学的な方法の特徴は、論証過程と調査プロセスに顕著に認められる」とした^[2]^{[注釈 3]}記述がみられる。論証過程においては、以下のような記述がある。

基本的なことを言えば、様々な科学的学問は次のような点では似通っている。すなわち、証拠に依拠していること、仮説と理論を使用しているということ、また用いられる論理の種類、である^[9]^[10]。とは言うものの、科学全てが同一の特徴を有しているというわけではなく、異なる点も多々ある^[9]^[10]。たとえば科学者ごとに、研究する現象、活動に取り組む姿勢、歴史的データを用いるか実験的発見を用いるのか、手法が定性的なのか定量的なのか、基本原理への依拠の程度、他の科学の所見をどの程度重視するか、などの点では大きく異なっている^[9]^[10]。

上記の記述において、「証拠に依拠していること、仮説と理論を使用しているということ、また用いられる論理の種類に共通性があること」が、科学的学問の間で、特に類似性の高い部分としている^[10]。

また、一般に、論理の妥当性に関しては以下の点が必要である^[4]。

「適切な証拠への依存」
「明確な結論の存在」
「証拠と結論を結ぶ適切な推論過程の存在」

これらについて、以下のような記述が本文^[10]に記載されている（下線は本記事の執筆者による）。

科学は証拠を要求する遅かれ早かれ，科学的主張の妥当性は現象を観察することで解決される。したがって，科学者は正確なデータを収集することに努力する。

仮説や理論の形成にはあらゆる種類の想像力や思考力が利用されるが，遅かれ早かれ，どのような科学的主張であっても論理的推論の原則に合致しなければならない。すなわち、推論，実証，常識に関する一定規準を適用することで，主張の有効性は試されなければならないのである。科学者は，しばしば特定の証拠の価値や特定の想定の妥当性について見解が異なるため，正当化すべき結論に関する見解が異なることがある。しかし，証拠と想定を結論に結びつけるための論理的推論の原則については，科学者の見解は一致する傾向にある。

これに加え、以下のようなことも述べている。

論理と証拠に関する詳細な調査は必要なものではあるが，これだけでは科学の発展にとって十分ではない。科学的概念は，データや実施された多くの分析から��動的に発生するわけではない。

調査プロセスにおいても、いくつかの免責事項がつくが、以下のような記述がある。

科学者が常に従っているような決まった一連の手順などというものは無い^[9]^[10]。また、“誤ることなく科学的知識に導いてくれる単一の道筋”などというものも無い^[9]^[10]。それでも科学には、探究モデルとして他とは異なった性質をもたらしているような、何らかの特徴がある^[9]^[10]。

現代の科学的な方法においては、一つの現象を説明する場合に、"「なぜそうなるのか」という哲学的な問題は棚上し、「その現象がどのようにふるまうのか」に着眼する傾向がある^[11]"とファインマンは指摘した。この意味で、科学的な方法においては結論の提示は現実の物理現象、社会現象などを定性的/定量的に説明する具体的なモデル^[12]を提示する形で行われる傾向がある^[5]。

また、多くの科学的理論の成否は実験によって判定されるが、理論の成否は「シロ」か「クロ」というような幼稚な二元論で判定されるのではなく、信頼性や有意性、当てはまりのよさといった統計的な尺度で良し悪しを判定され、その値は良し悪しはスペクトラム状(無段階、連続的)に広がっている。従って、現代の科学的手法で得られた結果や結論に対しては、当てはまりの良さや有意性を表す数字がつけられることが多い。また、同じ事柄に関して複数の等価でない理論が並立することもあり、それぞれの理論は別々の結果を算出することもよくある。そして別々の結果であっても、あてはまりのよさが同程度であったとした場合には「同程度に正しい」ことになる。

結論の成否は証拠となる事実の取得方法、処理方法、推論過程の適切さの判断となる^[4]。しかしながらこの問題は評価の問題を含む。また分野間、研究者間によってデータの処理方法や実験的所見、定性的又は定量的手法等が異なる^[2]。「適切さ」の問題について、科学哲学者の戸田山和久は、^[13]は、以下のように述べている。

"科学が扱っているのはすべて理論であって、その中により良い理論と、あまり良くない理論がある。科学の目的は、理論をほんの少しでもより良いものにしていくことだ"(^[13]P23）

即ち、不適切（黒）と適切（白）の間はスパッと二分できるものではなく、スペクトラム状に広がっているものだという考え方である。戸田山によると、「“より”良い仮説や理論の基準」とは、以下のようなものとしている(^[13]P39)。

より多くの新奇な予言を出してそれを当てることができる。
アドホック（その場しのぎ）の仮定や正体不明・原因不明の要素をなるべく含まない。
すでに分かっているより多くのことがらを、できるだけたくさん／できるだけ同じ仕方で説明してくれる。

また、戸田山は、科学的良い理論には次の特徴があると述べている(^[13]P148)。

実り豊かである。未知の現象がたくさん予言され、当たってきたなど。
守備範囲が広い。予言されたり説明されたりする現象が広範囲に及ぶ。
一定の実績のある別の理論を内包していること。(ex:量子力学は、エーレンフェストの定理等により古典力学を含む)
シンプルであること。

さらに、科学的によくない理論としては、「反証可能性」という観点から^{[注釈 1]}以下のような特徴があるともしている(^[13]P140)。

仮説を曖昧な言葉で述べる。あるいはほとんど反証例のありえない、いつでも成り立つような仕方で与えることで、反証条件をはっきり与えない。
仮説の反証条件ははっきり与えられていても、反証条件を満たす反証例が現れたときにアドホックな仮説を付けたしたりして仮説をいつまでも守るようなことを行う。

但し、戸田山は以下のようにも述べている、

反証例から仮説を守るため、補助仮説が置かれるときに、ちゃんとした科学では補助仮説の置き方が合理的で、疑似科学はそうでないという特徴がある（(^[13]P148 より引用)）。

さらに、戸田山は、「アドホックな仮説を継ぎ足すこと」については、特に実りの多い理論に対して少数の反証例から一つの理論を全否定することは通常はないと指摘していて、アドホックな仮説を継ぎ足すことが結果としてよかった例も多数あることにも具体例を挙げて言及している（アドホックな仮説を継ぎ足すことが失敗に終わった事例にも言及している）。

操作主義的定義

科学哲学者の戸田山和久は、科学を示す用語は、大きく、以下のA群,B群の2種類に分けられると述べている^[13]。操作主義的定義の立場に立つと、科学的方法とは、以下のB群の言葉達によって特徴づけられる方法論と言うことも出来る。

A群：科学が取り扱う現象や対象,知見そのものを表すための言葉
- （例）DNA,RNA,電磁誘導,…
B群:科学的な方法論の特徴付に供される言葉
- （例）仮説,検証,推論過程,アブダクション,…

即ち、B群で特徴づけられるような言葉や手法を用いて、A群で特徴づけられることについて、「予測」すること、「技術的な応用を与えること」、そして「説明」することが科学的方法の特徴づけとする立場である。「説明」について、戸田山は、(^[13]P73)以下のように分類している。

原因（因果関係）を突き止めること
一般的・普遍的な仮説／理論から、より特殊な仮説／理論を導くこと
正体(メカニズム)を突き止めること

科学の厳密性

現在、科学が再現性の危機に瀕し、科学界が新たな方法論を模索する中、統計学と人工知能の自然言語処理や機械学習の技術を組み合わせて、現代における科学的方法の厳密性を評価する手法も生み出されている^[14]。

対象

科学的な方法が取り扱い得る対象については、科学者の間でしばしば見解の相違が見られる。一般に「科学的な方法」の適用範囲については人によって意見が異なり、対象を限定する議論は極めて難しい。その理由は、個々の研究者間で証拠の妥当性や扱う対象の価値判断が異なるためである^[2]^[5]^[15]。

科学の扱う対象について、以下の論点がある

^[2]^[4]^[16]^[17]^[18]^[19]^[20]^[21]

^[22]^[15]。

論じる対象を何らかの方法で測定できるか否か?^[要出典]
定量性が担保出来るか否か？^[要出典]
再現性があるか否か？^[要出典]
統計的な有意性を論じられるか否か?^[要出典]
推論過程に論理的な整合性があるか否か（自己矛盾が無いか）?^[要出典]

測定可能性、測定原理の存在

科学史研究者の岡本拓司（東京大学）の文章には「測れるもののみが科学の対象」と書かれていた^[23]。これはポアンカレが述べた言葉の引用と思われる。同様の趣旨で、「測る」というとがやや難しくなる社会科学の領域でも概念操作化」 (Operationalization) [26]^[24]^[25]という言葉が用いられる。「概念操作化」とは、リサーチクエスチョン（研究を通じて明らかにしたい問いのこと）を、「実験」や「調査」を通じて検証可能なレベルにブレイクダウンする過程のことである。このように理系文系の両方において、「測定原理の存在」/「概念操作化」が重視されていることから判るよう、科学的な方法を論じるうえでオーソドックスな考え方であることが想到されよう。

測れることを保証するためには、適切な測定手段が必要である^[17]^[24]^[26]。適切な測定手段の実現には、正しい測定原理と、それを実現する適切な装置構成、適切な精度評価が必要である^[要出典]。物理学や化学では、測定原理の妥当性の評価が比較的行いやすい対象が研究対象になるが、それでも最先端では、測定原理の妥当性や、装置構成の妥当性に対し議論が生じる場合もある（#証拠の節も参照のこと）。

科学には「理論物理学」のような理論分野も存在するが、理論分野においても検証手段としての実験方法の提示は、極めて重要である^[要出典]。但し、検証手段は必ずしも、現在の技術で実現できるものである必要はない。例えば、量子力学における不確定性の概念は、ハイゼンベルクが提案した顕微鏡による電子の位置と運動量の測定実験のように、思考実験による検証に端を発する^[要出典]。さらに、特に工学においては複素電界のような、「実在しない量」（測定することが不可能な量）が当たり前のように使われている場合もある^[27]。複素電界自体の定義は光学の初歩中の初歩であるため専門書に解説を委ねるが、このような実在しない“物理”量を作ることで、光の干渉等の一部の物理現象が数学的に簡単に取り扱えるようになる。このような場合には、「測定できない」という意味で実在しない量も科学的理論として認められる場合もある。尚、電磁ポテンシャルのように、元々は「実在しない量」（数学的な便宜のために導入された“物理”量）と思われていたものが、外村彰によってアハラノフ＝ボーム効果の実証がなされたことによって「実は実在する量であった」ことが後に判明したというケースもある。

→「電磁ポテンシャル」および「アハラノフ＝ボーム効果」も参照

定量性

測定結果は、定量的であるほうがより価値が高いとされることが多い。但し、キャベンディッシュの実験（クーロンの法則に関する）や、ホイートストーンブリッジ等のNull Checkのほうが、価値が高い、とされる場合もある。また、結果の定量的な予測が出来ない理論は、価値が低く見られる傾向がある。但し、系が複雑な場合には、短時間で定性的な傾向がつかめることや、倍・半分以上の予測のずれが許容される場合もある^[要出典]（シンプルさとのトレードオフが存在する）。

ここ数十年、医療や食品の分野で、証拠に基づいていない説・言説は不適切、と見なされるようになってきている。特に、医療・医薬品の効果に関しては、疫学的な観察や治療結果の統計学による比較に根拠を求める根拠に基づく医療が重視されるようになってきている。また、食品、製品の安全性についても、定量的なデータに基づいた監査が強化される傾向にある^[21]（FDA等のWeb Site^{[要文献特定詳細情報]}を参照のこと）。このように、定量的なデータに基づくことを重視する立場を、エビデンスベースという。^[要出典]但し、黎明期の理論や、あたりをつけるための理論に関しては、実際のデータとは一致しない仮定を多数含んだとしても予測力が一定水準あれば、仮説として一定の価値を得ることもある。

一方で、いくつかの問題は、定量化が難しい場合もある^{[注釈 4]}。このような問題に関しても、数字を用いて考えるほうがより科学的だ、と述べる人々もいる。実際に調査するのが難しいようなとらえどころのない量であっても、いくつかの手掛かりを元に論理的に推論し、概算すること（フェルミ推定）は、科学的な思考の基本である^[28]^[29]^[30]と言われている。

文系の問題には「都市化が進むと治安が悪化するか？」、「結婚すると幸せになるか？」のような定量化が困難な問題が多いとされる ^[24]^[25]。但し、「測定可能性、測定原理の存在」において紹介した概念操作化」 (Operationalization) ^[24]^[25]という考え方により、リサーチクエスチョン（研究を通じて明らかにしたい問いのこと）を、「実験」や「調査」を通じて検証可能なレベルにブレイクダウンすることができる場合もある。実際には政治、経済、司法等においても、既に存在する統計データ（白書、売上データ等）から、四則演算および並べ替え・書き写しだけの操作で、データを、仮説検証に適した形に変更することができる問題は多数ある^[31]^[32]。 ^[31]^[32]。この種の問題の詳細は、本記事後述の「#日常の俗説と科学的方法」の節で述べる。

再現性

論じる対象を測定することが可能であったとして、今度は、再現性が問題になる。再現性については、例えば、物理学者中谷宇吉郎（1900-1962）は1958年の著書において「科学は再現の可能な問題に適用範囲が限られる」と述べた^[16]^{[注釈 5]}。19世紀の科学では、文字通りの「再現性」が重視されていた。

一方、筑波大学教授・宮島龍興が日本教育工学振興会提言で、現代では（厳密な意味での）再現性や定量化が難しい対象も科学の対象となってきている^[18]、と指摘した。この背景には、（20世紀、なかでも20世紀後半における）推測統計学の導入により従来の記述統計をベースとした統計処理だけでは扱い切れなかった対象が定量的に考察しえるようになったことがある。

例えば医学・薬学・心理学・経済学などは、根本的に複雑性や複合性を内包していて、再現性を得にくい生体や社会そのものを扱う^[19]。（19世紀までの科学の水準ではこれをうまく扱えなかったが）現代の科学においてはこれらも、科学的な研究対象である。つまり、このような「古典的な意味での再現性が無い分野についても、統計学の手法を用いて、科学的な方法の対象とする」という立場が、現在の科学的方法の主流である。この論点については、次節にて述べる。

統計的な有意性

科学的な結論であるためには、適切な統計手法を用いて適切に「有意な違い」があることを示さなければならないとよく言われる。 ^[13], ^[33], ^[34] ^[35], ^[36], ^[37], ^[38]。従って科学的な方法の対象であるためには、適切な統計手段が行使し得る対象である必要がある。

意味のある統計手段を行使するためには、少なくとも以下が必要である ^[13],^[33],^[34],^[35],^[36],^[37],^[38]。

適切なグループ分けの設定
適切な方法で実験条件を振る/キザむこと（所謂「条件出し」の問題）
適切な統計手法/統計検定量の採用
統計的な有意差を得るために必要な実験例数の設定
統計的な相関、差異の適切な解釈
実験データを適切な可視化手段にて可視化されること

また、以下が満たされていることが望ましいとされる。

適切な可視化手段

これらについては、後述の「実験のデザインと統計学的視点」の項にて詳述する。

論理的整合性

（下記の「科学的方法における論証」も参照のこと。）

論理的整合性とは、^[4]

「根拠（証拠物件）」
「推論過程」、
「結論」

から構成された三角ロジックによるフォーメーションを持った論理構成であり、

仮に「根拠となる事実（仮定を含む）」が間違っていないとすれば、推論過程に無理がないこと
内部矛盾や循環論法が少ないこと
根拠となる事実や仮定同士の間で矛盾がないか、あるいは矛盾があっても結論を防衛しえる議論を尽くしていること

を意味する^[4]。

文科系の諸学問においては、検証、定量化が困難、あるいは、不可能な課題に取り組むことも多々ある^[15]。また、自然科学者からみれば、予測の定量性に瑕疵があると考えられる仮説が重要な学説として鎮座している場合もある^[15]。例えば、心理学、教育学などでは、測定原理の妥当性の評価が極めて難しい対象、例えば心の痛み、知能、学力等を扱う^[39]。例えば「心の痛み」というものが存在することを否定するものは極めて少数で、現代では組織運営をする上でも極めて重要な概念であり、正しい根拠に基づいた判断が要求されるものであるが、これを定量的に測定する測定原理を提案することは難しい。同様のもので、（存在するか否かが怪しいものも一部にあ��が）おそらく存在するだろうと考えられ、何らかの重要な問題と関係があるものであるが、その測定原理を示し難いものは沢山ある。

このような対象に対しては、「論理的な整合性を維持しながら、適切な証拠を集めて議論をするならば科学的である」とする考え方もある^[20]。このような見解に立つと、ハリウッド映画俳優の共演関係のようなものまで科学的考察の対象と考えられることがある^[20]。このような考え方も、定量化が難しい分野においては、しかたなくではあるものの、ある程度認められた考え方である^[15]。

「論理的整合性」を吟味するにあたっては、前提としての科学的理論の合理性や、分析方法の適切さ、参考データの信頼性に最大限留意する必要がある。これらの点を欠くと、「蟻を殺すのに核兵器を使う」ような議論（集団ヒステリー）、逆効果の発生、ひいては冤罪等の最悪の結末を発生させる可能性がある^[22]。

プロセス

科学的方法のプロセスには、例えば、PDCA(plan-do-check-act cycle)や、武谷三男^[40]^[41] の「三段階論」などがある。

PDCA

PDCA流に考えると、科学的な方法のプロセスは、おおざっぱにいえば「仮説の構築」と「その検証」の延々たる繰り返しとみなせる^[15]。

「仮説をたて、検証し、次の計画に反映する」思考様式は広く一般化されており、プロジェクトマネジメントにおいては、PDCAサイクルという名前で、一般のプロジェクトの管理に加え、研究開発や国の大型研究プロジェクト等の大局的な管理において基本となる考え方として受け入れられている^[42]。見方を変えると、科学的な方法のプロセスは、多重の入れ子構造となったPDCAサイクルと見ることもできる^{[注釈 6]}。

科学的方法のプロセスを具体的にしたものの、一例を以下に示す^[2]^[5]^[43]^[44]^[26] ^[45]。細かい説明は、文献によって異なるが、一般論としては問題発見から結論の公表までのプロセスに以下のような要素が含まれると考えてよい。

先行研究のリサーチ：何が分かっていないのかを明らかにし、リサーチクエスチョンの抽出や仮説の構築の手がかりを得るために自分の知りたいことを解明するために行う文献調査のこと。必要に応じ、有効な手法や、自分の結果と比較、参照する上で有益なデータがないかを調べる。
仮説の構築：先行研究のリサーチ、場合によっては以前の予備実験の結果等を再評価すことでリサーチクエスチョンを明確化し、これを検証可能な命題（仮説）に落とし込む
実験の計画・準備：仮説の具体的な検証方法、検証計画を立案し、実際の実験の準備を行う。
予備実験、基礎検討及びその解析：リサーチクエスチョンの抽出や仮説の構築、モデルの構築、オーダーエスティメーション、実験の問題点などの評価、最適条件の探索のために行う実験および評価・解析、理論的検討等。
解析、整理：実験のデータを、処理、整理することで、仮説との論理的な関係を明確にする。
実証実験 :仮説がおおむね正しいことがわかった段階で行う、仕上げ的な実験。Nを稼ぐことにより信頼性を上げることや、デモンストレーションを前提とする。
論文執筆、公表 :研究の結論を、すでに得たデータや、理論的な考察に基づき論理的に立証したうえで、その過程を公知化する。

ここで、リサーチクエスチョンとは、研究全体を貫く「問い」のことである。言い換えれば、「明らかにしたいこと」そのものである。

大学教養課程未満では教育課程では正則的なループを想定した課題が与えられることが多い。つまり(1)-(6)までのループを何度か繰り返したあと、(7)に至る、といった極めてオーソドックスな流れが想定されている。例えば2007年前後に出版されている文部科学省高等学校検定教科書の課題研究の欄や、学部レベルの学生実験の教科書^[26]には概ね「(1)-(6)までのループを何度か繰り返したあと、(7)に至ると」ことを勧める記述がある。

プロの研究者のレベルにおいても、一つ一つの行動は、概ね上の要素に還元できる^[43]。しかし、プロのレベルは、試行錯誤が迷走する可能性の高いレベルの高いテーマを扱うことが多いことや、いくつかの仮説を並行してテストできるようなスケジュールを組むこと、いくつかの項目を同時並行的に行うが多いため、変則的になってくる。

また、プロの研究者のレベルにおいては、論文では、IMRAD型のように、あたかも「まず先に解答を思いえがき、それからそれをささえる事実をさがし始めた」かのように記載するが、現実には検証よりもむしろ仮説構築に労力を割いている。単なる検証であれば、学生やテクニシャンに任せている場合も多い。

研究者にとっては、仮説構築のプロセスこそ重要であるが、この部分については、統一的な見解はなく、散逸的、専門的（必ずしも全読者に必要とは限らない）であるため、「#現実の研究プロセス」の節において後述する。

武谷三男の「三段階論」

理論物理学者の武谷三男は、科学理論の進展は以下の現象論、実態論、本質論の三段階を経ると考えた^[40]^[41]。

現象論：個々の事象の知識を集める段階。
実体論：少数の実験結果に対して当てはまりのよい理論を作る段階。
本質論：統一的な視座から物事を説明する段階。

三段階論は、主に科学の一つの領域の進展を考察したものであるが、現象論的な知識が十分ではなくて直ちにその原因を思惟するとき形而上学に陥るという点においてなど、個々の一研究（一つの論文レベル）についても学ぶところが多い考え方である。

論証

→「IMRAD」も参照

論証が科学的であるためには、少なくとも論理的であることが求められる^[4]。一般に、科学の領域における「論理的」という概念を説明するモデルとしては三角ロジック（論理の三要素)^[4]^[46]^[47] が有力である^[46]^[47]。三角ロジックとは、以下に示す三つの要素からなる論法である。

「主張（結論）」
「根拠となる事実（証拠；証拠物件）」
「根拠となる事実から主張を演繹/帰納するため��推論過程（論拠）」

三角ロジックは、スティーヴン・トゥールミンによるトゥールミンモデル(en:Stephen Toulmin#The Toulmin Model of Argument）の簡略化であると考えられている^[46]。

これらの言葉の意味を簡単に例解する。例えば、推理小説においては、証拠、証言を根拠にして推理が進み、そして結論が導かれる。「犯人はA氏だ」というのが「主張（結論）」である。「根拠となる事実」というのは、例えば「血のついたナイフ」とか「ドアについた指紋」といった、証拠物件自体それぞれや、「何時に駅でA氏をみた」といった証言自体それぞれのことである。推理小説では、証拠物件の存在や状況、証言から何らかの推理を行い、「犯人はA氏だ」ということを立証するための論を述べるが、これが「推論過程（論拠）」である。

科学的な論証においては、上記の三要素に関して、相応の適切さが求められ、それが適切であることが科学的な方法を特徴づけている。この意味において、科学的な論証の顕著な特徴としては「適切な証拠への依存」、「明確な結論の存在」、「証拠と結論を結ぶ適切な推論過程の存在」の三つが認められる^[4] ^[2]。

結論

結論は、明確でなければならない。例えば、「あなたは弱気な反面、強気すぎるところもあり…」といったように、どんな人（どんな対象）に対しても当てはまるような結論は望ましくないとされる^[13]。結論の明確さに関連する概念としては、反証可能性がある。

一方で、現代の科学（特に工学）では「合わせこみ」といわれる手法がある。これは、シミュレーションと過去の実験データを人為的に〝よく一致させる”ためにいくつかのパラメータを制御する手法 ^[48]である。別の側面から見れば、合わせこみは、どのような実験結果でも取り込めるほどパラメータが多い点で不明確であるが、短い時間で仕様を満足するモノを開発しなければいけない分野（工学、工業等）では非常に強力な手法/考え方である。

無論、この手法が「基礎科学」にまで広がってくることについては苦言を呈するものもいる。例えば、リース・モーリン博士は、現在の最前線における物理学の理論が、「どのような実験結果でも取り込めるほどパラメータが多い」ことを指摘したうえで、反証可能性を軽視している傾向を、「物理学の迷走」と断じている^[49]。実際、モーリン博士が指摘するように、最近の素粒子物理、量子情報、物性理論等は極めて数学に近い様相を呈しているため反証可能性の原則を逸脱していることはしばし指摘される^{[注釈 7]}。また、特に、萌芽的な理論においては、実験がどんな結果を出してもそれを取り込めてしまうほどパラメータが多く、しかもそのパラメータの物理的な意味が不明確であることもしばしば指摘される。現在でも、このことを理由として権威ある雑誌への掲載が拒まれることがあるとされる^[50]。但し、この傾向も最近では現実的な方向に、つまり反証可能性に偏重しない方向にシフトしつつある^[50]。

また、結論はシンプルでなければならない。結論のシンプルさに関しては、以下の「オッカムの剃刀」という原則がある。

必要以上に多くの実体を仮定するべきでない。
現象を同程度うまく説明する仮説があるなら、より単純な方を選ぶべきである。

オッカムの剃刀は、「並立する幾つかの仮説の中から、ある一つの仮説を選択する方法」の一つとして現代の科学者において、理念的な面で受け入れられているが、あまり教条的に受け入れてしまってはいけない事柄である。その理由としては、

説明に不必要であることは、存在しないことを含意しない^{[注釈 8]}。
何が説明に必要であるかは必ずしも明確ではない。

などの問題点がありえるからである。

証拠

科学は証拠となる事実（生データ/証拠物件）を要求する。科学者は何らかの「真偽判定」を行う場合に「どういった証拠が結論を支持し得るか」ということを考える^[2]。このような思考は一般に、科学教育において優先的に身に付けさせるべきことと考えられている^[2]^[8]。この際まず、仮説を支持する証拠と仮説の反証となる証拠を明確にする必要がある^[2]。さらに、結論を立証、あるいは反証するために必要な実験を計画する必要がある。

一般に、「仮説の反証となる証拠の存在」は、必ずしも反証となる証拠を提示された理論の否定にはつながらない（後述の「反証可能性について」を参照）^[2]が、特に実験家は、既存の理論の反証となりそうな実験を好んでターゲットにするという傾向があり、そのような反証例を基に、理論が洗練させられていく^[51]。

証拠となる事実の取得（測定）の段階では、適切な測定方法の存在が重要となる。 適切な測定方法の実現には、正しい測定原理と、それを実現する適切な装置構成、適切な精度評価が必要である^[17]^[26]。測定原理の妥当性は、直接測定（例えば自分の身長を直接身長計で測る場合）の場合にはあまりその重要性が意識されないが、間接測定（例えば三角測量で山の高さを測る場合）には、その妥当性（本当にその方法で山の高さが測れるのか？）が極めて重要になる。また、「何を明らかにするために何をするのか」という研究者が意識すべき重要な事柄にも密接に関係する。

物理学や化学では、測定原理の妥当性の評価が比較的行いやすい対象が研究対象になるが、それでも最先端では、測定原理の妥当性や、装置構成の妥当性に対し議論が生じる場合もある。測定原理の妥当性や、装置構成の妥当性、精度の評価はそれぞれの学問における最も本質的な議題の一つであり、それぞれの学問分野で研究されることである。

測定原理の妥当性や、装置構成の妥当性については、主に大学の学生実験で重点的に指導される^[26]。逆にいえば、測定原理の妥当性と装置構成の妥当性について学ぶことが学生実験の一つの重要な意義である^[26]。典型的な例としては、ボルタ振子の実験等がある。この実験では、振り子の周期と重力加速度の関係を理論的に導いたうえで振り子の周期を測定することで、重力加速度を間接的に測定する。

測定原理、装置構成、精度の妥当性の評価を行うことを目的とした論文以外の論文では、博士論文等のような大著の論文を除き、装置構成の妥当性や装置構成の詳細、測定原理の妥当性については、軽く触れるにとどめるのが普通である。このようになった原因の一つには、知的財産権に関する戦略や、二重投稿と解釈されることへの懸念などがある。論文に実験方法詳しく書いた場合で、既に実験方法の妥当性を示すために提出した論文（理論や装置に関する論文）や、特許が存在した場合には、二重投稿と処断される可能性がある。また、論文に実験装置の構成について詳しく書きすぎると、実験の成功に関して必須でない部分に関しても装置構成に関する新規性が喪失されることになる場合があり、後に特許として権利化する場合に支障となる可能性が出てくる。

また、最近では実験ツールのキット化が進んでおり、間接測定であっても、妥当性、測定精度等の基礎評価は、実験装置、実験キットのメーカーが保証してくれていて、実験者が意識しなくても済むようになってきつつあるため、測定原理や測定精度について、意識の低い研究者がいることも指摘される^[52]。

証拠となる事実の整理（解析）、あるいは実証実験のように示すべき命題が明確になり、結論の有意性の問題に逢着段階においては「データの解釈方法」「データの記録または報告」「データの重みづけ」等、適切なデータの取得、適切なデータの処理に関する問題が重要となる^[2]。「適切」とは、ここでは、「どのような手順でデータを取得、解析すれば偏りが少ないと認められるか」を指す^[2]。この問題は概して非常に難しく、有意性の問題といわれる。有意性の判断は先述のように分野によってどこまで容認するかに温度差があるが、この判定基準については統計学特に実験計画法^{[注釈 9]} の分野の研究者が研究している事柄である。有意性の判定に関して、実験計画法では以下の3条件を原則としている（実験計画法の項目を参照のこと）。

局所管理化：影響を調べる要因以外のすべての要因を可能な限り一定にする。
反復：実験ごとの偶然のバラツキ（誤差）の影響を除くために同条件で反復する。
無作為化（ランダム化）：以上でも制御できない可能性のある要因の影響を除き、偏りを小さくするために条件を無作為化する。

また、「科学的であること」の要件として必須であるとまでは言えないものの「どのようなデータの収得順序、収得方法、統計処理方法でデータの本性をえぐりだすことができるのか」という問題も重要である。この問題の系統だった研究はデータマイニングの分野で研究されている。この問題に対してカリフォルニア大学サンタバーバラ校教授中村修二が、「データに文脈性を持たせることの重要性」を説いている^[53]。データに文脈性を持たせ、一見意味のない雑情報に見えるものの中から意味のある情報を取り出すためには、セレンディピティーや磨かれたセンス、場合によっては運が要求される問題でもある。センスを磨くためには実験ノートの有機的な活用など、実験をよく振り返ることに加え、関連するよい論文に目を通し発見の過程を分析する必要がある。

推論過程

→「IMRAD」も参照

結論と、実験事実の間には何らかのギャップがあることが通常であり、その間を結ぶ考察が必要となる。すなわち、証拠と結論を結ぶ適切な推論過程が考察である。

推論過程を、一つの観点から分類すると、直接証明法と間接証明法に分類できる。

直接証明法:証明したい命題を直接的に立証する
間接証明法：証明したい命題と等価な命題（例えば対偶や背理法）を示す。

推論過程を、別の観点から分類すると、「演繹」と「演繹でない推論」に分類される(^[13]PP88-92）。

演繹とは、一般的原理として認知された法則、あるいはもっともらしいと信じられているものに基づいて、いくつかの仮定をおき、具体的なモデルを考え、それに基づいて現象を予測する手法である。
演繹でない推論(非演繹的な推論には、帰納、投射、類比、アブダクションがある。

帰納は、個別の例から一般性を導くもの。
投射はこれまでの個別例ではAの性質だったから、次のケースもAだろうという推論。
類比は、二つの事柄が似ていることから、それ以外の点でも似ているだろうという推論。
アブダクションは、たとえば今まで分かっていたことだけからではすぐに説明ができない場合に、説明を可能にするような新しい仮説を置いて、その仮説は正しいだろうと考えるような推論のこと。

ここで、アブダクションについては、あまり聞きなれない言葉であるため簡単に補足しておく。これの基本は「チャールズ・パースの仮説形成法」が基本になるとされている^[5]^[54]^[55]。パースの仮説形成法というのは、大まかに以下のような過程で“推論”する^[5]。

驚くべき現象Fが観察されている。
だが、仮説Hが真であると仮定すると、Fは当然のことになるだろう。
よって、Hは真であると考える理由がある。

いわゆる「現象論的」と言われる考察においては、このような考え方が特に好んで用いられる。また、現在において認められている理論のほとんどすべては、「多数のFを説明できるからHは正しい」といった論拠に基づいており、逆に言えば、どれだけの（多さの）Fを説明できるかがその理論の優劣を決める^[5]。このようなモデルに基づいた仮説形成法は、「必要条件と十分条件の混同」という点においてデカルトの枠組みを若干逸脱しているが、特に「情報量が増える」^[13]こともあり、科学的な論証の推論過程においてよく用いられる^[54]。

演繹においては、「正しい前提に基づけば必ず正しい結論が得られる」という意味で真理が保存される一方、情報量は増えない。一方、非演繹的論法は、「蓋然的」、すなわち、「必然的ではない、結論が必ず正しいとは限らない」という特徴があり、一方で「情報量が増える」ということがある。科学者は、両者の良しあしを使い分け、試行錯誤の過程において、例えば「少数の現象から、それらを統一的に説明する仮説を帰納し、その仮説からより多くの現象を予測する」といったように、これらの論法を組み合わせる^[56]。

考察を行うに当たっては、必要に応じて、何らかの理論や既に公表された他の実験データなどを援用し、証拠を補完する必要がある場合もある。しかし、ある程度信頼を得ている理論ですら完全な証拠の補完ができず、いくつかの推定が根拠の中に混ざる場合や、推論過程自体に粗が存在する場合もある。一般に、「どのような推論過程」が適切であるのかは、その研究のオリジナリティーにかかわる部分であり、特に研究レベルでは極めて難しい。

実際、物理の重要な概念を創造した論文は、たいていは隙がある論理展開をしていると指摘される^[51]^[50]。通常の学部レベルで想像される緻密な理論展開は、創造的理論を受けてその内容を精密化したり整理する過程で生じる^[50]。

このように科学においては論理性を重視する一方で、現実の対象を扱っていることによる若干の論理の飛躍を認めざるを得ない側面がある。一般に、現実の対象を扱う学問では多少飛躍を許してでも学問を進めたほうが、後になってみて分かることが多いと信じられている^[57]。反面、この意味では「科学的な方法によって得られた結論」であるというだけでは「科学的に正しいか否か」「現実的に正しいか否か」「現実的に役立つか否か」は必ずしも一致するとは限らない^[58]。問題は、「ギャップを認めつつも推論を進め、意味のある仮説を提唱し、それを広め、集団で検証する」という建設的な立場の重要性にある^[59]^[51]^[50]。

論理の飛躍としては、

法則の適用範囲を勝手に広げる
数学上の制約を無視
実態とは合わない近似
必要条件と十分条件の意図的な混同（チャールズ・パースの仮説形成法）
強引なモデル化
強引な仮定を認める

などがある^[51]^[50]。それぞれそういうものを認めざるを得ない相応の理由がある。

では、どこまでの飛躍やあいまいさを容認するのか。これは非常に難しい問題であり「真実への到達」を考えるならば安易に結論できない問題である。だが標語的に「仮説は失敗を恐れずに大胆に立てろ」といわれるように、一般に建設的な立場においては「真実に到達する」ためには「いろいろな“とるに足る”論」があったほうがよいと考えられている^[50]^[57]。

最終的には「どれだけ沢山の自然現象を説明できるか」が科学理論の良し悪しを決めるため、裁判における証拠の鑑定や、法律制定の基礎調査等のような「真実性」の重要性が圧倒的に高いケースを除き、この問題は、過度に深刻に考える必要性は乏しい。どこまでの論理の飛躍を認めるかについては「研究者のタイプ論」から説明されることもある。研究者のタイプはしばし（呼び方は別として）「先頭突撃型」と「地固め型」^[50]^[57]に分類され、前者の場合は文字どおり、多少乱雑かもしれない実験や推論をする反面、重要な発見をする。逆に地固め型は過去の研究の“粗”の部分を補正する。

この論理の飛躍に関しては、「論文として世に出す価値を認めるか否か」に話を限局すれば節度の問題となっていて、ピア・レビューの過程で、前例やその報告の面白さなどを踏まえながら決まっていくものである^[50]。ピア・レビューで出来ることは、せいぜいその程度のことであり過度な期待はいけない。この時点におけるレフェリーとの応酬に勝つためには当然、過去の論文を多く読みその論法を見ておく必要がある。また粗がある議論があって、それを部分的にでも修正することができるのならば（それを論理的に立証できる限り）それは論文を書くチャンスである。

実験のデザインと統計学的視点

科学的な実験においては、実験のデザインが重要である。実験のデザインというのは、ここでは、

どのような測定手段を用いて
どのように測定対象をグループ分けし、

それぞれのグループにおいて、

どのような設定/測定条件において（実験条件の振り方,キザみ方を含む）
どのような順番で
どのような数サンプル数だけ測定し、

得られた結果を

どのような手段で可視化/比較/統計的に解析するか

を指す。実際の論文において、IMRAD型の論文であれば「材料と方法」等といったタイトルの節があるが、「材料と方法」欄に「実験のデザイン」という項目が設けられていることがある。調査や研究が科学的であるためには、実験のデザインが妥当であること、実験のデザインが適切に（論文中に）開示されていることが重要である。

うち、「どのような測定手段」の部分については、測定原理や概念操作化それぞれの専門分野で考えられる分野個別的な問題であり、本記事のスコープから外れるため説明の対象外とする。但し、「同じ」ものを測る代替手段がいくつか存在する場合にはいくつかの測定手法を並行して用いることが望ましい等といった基本原則は存在する^{[注釈 10]}。

それ以外は、統計的な観点を濃厚に含む。意味のある統計手段を行使するためには、少なくとも以下が必要である ^[13],^[33],^[34],^[35],^[36],^[37],^[38]。

適切なグループ分けの設定
適切な方法で実験条件を振る/キザむこと（所謂「条件出し」の問題）
適切な統計手法/検定統計量/検定手法の採用
統計的な有意差を得るために必要な実験例数の設定
統計的な相関、差異の適切な解釈
実験データを適切な可視化手段にて可視化されること

本節では、まず、「実験デザインの例」を例示した上で、上記それぞれの観点について簡単に説明する。

実験デザインの例

論文においては本来このような実験条件の振り方キザみ方や、実験データの解析/処理の仕方を（専ら統計的な観点から）が読者にわかるように情報提供が行われなければならない。以下、「実験のデザイン」の典型的な例を挙げて例解する。

<<グループ間の差の検定の例>>

サンプル：「無作為に抽出された50代以上の男性100人を」
グループ分け：「酒を1日に500 mL以上飲む群と,それ以外にグループ分けし」
比較するデータ：「体重を比較し」
検定量：「2集団の平均値に差がないという帰無仮説を」
検定方法:「t検定によって検定した」

<<1因子実験の例>>

サンプル：文献1に記載のレシピ（タマゴ焼き）について、
制御因子：卵2個あたりの砂糖の量(g)を
条件の振り方(水準の設定)：10g　〜20g の間で2g刻みで振り
比較するデータ:100人の被験者に無作為に配布し、味をとてもまずい(1)〜とてもおいしい(5)の5段階で評価してもらい。
統計処理：それぞれの条件に対し被験者がつけた評点の平均値と、ばらつきを評価する。

また、評価の順序（プロトコールという意味ではない）が重要なケース、即ち、実験Aと実験Bのどちらを先に実施したかが実験結果に影響を与えかねない場合の例として

<<どちらの実験を先に行ったかによって実験結果が変わり得る場合の例>>

卵2個あたりの砂糖の量が「(a)卵2個あたり12g」と「(b)卵2個あたり18g」のどちらの場合がより美味しいかを、「食べ比べによって比較してもらう場合」

については、同じ人が評価するとして「(a)の卵焼きを先に食べた場合」と「(b)の卵焼きを先に食べた場合」で評価が変わる可能性が充分ある。このような場合、評価の順序に対する公平性を担保するために例えば、

100人の被験者をランダムにA,B,C,Dの4群に分け、

A群には(a)の卵焼きを先に食べてもらう
B群には(b)の卵焼きを先に食べてもらう
C群は2回とも(a)の卵焼きを食べてもらう
D群は2回とも(b)の卵焼きを食べてもらう

といったように評価の順番を無作為化することが必要となる。

さらに言えば、上記の実験でもC,Dはコントロール（対照群）が置かれているが、「どのような対照群を置くのか」という問題も検討する必要がある。

適切なグループ分けの設定

科学的な実験においては、被験者や、測定サンプルを適切なグループにグループ分けし、グループ内での差とグループ間での差異を検討する必要がある。 ^[13],^[33],^[34],^[35],^[36],^[37],^[38]。大ざっぱにいえば、グループ内での差（バラつき）がグループ間の差に対し充分大きければ有意な差ということであり、そうでなければ有意な差ではないということになる。このような実験の例としては、対照実験やコホート研究がある。

対照実験

グループ分けの最も簡単な例は「対照実験」といわれ実験手法であろう。「対照実験」とは、二つの状況を設定して、一つだけ条件を変え、他の条件は同じにしておくように設定された実験のことである^[13]。条件を変えてない方を「実験群」といい、変えた方を「対照群」と言う^[13]。即ち、対照実験とは、

集団/サンプル：均質な被験者の集団（例えば「風邪を引いた人達」）や均質な測定サンプルの集団を、
因子：一つの因子について（例えば「風邪薬を投与」）に関して"のみ"、
グループ分け（属性A）：因子有の群(実験群,本例では「風邪薬を投与した群」）と、因子無しの群（対象群,本例では「風邪薬を投与しなかった群」）に分けて
比較（属性B）：効果を比較する

ような1因子実験のことである。このような実験デザインによって、「特定の一つの観点や因子の“有無”が、効果の有無につながるか否か」が鑑別出来る。対照実験の結果の解釈について、科学哲学者の戸田山和久は、「四分割表」（統計学でいうところの2×2分割表^[33]の1種）という表を用いて解釈するとわかりやすいと述べている。四分割表とは、以下の表のように、縦の見出し列を「因子の有無」（原因）、横の見出し行を「効果の有無」（結果）にわけてデータを整理するための表である。このように区分することで、表は、以下の

（イ）因子有、効果有
（ロ）因子有、効果無
（ハ）因子無、効果有
（ニ）因子無、効果無

の4つのセグメントに分かれる。被験者の集団や測定サンプルの集団のうちそれぞれのセグメントに何人（何サンプル）が入るのかから、その因子の程度がある程度わかる。（実際にはきちんとした検定が必要であるが、検定をする上でもこのような考え方を知っておくと説明がしやすい。）尚、「独立性の検定」という観点からは、科学哲学者の戸田山和久は「四分割表」を「対照実験」の観点に限って説明しているが、統計学における2×2分割表は、属性A（本例では、因子の有無）、属性B（本例では効果の有無）がそれぞれ2つの階級(水準)(A1,A2,B1,B2)を持つというような問題において、属性Aと属性Bの独立性を検定するというより一般の問題を取り扱うことが出来る（属性Aが原因で、属性Bが結果である必要は必ずしもない）^[33]。さらに、属性A,Bの階級がそれぞれm,nの場合にも問題（m×n分割表の問題）は拡張可能で、この問題も「独立性の検定」の話である^[33]。

表：四分割表

	効果有	効果無
因子有	（イ）	（ロ）
因子無	（ハ）	（ニ）

例えば以下の問題を検討してみよう。

1000人の風邪の人がある薬を飲み、XX人が回復したとしよう。これに対して薬は風邪に効くと結論付けてよいか？

より正確な設定は以下のとおりである。

サンプル：「風邪を引いた人2,000人を」
グループ分け：「ある風邪薬を投与した群1,000人」と「そうでない群1,000人」とに分け
効果の測定：「2日以内に治ったか否かを評価する」

結果の例を以下の表に4例上げてみる。尚以下の（イ）〜（ニ）は四分割表のそれぞれのセグメントである。

	（イ）	（ロ）	（ハ）	（ニ）	合計
例1	999	1	1	999	2000
例2	999	1	999	1	2000
例3	800	200	600	400	2000
例4	990	10	999	5	2000

例1は、自然治癒した例（ニ）は1,000件中1例しかなく、薬を投与しても治らなかった例は1,000件中1例しかない。圧倒的に効果有りと推定されよう。

但し「効果の測定」が「2日以内に治ったか否かを評価する」という手法だが、薬を飲んだ群のほとんどがぎりぎり2日以内に治っていて、そうでない群がぎりぎり2日以降に治っていた等という可能性もあり得る。閾値の設定の問題が恣意的でないということは前提にある。

例2は、薬を飲んでも飲まなくても結果が同じであり、「薬を飲んだ人はほとんどみんな治っている」けれども、「薬の効果は無い」と推定されよう。

例1同様に閾値や効果測定の設定の問題はある。今回は「治るまでの期間はかわらないが、だいぶ楽に過ごせた」といった効果を効果とは見なしていないが、効果測定の観点をどうするかによって、結論が変わる可能性��ある。また、今回の例では薬の量は投与するか否かの2択しかないが、量が妥当だったかという問題もある（⇒一因子実験）。

例3については、実験群の中での治癒率（（イ）/(イ＋ロ））＝80%　は、対照の中での治癒率（（ハ）/(ハ＋ニ））＝60%に対して大きい。この差が“優位ではないか”と思われるほど大きい。正確な検定が必要である。
例4では、実験群の中での治癒率（（イ）/(イ＋ロ））と、対照の中での治癒率（（ハ）/(ハ＋ニ））の差がたいしてかわらない。従って効果がないと思われる。

但し、上記の閾値や効果測定法の問題に加え、「特定の機序の関与」がある場合も考えられる。これについては、イレッサの例で見てみよう。

総じて、対照実験というのは例2のような愚を犯さない上では有効だけれども、「介入の有無」、「効果の有無」を二値化していることにより

介入の強さ（薬の投与量）は妥当だったのか？（主に効果が見られなかった場合）
効果判定の閾値設定が恣意的でなかったのか？（効果があった場合もなかった場合も）

という問題がある。そこで、（一つの因子に対する）介入の強さと効果判定のそれぞれを多段階にした一因子実験という考え方が出てくる^[13]。一因子実験においても、実験条件（介入の強さ,横軸）と効果判定（効果の強さ,縦軸）に取り、適切に象限を分けると、四分割表の考え方である程度理解可能である^[13]。

一方で、作用機序の問題は残っている。作用機序の問題とは、例えば以下のような事例が存在する^[60]。

このうち、海外で行われた1つの試験（INTEREST試験）では、イレッサによって、従来型抗がん剤と同程度の延命効果が得られることが証明されていますが、ほぼ同じデザインで行われた国内の試験（V15-32試験）では、延命効果を明確に証明することはできませんでした。また、海外で行われたもう1つの試験（ISEL試験）では、プラセボよりも延命効果がありそうだったのですが、明確な証明には至りませんでした。(^[60]より引用)

この事例は臨床薬の治験の事例であるため、上記の例4に比べ、はるかに高度で精密な条件設定がなされているわけだが、簡単に考えれば上記の例4と似たような事例である。イレッサのような分子標的薬は、「特定の機序でがんになった人にはよく利くが、そうでない人には殆ど効果がない」という性質がある。例4の場合でも、「（イ）に相当する10人の一部は、この薬のおかげで治ったかもしれない」という可能性が残る。こういった場合には、「薬が効いた群とそうでない群」に何らかの違いがないかを検討することが望まれる。

適切な方法で実験条件を振る/キザむこと（条件の振り方と条件出し）

科学的な実験においては、適切な方法で「実験条件を振る」こと「条件出し」をすることが必要となる^[37]^[61]^[13]。このような行為は、特に技術者や工学者の間では「条件を振る」、「条件を出す」という用語で表現される。これらの用語は、慣用的な使われ方をされることが多く、意味範囲が広い場合も狭い場合あるため、本記事では以下意味で用いることにする。

条件を振る：複数の条件で実験してみること/試作してみることによって、目的にかなった実験/作成条件を探索すること。
条件出し（条件を出す）：複数の条件で実験してみること/試作してみることによって、目的にかなった実験/作成条件を見出すこと。

例えば、「大砲の射出角度を0度から90度まで1度刻みでキザみ、最も砲弾の飛行距離が長い条件を見出だす」、「培地の組成成分として様々なものをためし、細胞が最もよく育つ組成を見つける」、「乳牛の品種として、ホルスタイン、ジャージのどちらが沢山牛乳を出すかを調べる」といった実験は「条件出し」の一例である。

「条件出し」には、「実験条件」（因子）と「評価観点」が少なくとも定められていなければならない。

実験条件（因子）:上の例においても「大砲の射出角度」、「細培地の組成成分」、「乳牛の品種」がこれに相当する。実験条件の探索の仕方としては、単因子実験（「大砲の射出角度」のように1つの因子の影響だけを検討する）であっても、多因子実験（培地成分のうち、グルコース、リジン、ビタミンCの濃度を振るといったように、複数の因子の影響を検討する）であってもよく、必ずしも（実験計画法等の）理論に裏付けられた手法に基づけられた探索手法であるとは限らない。また、因子としては、「XXの濃度」、「射出角度」のように数字で定量化可能な「パラメータ」であることもあれば、「材料名」、「品種」、「タイムコース」のように数字で定量化出来ない「種類」であることもある。

評価観点:上の例においては、「砲弾の飛行距離」、「細胞が最もよく育つ」がこれに相当する。評価観点は「目標値」や「評価関数」を設定する形で定量化される。評価値、即ち実験データが基準値の中に入って入ればよいとする立場もあれば、評価値をプロットした特性曲線の形が望ましい形状であることと立場もあれば、評価値を変数とする評価関数が最大、最小、目標値に最も近いといったことを以て目標に合致していることを評価することもある。場合によっては経験的な識見に基づいて「不具合などの有無」を総合的に判定する場合もある。評価基準の設定や、評価基準の定量化は、実験全体の目的（上位の目的）や、設計仕様に依存する。

基本的なレベルにおいては、条件の振り方は以下のような考え方がなされる^[61]

複数のパラメータを同時に動かすな(安易に「多因子実験」をするな)
最適値や目標値に近いと思われる条件では細かく条件を振れ

このような考え方の根底には、「条件出し」は、「評価値（実験データ）を、実験条件に基づいて比較する」という基本的な考え方がある。因子や評価基準を複雑に考えると、「何と何を、何に基づいて比較しているのか」がわかりにくくなる。

しかし、現実には複数のパラメータが因子となり得て、さらにはパラメータ間の交互作用が考えられる。検討するパラメータの数が多くなれば多くなるほど、パラメータの刻み方が多くなれば多くなるほど「組み合わせ爆発」ともいえる様な現象が起こり、評価すべき「実験条件の組み合わせ」が膨大となる。このような問題に対して、タグチメソッド等の手法が存在する。

また、現実の問題では「良し悪し」は複数種類のデータに基づいて総合的に判断せねば評価できないことも多い。例えば「家を買う」という（条件出しというにはあまりに日常的な）ですら、問題に対しても評価観点として、「駅から近く、閑静で、値段も安く、…」というように多数のの観点が存在する。これらの評価観点には、当然トレードオフが存在する（駅からの距離と値段とは両立しないというように）ため、それぞれの評価観点に適切な重みづけをする等をしたり、より複雑な場合には何らかの評価関数を設定する等が行われる。

条件を振る際には、「実験条件のキザみ方」も問題になる。「実験条件のキザミ方」というのは、「どの条件を細かく振るか」といった事柄を指し示す概念で、初等的な理解としては、

実験結果に支配的な影響を及ぼすパラメータは広いレンジで条件を振る。
最適条件に近いと思われる条件の付近では細かく条件を振る。
広いレンジで傾向を見る(粗探索）ときは試行回数は少なくてもよいが、最適条件に近いと思われる条件については充分な試行回数で実験する（Nを稼ぐ）のが望ましい。

といったことがよく言われる。このようにすることで、より良い条件が見つかったり、最適条件のロバスト性が評価出来たり、少ない回数で信頼性に高い結果がえられたりといったメリットがある。

先述の「大砲の射出角度」では、例えば「まず5度間隔で粗く条件を振り、飛行距離が長かった条件の付近だけ1度キザミで条件を振る」といったことをすることですべてのレンジで平等に1度キザミで条件を振るよりも効率よく条件出しができよう^{[注釈 11]}。

適切な統計手法/検定量統計/検定手法の採用

科学的な考察を加えるためには、適切な統計手法/検定統計量/検定手法の採用が必要である ^[33],^[34],^[35],^[36],^[38]。

検定とは

「検定」という言葉は（統計用語に限ったとしても）以下の異なる意味の間で使われており、人によって用語の使い方がまちまちのものもある。従って本記事の中での用語を以下のように統一する。単に「検定」といった場合には、以下のどの意味で言っているかがあまり重要でない場合を意味するものとする。

仮説検定：帰無仮説がどの程度正しくないかを判定する作業(多くの場合p値を算出する作業)作業そのもの。
検定の目的：「母集団の検定」,「母分散の検定」,「平均値の差の検定」,「等分散の検定」,「比率の検定」,「適合度の検定」,「独立性の検定」
検定手段：二項検定,z検定,t検定,F検定,カイ二乗検定（ピアソン検定）,U検定(マンホイットニー検定),符号検定 [27],Wilcoxon検定 [28],フィッシャーの直接確率検定,中央値検定等のように検定の手法の名称
検定統計量そのもの：標本データから一定のアルゴリズムに従って算出される量を一般に統計量という。集団としてある確率分布を仮定（仮説）しておけば、それから統計量に相当する確率変数が、検定に用いられるような確率分布（例えばカイ二乗分布）に従うことになる。このような統計量のことを「検定統計量」と呼ぶことにする。(通常p値を含む場合が多いが、p値は検定統計量に含まないとする）

仮説検定の手順

仮説検定は、多くの場合、概ね以下の手順で実施される^[33]p113。

ステップ1:帰無仮説(H₀),対立仮説(H₁),有意水準(α)
ステップ2:標本から検定統計量を算出する。
ステップ3:上記の検定統計量に対し適切な統計手法を行使し、棄却域に入っているかを判定する。
ステップ4:上記“ステップ3”の結果が棄却域に張っている場合には、H₀を棄却し、H₁を採択する。

多くの場合では、ステップ3ではp値といわれる値を算出する。 p値とは、大ざっぱにいえば0から1までの間に値をとる数であり、帰無仮説が正しい確率（従って「対立仮説が誤っている確率」）を表す指標のことである。 p値が0の場合帰無仮説は“絶対に誤り”であり、p値が1の場合には帰無仮説は “絶対に正しい”ので、p値が小さければ小さいほど対立仮説の正しさが増すことになる(実際にp値が0や1になることはほぼ起こらない)。 p値は、検定統計量と検定手法が決まれば一意に定まるが、これが異なると値が異なることもある（方法によって値が異なる）。

検定手段の種類

z検定,t検定,F検定カイ二乗検定（ピアソン検定）,U検定(マンホイットニー検定),符号検定 [29],Wilcoxon検定 [30],フィッシャーの直接確率検定,中央値検定等のように、様々な検定手法が存在する。

例えば、z検定,t検定,F検定,カイ二乗検定のように、検定統計量がある特定の分布に従う^{[注釈 12]}ことを前提とした検定手段では、両側検定とするのか、片側検定とするのかの分類が存在しえる。他にも、検定手段は様々な観点から分類される。

片側/両側の区別：「片側検定」、「両側検定」等
パラメトリックであるか否か：検定対象としているサンプル群が正規分布であると仮定している方法が「パラメトリック」,その前提を置かないものが「ノンパラメトリック」検定である。
比較する群の数：3群以上の群(例.A型,B型,O型,AB型)を比較する「多群検定 [31]と、「それ以外」
多重比較をするか否か:「多重比較検定」と、「それ以外」

以下の表に、よく使われる検定手段の例を例示し、適用可能となる前提条件と、検出力,ロバストネスの高低を示す^[34]p99。

表.よく使われる検定手法の例^[34]

#	検定手法の名称	前提条件	検出力・ロバストネス
1	フィッシャーの正確確率検定,二項検定	なし	高
2	t検定,F検定	データの母集団は正規分布	高
3	マン・ホイットニーのU検定(ウイルコクソンの順位和検定)	統計量Uが正規分布に従う必要がある。	中
4	ウイルコクソンの符号順位検定	統計検定量が正規分布に従う必要がある。	中
5	カイ二乗検定,中央値検定	統計検定量がカイ二乗分布に従う必要がある。	低

仮説検定の例

以下の表に仮説検定の典型例を、検定の目的に応じて例示する^[33](pp113-127)。それぞれの場合によく用いられる検定統計量や、前提条件、検定手段等についても、併せて例示する^[33](pp113-127)。

表.検定の典型例^[33]

#	検定の目的	前提^*1	帰無仮説(H₀)	検定手法
1	母平均の検定（標本平均と母平均との間に差があるか否かの検定）	母集団の分布がN(μ,σ²)である。	母平均μに対し「H₀：μ=μ₀」	母分散が既知の場合⇒z検定母分散が未知の場合⇒t検定
2	母分散の検定（標本分散と母分散との間に差があるか否かの検定）	母集団の分布がN(μ,σ²)である。	母分散σ²に対し「H₀：σ=σ₀」	母平均が既知の場合⇒カイ二乗検定母平均が未知の場合⇒カイ二乗検定
3	平均値の差の検定（2つの群の平均値が等しいか否かの検定）	A群,B群は互いにディスジョイントであり、A群の母集団の分布がN₁(μ₁,σ²₁)であり、 B群の母集団の分布が、N₂(μ₂,σ²₂)である。	N₁,N₂に対し「H₀：μ₁=μ₂」	A,B両群の母分散が既知の場合⇒z検定 A,B両群の母分散が未知ではあるが、等しい(σ²₁=σ²₂)⇒⇒t検定 A,B両群の母分散が未知ではあり、等しくない場合(σ²₁≠σ²₂)⇒⇒t検定
4	等分散の検定(2つの群の分散が等しいか否かの検定)	A群,B群はディスジョイントであり、A群の母集団の分布がN₁(μ₁,σ²₁)に従い、B群の母集団の分布が、N₂(μ₂,σ²₂)に従う。	母集団N₁,N₂に対し「H₀：σ₁=σ₂」	片側F検定
5	比率の検定[32][33]	Bi(n,per₀)に従う	母集団内のあるグループの比率（per,母比率）と特定のサブグループ内のある特定のグループの比率について「H₀：per=per₀」	z検定
6	適合度の検定[34]	理論分布が既知	排反なk個の階級C1,C2,...,Ckに分けられる現象を観察したとき、それぞれの階級の度数が X1,X2,...,Xkであったとする。このとき「H₀：上記の度数分布は、理論分布に従っている」	カイ二乗検定

母平均の検定

◆例1-1:母分散が既知の場合

ある病気の患者16人の血清中のカルシウム濃度の平均値(μ)は、7.4 mg/dlであった。健常者の血清中のカルシウム濃度は平均9.8 mg/dl(μ₀) 標準偏差は0.5 mg/dlである。この時、H₁：「この病気に感染すると血清中のカルシウム濃度は低下する」と言えるか？

両側z検定において、有意水準pで帰無仮説を棄却することを考えた場合、p=0.05,p=0.01の場合の帰無仮説の採択範囲は以下のようになる。

α=0.05のとき、「=NORMSINV(0.05/2)」の計算値(Excel)は、「-1.959963985」であるため、標準正規分布の対称性より-1.96≦Z≦1.96となり、

α=0.01のとき、「=NORMSINV(-0.05/2)」の計算値(Excel)は、「0.005」であるため、標準正規分布の対称性より-0.005≦Z≦0.005

標本平均 $\mu =7.4$ に対し、検定統計量として標準化変数（Z）を以下のように定義する。

Z={\frac {\mu -{\mu }_{0}}{\frac {\sigma }{\sqrt {n}}}}

前提よりZは（確率変数 $\mu$ について）標準正規分布N(0,1)に従う。実際に本例で標準化変数の値を計算すると以下の値を得る。

Z=-19.2

従って、p=0.05の場合でも,p=0.01の場合でも、この場合の標準化変数（Z）の値は、帰無仮説の採択範囲の採択範囲の外にあるため、帰無仮説はp=0.05でも、p=0.01でも棄却される。したがって、p=0.05でも、p=0.01でも「この病気に感染すると血清中のカルシウム濃度は低下する」と言える。

参考までに、(両側)Z検定においては,p値は、標準正規分布の累積分布関数(NORM.S.DIST)を用いて、この場合(Z=19.2の場合)は、

=2*(1-NORM.S.DIST(ABS(19.2),TRUE))

にて計算されるが、Excelにおいては、19.2は標準正規分布の標準偏差に対し離れすぎているため、桁落ちにて0と算出されてしまう。

◆例1-2:母分散が未知の場合

W社に勤務する社員30名の血圧の平均値は145 mmHgで、不偏分散(U²)は900となった。血圧の全国平均は140 mmHgである。この時H₁:「W社の社員の血圧は、全国平均に対し高い」と言えるか？

自由度29の両側t検定において、検定において、有意水準pで帰無仮説を棄却することを考えた場合、p=0.05,p=0.01の場合の帰無仮説の採択範囲は以下のようになる。

p=0.05のとき、「=TINV(0.05,29)」の計算値(Excel)は、「2.045229642」でありt分布の対称性より、-2.05≦T≦2.05

p=0.01のとき、「=TINV(0.01,29)」の計算値(Excel)は、「2.756385904」でありt分布の対称性より、-2.76≦T≦2.76

題意より、標本数n=30,標本平均 $\mu =145$ mmHg であり、不偏分散は、

$U_{n}^{2}={\frac {1}{n-1}}\sum _{i=1}^{n}(X_{i}-{\overline {X}}_{n})^{2}=900$

である。検定統計量として以下のスチューデント比(T)を次のように定義すると、

$T={\frac {\mu -\mu _{0}}{U_{n}/{\sqrt {n}}}}$

前提より、Tは、自由度n-1のt分布に従う。実際に本例でスチューデント比(T)の値を計算すると、

T=0.912870929

である。

従って、p=0.05の場合でも、p=0.01の場合でも、上記のスチューデント比(T)の値はこの場合、帰無仮説の採択範囲の採択範囲の内にあるため、帰無仮説はp=0.05でも、p=0.01でも棄却されない。従って、p=0.01でもp=0.05でも、「W社の社員の血圧は、全国平均に対し高い」とは言えない。

母分散の検定

◆例2-1:母平均が既知の場合

S社は団子を作るアルバイトを多数雇っている。S社のアルバイトの作る団子の重さの平均値(μ₀)は74.1g,分散（σ₀）は1.2 g²であった。新しいバイトMさんに試しに5個、団子を作ってもらったところ1個目74.1 g,2個目74.2g, 3個目74.1 g,4個目73.9 g,5個目73.9 gであった。このとき、H₁「Mさんが作る団子はS社のアルバイトの中でばらつきが少ない」言えるか?

自由度5の上側カイ二乗検定において、有意水準pで帰無仮説を棄却することを考えた場合、p=0.05,p=0.01の場合の帰無仮説の採択範囲は以下のようになる。

p=0.05のとき、「=CHIINV((1-0.05),5)」の計算値(Excel)は「1.145476226」なので1.15≦χ²が帰無仮説の採択範囲。
p=0.01のとき、「=CHIINV((1-0.01),5)」の計算値(Excel)は「0.554298077」なので0.55≦χ²が帰無仮説の採択範囲。

題意の状況下において、検定統計量としてカイ二乗値を考えると、

\chi ^{2}={\sum }_{i=1}^{n}{({X}_{i}-\mu _{0})^{2} \over {\sigma _{0}}^{2}}

これは、自由度5のカイ二乗分布に従う(n=5なので)。カイ二乗値を実際に計算すると、

\chi ^{2}=0.075

である。

従って、（Mさんが作った団子の重さの分散は0.0144 g²なので、一見ものすごくバラつきが少なくなったと見えるが、） p=0.05では「バラつきが少なくなった」といえるが、p=0.01では「バラつきが少なくなった」とは言えない。

◆例2-2:母平均が未知の場合 S社は団子を作るアルバイトを多数雇っている。S社のアルバイトの作る団子の重さの平均値(μ₀)は不明,分散（σ₀）は1.2 g²であった。新しいバイトMさんに試しに5個、団子を作ってもらったところ1個目74.1 g,2個目74.2g, 3個目74.1 g,4個目73.9 g,5個目73.9 gであった。このとき、H1「Mさんが作る団子はS社のアルバイトの中でばらつきに変化が出た」と言えるか?

自由度4の両側tカイ二乗検定において、有意水準pで帰無仮説を棄却することを考えた場合、p=0.05,p=0.01の場合の帰無仮説の採択範囲は以下のようになる。

α=0.05のとき、「=CHIINV(0.05/2,4)」の計算値(Excel)は「11.14328678」であり、「=CHIINV((1-0.05/2),4)」の計算値(Excel)は「0.484418557」であるため、帰無仮説の採択範囲は、0.484418557≦χ²≦11.14328678
α=0.01のとき、「=CHIINV(0.01/2,4)」の計算値(Excel)は「14.860259」であり、「=CHIINV((1-0.01/2),4)」の計算値(Excel)は「0.206989093」であるため、帰無仮説の採択範囲は、0.206989093≦χ²≦14.860259

新しいバイトMさんが作った5個の団子の重さの平均値(μ)は、

μ=74.04 g

題意の状況下において、検定統計量としてカイ二乗値を考えると、

\chi ^{2}={\sum }_{i=1}^{5}{({X}_{i}-\mu )^{2} \over {{\sigma }_{0}}^{2}}

これは、自由度4のカイ二乗分布に従う(n=5なので)。カイ二乗値を実際に計算すると、

χ²=0.06

従って、p=0.05でも、p=0.01でも「バラつきに変化があった」と言える。

平均値の差の検定（2つの群の平均値が等しいか否かの検定）

A,B両群の母分散が既知の場合⇒z検定
A,B両群の母分散が既知の場合:W大学のS学部で、社会科学概論の試験(満点100点)を実施した。一般入試で入学した学生20名を無作為に抽出したところ平均点74点であった。AO入試で入学した学生17名を無作為に抽出したところ平均点65点3.8であった。それぞれの母集団の標準偏差は、一般入試組が12点,AO入試組は13点である。このときH₁：「一般入試で合格した学生とAO入試で合格した学生に得点差がある」と言えるか?

A,B両群の母分散が未知ではあるが等しい場合⇒t検定
A,B両群の母分散が未知ではあるが等しい場合:W大学のS学部で、社会科学概論の試験(満点100点)を実施した。一般入試で入学した学生20名を無作為に抽出したところ平均点74点,不遍分散3.4であった。AO入試で入学した学生17名を無作為に抽出したところ平均点65点,不遍分散3.8であった。一般入試で入学した学生においても、AO入試で入学した学生においても試験の点数の分散に差異がないとする。このときH₁：「一般入試で合格した学生とAO入試で合格した学生に得点差がある」と言えるか?

A,B両群の母分散が未知ではあり等しくない場合⇒t検定
A,B両群の母分散が未知であり等しいくない場合:YさんはTOEICを5回,TさんはTOEICを4回受験した��Yさんのスコアは480点,510点,500点,450点,430点、Tさんのスコアは890点,880点,960点,990点であった。このときH₁：「YさんとTさんのスコアに差がある」と言えるか?

等分散の検定(2つの群の分散が等しいか否かの検定)

片側F検定ある科目の試験結果上位8人のスコアはそれぞれ98,95,95,91,88,87,87,82点下位5人のスコアは51,48,42,40,33点。このとき、「H₁:上位8人の分散と下位5名の分散に差異がある」と言えるか？

比率の検定

[35][36] |z検定

|ラブライブ!の4thライブの観客のうち75%はミルキイホームズのファンでもある。ラブライブの4thライブの観客（母集団）のうち、1stシングル「僕らのLIVE 君とのLIFE」を発売週に買った人は103人（サブグループ）である。この103人のうち93人はミルキイホームズのファンでもある。「H1:サブグループ内のミルキイホームズのファンの割合(per₀)は、母集団におけるミルキイホームズのファンの割合よりも高い」と言えるか？

適合度の検定¬¬

[37] カイ二乗検定

YさんはTOEICを4回受験した。Yさんのスコアは480点,510点,500点,450点であった。Yさんのスコアは正規分布に従っているといえるか？

遊園地である甘城ブリリアントパークの平日の開園時間は10時から17時までであり、平日の1日あたりの平均来場者数は210人であった。

開園から閉演までの各10分ごとの実際の来客数を調査したとき次のようになった。 0人=1回,1人=1回,2人=4回,3人=6回,4人=8回,5人=7回,6人=6回,7人=5回,8人=3回,9人=1回このとき、「H1:甘城ブリリアントパークの平日の来場者数はポアッソン分布 [38][39]に従う」と言えるか？

統計的な有意差を得るために必要な実験例数の設定

科学的な考察を加えるためには、統計的な有意差を得るために必要な実験例数の設定 ^[13],^[33],^[34],^[35],^[36],^[37],^[38]。

統計的な相関、差異の適切な解釈

科学的な考察を加えるためには、統計的な相関、差異の適切な解釈が必要となる ^[13],^[33],^[34],^[35],^[36],^[37],^[38]。

実験データを適切な可視化手段にて可視化されること

科学的な考察を加えるためには、実験データを適切な可視化手段にて可視化されることが必要となる ^[13],^[33],^[34],^[35],^[36],^[37],^[38]。

モデル化とあわせこみ

（数理モデル,モデル (自然科学)も参照）
特に現代の科学においては、「真理とは何か」といった哲学的で捉えどころのない問題に比べ「どのようなモデル、式、計算コードが最も現実をよく反映するのか」という問題が圧倒的に重要な意味をもつ^[62]。

このように、「現実の対象がどのように振る舞うか」に着眼する現代の科学では、結論の提示は、現実の物理現象・社会現象などを定性的/定量的に説明する具体的なモデル^[12]の提示という形で行われることが多い^[2]^[5]^[63]。モデルの良し悪しは、明確であることが求められると同時に、扱いやすさ、どれだけ多くの現実を説明できるかにかかっている。

モデル化とは、「牛を球と仮定する」^[64]^[65]という標語が教えるように、起こっている現象から本質と無関係と思われる部分をそぎ落としたものを作り、そこになんらかの法則をあてはめ、現象を再構築することである^[64]（詳細は数理モデル,モデル (自然科学)等を参照のこと。)

モデルの提示方法には、例えば以下のようなものがある

1つのモデルを挙げ、そのモデルが実験をよく説明していることを示す。
いくつかの対等なモデルをいくつか挙げ、それをいくつかの論点から比較し最もよく実験を説明しているものを選ぶ。
複数の論点を挙げ、それぞれの論点についてモデルを1つ / 複数挙げ、妥当性を示す / 妥当なものを選択する。

モデルの構築方法の典型的な一例を以下に示す。

直観的に考え、もっともらしい「仮のモデル」を、議論の叩き台にするために提案する。
現実と合致するようにモデル、式、計算コードを調整する（調整されてで��たモデルあるいはモデルの調整法をとりあえずのメカニズムと考える）。
そのモデルが、（少なくとも考えた中では）最もよく物事を説明していることを、統計学的な見地から評価する。
モデルを調整するのに用いた実験パラメータの物理学的な意味を次元解析等を参考に解釈する。特に萌芽的な研究においては、「ある程度幅をもった実験結果でも取り込めるような体系を作り、実験でパラメータを抜き出し、外挿によって近縁の系に対して予測を立てる」という手法がよく採られる。

特に萌芽的な研究においては、「ある程度幅をもった実験結果でも取り込めるような体系を作り、実験でパラメータ^{[要曖昧さ回避]}を抜き出し、外挿によって近縁の系に対して予測を立てる（所謂「合わせこみ）」という手法がよくとられる。

このような「合わせこみ」をベースとした現象論的・現代的なモデル形成手法は、特に「物ができること」を重視する応用系の分野において顕著な成果を挙げており、現在のデータからより優れた物を作る指針として活用されている。素粒子論などの基礎的な分野においても、このような手法の活用に苦言を呈する者はいるが、少なくとも論文を書く上ではよく用いられている指針である。総じて言えば、基礎研究・応用研究の両方において強力な手法である。

特に基礎分野の研究に対する、現代的なモデル化手法の積極的な導入に対する苦言の根拠としては、現代的なモデル化は、モデルを調整するための変数があまりにも増えてしまうと、そもそも計算が困難になり、直観による見通しが利かなくなるという弱点があることがよく言われる^[49]。特に、素粒子理論などでは、現実を説明するためにどんどん新しい素粒子が仮定され、話がどんどん複雑になっていくということが問題視されている^[49]。単に「話がどんどん複雑になっていく」というだけでは「悪い」とは言えないが、一般に結論はシンプルであるほうがよいと考えられている^[49]。無論、明確な指導原理が得られないままパラメータが泥縄的に増えていく状況が生じた場合には、オッカムの剃刀という理念を再度思い起こす必要がある。

実行するための素養

科学的な方法を実行する上では、調べるべき対象への知識、それ以前の基礎的な知識などが要求されるが、このような知識面以外に、「対象に影響を与えるドミナントな支配法則をまず考慮して概略の傾向を数値的に掴むこと」「実験ノートをきちんとつけられること」、「一定の計算力、論理的な思考力」などの知識面とは異なる素養、具体的にはスキルや評価項目が��在すると考えられている^[8]^[66]。

研究者レベルの人間に必要な素養全てを書きだすことは難しいが、教育レベルでは、ある程度明確化されてきている。一般に、教育レベルでは、以下の素養を身に付けることが必要であると考えられている^[8]。科学的方法を実行するための素養のうち、推論能力に関する評価手法としては、例えば、科学的推論能力テスト(Science Reasoning Test, SR-Test)^[66]がある。

科学での考え方と証拠に対する理解

いかに科学的な考え方が発表され評価され広まっていくか（例えば、出版物や他の科学者のレビューによって）。
経験的な証拠を異なって解釈することからいかに科学的な論争が巻き起こるか（例えば、ダーウィンの進化論）。
科学的な仕事が、それがなされる状況から影響を受ける様（例えば、社会的、歴史的、倫理的、精神的）と、そうした状況が考え方を受け入れるかいなかにいかに影響を与えるか。
産業的、社会的、及び環境的な問題に取り組む際の科学の力と限界について考察すること。それは、科学が答えられることと答えられないこと、科学的な知識の不確かさ及び関連する審美的な諸問題も含む。

調査能力

「計画すること」

科学的な知識と理解を用いて様々な考えを調査できる形式に変換し、適切な方略を計画すること。
直接経験に基づく証拠を用いるか、二次的な情報源からの証拠を用いるかを決定すること。
適切な場面で予備的な作業を行って予測を立てること。
証拠を収集する際、考慮すべき主要な要因について検討し、また容易に変数がコントロールできないような状況（例えば、野外作業や調査など）いかに証拠を収集できるかを検討すること。
収集しようとするデータの範囲と程度（例えば、生物調査の際の適切な標本の量）、技法、装置、及び用いる材料を決定すること。「証拠を得ることと提示すること」
幅広い装置や材料を用いてかつ、自身や他人の安全を確保する作業環境を保つこと。
データ収集に当たってICT（情報通信技術）を使用することを含んだ観察や測定を行うこと。
誤差を低減したり信頼性の高い証拠を得たりするために十分な観察や測定を行うこと。
観察や測定における不確かさの程度を判断すること（例えば分散を用いて測定値の平均値の正確さの程度を判断すること）。
ダイアグラムや表、チャート、グラフ及びICTを用いて量的データや質的データを表現したり他人に伝えたりすること「証拠を考察すること」
ダイアグラムや表、チャート、グラフを用いて、データにおけるパターンや関連性を見つけたり説明したりすること。
計算の結果を適切な程度の正確さで表現すること。
観察や測定その他のデータを用いて結論を導くこと。
こうした結論がどの範囲において予測を支持するか、及びさらなる予測を可能とするかについて説明すること。
科学的な知識と理解を用いて観察や測定その他のデータ及び結論を説明したり解釈したりすること。

「評価すること」

不規則なデータについてそれらを却下もしくは採用するための理由について検討するとともに、測定と観察にともなう不確かさに関して、データの信頼性を検討すること。

収集した証拠がいかなる結論やなされる解釈を十分に支持するかどうかについて検討すること。
用いた方法に対する改善点を示唆すること。
さらなる調査について示唆すること。

研究者レベルの素養

研究者レベルの素養に関しては、天才性や独創性、あるいは奇人変人であることなどの、さまざまなステレオタイプの議論があるが、実際のところは、このような議論は、余り正しくない^[67]^[52]。研究者レベルの素養に関しては、一概に言えないが、いくつかよく言われること^[59]^[52]^[67]^[68]^[69]を列挙する。下記のことができるために必要な素養は、概ね、上記の素養と一致すると考えてよい。

自分で研究テーマを定めることができるか？^[59]^[68]
研究テーマを検証可能な問題にブレークダウン出来るか？^[59]^[68]^[69]
自分で実験手順を定めることができるか？^[59]^[68]
自分の実験結果に自信が持てるか？^[52]^[67]

上記1-2は、研究戦略のレベルである。3は、戦術のレベルである。一般に、研究には、研究テーマ全体を貫く一つあるいは複数の疑問、即ち、「リサーチクエスチョン」が存在する^[59]^[68]。

リサーチクエスチョンをどのように見つけ出すかは、一概にはいえず、個々の研究に依存する。殆どすべての素人の素朴な疑問、例えば「どうすれば頭が良くなるか」、「どうすれば長生きできるか」、「木星に旅行するにはどうすればよいのか」、「鉄を金に変えるには」などといった疑問は、ほとんどすべて、壮大な研究テーマとなり得る。しかし、大半が、現代の人類の英知全てを結集しても、手がかりすら簡単には掴めない夢物語でもある。こういった夢は、確かにモチベーションの維持という観点では需要である。しかし、現実的かつ健全に科学的課題に取り組む上では、このようなテーマそのものを正面から扱うのは、「世界征服をしたい」、「宇宙の帝王になりたい」というのと同じぐらい、不毛である^[59]。何故ならば、少なくとも、検証可能な問題にブレークダウンして、実験手順を定めることが出来なければ、実験すら行えず、したがって、部分的な結果すら得られないからである^[59]^[68]。

実験手順を定めて実験することがほぼ不可能な、身の丈に合わない本質論^[40]^[41]を論じたがる人間を「本質病」と揶揄する言い方がある^[69]（学界の俗語）。本質病という言い方がいつごろから言われるようになったかは定かではないが、少なくとも武谷三男の諸著作においては、本質論ばかりやりたがる“エリート”研究者への批判がいくつか書かれている。本質病を脱却できないと、研究者として、研究業績を出すことは難しい^[69]といわれるように、本質病は、挫折の一つの原因である。

そこで、自分の検証可能な問題（「何をどうやって調べるか」）にブレークダウン出来そうな問題を探すという考え方に到達することができる。一つのオーソドックスなやり方は、「誰かがある方法で銅について研究したので鉄で同じ方法を試してみよう」「誰かが、ある方法で牛について研究したので豚で同じ方法を試してみよう」 ^[69]といった具合に過去の研究の実験条件の一つを変えて、どのように結果が変化するかを調べる、より一般には「系や手段を変えて比較する」ことで研究テーマを見つける方法である^[69]。このような方法は、自嘲や、軽蔑を込めて「銅鉄研究」、「牛豚研究」、「論文倍増計画」等といわれることがある。確かに、「銅を鉄に変えて比較するときに何に着目すべきか」、「何故、豚を選んだのか」といった意識もなくこのような方法をとっていては、成長はないかもしれないが、どのような研究でも、「系や手段を変えて比較する」という要素を欠くことはできないため、研究の進め方の基礎基本は身に付く^[69]。また、このようなやり方を取ることで、実験手法や実験手技を身に付けられるため、極めて複雑な実験計画を立てなければならないある程度大きな研究テーマに対しても取り組めるようになる^[69]。

別の側面から従って真に新しい装置、実験手法を発明するというのは、極めて大変なことで、原理、装置構成、精度、製造方法など、ありとあらゆる事柄に対して、深い考察が必要となる^{[注釈 13]}。したがって真に新しい装置、実験手法に対しては、ノーベル賞が与えられることもよくある（走査型トンネル顕微鏡、PCR法等）。装置や手法の改良一つとっても、極めて大変な作業で、少なくとも計測器メーカや試薬メーカの技術者、研究者の大半は、この問題に殆どすべてをつぎ込んでいるといっても過言ではない。計測器メーカや試薬メーカと研究機関の分業により、最近では、様々な計測装置、試薬キットが、お金を出せば買えるようになってきているが^[67]、それでも一つの実験系を組み立てるという行為は相当の力量と、労力と、資金と、センスが必要となる。さらに、装置や試薬の最適条件、適用範囲等を深く考察すること（基礎検討）や、装置や試薬の構成、成分、原理を理解するだけでも大変な行為である^[70]。したがって、凡人であれば再現実験や、銅鉄研究をある程度やって、実験系に対する感覚をつかんでおかないと、新しい測定原理や測定方法、真に新しい使い方どころか、マニュアル通りの実験すらままならないのは言うまでもない。

注意すべきはCell,Nature,Science級の論文といっても例えばPCRとブロッティングといったお決まりの方法以外の方法は使っていないなどという論文は多数あるという事実である。原理としては新しくなくても精度を飛躍的に上げるなり、調べる対象が、研究の進展に重要な意味を与えるものであれば研究としての価値は極めて高いということになる。したがって、人によっては、新しい手法を発明することなく、「何を調べるか」だけで、一流の研究ができている場合もある。例えばある系で成功した手法を、別の系に適応した場合、まったく予想できないようなことが起こることがある^[67]。こういう場合に、何故予想ができないことが起こったのかを考察することでまったく新しい学問的地平が拓かれることがある^[67]^[70]^[71]。

4は実践のレベルである。この部分の不安を解消出来なければ、大胆な仮説の構築や、大テーマの検証などあり得ない^[67]。従って、研究者としての技能や資質を語る上で、決して欠いてはならない部分である。

大学院生など研究に不慣れな者は、手技に不慣れであることから、実験結果の信頼性に問題がある場合、あるいは実際には問題がないにせよ自信が持てない場合などがあり、不安定な土台の上に積み木を積んでいる如く、技術的にも自分に自信が持てないため、どんな結果が出てもなかなかそれを信じることができないことがある。実際、仮に予想外の結果が出ても、「もしかしたら試薬の入れ忘れ、入れ間違いかも知れない」ということを毎回考えなければならないとするならば実験の面白さは半減するだろうと。このような不安と自信のなさが、セミプロレベルでの研究の面白さを失わせる大きな要因だと思われる^[52]^[67]。

このような不安をなくすためには、手技的に習熟するのは当然として、手技以前にどのくらいミスやブレをなくすことができるかを徹底的に考えるも大切である。このような考察には、抜群の想像力が要求されると考えられている。この点に関して、九州大学の中山敬一教授は、「チューブの並べ方やチップの使う順番（のような極めて簡単なことまで）まで理屈を持って決めていました。そこに流れている思想を読み取って欲しいと思います。」と述べている。このように、一流の実験家は、実験装置をどの順番で使うのがベストであるだとか、どのようなサインが出た場合には何がどのように影響している場合があり、それはどのようにすれば排除できるのかといったことまで理路整然と把握している^[52]^[67]。

現実の研究プロセス

本節では、先述の「科学的方法のプロセス」について、現実の研究を前提とした説明を行う。

先行研究のリサーチ

過去の論文などを調べ、何が分かっていないのかを調べる。または同時に、自分の知りたいことを解明するにあたり、有効な手法がないか、比較、参照する上で有益なデータがないかを調べる。一般に、研究者は、自分のテーマに関連する先人達の業績である文献をよく読み、その中から証明すべき事実を演繹し、実験仮説、リサーチクエスチョンを設定する。このときの仮説の善し悪しが、その後の価値を左右する。

仮説の構築

仮説とは、推測ではあるが、観察した現象や事実を説明できるものである。具体的には（いくつかの仮定を含む）何らかのモデルを立て、それに基づいて演繹的に結果（具体的なモデルや、何らかの周期性や規則性等）を予想したものである。（「科学的方法における結論」を参照のこと）。

通常は、仮説は実験を単純化したモデルを立てる形で行い、モデルをいくつか立てた上で、そのモデルの定性的な傾向、例えば、入力する量を増やせば、信号がどのように変化するかや、モデルを支持する結果と反証する結果がどんなものかを予想した上で、大まかなセットアップを考案して実験の準備をし、だいたいの最適な設定とデータが取得されるデータのオーダーを予想する。また、その仮説を立てた大まかな理由もある程度明確にしておくとよい。箇条書きにすると、以下のことが重要である。

実験を単純化したモデル
モデルの定性的な傾向
モデルを支持する結果と反証する結果の例
そのモデルから予想される、最適な実験条件のオーダー

実験の計画

研究の計画とは「何を明らかにするために、何をしたのか（するのか）」を定めることである。先行研究のリサーチや、それに基づく仮説の構築、あるいは先行して行った予備実験によって、「何を明らかにするために」の部分が明確になった時点においては、実験計画とは、何をどのように測定すれば、仮説がテストできるか、あるいは、問題の切り分け方法を考案することと、その測定を行う段取りをたてることである(ロードマップ、マイルストンも参照のこと)。

仮説のテスト方法、あるいは問題の切り分け方法を考える上では、「何と何を測定し」、「何と何の関係に着目し」、「どのように解析すれば」、仮説のテストが可能であるか、問題の切り分けが可能であるかを考案することが重要である。つまり、仮説のテストを行う上で重要となる評価項目を明らかにして、その評価方法（測定方法）を適切な原理と方法、必要な精度を見積もって明示する必要がある（「科学的方法における証拠の項目」を参照のこと）。

仮説のテスト方法、あるいは問題の切り分け方法がある程度明確になった後は、「いつ、どこで何をする」に落とし込む必要がある。ところが、実際の研究計画は、理想的に事が運んだとしても個々の評価項目としての実験の結果によってシナリオが分枝する。従って、シナリオの分枝による先行したリスク評価が必要となる。軍事開発や大規模なソフトウェア開発などの大規模な研究開発プロジェクトでは、 Program Evaluation and Review Technique^[72]に基づいた work breakdown structure ^[73]、Precedence Diagram Method^[74]、Arrow Diagram Method^[75]等を用いたシナリオの分枝の分析^[76]が行われる。

シナリオの分枝の分析をしておくことで、どの順番で行うのが手際がよいのかを見極めることができ、シナリオ上の可能性の高いルートで必要となるものは先行して準備、手配することも可能となり、また、条件分枝の上で絶望的なルート（俗に言う死亡フラグ）に陥った場合の対処（例えばどこで見切りをつけるか）も考慮できる。絶望的なルートの例としては、仮説の立証にも反証にもならない結果ばかりしか得られず、時間ばかりかかるルートが考えられる。さらに、シナリオから大きくずれた状況に陥った時や、とっさの判断が求められた場合（まったく違うシナリオに遷移したほうがよい場合等）にも、より適切な判断が可能となる。

実際の研究では、学生実験とは違い、「初めから予想通りの結果になる」、あるいは「初めから予想を明確に反証する結果が得られる」ことは極めて稀である。実際には、最初に予想した内容を反証しているとも立証しているとも言い難い微妙な結果しか得られないことが多いため、実際には「予備実験、基礎検討」と「計画の見直」しの間の往復を何度も繰り返し行う必要がある^[52]。また、実際の実験では予想した範囲を大きく逸脱した現象も視野に入れ、その場で随時予想や目的を修正しながら実験をしていく必要性が生じる。それでも、最初の段階でよく計画を立てておくと、それ以降の計画の見直しが楽になる。

試行錯誤型の研究の場合は、計画段階では目的を明確にし難い部分があり、どうしてもマルチエンディング型のゲームのように、目的（結末）が抽象的になる。「目的を明確にしないことは、タクシーに乗って行き先を言わないのに等しい」というたとえ話が教えるように、計画の良し悪しについては、ゴールの明確さが重要といわれる。しかし、研究、実験の計画はそのたとえ話には乗らない。研究の計画を“「行きたいところ」に行くため”の計画にたとえたとしても、試行錯誤が多いため、「行きたいところ」というのを明確に書き下すことは難しい。タクシーのたとえ話にたとえるならば、「外国人が見て面白そうなところに連れて行ってください」、「桜のきれいなところに連れて行ってください」といったことは明確であるが、そこがどこなのかはよくわからないといった状況である。実際には「行きたいところ」は、漠然とした状態で「行けるところ」、「行けたところ」が計画の遂行、修正のたびに決まってくるといった側面が強い。ここが実験の計画、研究の計画の難点である。

この意味で、試行錯誤型の研究は、探検に似ている。探検においては、「行きたいところ」は「金脈」だったり「肥沃な農地」だったりするが、実際に見つかったものは「油田」かもしれないし、広大な砂漠しかない場合もある。このような場合には、「成果となりえるもの」の候補と、「それが現れる兆候」を試行錯誤の中でよく把握しておく必要がある。「外国人が見て面白そうなところに連れて行ってください」、「桜のきれいなところに連れて行ってください」という二つの目的地を比較した場合、前者のほうがより上位である。実際、前者は紅葉の季節であっても通用するが、後者は通用しない。このように、当面の目標以外にも、より上位の目標、共通の上位目標を持つ別の代替目標を並行して考えておくことも必要である。

尚、実験の計画については、実験計画法という分野があるが、これは、QC活動に関連したものであり、目的を明確で、実験の計画が迷走しないルーチンワーク的な実験（例えば実証実験）や品質保証における実験を手際よく行うことを想定しており、特に試行錯誤型のの研究にはあまり関連しない。

予備実験、基礎検討及びその解析

予備実験、基礎検討とはリサーチクエスチョンの抽出や仮説、モデルの構築、オーダーエスティメーション、実験の問題点などの評価切り分け、最適条件の探索のために行う実験、検討のことである。

「実験の計画」の項目で述べたように、実際の研究では、学生実験とは違い、「初めから予想通りの結果になる」、あるいは「初めから予想を明確に反証する結果が得られる」ことは極めて稀である。実際には、最初に予想した内容を反証しているとも立証しているとも言い難い微妙な結果しか得られない。

そのため、大体の場合、研究は大雑把な仮説とその根拠になるプレリミナリーなデータを積み木のように組み立てていくことで進行する。つまり、「実験の大まかな傾向を見るための実験（予備実験）を行いながら、当初考案したモデルも修正しながら、さらにそのモデルの成否をよく判定する条件を探りながら再度予備実験を行い」というサイクルを実行する。つまり、上記の(1)-(4)の間のプロセスを長い期間往来する。このプロセスにより、価値ある研究課題と最適な実験条件が見つかり、実験手技も高まって安定していく。

予備実験の良し悪しは、その実験家のセンスそのものだという学者もいる^[52]。通常、どの研究者も、まずは初歩的な阻害要因（グランドループによる発振や電源ノイズ、振動、極端なコンタミネーション、手技の不足）をあたって、それらがドミナントでない場合には誰でもこのレベルの問題は解決できる。また、条件を振って問題の切り分けを試み、何らかの操作を行い、その応答^{[注釈 14]}から押さえるべきポイントを論理的に把握ることを試みる。また、複数の実験データをみながら即座にいろいろなモデルを立て、そのモデルを考慮しながら随時、実験条件の最適化を図っていくこと。しかし、最終的に整合のとれたモデルとデータの組に到達できる人は少数である。そのような者は、どうしようもないときにも「この山はハズレ」との結論に到達するまでの時間が短くさらにその決断は正しい（どのような要因が邪魔なのかをそれなりには正確に把握している）。予備実験の段階で注意すべきことを箇条書きにすると、以下のようになる。

予備実験のデータを桁違いに変化させる要因
傾向を大幅に変える要因（発振が止まる等）
変化させられるパラメータ
個々のパラメータそれぞれを独立に動かした時に測定される個々の測定値のそれぞれ変化の傾向^{[注釈 15]}
そのオーダー
それに当てはまる実験式、定性的なモデルなど

実験の勝負は、「先行研究のリサーチ」、「予備実験」の段階で大半が決まり、これに従い、「リサーチクエスチョンの抽出」、「仮説の構築」、「最適な実験条件」が機械的に決まり、実証実験に至っては、もはやルーチンワークでしかない^[52]。このことから、研究者の成長にとって、実験の大半を予備実験や基礎検討に費やすことが遠回りなようで、実はこれが実験の成功への近道であるばかりか、若い研究者の研究能力の大きな基盤財産になると考えられている^[52]。

実証実験

仮説が正しいか、否かを、客観的な形で検証するための、デモンストレーションを前提とした実験。

実験の再現性という観点から言えば、実証実験は、よほどの人を除き誰でもできる程度の完全なルーチンワークであることが望まれる。

日常の俗説と科学的方法

（メディア・リテラシー、集団ヒステリーも参照のこと）

マスコミや、一般書籍などを通じて行われる話題、例えば、「食の安全」、「少年犯罪の凶悪化」、「学力低下」、「ゲーム、マンガ害悪説」、「健康法」に関して、

口当たりのいい表現（マジックワー��、奇麗ごと）
統計データの無視、曲解

などを巧みに用いて、いい加減な俗説、扇動的議論を垂れ流すものがある^[31]^[32]。さらに、いい加減な俗説の根拠を定量的に検証することや、あるいは、対案を議論するための調査自体が、一種のタブーとなっている場合もある^[31]^[32]。

また、このような扇動的議論が、社会的に意味を持ち、合意形成の上で重要な役割を担ってしまうことが、現在、過去、国内外を問わずある^[31]^[32]。

例えば、窒息頻度が1億分の0.16(参考：もち一億分の6.8、あめ一億分の1.0)のこんにゃくゼリーのみに窒息の危険性を理由に製造中止措置が取られる等、統計的なエビデンスとはあまり関係なく論理的な整合性に乏しい規制がとられることがある。この事例は、「人が死んだ」、「海外でも規制」というマジックワードが意思決定において尊重された例である。

また、「漫画やアニメ、ゲームの表現規制」などがよく取り上げられる。この問題に関しては、例えば「架空の青少年の性的表現を含む創作物と性犯罪等の関係を示すデータが示されていない」点において、科学的でない議論が行われているとする意見がある^[77]。この例において、「架空の青少年の性的表現を含む創作物は、性犯罪を増加させる」という主張は、

「先行して規制を行った諸国における犯罪件数の推移と、国内の犯罪件数の推移の比較」
「架空の青少年の性的表現を含む創作物の販売件数の推移と、国内の犯罪件数の推移の比較」

などの、既存の統計から成否を判断できる。このような簡単なデータを議論の対象としない（あるいは、調べてもいないということは）、少なくともエビデンスベースとは対極にある姿勢であり、科学的ではない^{[注釈 16]}。

また、2000年代前半ごろから、「ゲームをすると、脳が破壊される（ゲーム脳)」等といったいい加減な学説が、科学的検証を受けずに流布しており^[78]、一部の科学的方法に理解の乏しい教育者が無批判に、教育方針に取り入れている場合がある。

大昔の事例としては、禁酒法、魔女狩りなども、口当たりのいい表現に基づいた、科学的根拠のない判断である。

ここまで分かりやすい、つまり、当該分野の専門的な知識がなくても、議論のおかしさが大体わかる例はそこまで多くないが、それでも、どのような議論でも、エビデンスを無視した科学的方法とは対極にある判断が含まれていることは、よくある^[31]^[31]^[32]。

このような事例に対して、ロジカルシンキングやクリティカルシンキング等の手法から、解説した書物が、近年相次いで出版されているなど、（例えば^[31]^[31]）一定の関心がはらわれるようになっている。このような関心に答える一連の知識体系を、メディアリテラシーという。

「科学的」という言葉への誤解

科学的という言葉に関する二つの極端な立場がある^[12]。一つは、「科学的に証明された」「正しい理論」という文言と、それらしい実験を示しただけで、盲目的に信仰するという立場である。もう一つは、すべては「単なる理論」であるという事を極端に強調し、全く信頼しないという立場である。これらは二つとも科学的という言葉に対する初歩的な誤解である^[12]。

「科学的に証明された」、「正しい理論」という言葉が、何を意味するのかは、非常に幅の広い意味を持つ言葉で一般には難しい^[12]。このような問題を考慮する場合には、「研究目的にたちかえって考えること」や、「測定とはどのようなことなのか」、「科学的な論証で用いられる論法」など、「科学的な方法」に求められる諸要件について理解しておく必要がある^[12]。

特に、科学的な態度においては、特に論文などのように、自らの得た知見を世に問う場面においては、明確な研究目的の提示を行うこと、そして、「研究目的で提示した問題の解」において明快な論理と確かな証拠を以て立証する義務が生じる（詳細はIMRAD参照）。これは、数学の証明問題において「示すべき命題が何なのかを意識せよ」と言われるのと同じことである。例えば「鶏肉からDNAを抽出する」という研究目的を立てた場合には少なくとも「抽出されたものがDNAであることをきちんと立証する」必要がある^{[注釈 17]}。つまり、この研究目的に照らして、例えば「洗剤に鶏肉を入れたら、白い沈殿ができた」という結果が得られたとしよう。この場合この結果と「その白い沈殿がDNAである」という結論の間を最も真剣に考察する必要が生じる（循環論法の項を参照のこと）。

本来科学的なものの見方を広めるはずの、啓蒙活動が、かえって「科学的」という言葉に対する誤解を広める原因となることもある。古くから、健康番組や科学番組などにおいて演示実験がおこなわれる。また、科学啓蒙家による演示実験による啓蒙活動がよく行われる。また“インパクト抜群のオモシロ実験”を自宅で簡単にできるようにコンパクトにまとめた本が多数売り出され好評を博している。これらの中には、しっかりとした調査の上に科学的な論理を以って物事の成り立ちを示す大変質の高いものがある一方で、実験データの検証と解釈などの点で科学研究の基礎的な要件をあまりにも無視したものが多数見受けられる ^[38]。

金澤一郎日本学術会議会長は昨今の健康番組や科学番組における“科学的な論証”に対し、

適切な対照群の設定
統計的な有意差を得るために必要な実験例数の設定
実験データの検証と解釈

などの点で科学研究の基礎的な要件を必ずしも満たしていないものが見受けられることを指摘した^[38]。

ゆとり教育においては、特に初等教育、中等教育において「体験型」を重んじるあまり、単なる「じっけんごっこ」にすぎない、「科学的方法」とはかけはなれた行為を「実験」として理科の教育課程で行ってきてしまった^[79]と菊池誠は指摘した。わかりやすさを前面に出すためには、ある程度は枝葉末節を切り捨てることが重要ではあるが、科学的な論証の上で必要な手続きを無視した議論は、結論の成否に関わらず、科学的な態度とは対極にある態度である。

一方で、科学的という概念を無駄に潔癖な方法と誤解している者もいる^[59]。現実の科学者に対して、無駄に潔癖な考え方を押しつけ、ただの誤解やミスあるいは（マスメディアに見られる“科学的推論”に比べればはるかにギャップの少ない）「多少は強引な結論」等、科学の進展の上では必然的に生じてくるような特段騒ぐほどでないものを誇張して科学における不正行為と騒ぎ立てるものがいる^[59]。こういった問題は最近においては「芸能人の不倫騒動」と同列に大衆の興味を掻き立てるものである^[59]。科学者においては誠意をもった推論が必要なことは言うまでもないが、最近においてはこのような“ゴシップ騒動”の影響で、特に若い世代に萎縮効果が出るなどの弊害がある点には注意が必要で、健全な科学の進展には弊害がある^[59]。

歴史と哲学

→「科学史」も参照

「科学的な方法とは何か」という問題について、これまでは科学者の側あるいはそれに近い側からの議論を中心に述べてきたが、この問題は科学哲学の重要な問題の一つでもある^[80]。但し、反証可能性、オッカムの剃刀などに関する諸議論は、科学者にとっての必須教養ではない。研究開発の現場と乖離している場合もある。哲学として一定の権威を有していても、極端にそれら考えを掘り下げると全くの出鱈目に近い議論が成立することもあるので注意を要する。

科学的な方法を身に付ける上では、特に初学のうちは下手に手を出さないほうがよい事柄も多く含まれ、研究者として未熟な段階でこの手の議論にとりつかれてしまったがために、この手の話題だけには強くなり、インターネット上で教弁をふるってはいるが、研究業績はさっぱりという「研究者」もいる。

特に、哲学と自然科学が分業して以降は科学哲学の側がどうしても観念的になり、また、科学を中途半端に理解した議論が野放図に行われる状況である^[51]。具体的には、「相対論の実証により、古典力学の正しさは否定された」とか、「土星模型は、電子運の発見で意味をなくした（土星模型で説明のつく問題は土星模型を用いればよく、量子論でも、ハミルトニアンは、クーロンポテンシャルを用いて立てることが多い。）」などといった短絡的で次元が低い理解に基づき、論理の飛躍を繰り返す傾向などがある。また、宗教、オカルトといった、まったく思考様式の異なる問題と科学との線引きといった、科学者にとっては直接的には意味のない問題を延々と扱う傾向がある。

また、古典的な科学哲学者の見解には科学の進展の美化された部分を高度に抽象化させすぎるきらいがあることが指摘されている。結果として道徳の次元としては美談だが、現実の科学の進展に寄与したい人間にとっては逆に変な誤解や萎縮効果を与えてしまう危険性のある理屈がまかり通り、神話を作るだけで結果として科学者の側にとってはどうでもよい問題を延々と議論しているという指摘がしばしなされる^[51]^[81]。

不幸なことにこのような古典的な科学哲学の問題点は「いまでもそのまま」だと誤解されているようであるが、これはとんでもない間違いである。現在の科学史、科学哲学においては既に実験ノートの記録などから科学的に研究者に迫るアプローチが主流であり、従来の観念的な科学論は科学哲学の中でも重要性を失っている^[81]^[82]^[83]^[84]。

観念的な大昔の科学史、科学哲学に��って形成された神話的な科学者像は正確には実用性に欠く見当違いな「科学的方法」観を与える。先述のように、科学的な方法においては、最終的にはデータに文脈性を持たせることが重要になるが、データに文脈性を持たせる能力について「単なる弁明の能力でしかなく、科学を進める原動力にはならない」と言う人もいる^[82]。そして、「口がうまい者が一流とみなされる」と嘆いて見せる^[82]。しかし最近の科学史の研究においては、「パスツール」だとか「ファラデー」とかいった比較的神格化されている人たちも含め、どちらかというと「口がうまい」と嘆かれる研究者に近くそういう特質をもっていたからこそ科学を進歩させられたのだとみる見方が主流となっている。

反証可能性に関して

疑似科学に対する批判活動（科学と非科学の線引き問題）において、「科学的」であることの要件の一つとして、「ポパーの反証可能性の原則」がよく引き合いに出される。^[要出典]

SFAAでは、本質的に立証も反証も行えないような対象は、原則論としては科学の対象とはみなされない^[2]とされている。

しかし、総じて言えば、反証可能性は現実には、「ポパーの反証可能性の原則」は、言われているほど現実の研究者には、受け入れられておらず、むしろ軽視されている^[49]とも言う。

ラリー・ラウダンらは「（反証可能性は）普通は科学的とみなされないような理論でも、満たすこともあり、これまで成功してきた多くの科学の実例は、反証可能性を逸脱している」と指摘した^[要出典] 。ここで、「反証可能性を逸脱する」とは、「基本法則の成否判定が、少なくとも現実には不可能で、補助仮説を補ったり実験手続きの不備などを仮定するなどの“逃げ”（小規模な修正）によって理論が変わっていくこと」を指す^[3]。

また、「三体問題は、運動方程式が支配法則である」という問題は、古典力学の問題で、二体問題が大学入試レベルであることと対照的に、（解が存在するものの）解析解が原理的に発見しえないことが数学的に分かっているうえ、解の不安定性が存在する可能性もあり、軌道を予測したければなんらかの近似をせざるを得ないことになる。従って、なんらかの“反証”らしき実験結果が出たとしても、不安定平衡点の存在によるのか、「近似の粗さの問題」なのか、「そもそも三体以上の問題には運動方程式が適用できない」のか「基礎方程式の間違い」なのか、「近似のまずさ」なのか、「実験の問題」なのかは、極めて難しい問題となる^[要出典]。

さらに、現実の科学は、現実の科学研究の進展においては、仮説はあいまいなところからはじまり徐々に明確になっていく傾向があり、論文を書く場合には簡単には反証されないように細心の注意を払う傾向があると指摘される^[59]。

通常の科学者は、ある理論に対していくつかの反証となる例が発見された場合にも、理論自体を全否定するという考え方はしない。通常は、アドホックな仮説を積極的に投入することにより、予測の精度を高めてより広範に受け容れられるように何らかの変更を加えること^[2]^[3]が一般的である。場合によっては、欠点を認識しながら、そのまま未修正の学説を使い続けることもある。

具体的な科学の事例においては、相対性理論の有用性は、古典力学の反証によって立証されたが、相対性理論の構築は、ニュートン力学を破棄、否定する形をとらず、むしろニュートン力学がより一般的な概念の中で適用範囲が限定された一つの近似であるにすぎないことを示す形で行われた^[2]とSFAAでは説明された。さらにニュートン力学に基づいた計算は、現在でも無修正で科学技術の最先端で使われることが多々ある。この意味でも「ニュートン力学が相対論によって否定された」とまで言い切るのは早計であり、現在の科学者の標準的な考え方とは大きく異なる^[2]^[3]^[15]。

さらに疑似科学と科学の線引きに関しても、実際に論点となるのは、個々のデータの有意性や論理的整合性等である^[85]。

現在の研究の最前線において、反証可能性の原則が、実際にはきわめて軽視されている現状に対して危機感をつのらせる人もいる。例えばリース・モーリン博士は、現在の最前線における物理学の理論が、「どのような実験結果でも取り込めるほどパラメータが多い」ことを指摘したうえで、反証可能性を軽視している傾向を、「物理学の迷走」と断じている^[49]。実際、モーリン博士が指摘するように、最近の素粒子物理、量子情報、物性理論等は極めて数学に近い様相を呈しているため反証可能性の原則を逸脱していることはしばし指摘される。また、特に、萌芽的な理論においては、実験がどんな結果を出してもそれを取り込めてしまうほどパラメータが多く、しかもそのパラメータの物理的な意味が不明確であることもしばしば指摘される。現在でも、このことを理由として権威ある雑誌への掲載が拒まれることがあるとされる^[50]。但し、この傾向も最近では現実的な方向に、つまり反証可能性に偏重しない方向にシフトしつつある^[50]。

しかし、実はポパーは、仮説のアドホックな修正について全面的に禁止してなく、その修正により反証可能性の度合いを増やす場合に対し、受容可能としている。 ^[86]

決定不全の説明で繰り返し使われる事例として、海王星の発見がある。天王星が発見されたとき、その軌道がニュートン力学の予測とずれていることが観察された。そのとき天文学者たちはニュートン力学を放棄するという路線ではなく、未知の惑星があって天王星に影響しているという仮説をたてる路線を選び、これが海王星の発見につながった。

この問題はしばしば反証主義の難点として指摘される。しかし、その条件付きの修正が可能な場合、その仮説の修正は、その条件を満たすので認められる。^[87]

脚注

[脚注の使い方]

注釈

^ ^a ^b
例えば、科学的であること必須要件の中に反証可能性というのを挙げる者がいる。確かに、幽霊やインテリジェントデザインに等といった疑似科学を処断するうえでは、反証可能性による線引きは、それなりの成果をあげているようである(たとえば、伊勢田哲治「科学哲学における線引き問題の現代的展開」名大哲学会発表(2000)[1]）しかしながら、前記の科学哲学者の伊勢田哲治の論文中に、以下のような記述がある。

われわれが科学のもっとも成功した例とみなすようなものまで排除してしまうような形で「科学」([()内は引用者による注]反証可能性を用いて定義された科学)が定義されるなら、その定義そのものが疑問に付されるのもやむをえない。

とある。また、この問題点に関する修正として、科学者一般の間でコンセンサスのとれた修正が存在するとも言い難いようである。このような理由で、反証可能性を科学的であることの必須要件にするのは、一面的過ぎる。
本記事では、以下のような記述は、記事の扱うテーマの趣旨に反すると考え、記載対象から除外する。前二者については疑似科学が取り上げている。
- オカルトや、トンデモのように、科学的な思考とはその根本的な基盤が異なる世界の例ばかりを挙げているもの。
- 「すべてのカラスが黒いという命題は反証可能性がある」（全称命題のに似たものの説明をしたいらしいように見えるが、数学でもない限り全称命題に全面的に頼るというの現実的でない）のような、ありきたりで微妙な例しか挙げていないもの。
- 「相対論により力学が反証され古典力学は意味を失った」等といった、「予測精度」という考え方を知っていればアホラシイとわかるような記述が至る所にちりばめられているもの。少しでも科学技術をかじっていれば、現実の科学技術の最先端でどれだけ古典力学が有用かを思い知っているはずである。
^ この報告書は、すべてのアメリカ人が身に付けるべき科学的な素養についての指針を与えるために、アメリカ科学振興協会の中心的なメンバーの草起・承認のもと発行され、日本を含む世界各国の教育行政に影響を与えている。特に、科学リテラシーに関する内容が中心となっている。いわゆる学習指導要領とは異なり、「小学3年生では、何と何を学びなさいといった」ことを書いたものではなく、科学、工学、数学など、科学に関係する分野の特徴づけに多くの項目を割いたものである。
^ 似たようなことは、引用文献のうち多数に、少なくとも断片的には書かれているが、特に権威があり、国際的に通用する定番の文献としてこれらの文献を挙げる。
^ 例えば、全ての問題の中で定量化が可能な問題の割合はどのくらいあるか？
^ 中谷の言う「再現可能性」は、「全く同じ現象が何度も起こる」という最も狭い意味よりも少しゆるやかである。
^ 但し、PDCAサイクルが日本で広まった背景にはQC活動があり、この活動は、統計の専門家や、品質管理の専門家が中心となって広めた活動であるため、広く言われるところのPDCAサイクルは、根底となる思想面では研究の工程と共通する部分が多いものの、実際には意識の違いがある。意識の違いのうち最も大きな点は、QC活動では、「データに合うように研究目的を変更すること」はよいこととはされない点、また、実際の研究レベルでは、大半の成否は、「予備実験、基礎検討」までの段階で決まってしまう点である。
^ これらの分野における基礎方程式の解は、大体の場合存在することを数学的に保証できるが、多体効果や組み合わせ効果の影響で解くことができない。
^ より多くの現象を統一的な視座から説明する上では必要な概念があるかもしれない；逆二乗の法則を見ている限り、電場や磁場のような“余計”な実態を仮定しない遠隔作用論がシンプルであるが、電磁誘導や特殊相対性理論まで考えると近接作用のほうが圧倒的にシンプルである。
^ 実験計画法に関しても既にさまざまなレベルの良質な文献が複数刊行されているが、示すべき命題が明確になっている状況を（主に品質保証やルーチン的な実験）意識して書かれたものが多いため、示すべき命題が混沌としているところから、仮説を形成することを仕事とする研究者との間に意識のずれがある場合もある。
^ 例えば、「表面の凹凸をSTMとAFMで測り両者の共通点や相違点を見る」、「英語力をTOEICと英検の両方で測定しておく」のように。
^ もちろん例によっては、こういうやりかたをしたことによって、真の最適解を見逃す可能性もあり得る。
^ 例えばカイ二乗検定では、サンプル等から計算された検定統計量がカイ二乗分布に従うことを前提とする。
^ 装置の発明を神格化する意図はない。世の中にある様々な計測装置は、原理が難しいものは多数あるものの装置構成の把握だけならば、高校物理程度の知識で理解できるものが殆どということにも注意したい。例えば走査型トンネル顕微鏡（コンスタントハイトモード）は、装置構成の核の部分は、鋭利に尖った針と、前記の針を試料に対して水平に走査する機構と、試料-探針との間に電圧を印加する機構と、試料-探針間に流れる電流を測定する機構に尽きる。いずれも、高校物理程度の知識で理解可能である。一方、測定原理やデータ解釈については、そこまで簡単ではない。最低限の測定原理を理解に留めても、少なくとも量子力学の初歩的な知識は必要となる。PCR法も、装置構成の観点からはそこまで難しくない。DNAの溶液にいくつかの試薬を加えた試験管に対し数分間の間に50℃〜90℃程度のレンジで規則的に温度昇降させればDNAが増えていくというだけである。但し、その原理の理解や、最適条件や、阻害要因の考察等をおこなうことは、少なくとも学部3年相当の分子生物学の知識が必要で、装置の設計は、熱工学的に極めて難しいとされる。
^ 例えば「どの変数を増やせばどの指標が増えるか」、あるいは「現象CはA、B2つの変数を同時に操作せねば起こらない現象である」等
^ 2つのパラメータを同時に変化させた時」に「個々のパラメータを独立に動かした時」と大きく異なる結果が出た場合、それはアーチファクトの可能性が高い。
^ 但し、児童を対象とした殺人事件だけを取っても、数年に数件〜数十件程度、児童ポルノ、児童ポルノ漫画に誘発されたと裁判で認定された事件が存在し、交通事故で死ぬ確率の1/5000程度の確率では、そのようなことが発生すると推定することも不可能ではない。^[要出典]
^ 研究目的が「鶏肉からDNAを効率よく抽出する」の場合には「効率面」を示せばよいこともある。このように「何を目的とするのか」によって明らかにすべきこと（すでに出された研究に全面的に乗っかっても場合によっては問題にならないこと）がある。

出典

^ https://kotobank.jp/word/%E7%A7%91%E5%AD%A6%E7%9A%84-459299
^ ^a ^b ^c ^d ^e ^f ^g ^h ⁱ ^j ^k ^l ^m ⁿ ^o ^p ^q ^r ^s ^t ^u 米国科学振興協会1989「すべてのアメリカ人のための科学（PDF版）」。「Science for All Americans（英語版）」
^ ^a ^b ^c ^d 伊勢田哲治「科学哲学における線引き問題の現代的展開」名大哲学会発表(2000)[2]
^ ^a ^b ^c ^d ^e ^f ^g ^h ⁱ ^j ジョージ W.ジーゲルミューラー; ジャック・ケイ; 井上奈良彦(監訳),九州大学大学院比較社会文化学府言語コミュニケーション研究室 (訳)『議論法: 探求と弁論』花書院〈比較社会文化叢書 (3)〉、2006年3月20日、57–頁。ISBN 978-4-938910-89-1。
^ ^a ^b ^c ^d ^e ^f ^g ^h 濱田嘉昭放送大学講座「科学的な見方・考え方」（2007年〜）　[3]（同大学の学生は過去の放送をセンターで検証可能）
^ 教科書：濱田嘉昭『科学的な見方・考え方』放送大学教育振興会、ISBN 9784595307522
^ 文部科学省　「高等学校学習指導要領解説理科編」平成21年7月刊行の[4]
^ ^a ^b ^c ^d 小倉康「科学リテラシーと探究能力」[5]
^ ^a ^b ^c ^d ^e ^f Science For All Americans. chapter1, SCIENTIFIC INQUIRY
^ ^a ^b ^c ^d ^e ^f ^g ^h 「すべてのアメリカ人のための科学」pp.17-18
^ R.P.ファインマン（著）、大貫昌子（訳）『ご冗談でしょう、ファインマンさん』岩波書店、2000年1月
^ ^a ^b ^c ^d ^e ^f David Carr Baird・加藤幸弘・千川道幸・近藤康『実験法入門』ピアソンエデュケーション（2004年12月）
^ ^a ^b ^c ^d ^e ^f ^g ^h ⁱ ^j ^k ^l ^m ⁿ ^o ^p ^q ^r ^s ^t ^u ^v ^w [★]戸田山和久；『「科学的思考」のレッスン学校で教えてくれないサイエンス』 (NHK出版新書) 2011/11/8
^ Menke, Joe; Roelandse, Martijn; Ozyurt, Burak; Martone, Maryann; Bandrowski, Anita (2020-11-20). “The Rigor and Transparency Index Quality Metric for Assessing Biological and Medical Science Methods” (英語). iScience 23 (11): 101698. doi:10.1016/j.isci.2020.101698. ISSN 2589-0042.
^ ^a ^b ^c ^d ^e ^f ^g 小泉健「科学／技術の総合化」 Seneca21st 話題 26[6]
^ ^a ^b 中谷宇吉郎（著）『科学の方法』岩波新書1958年（青版 313）
^ ^a ^b ^c [7]^{[リンク切れ]}
^ ^a ^b 宮島龍興「曖昧さの科学と科学の曖昧さ」日本教育工学振興会提言[8]
^ ^a ^b 荒川歩「心理学は「科学的」でなければならないのか?」立命館人間科学研究第10号29頁、2005年[9]
^ ^a ^b ^c 文部科学省ウェブサイト - 平成18年版科学技術白書 - コラムNo1
^ ^a ^b 独立行政法人国立健康・栄養研究所 HP上の記事 [10]
^ ^a ^b 安冨潔「科学的証拠とデジタル・フォレンジック」デジタル・フォレンジック研究会 76号コラム[11]
^ [12]
^ ^a ^b ^c ^d 内田義彦 (著）「読書と社会科学」岩波書店 (1985/1/21)
^ ^a ^b ^c http://n-namie.com/kwangaku2010/100603.pdf
^ ^a ^b ^c ^d ^e ^f 恒本史雄、江間健司『基礎物理学実験』東京教学社、2008年
^ 藪哲郎;「光導波路解析入門」森北出版 (2007/8/27) [13]
^ 関根一昭『理系力が高まる痛快ゼミナール』日本実業出版社、2004年3月
^ 畑村洋太郎『数に強くなる』岩波書店、2007年2月
^ ローレンス・ワインシュタイン『サイエンス脳のためのフェルミ推定力養成ドリル』日経BP社、2008年10月
^ ^a ^b ^c ^d ^e ^f ^g ^h ⁱ 小笠原喜康『議論のウソ』講談社、2005年
^ ^a ^b ^c ^d ^e ^f 吉岡友治『だまされない〈議論力〉』講談社、2006年
^ ^a ^b ^c ^d ^e ^f ^g ^h ⁱ ^j ^k ^l ^m ⁿ ^o [★]井川俊彦 ,他「数学/統計学 (臨床検査学講座)」医歯薬出版 (2006/06)
本書の共著者の一人である東京医科歯科大徳永伸一准教授の、本書に基づいた講義ノートが、[14]より閲覧可能である。
^ ^a ^b ^c ^d ^e ^f ^g ^h ⁱ ^j 秋山徹, 他「バイオ実験に絶対使える統計の基本Q&A〜論文が書ける読めるデータが見える!」羊土社 (2012/9/13)
^ ^a ^b ^c ^d ^e ^f ^g ^h 医療情報科学研究所(編)「保健師・保健師をめざす学生のためのなぜ?どうして?〈4〉疫学・保健統計」メディックメディア (2011/01)
^ ^a ^b ^c ^d ^e ^f ^g ^h 石村貞夫, 他「マンガ統計手法入門」シーエムシー (1995/12)
^ ^a ^b ^c ^d ^e ^f ^g ^h 菅民郎「Excelで学ぶ実験計画法 −シックスシグマと重回帰分析− 第2版」オーム社; 第2版 (2012/9/26)
^ ^a ^b ^c ^d ^e ^f ^g ^h ⁱ ^j テレビ番組等における「科学的」実験についての会長談話[15]
^ http://portal.dl.saga-u.ac.jp/handle/123456789/35392 ^{[リンク切れ]}
^ ^a ^b ^c 武谷三男「武谷三男著作集〈1〉 ― 弁証法の諸問題」勁草書房より「現代物理学と認識論」
^ ^a ^b ^c [16]^{[リンク切れ]}
^ http://unit.aist.go.jp/eval/H18symp/Files/H18symp.pdf
^ ^a ^b 入來篤史『研究者人生双六講義』岩波書店、2004年2月
^ http://www.socialresearchmethods.net/kb/strucres.php
^ http://ie.u-ryukyu.ac.jp/tnal/archives/tag/%E5%8D%92%E6%A5%AD%E7%A0%94%E7%A9%B6 ^{[要文献特定詳細情報]}
^ ^a ^b ^c 野矢茂樹（著）;「新版論理トレーニング」産業図書; 新版 (2006/11)
^ ^a ^b 西村克己（著）;「論理的な文章の書き方が面白いほど身につく本」中経出版 (2006/6/13)
^ 吉野睦,近藤総,仁科健;「シミュレーションモデルの合わせ込みにおける実験計画法の活用」品質 38(2), 260-266, 2008-04-15
^ ^a ^b ^c ^d ^e ^f リース・モーリン（著）、松浦俊輔（翻訳）「迷走する物理学」ランダムハウス講談社 (2007/12/13)
^ ^a ^b ^c ^d ^e ^f ^g ^h ⁱ ^j ^k SHIMIZU Akira. “概念の創造と精密化”. As2.c.u-tokyo.ac.jp. 2012年7月22日閲覧。
^ ^a ^b ^c ^d ^e ^f R.P.ファインマン『物理法則はいかにして発見されたか』岩波書店、2001年3月
^ ^a ^b ^c ^d ^e ^f ^g ^h ⁱ ^j “教授からのメッセージ”. Bioreg.kyushu-u.ac.jp. 2012年7月22日閲覧。
^ “中村修二×英文校正エナゴ・ロングインタビュー::英文校閲・英語論文校正・英文校正”. Enago.jp. 2012年7月22日閲覧。
^ ^a ^b 松本博行、黒野定、小森直香、プロテオミックスとパースのアブダクション生物物理 Vol.43 (2003) No.6 通巻250号 P291-294
^ [17]^{[リンク切れ]}
^ “研究者になるための心構え”. Pharm.kyoto-u.ac.jp. 2012年7月22日閲覧。
^ ^a ^b ^c 兵頭甲一『物理実験者のための13章』東京大学出版会、1976年5月
^ R.P.ファインマン（著）、大貫昌子（訳）『科学は不確かだ!』岩波書店、1998年9月
^ ^a ^b ^c ^d ^e ^f ^g ^h ⁱ ^j ^k ^l ^m フレデリックグリンネル（著）、白楽ロックビル（翻訳）『グリンネルの研究成功マニュアル―科学研究のとらえ方と研究者になるための指針』共立出版 1998年10月
^ ^a ^b がんと向き合う　〜腫瘍内科医・高野利実の診察室〜イレッサの「ベネフィット」（2013年10月21日読売新聞） [18]
^ ^a ^b 小泉治彦　著：「理科課題研究ガイドブック」千葉大学 [19]
^ R.P.ファインマン（著）、大貫昌子（訳）『ご冗談でしょう、ファインマンさん』岩波書店、2000年1月
^ 寺田寅彦「漫画と科学」[20]（例えば、寺田寅彦,樋口敬二,太田文平;「寺田寅彦全集第5巻」岩波書店(2010)）
^ ^a ^b ローレンス・クラウス著・青木薫翻訳『物理学者はマルがお好き』早川書房 (2004/5/25)/ローレンス・クラウス著・青木薫翻訳『物理の超発想―天才たちの頭をのぞく』講談社 (1996/04)
^ 理系に関するジョーク集[21]
^ ^a ^b 林篤裕「科学的推論能力テストと大学入試センター試験の比較分析」大学入試センター研究開発[22]
^ ^a ^b ^c ^d ^e ^f ^g ^h ⁱ 中山敬一 (著)「君たちに伝えたい3つのこと―仕事と人生について科学者からのメッセージ」ダイヤモンド社 (2010/7/30)
^ ^a ^b ^c ^d ^e ^f Kathryn L. Allen (著), 伊藤俊洋 (翻訳), 黒澤麻美 (翻訳), 伊藤佑子 (翻訳), 吉田朱美 (翻訳)「スタディスキルズ―卒研・卒論から博士論文まで、研究生活サバイバルガイド」丸善 (2005/12)
^ ^a ^b ^c ^d ^e ^f ^g ^h [23][24]
^ ^a ^b “自動車工場のように論文を量産する方法”. Home.hiroshima-u.ac.jp (2011年11月25日). 2012年7月22日閲覧。
^ “社団法人日本物理学会会誌9月号掲載記事”. Oc.nii.ac.jp. 2012年7月22日閲覧。
^ “PERT（Program Evaluation and Review Technique） − ＠IT情報マネジメント用語事典”. Atmarkit.co.jp. 2012年7月22日閲覧。
^ “WBS（work breakdown structure） − ＠IT情報マネジメント用語事典”. Atmarkit.co.jp. 2012年7月22日閲覧。
^ “プレシデンスダイアグラム法 − ＠IT情報マネジメント用語事典”. Atmarkit.co.jp. 2012年7月22日閲覧。
^ “AON（activity on node） − ＠IT情報マネジメント用語事典”. Atmarkit.co.jp. 2012年7月22日閲覧。
^ “第5回マスター・スケジュール-プロジェクト全体を見通す，実行性のあるスケジュールを作る：ITpro”. Itpro.nikkeibp.co.jp (2007年6月28日). 2012年7月22日閲覧。
^ “「第28期東京都青少年問題協議会答申素案及び都民意見の募集について」の結果概要”. 東京都. 2012年7月22日閲覧。
^ 「ゲーム脳」など脳研究で俗説、倫理指針を改定…神経科学学会（2010年1月9日読売新聞）
^ 菊池誠『若きエンジニアへの手紙』工学図書
^ http://www.tmd.ac.jp/mri/fro/issp/kougirokupdf/kagakutetugakukihonmondai.pdf
^ ^a ^b http://home.hiroshima-u.ac.jp/nkaoru/Pasteur.html
^ ^a ^b ^c 橋本毅彦「[科学史研究の新潮流]実験と実験室（ラボラトリー）をめぐる新しい科学史研究」『化学史研究』第20巻第2号107-121頁 1993年[25]
^ G・L・ギーソン（著）、長野敬・太田英彦（訳）『パストゥール――実験ノートと未公開の研究』青土社
^ B・ラトゥール（著）、川崎・高田（訳）『科学が作られているとき――人類学的考察』、産業図書、1999年
^ https://www.mhlw.go.jp/shingi/2004/02/s0226-9d3.html
^ カール・ポパー『科学的発見の論理』（恒星社厚生閣（上下）, 1971年-1972年）
^ 伊勢田哲治『カール・ポパーの生い立ちと哲学』p.6-7:http://ocw.nagoya-u.jp/files/45/sp_note03.pdf

参考文献

前田なお『本当の声を求めて　野蛮な常識を疑え』SIBAA BOOKS、2024年。
濱田嘉昭『科学的な見方・考え方』放送大学教育振興会、ISBN 9784595307522

科学的方法