Monday, February 5, 2018

bioRxivとプレプリントについて

もともと大してブログを書いていなかった上に、長いブランクができてしまった。書きたい話題が無かったわけではなく、文章を書く習慣がついていないので、きっかけがないと何も書かないで時が過ぎてしまう。今回はちょっときっかけがあったのでbioRxivとプレプリントについて書いてみたい。

Science誌は毎年その年の科学のブレークスルーを選ぶ事を恒例にしている。2017年のブレークスルーとして選ばれたのは中性子星の衝突を様々な方法で観測した事だったけれど、次点として選ばれた九つの話題の中に生物学関係分野でのプレプリントサーバーの利用が入っていた。Science誌の選ぶブレークスルーについては西川伸一さんが取り上げていて、山形方人さんがプレプリントサーバーについてコメントしたのに便乗して自分もいくつかコメントをした。その後、山形方人さんも御自身のブログプレプリントサーバーについて書いている。プレプリントやオープンアクセスについては自分でも色々と考えていたので、ちょっとまとめて書いておこうと思った。(だらだらと書いていたら、長くなってしまったし、思い立ってから何週間もかかってしまったけれど。)

まずは関連する用語をいくつか挙げて置きたい。科学論文は学術雑誌に掲載されるのが普通だけれど、それ以前に論文の原稿を他の研究者と共有したり、広く公開したりする事がある。そういう論文の原稿をプレプリントという。昔はプレプリントはメールなどによって限られた研究者が共有していた。今ではプレプリント専用のサーバー(プレプリントサーバーまたはプレプリントリポジトリなどと呼ぶ)があり、それを利用する事でプレプリントを公開する事ができる。1991年に物理学者のポール・ギンスパーグがプレプリントをまとめて公開するためのサーバーを設立したのがプレプリントサーバーの始まりで、これはその後arXivと呼ばれる物になった。物理学だけではなく、数学、計算機科学などの分野でもプレプリントをarXivで公開する事が普通になっている。プレプリントサーバー上で公開されたプレプリントは誰でも無料で見る事ができる。学術論文が誰でも無料で閲覧できる状態になっている事をオープンアクセスと言い、プレプリントサーバー上のプレプリントは必然的にオープンアクセスになっている。生物学関連の分野では長い間プレプリントサーバーの利用は盛んでは無かった。2013年にコールド・スプリング・ハーバー研究所がbiorXivという生物学関連の分野のためのプレプリントサーバーを設立し、それ以来bioRxivで公開されるプレプリントは増えてきている。


学術雑誌のメリットとプレプリントのメリット

プレプリントを公開するメリットを考えるために、そもそも論文を学術雑誌に発表する意義を最初に考えてみよう。論文を発表する事で研究成果を研究者コミュニティーおよび社会一般に知らせる事ができる。その上で大切なのは、多くの人が研究成果を目にする機会がある事、出来るだけ早く公開される事、公開された事が記録に残る事、などだろう。さらに、論文が学術雑誌に掲載されるためには査読されて受理される事が必要なので、学術雑誌に掲載される事で論文の質についてある種のお墨付きが得られたと見なされる。とりわけ、権威があって受理される事が難しい学術雑誌に論文が掲載されると重要視されやすい。(ただし、下で議論するように、こういうお墨付きが正しいとは限らない。)論文として発表された研究成果は研究者コミュニティーや社会に共有され、科学や技術の進歩につながる。一方、論文は研究者の業績として数えられ、研究者の評価に使われ、人事や研究費の分配を決定するための判断の材料になる。

時代が変わると事情も変わってくる。昔は論文が掲載された学術雑誌が紙に印刷されて出回るのが研究成果を公表するための最も効果的な方法だった。学術雑誌のページ数は限られているので査読をして掲載する論文を絞る事は必要だった。でも電子ファイルをオンラインで公開する事が可能になると、ページ数は絶対的な制限ではなくなる。検索して論文を探す事も難しくない。既存の学術雑誌には次のような問題点もある。査読には時間がかかるので、研究結果が公開される事が遅れてしまう。学術雑誌に掲載される事で論文が多くの人の目に止まるというメリットはある物の、購読料を払わないと論文が読めないという問題もある。学術雑誌の購読料が大学などの図書館の予算を圧迫する事は問題になっていて、大手出版社であるElsevierに対するボイコットも起きている。以上のように、研究結果を早く、広く公開するためには、むしろ学術雑誌が障壁になっている面もある。研究費の多くは税金によっているのに、納税者が商業出版社にお金を払わないと研究の成果を共有できないのは好ましい事ではない。最近は誰でも無料で読めるオープンアクセスの学術雑誌が発行されるようになってきたけれど、査読による審査が行われ、著者が出版料を支払うシステムの物が多い。

プレプリントサーバーを利用してプレプリントを公開する事のメリットしては、査読を待たずに研究結果を共有できる事にある。誰でも無料で研究の結果にアクセスする事ができるのもメリットだ。つまり、より早く、より広く、情報交換ができる可能性がある。

ただし、プレプリントサーバーの利用が普通になった物理学や数学においても学術雑誌が役割を失ったわけではなく、arXivにプレプリントとして公開された論文が後に学術雑誌に掲載される事が多い。bioRxivがスタートした当初は、bioRxivで公開されたプレプリントを生物学系の学術雑誌が受け入れるかどうかに不安の声もあったけれど、現在では受け入れる学術雑誌が多い


生物学、医学関係者のプレプリントサーバーに対する抵抗

正直な所、bioRxivが始まった時、その将来については少し懐疑的だった。生物学の分野のプレプリントサーバーを設立するというアイデアはbioRxivが最初ではない。1999年にNIHの所長だったハロルド・ヴァーマスがプレプリントサーバーと論文のアーカイブを含むE-Biomedという計画を提案した事がある

ところがその計画は、出版社の反対や、査読されていないプレプリントを公開する事に不安を持つ生物学や医学の分野の研究者の抵抗にあって頓挫してしまった。研究者にはプレプリントとして発表した結果をスクープされる事の不安もあったのかもしれない。(原則としては、プレプリントとして先に発表する事で先取権を主張出来るはずなのだけれど。)その後ヴァーマスはPLoS (Public Library of Science)という査読付きのオープンアクセスの学術雑誌出版社を設立する事になった。その経過を見ていて、生物学や医学の研究者は査読付きの学術雑誌に論文を発表する事にこだわりがあるのだなという感想を持っていた。

2013年の末にbioRxivが始まった時には大きなニュースにならなかった。NIHが旗を振った計画がスタート以前でつまづいたのに、細々と始まったbioRxivを利用する人がどれだけいるのか疑問だった。Drug Monkeyという生物学系の研究者のブロガーは同じ2013年にプレプリントに否定的なブログを書いている。生物学系の研究者のプレプリントに対する認識はそんな感じが多いという印象があった。


bioRxivの現状


上の図はprepubmed.orgからで、月ごとの医学生物学関係のプレプリントの数の推移を示している。医学生物学関係のプレプリントを発表する場がいくつかある内、bioRxivの割合は緑色に示されている。2013年の末にbioRxivが始まってからbioRxivで公開されるプレプリントは増え続けていて、今では医学生物学関係のプレプリントの大半を占めている。Science誌によると毎月1500ほどの医学生物学関係のプレプリントというのは毎月pubmedに加わる新しい論文が10万ほどなのに比べるとまだ1.5%程に過ぎないけれど、かなり定着してきた。実際にbioRxivのプレプリントを読んだ感想として、面白い研究や、有力研究者によるプレプリントが増えていて、新しい風が吹いていると感じられる。

E-Biomedが頓挫した時との違いは何だろうか。PLoS以降、Elifeなどオープンアクセスの学術雑誌が増えて、オープンアクセスについての議論が盛んにされるようになった。そのおかげでプレプリントの意義が認識されるようになったのかもしれない。今の所bioRxivに投稿されているプレプリントにはバイオインフォマティックスやゲノム関連の物が多い。こういう分野の研究者には計算機科学、数学、物理学、統計学などの分野に馴染みのある人が多い。そういう分野ではarXivにプレプリントを公開することは普通なので、その文化が生物学系に導入されている面もあると思う。NIHが強制するのではなく、民間機関であるコールド・スプリング・ハーバー研究所が始めた事で、自主的に利用したい人達だけが利用して自然に発展した事も結果的には良かったのかもしれない。一方、最近では研究費を出す側がbioRxivにプレプリントを公開する事を方針にしている場合もある。面白いプレプリントがあると、ツイッターなどで話題にする研究者もいるので、ソーシャルメディアがプレプリントの宣伝になっている面もある。bioRxivが始まって時間が経ち、bioRxivに発表された研究が学術雑誌に論文として発表される事の実績もできた。プレプリントの公開が学術雑誌の論文採用の妨げにならないとわかって、プレプリント公開に対する抵抗も少なくなってきたと思う。


論文の評価はどういう風に決まるべきなのか−出版後査読の重要性

査読をされておらず、学術雑誌に受理されていないプレプリントについて考える事は、そもそも論文の評価がどういう風に決まるべきなのかを考えるきっかけにもなる。査読されていないプレプリントなんて信用できないと思う人もいるようだ。でも査読はせいぜい数人の査読者が行い、編集者の裁量で決まってしまうので、正しいという保証はない。どんな論文でも批判的に内容を吟味するべきで、プレプリントが特別な訳ではない。

内容に価値があれば学術雑誌に掲載される事が必要でない事の例にはポアンカレ予想の証明がある。ポアンカレ予想の証明をしたグリゴリー・ペレルマンはプレプリントをarXiv上で公開しただけで、学術雑誌に投稿することは無かった。つまり形式上は「査読」はされていない。でも重要な証明だったので他の専門家が検証をし、ペレルマンの証明が正しかったという理解が得られている。また、他の数学者による詳しい証明の論文は学術雑誌に掲載されたけれど、ペレルマンの先取権が疑われてはいない。ペレルマンの論文のようにプレプリントのみで学術雑誌に論文が発表されないのは普通のケースではないけれど、プレプリントの段階で評判になる論文は珍しくない。査読を経て学術雑誌に論文が発表される事は論文の評価の必要条件ではない。

NatureやScienceに掲載された論文でも間違っていた物はいくつもあるし、重要な論文が不採用になる事もある。査読に問題がある場合もあれば、再現性に問題がある事が後になってわかる事もある。論文が発表された段階では正しい評価ができない場合もある。科学の進歩は生物の進化に似ている部分がある。色々な発見が報告され、理論が提唱される中で、間違っていた物は淘汰され、正しい物が生き残る。淘汰は論文が発表されてから時間をかけて起きる。論文の真の価値は学術雑誌に掲載された時に決まるのではなく、本当の評価が下されるのは、たくさんの研究者の目に触れて、内容が検証されてからだ。学術雑誌に発表される前の査読(pre-publication peer review)に対して、論文発表後の評価を出版後査読(post-publication peer review)と言う。

それでは具体的には出版後査読はどうなされるのだろうか。基本的には、論文を読んで検証をした研究者が意見を交換し、研究者コミュニティーのコンセンサスが得られるのだろう。山形方人さんが書かれているように、検証には論文の論理の検証と実験結果の再現性の検証の両方が含まれる。

問題は意見の交換がどこでなされるのかだ。形式ばった方法としては、論文への批判を同じ学術雑誌、あるいは別の学術雑誌に投稿する事ができる。ただ、そういう批判が掲載されるとは限らないし、掲載されるまでには時間がかかる。新たな研究結果が論文として発表されることで、それ以前の論文の結果が支持されたり否定されたりする事がある。この場合はデータもあるのでもっとも説得力があるが、時間も労力もかかる。もっと私的に、研究仲間との会話で意見を交わす事は普通にあるだろう。でもそういう意見が広く伝わるのは難しい。最近ではインターネットを使って意見を発信や共有する事も盛んになった。例えば、ブログやツイッターを使って論文にコメントをつける研究者がいる。さらにPubPeerという出版後査読を目的としたサイトで論文にコメントをつける事もできる。ただ、こういう非公式な形のコメントを拒否する人もいるし、多くの人が目にするとは限らない。PubMed CommonsというPubMedに論文に対するコメントをつけるシステムもできたけれど、コメントがつけられる事は少なかったし、もうすぐ中止されるそうだ。論文への批判が学術雑誌に掲載されるのは難しいので、批判その物をプレプリントとして公開する人もいる。

残念ながら、誰もが納得するような出版後査読の場は今の所は存在しない。それでも、以前はこのプロセスは不透明な部分が多かったので、インターネットによってオープンな部分が増えたのは悪いことではないと思う。

ブログなどのインターネット上での出版後査読は、ヒ素DNA論文のような面白いケースもあったし、最近は心理学の分野でいろいろ論争になっている。長くなってしまったので、できればまた別に書いてみたい。


結び

プレプリントについて話を戻すと、基本的には公開したい人が公開して、読みたい人が読めばいいと思う。すでに面白いプレプリントを読んだ経験があるので、個人的には読む事にメリットがあると思うし、自分でもプレプリントを公開していきたいと思う。そうする事で情報交換がもっと速くなる事を期待している。だからと言ってプレプリントサーバーを利用したくない人に強制するつもりはない。プレプリントは道具であって、それを使うかどうかは個人の自由だ。

プレプリントに興味がない人がいても全然構わないし、生物学系の研究者ではまだ知らない人も多かもしれない。でもプレプリントに対する無関心や警戒には、論文の評価は査読(および、その結果どの学術雑誌に論文が掲載されるか)で決まるという考えに根差している部分がありそうだ。実際、研究業績がそのようにして評価されがちな現状がある。そういう見方をすると、プレプリントを公開してもキャリアのためにはならないし、プレプリントとして公開された研究成果が学術雑誌に受け入れられないかもしれないという不安もあったし、メリットはないように見えてしまうかもしれない。

問題は、そういう研究業績の評価のし方が必ずしも科学のためにはなっていない事だ。できるだけ格の高い学術雑誌に論文を発表する事のインセンティブが強いので、早く、華々しい結果を出す事が求められ、再現性や厳密性が二の次になる危険性がある。生物学系の場合、とりわけNature、Science、Cellに論文を発表する事のインセンティブは強く、Randy Schekmanはその事が科学に悪影響を与えていると指摘している。ツイッターでも科学は巧いウソをつく競争になっているという日本語の議論があった。Bodo SternとErin O’SheaはScientific Publishing in the Digital Ageという文章で、研究発表とインセンティブの仕組みの変革を提唱していて、プレプリントや出版後査読についても論じている。今後、研究の発表や評価のあり方が科学のためになるように改善される事を期待したい。



プレプリントに関する記事のリンク集
生命科学分野は「プレプリント」を導入すべき? https://www.enago.jp/academy/preprint/

プレプリントを論文の「最終版」に!? https://www.enago.jp/academy/preprint_201703/

プレプリントが研究の普及に果たす役割 https://www.editage.jp/insights/the-role-of-preprints-in-research-dissemination

バイオ系プレプリントサーバを利用してみた(その1) http://wagamamakagakusha.hatenablog.com/entry/2105056_1

バイオ系プレプリントサーバを利用してみた(その2) http://wagamamakagakusha.hatenablog.com/entry/2105062

ASAPbio Preprint info center http://asapbio.org/preprint-info

ASAPbio Scientific Publishing in the Digital Age http://asapbio.org/digital-age

Peer review, preprints and the speed of science https://www.theguardian.com/science/occams-corner/2015/sep/07/peer-review-preprints-speed-science-journals