2‐4‐2.盗用データベース:米 デジャヴュ(Deja vu)


【盗用事件のデータベース】
白楽は、1874~2009年の136年間の日本の「研究者の事件」データベースを構築し、そのデータベースに基づいて研究者の事件の内容や傾向を分析した(拙著・『科学研究者の事件と倫理』、講談社)。

「研究者の事件」データベースの中に「盗用」事件もある。日本の学術界での「盗用」事件は、1874~2009年に36件、内2000~2009年の10年間に23件発覚している。ただ、データベースは実名入りで、公開するには、さまざまな問題があり、非公開のママである。

一方、今回紹介する「デジャヴュ(Deja vu)」は、類似性が高い(=盗用かも?)世界中の論文をデータベース化し、分析結果を公開している。インターネットで各自が無料で閲覧・検証できる。約8万対の論文が集積されている。

【デジャヴュ(Deja vu)】

★最初に白楽評価を示す。「5(スバラシイ)」。

★特徴

  • 無料
  • 言語:英語
  • 対象:文章(テキスト)の類似性
  • 提示論文数:79,383論文対(2014年6月3日閲覧)
  • 検査作業期間:2007年02月14日~2009年12月08日
  • 現在:2009年12月08日以降の検査作業なし

★「デジャヴュ(Deja vu)」の「Deja vu」は、フランス語で、日本語では「既視感」と訳され、意味は以下の通り。

実際は一度も体験したことがないのに、すでにどこかで体験したことのように感じることである。デジャヴュ(仏: déjà-vu:英語 already seen「既に見た」の意味)、デジャヴ、またはデジャブ(英語を経由した発音)などとも呼ばれる。(既視感 – Wikipedia

★盗用データベースとしての「デジャヴュ(Deja vu)」サイトは、「Deja vu: Medline duplicate publication database」である。以下は、断らない限り「デジャヴュ(Deja vu)」サイトの記述を中心に、他の情報を足し、白楽が取捨選択して記載した。

2006年8月1日、開始。創始者は、ハロルド・”スキップ”・ガーナ― (Harold “Skip” Garner)教授である。米国・テキサス大学サウスウェスタン・メディカル・センターに在職していた時、生物医学論文データベース・メドラインの論文の類似性を調べる「デジャヴュ(Deja vu)」プロジェクトを開始した。現在、米国・ヴァージニア工科大学・教授で、ゲノム生物情報学の専門家である。研究室員は約20人いる(Garnering Innovation)。

《動画》英語 ハロルド・”スキップ”・ガーナ― 博士にインタビュー「Dr. Harold “Skip” Garner Interview @SC11 – YouTube」、「1‐2‐6‐1.盗用検出ソフト:イーティーブラスト(eTBLAST)」のを再使用
2012/01/03にJanet Bartlesonがアップロード(2014年6月2日閲覧)

ゲノム生物情報学の研究とは別に、ハドソン財団と米国・研究公正局の助成(2007~2009年、研究課題「DUPLICATE ARTICLE/PLAGIARISM DISCOVERY」)を受け、数人で「デジャヴュ(Deja vu)」プロジェクトを展開していた。検査作業の詳細をみると、期間は2007年02月14日~2009年12月08日となっている。米国・研究公正局の助成期間は2007~2009年なので、助成が切れて作業を終えたのだろう。カネに対して仕事は堅いが、タダでは働かないということだ。まっとうである。

★手法は、スキップ教授が開発したプログラム「イーティーブラスト(eTBLAST)」である(1‐2‐6‐1.盗用検出ソフト:イーティーブラスト(eTBLAST))。論文要旨の文章の類似性が異常に高い論文を「イーティーブラスト(eTBLAST)」で検出し、その後、論文全体の文章の類似性を手作業で解析している。

スキップ教授は、「デジャヴュ(Deja vu)」プロジェクトに関する英語論文をいくつか出版している。以下に全文閲覧可能な2報を示す。

Errami, M.; Sun, Z.; Long, T. C.; George, A. C.; Garner, H. R. (2009). “Deja vu: a database of highly similar citations in the scientific literature”. Nucleic Acids Research 37 (Database): D921–D924. doi:10.1093/nar/gkn546. ISSN 0305-1048.

Curioso, Walter H.; Sun, Zhaohui; Errami, Mounir; Long, Tara; Renard, Chris; Choradia, Nishant; Garner, Harold (2010). “Systematic Characterizations of Text Similarity in Full Text Biomedical Publications”. PLoS ONE 5 (9): e12704.  doi:10.1371/journal.pone.0012704. ISSN 1932-6203.

★「盗用の定義」
「デジャヴュ(Deja vu)」のトップページに、

重複出版(duplicate publications)と盗用(plagiarism)という用語にはたくさんの定義があります。また、文書(論文)の中の文章の特徴・クセは執筆者の個人的なものです。「デジャヴュ(Deja vu)」に登録した文書(論文)はすべて類似性という基準に基づき、利用者が文書(論文)どうしを素早く比較できるようにしています。この情報をどのように利用するかは、どうぞ、利用者ご自身がお決めください。

とある。

盗用(plagiarism)という用語にはたくさんの定義があります」と、誠実に書いてくれると白楽は嬉しい。「1‐2‐2.盗用の定義と説明(日本)」で書いたように、日本では、文部科学省を筆頭に、どの機関も、「盗用の定義」は一義的で、明確に決まっているかのように、議論せずに書いている。しかし、白楽は、何をもって盗用と判断するのか、長い間、疑問に感じている。それを、「デジャヴュ(Deja vu)」は冒頭から、「盗用の定義はたくさんある」と書いてあるから、やっと、状況を理解している仲間に出会えた感じだ。

なお、「デジャヴュ(Deja vu)」は慎重で、「重複出版(duplicate publications)」についても言及していて、「重複投稿(multiple submission)は、学術的には重大な違反行為だが、盗用ではない」と、「Duplicate publication – Wikipedia」を引用している。

【デジャヴュ(Deja vu)で盗用論文探る】

★「デジャヴュ(Deja vu)」のヘルプのページに、データベースを構築する「基本過程(The Basic Process)」と「データベース(The Database)」の項目がある。また、「デジャヴュ(Deja vu)」のデータの読み取り方法「高類似論文対閲覧法(The highly similar citation pair entry browser)」の項目もある。これらは全部が英語で書かれている。

英語が不自由でも、白楽のこのサイトと、あなたの勘と想像と執念で、「デジャヴュ(Deja vu)」をほぼ利用できると思う。その場合は、「ヘルプのページ」はヘルプにならないので、無視しましょう。

★「高類似/別著者」論文は253論文もある
「デジャヴュ(Deja vu)」は「盗用(plagiarism)という用語にはたくさんの定義があります」と書いているが、「デジャヴュ(Deja vu)」のサイトで「Brows」をクリックし、「Entries」をクリックすると、79,383論文対(2014年6月3日閲覧)がになって出てきた。表には、文章(テキスト)の類似度(%)などのデータがついている。

79,383論文対では多すぎるので、右カラムの「表示オプション(Display Options)」から、「高類似/別著者(Highly Similar/DA)」をクリックした。つまり、「文章の類似性が高く、しかも、対になっている論文の著者は別人」という枠である。

すると、新たな表が現れたが、「表示オプション(Display Options)」は、「全文章類似度(Full text similarity)」の「50%以上~100%以下」が自動的にチェックされていた。つまり、「デジャヴュ(Deja vu)」は、「文章の類似度が50%以上」の場合を盗用と判定していると読める。

そして、ナント、「高類似/別著者(Highly Similar/DA)」は253論文もあった。

「1‐2‐6‐1.盗用検出ソフト:イーティーブラスト(eTBLAST)」で、「イーティーブラスト(eTBLAST)」の「類似比(Ratio)」がどういう数値か、白楽は、理解できていないと書いた。「デジャヴュ(Deja vu)」の表では、「類似比(Sim. Ratio)」と「全文類似度(Full text sim.)」が並んで、数値が示されている。例えば、論文ID 501は、「類似比(Sim. Ratio)」が0.73で 「全文類似度(Full text sim.)」が96-100%とある。この表で「類似比(Sim. Ratio)」をようやく理解できると期待した。

「イーティーブラスト(eTBLAST)」では「類似比(Ratio)0.56以上の異常な類似性」と書いてあった。しかし、類似比(Sim. Ratio)」が0.48で「全文類似度(Full text sim.)」が 51-55%の論文(ID 2010)も、「高類似/別著者(Highly Similar/DA)」に入っている。「類似比(Sim. Ratio)」が同じ0.48のID 2549の論文は「全文類似度(Full text sim.)」が81-85%である。

白楽は、依然として、「類似比(Sim. Ratio)」を理解できない。考えてみると、「全文類似度(Full text sim.)」も理解できていない。

「全文類似度(Full text sim.)」は、いわば、白楽が定義した「単語流用率=元の文章中の単語が新しい文章の中で占める割合(%表示)」と同義だと思うが、同一ではない。白楽の「単語流用率」は定義からして、単一の整数値で範囲値ではない。一方、「全文類似度(Full text sim.)」は「96-100%」などと範囲値で示される。どうもよくわからない。

「デジャヴュ(Deja vu)」の「ヘルプのページ」を読んでも、「類似比(Sim. Ratio)」も「全文類似度(Full text sim.)」も理解できない。「できない」と威張るわけではないが、「できなく」ても、大体の感じはつかめるので、マーいいか。「類似比(Sim. Ratio)」と「全文類似度(Full text sim.)」は似てはいるが、別の計算値ということであきらめた。

★「高類似/別著者」論文は盗用論文か?
「高類似/別著者(Highly Similar/DA)」を「盗用と判定していると読める」と書いたが、「デジャヴュ(Deja vu)」は慎重で、以下の記述がある。

「高類似/別著者(Highly Similar/DA)」の論文は検討対象である。ただ、「高類似/別著者(Highly Similar/DA)」の新論文が旧論文の盗用かどうかの判断は、主観的になる。それで、利用者ご自身が判断するか、適切な管理機関(例えば、規範委員会、法的部署、規範研究者)が決定すべきだろう。

【日本人の盗用論文?】

★日本人の「高類似/別著者」論文の例

253論文ある「高類似/別著者」論文のうち、日本に関係している論文を調べた。検索語に「日本(japan)」を入れクリックすると、23論文がでてきた。

盗用は、後から出版された新論文が先に出版した旧論文を盗用することになる。日本人の新論文(「デジャヴュ(Deja vu)」登録番号35065)を詳しく調べよう。

関西医科大学・医学部・外科学の日本人が2005年に日本で出版した学術誌「Surg Today」の英語論文が、2001年にイタリア人が英国で出版した学術誌「Eur J Cancer」の英語論文と酷似していた。日本人の論文はイタリア人の論文を引用している。2008年2月26日に「デジャヴュ(Deja vu)」解析済で、「類似スコア(Sim. Score)」は87.27、「類似比(Sim. Ratio)」は0.81である。

「デジャヴュ(Deja vu)」登録番号35065のサイトに、「要旨」部分に関して、旧論文で使用されたのと同じ語群が青色で示されている。以下は、最初の2行が論文タイトルで、次の2行が著者名(7人)である。その後の11行が論文要旨、次いで学術誌名、最後の行が論文番号などである。

140603 dv 35065

「デジャヴュ(Deja vu)」登録番号35065の「サムネイル(thumbnail)」をクリックすると、日本人論文の「全文」が、旧論文と同じ語群・類似語群の場合、黄色(濃:同じ、薄:類似)で示されている。全体が黄色なので、論文全体が類似している。つまり、これは、どう見ても盗用だ。

140603 dv 35065-2

「デジャヴュ(Deja vu)」が伝えたためだと推定するが(2008年2月26日に解析済なので)、この論文は、2009年に取り下げられた(Notice of retraction – PubMed – NCBINotice of Retraction)。

ただ、「デジャヴュ(Deja vu)」のサイトの「全文」(上記)では、取り下げと記載されていない(作業期間が2009年までだったためでしょう)。

通常、「デジャヴュ(Deja vu)」が論文取下げの作業をすれば、以下のように、赤字で「RETRACTED」の判が押される(別の論文、「デジャヴュ(Deja vu)」登録番号27514)。
140604 dv27514

白楽のサイトは告発サイトではないので、分析をここでヤメルが、次のような点は気になる。

関西医科大学の筆頭著者は、取下げ論文の出版年と同じ2005年に博士号を取得している。博士論文には盗用はなかったのでしょうか?

【白楽の感想】

今回、デジャヴュ(Deja vu)について解読した。
①「デジャヴュ(Deja vu)」は日本ではほとんど知られていない。
②「デジャヴュ(Deja vu)」の論理性・作業過程・透明性・サイト公開はとても示唆に富んでいる。
③スキップ教授は、2009年、デジャヴュ(Deja vu)の検査作業を終えたが、再開してもらいたいものだ。
④日本でも、誰かが、日本人の論文を対象に解析したらどうだろう。内閣府さん、文部科学省さん、こういう解析に研究費を配分してね。
⑤そして、大学院生・研究者は、自分及び自分の先生・友人の論文が「デジャヴュ(Deja vu)」にリストされていないことをチェックしてね。各大学・研究機関の事務局員、助成機関事務局員も、すべきことをしてね。
試しに、東京大学つまり「tokyo univ」で検索すると、2,382論文がヒットしたけど、スゴイ数だ。この半分、イヤ、1割、おおまけで1%が盗用ってこと・・・、な、な、ないですよね。だ、だ、大丈夫ですよね・・・って、調べなければ、わかん・・・。