2‐4‐1.盗用検出ソフト:イーティーブラスト(eTBLAST):無料

【イーティーブラスト(eTBLAST)の概略】

最初に白楽評価を示す。「5(スバラシイ)」。

特徴

  • 無料
  • 英語
  • 文章(テキスト、text):50~500単語が最適。1単語~1論文も可能
  • 入力:コピぺまたはテキストファイル
  • 既存のデータベースと比較する

2006年9月5日。ハロルド・”スキップ”・ガーナ― (Harold “Skip” Garner)が米国・テキサス大学サウスウェスタン・メディカル・センター在職時、文章(テキスト、text)の類似性を調べるソフト「イーティーブラスト(eTBLAST)」を完成した。現在、「eTBLAST 3.0」を誰でも無料で使用できる。

スキップは、現在、米国・ヴァージニア工科大学・教授で、ゲノム生物情報学の専門家である。

《動画》英語 ハロルド・”スキップ”・ガーナ― 博士にインタビュー「Dr. Harold “Skip” Garner Interview @SC11 – YouTube」
2012/01/03にJanet Bartlesonがアップロード(2014年6月2日閲覧)

「イーティーブラスト(eTBLAST)」を盗用検出ソフトとしたが、文章を入力するとその文章に類似の文献がリストされるので以下にも応用できる。
①その分野の専門家を探す
②文献を探す
③投稿したい学術誌を探す

もちろん、盗用検出ソフトとしても使用できる。自分の文章がすでに発表された文書と類似かどうかも検出できる。

「イーティーブラスト(eTBLAST)」は、BLASTに「eT」をつけた造語で、「eT」の「T」は、文章(テキスト、text)の「T」である。BLASTは以下の通りだ。

BLAST (Basic Local Alignment Search Tool) は、バイオインフォマティクスでDNAの塩基配列あるいはタンパク質のアミノ酸配列のシーケンスアライメントを行うためのアルゴリズムをいい、またそのアルゴリズムを実装したプログラムをいう。 BLAST を使って、手元にあるシーケンスで、シーケンスデータベースもしくはライブラリに対して検索することにより、ある閾値以上のスコアで類似するシーケンス群を発見することができる。 BLAST は、バイオインフォマティクスで最も広く使われているプログラムの一つである。(BLAST – Wikipedia、2014年6月2日閲覧)

論文は「Lewis J1, Ossowski S, Hicks J, Errami M, Garner HR:Text similarity: an alternative way to search MEDLINE、Bioinformatics. 2006 Sep 15;22(18):2298-304. Epub 2006 Aug 22.」である。

上記論文の表題に示されているように、最初は、生命科学の論文データベース「メドライン(MEDLINE)」中にある文章との類似性を調べることを主眼とした。しかし、その後発展し、文章データベースとして、現在(2014年6月2日)、メドライン(MEDLINE)だけでなく、ウィキペディア(WikiPedia text)、クリスプ(CRISP、NIH研究費申請、現・RePORTer)、臨床試験(Clinical trial search)、パブメド・セントラル(PubMed Central:PMC)など10数個のデータベースで検索可能である。

《動画》英語 スキップ教授のイーティーブラスト(eTBLAST)の説明「VBI.etblast.intro」
2010/06/24 にBill Kovarikがアップロード(2014年6月2日閲覧)
ハロルド・”スキップ”・ガーナ― (Harold “Skip” Garner)の説明

【イーティーブラスト(eTBLAST)の試用】

「イーティーブラスト(eTBLAST)」を試しに使用した。使い方の説明は「eTBLAST Quick Start Guide」(英語)にある。

「イーティーブラスト(eTBLAST)」の分野は基本的に生命科学なので、東京大学医学部長の英語論文をサンプルに使用した。現在、東京大学医学部長は宮園浩平(Kohei Miyazono、2011年4月1日~)である。宮園浩平が第一著者の英語論文の内、ウェブで全文を無料閲覧できる最も古い論文は以下の1987年の論文である。

Miyazono K, Okabe T, Urabe A, Takaku F, Heldin CH.:Purification and properties of an endothelial cell growth factor from human platelets、.J Biol Chem. 1987 Mar 25;262(9):4098-103. (全文

要旨は以下の文章で、147単語である。

An endothelial cell growth factor has been purified about 1,000,000-fold to homogeneity from human platelets by a seven-step procedure. The purified product has an apparent Mr on sodium dodecyl sulfate-polyacrylamide gels of 45,000. The mobility in sodium dodecyl sulfate gel electrophoresis was similar in the presence or absence of reducing agents, indicating that the factor consists of a single polypeptide chain. Maximal stimulation by the purified protein was achieved at a concentration of about 20 ng/ml (440 pM). Heparin did not potentiate the activity, nor did the factor bind to heparin immobilized on Sepharose. The purified factor was heat- and acid-labile; it was active on porcine and human endothelial cells, but not on human foreskin fibroblasts. Chromatofocusing revealed that the pI of the factor was 4.6. The structural and functional characteristics of the platelet-derived endothelial cell growth factor are distinct from previously characterized endothelial cell mitogens with affinities for heparin.

「イーティーブラスト(eTBLAST)」に上記の文章を入れ、論文データベースを「MEDLINE」に指定し、検索すると10秒ほどで最も類似性の高い100論文が表示された。以下に上から3論文を示す。

画面をクリックすると別窓で拡大する
140602 eTBLASR1JPG

1番は元論文で、スコア(Score):548.97、類似比(Ratio):1.08

この下に線が引かれ、「ここから上は類似比(Ratio)が0.56以上で、類似性が異常に高い」とある。

2番目は、1994年の「PMID: 7515132」論文で、スコア(Score):179.51、類似比(Ratio):0.35。

3番目は、1989年の「PMID: 2735925」論文で、スコア(Score):161.92、類似比(Ratio):0.32。

以下100番目まで並び、類似比(Ratio)がドンドン下がる。

ここで、盗用かどうかの判定に重要なのは、「類似比(Ratio)」である。というのは、類似比(Ratio)0.56以上は、類似性が異常に高いと判定されているからだ。

類似比(Ratio)とはどういうものか? 0.56を異常値の線引きに使用している根拠は? この肝心なことがわからない。同じ論文は類似比(Ratio)が1.08なので、「類似比(Ratio)」は1.00を越える値もある。ナンカわかりません。ゴメン。

そして、スコア(Score)とはどういうものか? これもわからない。ゴメン。

「類似比(Ratio)」「スコア(Score)」とはどういうものかがわからないが、ただ、「類似性が異常に高い」論文は検出できる。無料、早い、豊富なデータベースなので、とても優秀なツールである。