7-38.盗用ソフトは不完全なのに1700億円

2019年5月15日掲載

白楽の意図:盗用検出ソフト会社の「Turnitin(ターンイットイン)」社が約1700億円で買収されると聞いて、そんなに盗用検出ソフトの需要が高く、信頼度は高いのかと疑問に思っていた。すると、すかさず、この分野の世界第一人者・デボラ・ヴィーバー=ヴルフ(Debora Weber-Wulff)が盗用検出ソフトはそれほど完ぺきではありませんと指摘してくれ納得。彼女の「2019年3月のNature」論文を読んだので、紹介しよう。

ーーーーーーー
目次(クリックすると内部リンク先に飛びます)
1.論文概要
2.書誌情報と著者
3.日本語の予備解説
4.論文内容
5.関連情報
6.白楽の感想
7.コメント
ーーーーーーー

【注意】「論文を読んで」は、全文翻訳ではありません。ポイントのみの紹介で、白楽の色に染め直してあります。

●1.【論文概要】

論文に概要がないので、省略。

●2.【書誌情報と著者】

★書誌情報

★著者

  • 第1著者:デボラ・ヴィーバー=ヴルフ(Debora Weber-Wulff)
  • 紹介:①:Prof. Dr. Debora Weber-Wulff、②:Debora Weber-Wulff – Wikipedia
  • 写真: http://gewissensbits.gi.de/debora-weber-wulff/
  • 履歴:
  • 国:ドイツ
  • 生年月日: 1957年5月11日、米国のペンシルベニア州生まれ。現在の年齢:66 歳
  • 学歴:米国のカリフォルニア大学サンディエゴ校で学士号(応用物理学)を取得
  • 分野:メディア情報学
  • 論文出版時の所属・地位:ベルリン技術経済大学・教授:Professor of media and computing at the HTW Berlin − University of Applied Sciences..

ベルリン技術経済大学(HTW Berlin − University of Applied Sciences)。https://www.htw-berlin.de/en/

●3.【日本語の予備解説】

★20xx年x月x日:アシストマイクロ社:「Turnitin」~学生レポートや論文の不正なコピペをチェック&正しい文章作成マナーを教育するツール

注意:この文章は「Turnitin(ターンイットイン)」社の盗用検出ソフト「Turnitin(ターンイットイン)」を売る日本の会社の文章です。製品名と会社名が同じでややこしいですね。白楽は宣伝のつもりはありません。

出典 → ココ、(保存版

インターネットで無数の情報を簡単に参照して利用できる現在、いわゆる“コピペ論文”に表されるような、既存情報の不正な引用や盗用が問題になっています。なかには正しい引用方法や参考文献の表示方法を知らず、不正であるという意識のないまま、他者の文章を借りてきてレポートや論文を作成してしまう学生も存在し、適切な指導がますます重要になっていると言えます。

「Turnitin」(ターンイットイン)は、学生から提出されるレポートや論文の内容を、独自のデータベースと照合し、“既存情報と、どの文章がどれだけ似ているか”という類似性をすばやく可視化してくれるオンラインツールです。

●4.【論文内容】

《1》盗用検出ソフト会社が17億米ドルで買収

ウェバー=ウルフ論文を紹介する前に、盗用検出ソフトの会社が17億米ドルで買収される話を先にしておこう。

2019年3月6日、メディア・通信企業であるアドバンス社(Advance)が、学生の盗用を阻止す盗用検出ソフト会社・「Turnitin(ターンイットイン)」を購入するために17億米ドル、正確には17億3500万ドル(約1,735億円)支払うと発表した。
→ 2019年3月6日のベス・マクマートリー(Beth McMurtrie)記者の「Chronicle of Higher Education」記事:Why a Plagiarism-Detection Company Is Now a Billion-Dollar Business – The Chronicle of Higher Education
→ アドバンス社(Advance)のサイト:Advance to Acquire Turnitin, Leading Provider of Academic Integrity, Grading, and Feedback Solutions | Turnitin
→ 「Turnitin(ターンイットイン)」社のサイト:About Us | Turnitin

《2》ウェバー=ウルフ論文

先月、盗用検出ソフトウェア「Turnitin(ターンイットイン)」を提供している会社が、2019年後半に17億米ドル(約1,700億円)で買収されると発表した。

「Turnitin(ターンイットイン)」社は、「ブラックボックス」アルゴリズムを適用して、あるテキストが他のテキストとどの程度一致しているかを示すソフトを提供する会社群の1社である。

このシステムを使い、数件の盗用が発覚できたので、このシステムはすべての盗用を正しく検出できるという誤った見方ができてしまった。

私の経験を述べると以下のようだ。

私は過去15年間、盗用検出ソフトをテストしてきました。 結果はしばしば解釈が難しく、ナビゲートが難しく、時には間違っていることがよくありました。多くのシステムでは、一般的なフレーズ、大学・研究機関の長い名前、または文献情報でさえも、誤検知が報告されています。

ソフトウェアはまた、偽陰性を生み出します。 盗用されたテキストのソースがデジタル化されていない、スペルミスが含まれている、またはその他の方法でソフトウェアシステムで利用できない場合、システムは盗用を見つけられない可能性があります。 資料が翻訳されたり、複数の情報源から取得されたりすると、多くの場合、盗用は検出されません。

検出度は、使用されるアルゴリズムと比較に利用できるテキストの両方に依存します。 無作為標本をチェックするシステムでは、テストを数分後にし直すと、おなじ文章なのに異なる結果が生じる可能性があります。 私はまた、さまざまな盗用検出ソフトを使って同じテキストを調べた時、「完全盗用」、「部分盗用」、「盗用なし」とランク付けされた経験があります。

それでも、多くの人は、このシステムが示す数値(「オリジナリティ・スコア」、「非ユニーク・コンテンツ」、「盗用レベル(PlagLevel)」など)を、通常、額面通りに受けとめます。 利用可能な多数のシステムがあるのに、セカンドオピニオンを探すことをめったにしません。

ソフトウェアが作ったレポートを実際に読めば、盗用としてマークされた部分の内容を明らかにすることができます。しかし、時間に追われている編集者、教授、管理者は、ソフトウェアのレポートを読むことはなく、示された単純な数値に焦点を合わせて、研究費や奨学金採用の重要な決断をしています。

ソフトウェアが低い数値をだした場合、文章スタイルの変更、つづりの誤り、フォントの変更、下線付きの単語など、盗用の明白な兆候を見逃している可能性がありまう。そう、実は、私(ウェバー=ウルフ)はこのようなケースを数十の博士論文および科学論文で見てきました。

ソフトウェアが高い数値を報告した場合、編集者または教授は「不当にも」、明白な盗用と見なす可能性があります。大学はソフトウェアが評価した数値の「許容できる」レベルをさまざまな学位レベルで定義しています。 教員はソフトウェアが「悪い」論文にフラグを立てることを望んでいるので、安易に盗用と見なす傾向が高いのです。そして、ソフトウェアのレポートを読みません。

一方、学生は、偶然にでも盗用と判定されるのを恐れ、同じ盗用検出システムを使って、結果的に文章の美しさが犠牲にしてでも、同義語で単語を置き換え、盗用度の数値が良く見えるまで文字を並べ替えます。

ジャーナル編集者は数字を松葉杖として使用し、完全に拒否できる論文をすばやく除外します。また、盗用度の数値をパスした原稿は、査読者が承認すれば盗用に心配せずに出版できます。 一部の雑誌や会議では、オンラインで盗用しきい値を公開しています。

盗用は害を及ぼします。それらは学者の真の学術成果を歪め、文献をナビゲートするのをさらに難しくします。 それは許容できませんが、盗用検出ソフトが示した危険な数字は解決策ではありません。

私は長年、問題のある出版物について学術誌編集者と連絡を取り合ってきました。 重複出版物は、本質的に同じテキストがあり(場合によるとデータも同じ)、少なくとも一人の著者を共有する出版物です。場合によっては、タイトルと要約が異なり、著者は追加、削除、またはシャッフルされています。被盗用論文には共通の著者はいません。

私が連絡を取った編集者の中には、本当に驚いた人もいました。 彼らは盗用検出ソフトウェアに信頼しきっていました。盗用検出ソフトウェアを使用しているので、彼らは盗用かどうかを明確にできることを期待しています。しかし、盗用は多くの理由で検出が回避されています。 博士論文などの情報源は、リポジトリまたはペイウォール(有料購読者しかアクセスできないコンテンツ)の背後に格納されている可能性があるため、比較はできません。 賢く(あるいはアルゴリズム的に)書き換えられたテキストもまた盗用しきい値を下回ります。

まもなく香港で開催される、2019年6月の研究公正世界会議(World Conference on Research Integrity)に提出された抄録が盗用検出ソフトウェアによって分析され、テキストの重複しきい値は30%に設定された。そして、実際には、449抄録のうち38抄録がこのレベルより上の重複度だった。

調査後、15件は盗用であるとみなされ、23件は著者が以前に公開した研究からのテキストを含んでいました。これらの 抄録のほとんどは発表が拒否されました。 著者が自部自身のテキストを再使用したいくつかの口頭発表は、ポスターに降格されました。

このような大量の盗用と複製が、特に研究公正に関する世界会議の発表者の抄録に見つかったことは衝撃的です。 そして、この数値は過小評価です。精査すれば、おそらく、もっと盗用は多かったでしょう。

ソフトウェアは盗用を判断できません。 テキストが一致している場合があることを示すだけです。

このシステムは、問題を指摘するのには役立ちますが、オリジナリティと盗用を区別するには役立ちません。その決断は人によってなされなければなりません。盗用を見つけるための最も重要な方法は、文章を読み、矛盾がないかどうか参考文献を調べることです。

適当な段落または特に文章が上手な部分の3-5単語のフレーズを使って、インターネットの検索エンジンにかけるとコピー者を発見できます。逆に、文章を台無しにしているような奇妙に思える文章の3-5単語のフレーズを使って、インターネットの検索エンジンにかけても、コピー者を発見できる場合があります。オンライン検索では役に立たない場合もあり、2つか3つのシステムを使いますが、最終的には、問題視している論文を読むことが最善の方法です。その時、論文を額面通りに読まないことです。

学問的誠実さは社会問題です。適正評価(デュー・デリジェンス)を未知のアルゴリズムに任せることはできません。研究者が論文の公正を維持するために熱心に働かなければ、学問の誠実さを保てません。

●5.【関連情報】

①【動画1】
講演動画:「デボラ・ヴィーバー=ヴルフ:多くの明るさとさらに多くの影:博士論文の盗用(Debora Weber Wulff: Viel Licht und noch mehr Schatten: Plagiat in Dissertationen )- YouTube」(ドイツ語)47分25秒。
FIfFKon – Mitschnitteが2016/11/27 に公開

② デボラ・ヴィーバー=ヴルフ(Debora Weber-Wulff)の著書。

論文の盗用に関する本
『False Feathers: A Perspective on Academic Plagiarism 2014th Edition』
Hardcover: 200 pages
Publisher: Springer; 2014 edition (February 25, 2014)
Language: English
ISBN-10: 3642399606
ISBN-13: 978-3642399602
出典:https://www.amazon.com/False-Feathers-Perspective-Academic-Plagiarism/dp/3642399606/ref=sr_1_6?keywords=False+Feathers&qid=1556848109&s=books&sr=1-6

●6.【白楽の感想】

《1》市場

白楽は盗用検出ソフトの中心的な技術である「ブラックボックス」アルゴリズムを理解できていない。それで、文章の同一性をどのように検出しているのか、理論的には理解できていない。自分でソフトの開発もできない。

それでも、デボラ・ヴィーバー=ヴルフ(Debora Weber-Wulff)が盗用検出ソフトはそれほど完ぺきではありませんと指摘したのを、納得した自分がいる。一方、いずれ、開発が進み、もっともっと完成度が上がるのか、それとも現状がほぼ最終技術なのか、判断できない自分がいる。

ただ、世の中には、「Turnitin(ターンイットイン)」以外にもたくさんの盗用検出ソフトが出回っていて、この市場は数千億円の市場なんだと認識している。

多くの大学は不完全な盗用検出ソフトをダマされて購入し、検査の結果の盗用度の数値に安心しているだけなのだろうか?

不完全な盗用検出ソフトに巨額のお金を払わないで、大学にネカト専門家を雇用した方が賢い気もする。そうすれば、盗用だけでなく、ねつ造・改ざん・セク・アカハラを減らし健全な教育・研究環境を構築できるでしょう。

ーーーーーー
日本がもっと豊かに、そして研究界はもっと公正になって欲しい(富国公正)。正直者が得する社会に!
ーーーーーー
ブログランキング参加しています。
1日1回、押してネ。↓

ーーーーーー
★記事中の画像は、出典を記載していない場合も白楽の作品ではありません。

http://digitale-wissenschaft.de/podcasts/folge-3-debora-weber-wulff-htw-berlin/

●7.【コメント】

注意:お名前は記入されたまま表示されます。

Subscribe
更新通知を受け取る »
guest
0 コメント
Inline Feedbacks
View all comments