Wikipedia:大規模言語モデルの利用
この文書はウィキペディア日本語版の方針やガイドラインとして提案中です。内容に関してノートページで議論を行っています。 |
この文書の要旨: 大規模言語モデル(LLM)の補助を受けながらウィキペディアを編集することは全面的に非推奨であり、LLMの出力を精査せずにそのまま投稿することは禁止されています。LLMの利用によって生じるリスクを防ぐため、LLMが生成したコンテンツは徹底的に精査されなければなりません。有害的な形でLLMを繰り返し使いつづけると、妨害的編集であるとみなされます。 |
「 | 大規模言語モデルは、信憑性、理解度、範囲の全てにおいて限界があり、人間の監視が必要です。 | 」 |
—マイケル・オズボーン、オックスフォード大学機械学習教授[1] |
ウィキペディア上における大規模言語モデル(以下、LLM)の利用について示します。
LLMとは、人工ニューラルネットワークを使って文章やソースコードを生成する生成的モデルです。よく知られているものに、GPT-3、GPT-4やLLaMAなどがあります。多くのAIチャットボットや生成的AIは、LLMを利用しています。
当文書中では、「大規模言語モデル」ないし「LLM」はこの種の全てのプログラムやアプリケーションソフトウェア等を意味します。「LLMによって生成されたコンテンツ」「LLMの出力」「LLMの生成」などは、LLMが生成・出力したものを指します。文章、情報源の羅列、画像や動画など、その種類を問いません。技術の進歩によって何らかのLLMがこの文書の適用外であるという主張は、無効です。
多くの場合、LLMによって生成されたコンテンツは架空の出典を根拠とした不正確な情報を含みます。つまり、それらは、検証できない独自研究であるということです。それらのコンテンツが偏見的であったり、存命人物の名誉を毀損していたり、著作権を侵害していたりいる可能性もあります。以上の危険性を完全に理解していない編集者は、LLMの補助を得ながら編集すべきではありません。また、編集者が詳しくない分野での編集において、LLMを使うことは非推奨です。また、LLMの出力はすべての方針に沿うよう厳密に精査されなければなりません。LLMを使った編集については、投稿した利用者がすべての責任を負います。
基本的な指針
編集- LLMが生成した文章や出典を、そのままウィキペディアに投稿しないでください。LLMに参考文献を与えて生成した文章も同様です。 相当量の編集をする際にも、機械生成に頼らないような方法を模索してください。
- 自分が作成した文章をウィキペディアに投稿する前に、LLMに校正させることは問題ありません。これには、文章に対する批評や、改善方法などが含まれます。ですが、LLMの校正が誤りであるかもしれないことを心に留めておいてください。
- LLMを校閲、要約の作成や言い換え等に使うのも大丈夫ですが、文法上の誤りを見逃したり重要な情報を抜かしたりすることがあります。生成された文章はきちんと整理編集してください。なお、ある文章が宣伝的であるなど、百科事典的か否かを見定めるのに使うことは問題ありません。
- 要約欄で、LLMを利用したことを明記してください。この際、どのモデルを試用したかも明記してください。
- LLMの出力は信頼できる情報源ではありません。信頼できる情報源によって公開されている情報ではない限り、引用したり出典として使うことはできません。
- ウィキペディアは、LLMを試用する場所ではありません。
- LLMを使ってコメントしたり、他人に返信することはおやめください。
リスク
編集LLMを使ってウィキペディア上でコンテンツを作成することは、リスクを伴います。この節では、ウィキペディアにLLMの出力を使う際に注意すべきリスクを解説します。
著作権侵害
編集- 関連する方針: Wikipedia:著作権
- ヒント: どこかに掲載されているか、他の人(LLMを含む)と共同で作成した文章は、CC BY-SAの元にライセンスされたものでない限り、ウィキペディアで使うべきではありません。著作権侵害となります。
- 参考: m:Wikilegal/Copyright Analysis of ChatGPT
LLMは、著作権を侵害するコンテンツを生成することがあります[注釈 1]。生成されたコンテンツは、フリーでないものから剽窃されたものであったり、多くの場合著作権保護の対象となる二次的著作物からのものを含んでいる可能性があります。このほかにも、著作権で保護されたコンテンツをLLMが要約すると、そのコンテンツに類似しすぎている文章を生成することがあります。LLMによって生成されたコンテンツの著作権上の立ち位置は未だ不明であり、ウィキペディアで採用されているCC BY-SAとGNUのライセンスでは利用できないかもしれないことに注意が必要です。
独自研究と「幻覚」
編集- 関連する方針: Wikipedia:独自研究は載せない
- ヒント: 「疑問が提出された、もしくは疑問が提出されそうな情報には、その裏づけとなる信頼できる情報源を明記しなければなりません。信頼できる裏づけ資料が一切見つからない記述は独自研究とみなされます。あなたの編集が独自研究ではないことを証明する唯一の方法は、その情報を掲載している信頼のできる公表済みの情報源を明記することです。たとえ十分に出典が明記されていたとしても、その情報源を曲解して利用したり、その情報源によって直接的かつ明示的に支持されない観点を推し進めようとした場合には、あなたは独自研究を行っていることになります。」
LLMは時に、捉えにくい形であっても、偏見的であったり間違っている情報を含んだ回答を生成する場合があります。例えば、 割れたガラスを食べて得られる効果についての記事を書くよう要求された場合、それに応じることもあるでしょう。このような独自研究がウィキペディアに追加されることを防ぐため、LLMを使って投稿している利用者は、それを取り除くよう用心深く警戒しなければなりません。
LLMは、陰謀論、プロパガンダや架空の事物を含む数多くのデータを使ってトレーニングされているため、あたかも誤情報や偏った情報が事実であることに自信を持っているような回答をします。これは「ハルシネーション(幻覚)」と呼ばれており、ウィキペディアに掲載すべきではありません。
この現象は、あいまいな主題、複雑な質問やLLMに向いていない作業を要求された際(例: 高度の知識・分析が必要な作業)によく発生します。
出典不明・検証不可能なコンテンツ
編集- 関連する方針: Wikipedia:検証可能性
- ヒント:読者は、ウィキペディアの記事が架空や嘘を含んでいないことを確認できなければなりません。そのため、私たちがウィキペディアで提供するのは、信頼できる情報源(ソース)を参照することにより「検証できる」内容だけです。
LLMは、検証可能性や信頼できる情報源に関する方針・ガイドラインに準拠しません。LLMは、出典を明示しないか、ウィキペディアで出典として使用できない情報源を列挙します(これには、ウィキペディアを出典とすることも含まれます)。また、「幻覚」によって、存在しない情報源を作り上げたりもします。
幻覚状態で生成されたコンテンツは、独自研究かつ検証可能性を満たしていません。そもそも、存在しない情報源は見つけることが不可能だからです。
アルゴリズムバイアスと、中立的ではない観点
編集- 関連する方針: Wikipedia:中立的な観点
- ヒント: 記事の主題に関して信頼できる情報源によって公表されているすべての重要な観点を各観点の比重に応じて公平に描写し、できる限り編集上の偏向がないようにしなければなりません。
LLMは、中立的に見えるが実際にはそうではないコンテンツを生成します。存命人物の伝記に関しては、特に注意が必要です。
ボランティアの対応が追い付かない
編集- 関連する方針: Wikipedia:Bot
ウィキペディアは、新しいページやファイルの確認をボランティアに頼っています。AIによる書き込みを完全に許可すると、彼らの確認が追い付かなくなり、記事の質の悪化を招きます。
LLMを使う場合
編集LLMはあくまでも補助道具であり、人間の代わりとなることはできません。LLMを利用する場合は、本当にその道具が目的に見合っているかを気を付けて判断しなければなりません。LLMが出力した文章などを無出典で記事に書いてはいけません。LLMが生成した文章と矛盾のない、かつ信頼できる資料を探し出して、出典をつけてください。また、信頼できる情報源とLLM生成の情報が矛盾している場合は、常に信頼できる情報源が発信している情報を優先してください。
必要とされる知識と経験
編集編集者は、LLM固有の制限を理解し、ウィキペディアの方針・ガイドラインに合致するため、適切な対応をとることが求められます。LLMを利用する編集者は、同様のタスクを、LLMの補助を受けずに行った豊富な経験を積んでいるべきです[注釈 2]。
編集者は、LLMが虚偽の情報を出力した際にはそれに気付けるレベルの知識を持っているべきです。LLMに何らかの文章を言い換えさせる場合は、内容が本当に変わっていないかを見極められる程度の知識は必要です。
LLMを使う編集者は、ウィキペディアの運用だけでなく、LLMの正しい利用の経験も積んでいるべきです。
LLMを使わなければ問題ない編集を行っているのに、LLMの補助を受けて不適切な編集を繰り返し行う利用者は、善意であったとしても能力不足であるとされます。このような場合には、LLMを使った編集を禁止されるか、特定の名前空間への編集をブロックされます。
記事の執筆
編集LLMは原稿の記事を整理や加筆したり、新しい記事を作成したり、執筆のアイデアを生成できるかもしれません。全ての編集は方針・ガイドラインを厳守しなければならず、編集者はLLMが出力する情報源を確認し、文章の検証可能性、中立性、独自研究の有無、著作権の問題がないことなどを確認する必要があります。中立的な観点を守るため、無関係な事実や少数意見に不当な重み付けを与えるべきではありません。全ての情報源の著作権のライセンスを尊重してください。出典が生成された場合は、提示されている出典が実在し、信頼できることを確認しなければなりません。要約欄で、LLMを利用したことを明記してください。この際、どのモデルを使用したかも明記してください。
建設的に
編集先述の通り、ウィキペディアは新規記事の確認をボランティアに頼っています。これは時間のかかる作業です。記事を作成する際は、他人が「雑草取り」をしなくてもよいよう内容に注意を払うことが求められます。LLMを使って編集する者は、編集内容が百科事典の作成に寄与しており、他者に大きな負担をかけないように人一倍心掛けるよう求められます。
ボットによる編集、あるいはそれに類する編集にLLMを利用することはできません。LLMを使いながら短期間に大量の編集を行うと、利用者が厳密な精査を行っていないと見なされ、必要な責任を果たしていないと受け取られてもおかしくありません。
ウィキペディアは、LLMをテストする場所ではないため、ウィキペディア上で何らかの実験行為を行うことはできません。ウィキペディアの編集は科学ではなく、百科事典の進展に貢献するものであるべきです。当該利用者は、利用者名前空間のみであってもLLMを利用した編集についてはすべての責任を負います。
コメントを執筆する目的でLLMを使ってはなりません。利用者間でのコミュニケーションは合意形成には必須であり、日本語版で活動する利用者は、他の利用者と対話が可能であることが推定されます。あなたの考え、あなたの表現方法を機械のものに置き換えることは、対話ではなく、対話ができないことの言い訳にはなりません。
LLMを非建設的に繰り返し利用する利用者は、妨害的編集を行っているとしてブロックされる可能性があります。
LLM生成が疑われるコンテンツへの対処法
編集可視化
編集LLMによって生成された可能性があり、その内容がウィキペディアの方針にそぐわないと判断した編集者は、問題を自身で修正できないと感じた場合には記事の冒頭に{{AI生成|date=2024年11月}}
を貼り付け、読者に注意を促すことができます。ただし、存命人物の伝記については、テンプレートを貼らずに当該記述を直ちに除去してください。ノートでの合意形成を待つ必要はありませんが、編集後にノートで編集意図を説明すると良いかもしれません。
OpenAIが提供しているAI Classifierを、LLM生成か否かの判断の参考にすることができます。利用する際は、ページ中部の「Try the classifier」ボタンを押し、必要な手続きを行ってください。
除去と削除
編集LLMによって生成されたとみられるコンテンツは、事実であることが証明されない限り、捏造された情報として扱われます。AIモデルは本、論文やウェブページなどの出典を作り上げることが知られているため、まずは出典にある情報源が実在するかを確かめ、その後本当に情報源の記載に沿っているかを検証する必要があります。以上の証明が不可能である場合は、対話の結果によってLLM生成のコンテンツは除去されます。
もし、LLM生成の除去によって記事全体が空白となるのなら、削除依頼を提出してください[注釈 3]。削除の要件はWikipedia:削除の方針の「ケース Z: その他の問題がある場合」になります。また、記事全体が事実無根か認められない情報源に頼っているならば、全般3(「荒らしに分類される投稿」)での即時削除が妥当かもしれません。
脚注
編集注釈
編集出典
編集- ^ “驚異的なAIの進化をスキル再考の好機に マイケル・オズボーン教授”. 日経ビジネス. 日経BP. 2023年5月27日閲覧。
- ^ Smith, Adam (2023年1月25日). “What is ChatGPT? And will it steal our jobs?”. www.context.news. Thomson Reuters Foundation. 2023年1月27日閲覧。