Wikipedia:井戸端/subj/ウィキデータを活用した索引の整備の実現可能性について

ウィキデータを活用した索引の整備の実現可能性について

編集

本来はWikipedia‐ノート:索引に書き込むべき話題かもしれませんが、現段階では未だ個人の思いつき程度の話である事と、実現可能性が定かでないので、こちらに投稿させていただきます。要点のみ記します。

膨大な項目を順序立てて収録するWikipedia:索引の整備作業の自動化あるいは半自動化は、実現すれば編集者の負担が大幅に軽減されるので、基本的には歓迎されることではないかと考えています。この自動化を目指して、これまでにプロジェクト:索引(2005年9月より)やWikipedia:井戸端/subj/索引の存在の意味ありますか?(2012年8月)で提案&試行されてきましたが、いずれの方法も、項目を配列する際の順序を決定づける「読み」の精度や正確さなどの問題があり、導入には至っていないのが現状です。

そこで、素人なりに思いついたのが、全ての記事に固有の「読み仮名」を振ってしまえ!というアイデアです。これは、2012年10月に発足したウィキデータの読み仮名 (P1814)というプロパティを利用して、ウィキペディアの記事と読み仮名を紐付けする方法です。この「読み仮名」プロパティのデータをBotが読み取って、項目名(記事名)とともに適切に書き出すことができれば、半自動的に索引が作れるんじゃないかという楽観的な発想です。そのためには、技術的にクリアすべき課題がいくつか考えられますが、技術屋でない私には実現可能性が推し量りかねるので、ここで皆様にお尋ねします。以下、Bot作業依頼等を想定した質問です。

  1. ウィキデータの「読み仮名」と項目名を抽出して、ウィキペディアの索引ページに五十音順(not 文字コード順)で書き出すことは技術的に可能か。
  2. 読み方が複数ある項目に対して、複数の「読み仮名」を指定して、索引ページの各々の位置に配列することは可能か。
  3. 現行のWikipedia:索引のように、索引が複数のページに分割されていても対応できるか。

ほかにも、ウィキデータに登録されることのないリダイレクト項目を索引に載せる上手い方法とか、曖昧さ回避の括弧付き記事を順序よく配列する方法はないかとか、そもそも読み方が定まらない項目の扱いはどうするのか等々、索引の整備の自動化に向けては課題が山積していますが、このアイデア自体の技術的な実現可能性を探る方を優先しますので、ここでは割愛します。以上、急ぎませんので、お時間に余裕のあるときに回答していただけたら幸いです。--Doraemonplus会話2017年12月18日 (月) 14:34 (UTC)[返信]

d:Property:P1814 の値が正しいという仮定であれば技術的には誰かが頑張ればできなくはないと思います。正しくなかった場合や後日修正された場合はどうするのかとか、起動するトリガーは何にするのか(いちいちフルクロールを毎回かけるのか、項目変更を常時監視して能動的にやるのか)とか、誰がそれを頑張るのかは知りませんが…。--rxy会話2017年12月19日 (火) 04:04 (UTC)[返信]
  そうですね。結局のところ、P1814の値の入力は補助的にBotを使用することはあっても、ほとんどは多くの人手が必要な作業になるでしょうから、予期しないヒューマンエラーが発生するおそれはありますね。最初の登録はBotを使えば簡単にできると思いますが、データに誤り等が発見され「後日修正された場合」の対応が最初の大きな課題ですね。何か対策は考えられますかね?あとは、「誰がそれを…」に暗示されていますように、JAWPの成長が鈍化している昨今、このプロジェクトにどれくらいの賛同者・協力者が得られるかに全てが懸かっていますね。中心となるべきプロジェクト:索引も現在はほぼ休眠状態ですし。プログラミングのいろはを知らない私にできる協力は、せいぜいP1814の値をせっせと入力して回ることと、Botで自動化できない部分の手直しくらいです。それも、(全体から見れば)おそらく微量の。でも、ウィキデータ自体もまだまだ新しいプロジェクトで可能性は無限大ですし、JAWPの草創期のように「夢」は大いに抱かせてくれていると思うんですよ。これでもし賛同者が集まらなかったら本当に惜しいです。--Doraemonplus会話2017年12月19日 (火) 09:19 (UTC)[返信]

P1814を抽出すること自体はクエリを走らせるだけでできます。以下のリンク先の左下にある再生ボタンみたいなやつをクリックして試してください。なお、jawpへのサイトリンクもリクエストするようにした途端応答時間が急激に長くなったので、表示数を1000に制限しています。サイトリンクのリクエスト無しならば表示数無制限でも数秒で応答してくれるのですが…。

得られたデータを利用して索引ページに書き出すこともさほど難しくはないでしょう。

ただ、P1814を利用して直接索引に出力するとすれば、上で挙げたBのような使い方をしているものに限られるでしょう。Aのような使い方の場合、どの呼称を仮名表記にしたものなのか簡単には分かりません(jawpの記事冒頭の定義文にある読み仮名を転記した可能性が一番高いとは思いますが、それが現在の記事名と合致していないことも多々あるでしょう)。d:Q113738642017年9月9日 (土) 04:54 (UTC)の版で言うならば、小室亜沙というリダイレクトの読みが「こむろ あさ」というのはすぐ分かりますが、「あさ」が「亜沙」の読みなのか、「上野アサ」の読みなのか、ウィキデータの情報だけでは判断できないということです。このような場合に索引への出力は諦めるとして、その代わりに利用者:Burthsceh/索引にない標準名前空間のページのようなページを作り、そこに読み仮名の候補としてP1814の値を挙げるといったことならやってもいいでしょう。

あと、Aのような使い方をしているものに関してはd:Q264522のように、Botが別表記と読み仮名を取り違えて移入したと思われるものも多々あるので注意してください。

細かい懸念は他にもありますが、結論を言うと「索引の整備に満足に使えるほどウィキデータのP1814が整備されていない」となります。以下は余談になりますが、ウィキデータを活用するという発想はとても良いと思います。Wikipedia:Bot作業依頼/過去ログ/2017年9月#各国の俳優の男女別カテゴリ付け替えのような依頼はウィキデータ無しでは極めて難しかったでしょう。私自身P1814の作成提案が出されていることを知ったとき、「夢」を抱いたものです。「読み仮名は日本語で書かれた辞書や百科事典において欠かせない重要な情報。このプロパティが作成されれば、ウィキデータでも人物や地名などのあらゆる項目に読み仮名を記載できるようになるんだ」と。--本日晴天会話2017年12月19日 (火) 12:32 (UTC)[返信]

  コメントまずウィキデータ側の読み仮名のルール整備が必要なようですね。日本語の漢字名称には修飾子に使って読み仮名を示すことや使うプロパティの指定、それ以外の項目もすべてひらがなでP1814をつけるとか。日本語のラベルがひらがな・カタカナの項目には必要ないと思っていましたが、そういう目的だとすべてにつける必要がありそうですね。--Afaz会話2017年12月20日 (水) 02:39 (UTC)[返信]

  ウィキデータ上の「読み仮名」の抽出自体は、本日晴天さんにご教示いただいた方法で比較的容易に可能なことが実証されました。けれども、Afazさんのご意見もあわせて考えると、どうやらjawpの索引整備自動化よりも先に、ウィキデータのP1814の位置付けと運用ルールを明確にしておく必要がありそうなことを理解しました。このプロパティの作成が提案された経緯からして、主に漢字で表記された日本語の人名や地名の読み方を示すことを目標にしていたらしく、元から全部ひらがな・カタカナで表記されている項目にまで「読み仮名」を入力するような使途は想定されていなかったのかな、と思います(実際にはd:Q51752のような例も見られますが)。「どの呼称に対する仮名表記か」も重要なポイントで、索引整備の観点では、ウィキデータの日本語ラベルか、ウィキデータに登録されているjawpの記事名か、のいずれかが対象となるでしょう。仮にP1814をjawpの索引整備に応用するとなると、jawpに記事が存在する全ての項目にP1814を入力することが必須となりますが、ウィキデータ側でそのような運用ルールが認められるかどうかは審議を要するでしょう。以上のことを踏まえると、ウィキデータを活用したjawpの索引整備プロジェクトの具体化は、ウィキデータ側のP1814の運用が安定するまで一旦お預けとなりますかね。--Doraemonplus会話2017年12月20日 (水) 09:41 (UTC)[返信]

  コメント ひょっとして、ひらがな・カタカナのラベルがついた項目にまでP1814の値を入力するのは、プロパティの目的外利用にあたるのでしょうか。また、jawpの総索引の読み仮名としてP1814の値をそのまま使うには、(サイトリンクのエントリとは別の形で)jawpの記事名とその読み仮名を明示的に対にしておく必要があるように思えるのですが、ウィキデータにそれを可能にする術はあるのでしょうか。最後に、索引整備自動化への活用を抜きに考えても、P1814の解説が充実するに越したことはないので、d:Property_talk:P1814#Discussionあたりで討議し、使用法の目安(プロパティ制約とか?)をご提示いただければ、後に続く利用者としても幸甚です。--Doraemonplus会話2017年12月22日 (金) 14:46 (UTC)[返信]

  d:Property_talk:P1814#How do you give a reading in kana to items?にて、私が想定している使用法の目安を提示しました。使用法について合意が得られ、ガイドラインが制定された場合、その周知とP1814の利用促進のためにWikiProjectを立ち上げたいところですね。--本日晴天会話2017年12月30日 (土) 05:27 (UTC)[返信]

  コメント そもそも、ひらがな・カタカナだけの項目なら、P1814がなくてもbot処理できるでしょう。記事名のデータベースはあるので、そこから、ひらがな・カタカナだけの記事はそのまま索引に入れてくだけで済む話です。プログラムで入れるべき位置が適切に特定できるかどうかは検討が必要ですが。--翼のない堕天使会話2017年12月22日 (金) 15:08 (UTC)[返信]

  なるほど。それならば、やはり、ひらがな・カタカナだけの項目にはP1814を使用しない方がよさそうですね。五十音索引に配列する上では、特に中黒などの記号の処理が気になるところではありますが。--Doraemonplus会話2017年12月23日 (土) 03:21 (UTC)[返信]