Wikipedia:井戸端/subj/コンテンツ翻訳における自動翻訳機能について

コンテンツ翻訳における自動翻訳機能について

編集

先日この井戸端で、5月25日に行われたウィキメディア財団「運動戦略と組織統治チーム」責任者キム・ジルさんとのオンライン・ミーティングの「議事の要旨、補足作成の報告をさせてもらいましたが、そのなかでキムさん主導で開発した(キムさんのバックグランドはITデベロッパー)多言語話者間での意思疎通を目的としたウィキメディア財団の新しいプラットフォーム「運動戦略フォーラム」が紹介されました。

そのフォーラムでの会話にはGoogleの自動翻訳機能が使われているとのことでしたので、自分は率直に日本語版の編集者の間には根強いコンテンツ翻訳における自動翻訳に対する不信感があり、やはり同様に自動翻訳を使用しているという「運動戦略フォーラム」を利用するには抵抗があるのではないかと述べさせてもらいました。

というのも、自分がウィキペディアを始めてからの短い期間の間に井戸端などでコンテンツ翻訳における自動翻訳機能の質について言及する投稿を何度も拝見していたのと、その議論には自分は参加はしていませんが、自動翻訳を使用したと思われるあまりに意味が通らない記事の削除依頼を先日ちょうど自分自身で出していたという経緯があったからです(その記事は自動翻訳の質以外にも著作権や履歴継承の問題点がありましたが)。

「運動戦略フォーラム」を利用しない理由は他にもあるのでしょうが、(他の言語版での疑義は知っていたが)日本語版の利用者の間でもコンテンツ翻訳における自動翻訳機能に対して疑義があがっていたことは財団側にしてみれば寝耳に水だったようで、驚いて何が問題なのか話が聞きたいとのことでした。なおこれはフォーラムにおける自動翻訳利用の課題とは別問題です(記事作成で要される自動翻訳の質レベルと、フォーラムで求められる自動翻訳の質レベルは違うので)。

そこで、自分は一応課題点は認識しているが、その論議に参加していないので、実際参加している方々を代表して意見を述べる立場ではないし、時期的に当事者の方々が今財団と対話をするタイミングであるのかわからないので、実際議論をされている当事者の方々がどうしたいのか聞いてみますと返事をしました。

現在財団から当事者の方からお話をお聞する場合の連絡方法として提案されたのは以下の通りです。

  1. 議論の参加者さんの間で一人か二人の代表者を決めてもらい、その代表者が一番良い方法、メールなりメタやメディア・ウィキのトーク・ページなり、で財団担当者と連絡を取り合う。
  2. 日本語版ウィキペディアに専用ページを作り、そこに財団担当者に巡回に訪れてもらい課題を提示する。
  3. 「運動戦略フォーラム」においてコンテンツ翻訳における自動翻訳機能の課題専用のスレッドを立ち上げて、そこで投稿。
  4. それ以外の方法(日本語版の編集者の方々にとって最適な方法)。

またそれ以外に、これは財団側から提示された案ではありませんが、

5. 今は財団と対話をするタイミングが最適でないので今回はパスする。

という選択もあります。

いかがでしょう?財団担当者にコンテンツ翻訳における自動翻訳機能の日本語版での課題を提示する意思はありますか?時期的にもどうですか?自分が差し出がましい意見をしてしまったために、もし議論参加者の皆さんが今財団と連絡を取りたい時期ではないというなら、前もってお詫びいたしますし、責任を持って財団側に説明します。--RottenApple777会話) 2022年6月3日 (金) 15:29 (UTC)修正--RottenApple777会話2022年6月3日 (金) 16:28 (UTC)[返信]

@RottenApple777さん、こんばんは。いつもお疲れさまです。差し出がましいとは思いましたが、プロジェクト:翻訳検証のノートに、このトピックについてお知らせしてきました。個人的には、ひどい機械翻訳記事の粗製濫造には辟易しています。私は時々そういった記事をリライトしていますが、うんざりしてきました。
フォーラムで書いたように、翻訳記事を新規に作る際には、日本語資料を元にした内容を追加しなければ立項できない、というルールがあっても良いのではないかと考えています。日本語資料がまったくない場合はもちろん別ですが。--Kizhiya会話2022年6月3日 (金) 17:50 (UTC)[返信]
翻訳記事の粗製乱造への対策として、日本語資料をマストにするというアイデアは、私からするとつらいなぁという感覚です。私が主に執筆している分野には日本語資料も確かに存在はしますが、国際的に研究がおこなわれているために非常に進展が早く英語文献が充実しているため、日本語資料を無理に使おうとすると、むしろ情報としては遅れてしまうし、記事としては不適切なものになりかねないです(日本語資料を使うべきでないとまでは思っていませんが、英語文献を理解できて十分確保できるなら、日本語資料が存在するとしても敢えて使う必要がない)。
ルール化するのではなく、初心の執筆者に対するアドバイスなりチュートリアルとして、ちゃんと内容や周辺分野のことを理解した上で記事を書きましょう、ということを示して、その一環として、母語の資料を読むほうが理解しやすくてよいですよ、というような助言をするようなものだと、よいような気がします:)
上記のようなことを書こうかとフォーラムを覗いてみたのですが、スレッドをざっと読んだ限りでは本流の話題ではないようなので、ここで書くに留めます。
コンテンツ翻訳の機械翻訳利用については、財団の方が何を知りたいのか、がまずもってわからないというのが率直な気持ちです。意見を書くにしても機械翻訳を使って読まれることになるのであれば気が進まないですし、英語で意見を書くにしても、現状の論点がふわっとした状況では自分のコメントが適切に伝わるようにコストをかけるのが見合わないという感覚があります(財団の方の意図としてはもっと気軽にフォーラムを利用してほしいということだと認識しましたが、私個人が機械翻訳立項についてかけてきたコストのことを考えると、気軽な話題としては選びたくないという、個人的な考えです。)。どういったところで議論がなされているのかがこのお知らせで分かったことは非常に有益でしたので、今後も継続してウォッチさせていただきます!コンテンツ翻訳以外の話題も追ってみます。 --紅い目の女の子(会話/履歴) 2022年6月6日 (月) 04:05 (UTC)[返信]
Kizhiyaさんの「ひどい機械翻訳記事の粗製濫造には辟易しています。」というコメントには共感しますし、またそのリライトについては深く感謝するところではありますが、「日本語資料を元にした内容を追加しなければ立項できない、」という規定の追加には同意しかねます。「日本語資料がまったくない場合はもちろん別ですが。」ともおっしゃっていますが、悪魔の証明を求められているわけですから、例えば1週間ほどの削除依頼の間で、何らかの証明をすることは極めて困難であることが予想されます。数十本程度ではありますが、中世貴族カントリー・ハウスの英語記事を翻訳した経験から申し上げますと、日本語の文献は全く見当たらないものがほとんどでした。ご一考ください。--Xx kyousuke xx会話2022年6月6日 (月) 04:24 (UTC)[返信]
@紅い目の女の子さん、@Xx kyousuke xxさん
お返事ありがとうございます。少々感情的になってしまって失礼いたしました。私の場合、英語がまったく読めないわけではありませんが、得意ではありません。『新規立項にあたって日本語資料をプラスする』は、あくまで私の狭い視野のなかで思いついた方法で、ごり押ししたり、ルール化を目指して奮闘したりするつもりはありません。早い段階で問題点をご指摘くださって感謝いたします。「日本語資料がないこと」を示すのは、確かに「悪魔の証明」ですね。
今直している英語からの翻訳記事は日本語資料が豊富です。そして原文の英語記事のほうが資料が貧弱な状態で、中立性に疑問があります。
お二方のようなベテランの方に申し上げることではありませんが、一般論として、翻訳記事を立項される方には、元記事の選択に配慮いただいたうえで、ご自分のお詳しい(あるいはこれから詳しくなりたい)分野の記事を翻訳して欲しいと、英語が苦手な者からお願いいたします。
またPJ:翻訳検証にはとても期待しております!--Kizhiya会話2022年6月6日 (月) 08:41 (UTC)[返信]
Kizhiyaさん、ご理解いただきありがとうございます。おっしゃる通り機械翻訳には何らかの歯止めをかけないといけないのは間違いありませんので、対応策を考えたいと思います。--Xx kyousuke xx会話2022年6月6日 (月) 09:00 (UTC)[返信]
まず考えの根底にあるのが、「(少なくとも日本語⇔英語は)機械翻訳の文章はまともな日本語でない」という事実です。このため、ご存じかもしれませんがすでに削除の方針G-3が策定され、コンテンツ翻訳でほぼ未修正のものは削除に回されます。
そもそも、「アラビア語版におけるautoreviewフラグを持たない利用者の機械翻訳の無効の提案(phab:T255022)が全く進行していない」ようです(Junknoteさんのご報告による)。そこの議論では30票の賛成/2票の反対という圧倒的多数での可決であるにも拘わらずです。コンテンツ翻訳がどこの傘下で動いているのか存じませんが、これで「何が問題なのか知りたい」は調査不足だと言わざるを得ません(ただご存じでなかっただけだと思いますが)。この上でこちらから何かを言うことは、個々の編集者の時間が有限である以上、無価値です。
本当にコンテンツ翻訳の自動機械翻訳使用が問題なのかを知りたいならば、プロジェクト:翻訳検証/コンテンツ翻訳レビュースペース/2022年1月及び2月分にある大量の×の数を、Jawpにおける議論に関しては、結論であるG-3本文及びプロジェクト:翻訳検証#目的、策定段階の議論はWikipedia‐ノート:削除の方針#ケースGの改訂提案(機械翻訳)をお読みください、が最も簡便かと。かなり長いですが、それだけJawpは議論を重ねて今回の削除方針改訂に至ったということの証左です。
財団の方が気づかれたならば、可及的速やかに(日本語版だけでもいいから)コンテンツ翻訳での自動翻訳を廃止してくださいと願う次第でございます。この文章は機械翻訳を用いて読まれて下さい。またこの文章は勿論Rottenapple777さんを責めているわけではなく、寧ろ財団の方が気づくきっかけとなり感謝しておりますこと、補足致します。--Sethemhat会話
  コメント 新たに『「運動戦略フォーラム」において専用のスレッド』を立ち上げるで、よろしいのではないでしょうか。日本語での過去の議論をそのまま機械翻訳して提示しても長すぎでしょうし、代表者を決めて議論したところでアラビア語版の二の舞いでしょう。こういうのは大勢の人がガヤガヤと意見を投稿したほうが担当者に響く気がします。--Afaz会話2022年6月5日 (日) 04:27 (UTC)[返信]

Kizhiyaさん、紅い目の女の子さん、Xx kyousuke xxさん、Sethemhatさん、Afazさん、ご意見ありがとうございます。 今の時点で、この問題に関して財団とコミュニケーションを取る場を設けるかどうかについては、

  1. 財団の意図が分からないので気が進まない。
  2. 財団の方に今までの日本語版の井戸端などでの関連議論を機械翻訳を使って読んでもらう。
  3. 「運動戦略フォーラム」において専用のスレッドを立ち上げそこでコミュニケーションを取る

の3意見ということでいいでしょうか?--AppleRingo777会話) 2022年6月8日 (水) 17:11 (UTC) --AppleRingo777会話)(RottenApple777からID改名しました)2022年6月8日 (水) 17:11 (UTC)[返信]

  お名前あらためAppleRingo777 さん、いつも精力的な財団との繋がりお疲れさまです。
紅い目の女の子さんやSethemhatさんのおっしゃりたいことは、意見を届けるならばのならば、財団のなかでも担当部署に直接意見を届けたいし、それよりまず担当部署自身でもきっちりと調べて欲しいということではないでしょうか? 私は単に皆さんのご活動に感激していただけの者ですが、コンテンツ翻訳検証に多大な労力をかけてこられたお二人が、財団フォーラムで話し合ったけれど「担当部署は違うのでもう一度最初から説明してくださいね」といった「たらい回し」状態のような目に遭ってはならないと思います。
また、下記YShibata (WMF)さんの情報によると、
このページの日本語訳は実績の豊かな方によります。このメディアウィキのページに名前がある人たちが、財団の翻訳技術分野での頭脳のような人たちです。-
すなわち、柴田さんによると、上記の人たちが担当だと解釈いたしましたが、間違っていたらご指摘ください。--Kizhiya会話) 2022年6月9日 (木) 04:09 (UTC) 追記--Kizhiya会話2022年6月9日 (木) 04:20 (UTC)[返信]
(Kizhiyaさんへなのでこの位置に移動させましたYShibata (WMF)会話) 2022年6月9日 (木) 14:48 (UTC))ありがとうございます。そうです、表ページを日本語訳をしてくださった方に感謝もうしあげます。この表ページに、担当者の名前が書いてあります。--YShibata (WMF)会話2022年6月9日 (木) 14:31 (UTC)[返信]
  コメント 本来なら新しい投稿は一番下に書き込むことになっていますが、意思疎通の齟齬が起きることはなるべくは避けたいので、直接関係するコメントの下に書き込みます。YShibata (WMF)さん、そのMedia Wikiのコンテンツ翻訳メインページに掲載されている担当メンバーのリストは古いと思います。多分担当者リストの部分は2014年時のまま。今は担当者たちが所属する部門名もメンバーも変わって、下記の投稿にも書きましたが Language Team(言語チーム)が担当のはずです。ご確認下さい。--AppleRingo777会話2022年6月9日 (木) 23:15 (UTC)[返信]
担当者リストの部分は2014年時のままですが、ここにある「管理者」の二人は2022年6月現在も管理しています。--YShibata (WMF)会話2022年6月10日 (金) 12:48 (UTC)[返信]
  •   返信 私が伝えたかったことはKizhiyaさんの仰る通りのことでございます。正直に申し上げますと、「もう機械翻訳がいかに問題かという話題には疲弊しているので、再度説明したくない。提示するリンク先にすべてまとめてあるのだからどうしてもう一回説明しないといけないのだろうか」になります。なので、策定段階議論は読まなくてよいですからPJとG-3を(機械翻訳でもいいからとにかく)読んでもらい(大意はつかめるでしょう)、わからなければ応相談と私はしたいと思っています。
以下はUser:YShibata (WMF)さんへですが、上に私がコンテンツ自動翻訳の問題点について説明しているにも拘わらず「コンテンツ翻訳ツールは次の方針にのっとり設計されています」という情報を出すとは、コンテンツ翻訳を暗に擁護することを意図されているのですか?
また、財団職員のYShibataさんが気づかれたならば、一刻も早くコンテンツ翻訳ツール内の自動翻訳ツール廃止のために力をお貸しください。これはJawpのPJ:翻訳検証参加者の総意と思います。--Sethemhat会話2022年6月9日 (木) 14:29 (UTC)[返信]
@Sethemhat様、メディアウィキの拡張機能は人間が仕上げをすると思っていました。その仕上げをしない人たちがいる、ということですね?--YShibata (WMF)会話2022年6月9日 (木) 14:41 (UTC)[返信]
@Sethemhat様、 @紅い目の女の子様、 @Afaz様、 @Xx kyousuke xx様、 @Kizhiya 様、@AppleRingo777様、現在、日本語コミュニティの中でこの点に詳しい方々がご検討いただいているようです。--YShibata (WMF)会話2022年6月10日 (金) 02:46 (UTC)[返信]

  返信 Kizhiyaさん、コメントありがとうございます。まずこの節の最初の自分の投稿をお読みください。ちゃんと「財団担当者」と書きました。その意味が通じないというのなら、コンテンツ翻訳を担当している部門の方とまで書けば話は通じますか?ちなみに、自分は議論には参加していませんでしたが、Phabricatorでコンテンツ翻訳機能に対して出していた他の言語版からの要望(文句)への議論は目を通してあります。Phabricatorのそのようなやり取りを読まれた方はご存じかと思われますが、各言語版からあがってくるコンテンツ翻訳関連の要望に主に対応している方はLanguage Team(言語チーム)のマネジャー・クラスの方です。そして今回「日本語版で」コンテンツ翻訳への疑義があがっているみたいだよという話が行ったのはその部門(チーム)のディレクター・レベル(つまりマネジャーの方の上司)の方でした。もちろんどちらの方が対応してくれるかわかりませんが、たとえば今回の機会でなくとも、通常のプロセスでもし日本語版内でコミュニティの合意が出来たと仮定して、いざ直接Phabricatorにその要望を出した時に対応してくれる方々と同じ人たちです。(以下の部分はSethemhatさんへの返信も兼ねています)これも最初の投稿に書きましたが、彼らは当然他の言語版からから出ていた疑義は承知していることでしょう。日本語版特有の問題点を知らなかったというだけです。知らなくて当然です、日本語版からのコミュニケーションは乏しく、誰からも要望も疑義も今まで出ていなかったのですから。それにこれもPhabricatorでの議論を読まれている方はわかると思うんですが、このプログラムはとても複雑で、一見に似ているような問題でも実は水面下では全く別の問題であることがあるので、問題を提示する時は実例が欲しいと書かれています。ですから他の言語で似たような疑義や要望や問題点が提示されていても、日本語版の問題は何であるのは日本語版の利用者から話を聞かないといけないということだと思います。また調査不足と言われても、問題があると伝わってこないのですから、疑義や要望をあげてこない言語版を、財団は300近くある言語版の中からわざわざ選んで調査をしないでしょう。

更には自動翻訳はどの言語間で翻訳をするかでかなり質のばらつきがあります。例えばイタリア語⇔スペイン語、スペイン語⇔英語などヨーロッパの言語間だとかなりいけます。日本語⇔他言語の場合は、、、もうこれは自分が指摘するまでもないでしょう。だけど、日本語の場合は自動翻訳の質が他の言語間の翻訳と比べてぐっと質が落ちることは日本語を理解するユーザーがいちいち指摘しないと彼らにはわかりませんし伝わりません。ちなみに、財団のミーティングに多々参加させてもらっていますが、その際言語の壁に対する対処のお願いを何度もさせてもらっていますが、時たま「自動翻訳が解決してくれる」みたいな自動翻訳を過信している方向へ向かう雰囲気を感じるので、コンテンツ翻訳や、運動戦略フォーラムとは関係なしに、何気に自動翻訳の質の低さに機会があれば言及していますが、「Not so bad(そんなに悪くない)」という答えが返ってくることが多いです。しかしそういう苦言を提示する利用者は自分一人だけ(何万という数がいるユーザーのたった一人の意見)なので仕方ないのでしょうか、あまり深刻さは伝わっていない気がします。

それから、Sethemhatさん提案によるプロジェクトの日本語版の議論や内容を自動翻訳でを読んでもらう案は得策だとは思えません。これもPhabricatorでの他言語版から要望(文句)があがって来た時の議論内容をこのプロジェクトの中心人物の方々は良くお分かりだからこそ、コンテンツ翻訳によって立項された記事のレビューをされているのではないのですか?ご存じのようにコミュニティの同意なるものは全く功を奏しません。ベトナム語版に至っては投票者全員一致の投票結果があっても全く聞き入れてもらえず、その要望事案はなんの対処もなく終了(closed)となってしまいました(phab:T299636)。なお、Sethemhatさんがご指摘のアラビア語版のケースphab:T255022)は最初の要望を提出したものの、議論も理由も利用者からの提示が全くありません。ケースが全く進捗しない理由はそこにあるのでは。話が逸れてしまいましたが、ある程度データを出した言語版の要望でも「機械翻訳率」を下げるというところに持って行かれたことは、自分が指摘するまでもありません。だからそれより説得力のあるデータを集めようとレビューや削除依頼ケース理由の整備を行っていると理解しています(違っていたらご指摘下さい)。その手の内を明かしていいんですか?ちなみに、最初の投稿で今回は財団とのコミュニケーションをパスする選択を入れたのはそのデータがまだ集まっていない可能性を考慮したからです。ただ、時間が経てば経つほど、コンテンツ翻訳利用者は増えるし(既成実績の積み重ね)、財団も人的、金銭的、時間的投資が増えるので、よっぽどのデータを揃えても、ここでご意見されている皆さんの多くが望む結果に結びつくかどうかは、悩ましいところです。利用者側がデータを示しても、素早く更にそれを論破するデータを出してきますし。

今回もしコミュニケーションを取るとなった場合、まだデータが集まっていない(違っていたらすみません)部分は不利かもしれませんが、通常のプロセスの時と違うことは、今回は例のマネジャークラスの通常担当者以外の人たちからも注目を浴びていることです。上司はもちろんのこと、他の部門のそれなりの地位のある人もこの問題に注視しています。これが有利になるかどうかはわかりませんが、一応決断の参考になるかと思い書き入れます。

余談ですが、「コンテンツ翻訳内の機械翻訳機能を制限できないか」で話題にあがった「機械翻訳率の閾値」の問題ですが、中国語版でも同じ問題が指摘されており、欧米の言語と違い単語ごとにスペースが入らないことが原因のようです。その問題に対するチケットも既にだいぶ前にPhabricatorにあがってきています(phab:T251893)。解決に時間がかかってはいるみたいですが。もちろん前述のように、同じように見えて実は違う問題という事もあるので、日本語版もこれにあてはまるのかはわかりませんが、一応こちらも情報としてお知らせまで。--AppleRingo777会話2022年6月9日 (木) 18:51 (UTC)[返信]

@紅い目の女の子様、「スレッドをざっと読んだ限りでは本流の話題ではないようなので、ここで書くに留めます。」について、新しいトピックを始めると、技術者たちの目に留まります。質問や要望を書くと、詳しい人が答えます。@Afaz様、「こういうのは大勢の人がガヤガヤと意見を投稿したほうが担当者に響く気がします。」はおっしゃる通りです。@AppleRingo777様、「疑義や要望をあげてこない言語版を、財団は300近くある言語版の中からわざわざ選んで調査をしないでしょう。」は残念ですが、その通りです。数人で、生身の人間が翻訳の技術に携わっています。そのような人たちが「お知らせ」などに折に触れて「日本語コミュニティの場合はこれでいい?どうすればいい?」と問いかけています。回答が無い場合、結果が母語話者の期待を超えるのは困難です。@Sethemhat様、@Kizhiyaさんが引用された「財団に気が付いて~~してほしい」については、財団に、日本語コミュニティに造詣の深い方を増やすしかありません。残念ですが気がつきません。繰り返しますが、日本語コミュニティに造詣の深い方を7月以降の日本語ファシリテーターとして探しています。このままでは、私のように何の知識もない者が再び採用されかねません。財団はアメリカの法律の下にありますが、英語が母語の人は少数です。技術者など働く人はインド、アラブなど世界中に散らばっています。より技術に近い職種に日本語話者が複数いると、状況は改善します。財団の中で、非ヨーロッパ言語である母語で連絡を取り合う人たちは強いです。技術者は世界で争奪戦なので、年次計画の際、そのための人件費を確保する、というトップの話を聞きました。転職をお考えの技術者の方も求人ページをウォッチお願いいたします。--YShibata (WMF)会話2022年6月10日 (金) 14:01 (UTC)[返信]
  •   コメント 本日は全然時間がないので本筋からそれますが、あくまで感想のみ書きます。主流の考えではないことも承知で思考開示しますので、適当に聞き流してください。
現在、私は申し訳ありませんが諸証拠により「財団不信」となりかけています。そもそも、私は前のコメントで「財団の方/Yshibataさん が気づかれたならば」と申しています。これは、「すでに気づいていますよね」ということが前提で、自発的に気づけとは言っておりません(さすがにそれは不可能です)。さらに、その担当の方々が「どうすればいい?」と聞いたところで、結局は財団の「運動戦略」の動かしたい方向にしか応じないのではないのではないかと考えています。それはAppleRingo777さんが挙げて下さったベトナム語の例で示されています。結論はわかりませんが、途中でベトナム語のWikipedianの方が「コミュニティの合意を尊重してください」と何度も言い続けても「機械翻訳の判定基準厳しくしとけばいいんだろ」という旨の回答を何度も返しています。
そもそも、英語版でも拡張承認ないとコンテンツ翻訳自体がダメ、アラビア語・ベトナム語・日本語も自動翻訳廃止要求、中国語版が疑義と来たら普通は全世界で一斉廃止するでしょう? 財団は雑翻訳記事を本気で量産させているように見えますなぜですかねみなまでいいませんが。
Wikipediaを実際に作っているのは、各言語版の執筆者であり、財団ではありません。財団はそのサポートをしているだけで、むしろサポートに徹する必要があると考えます。それをコミュニティが「こうしてくれ」と言っているのにその通りにしない代案を提案するのは、おかしな行為です。財団から給金をもらって執筆しているなら多少なりとも財団の意向を考慮することもしましょう。しかし、私たちはお人よしにも無償で、自分の時間を削って、世の中の人に少しでもよい情報を届けようと記事を書いているのです。そこを財団が「コミュニティが邪魔と感じること」をするのは、妨害であると考えますし、その財団担当者と対話する時間があるならそれこそ執筆に割きませんか。英語版では財団担当者を納得させるために人海戦術で「過去に行われたすべてのコンテンツ翻訳のレビュー」を行ったそうです。これがすべて財団のためだとは思いませんが、こんなことしている暇あるなら...という考えもできるでしょう。これらは、ある意味「WP:ルールすべてを無視しなさい」と同等の考えです。
Phabができないのなら、別にJawpで「コンテンツ翻訳使用記事は作成後1時間ですべて即時削除するBotを導入する」暴挙にでることも可能は可能です。しかしコンテンツ翻訳を善良に翻訳ツールとして使われている方々もMcYataさんをはじめいらっしゃるでしょう。その方々に迷惑をおかけするのもそれでおかしな話なので、それをせずある意味穏便にお願いをしているのですが、無理でしょうか?
以上、駄文・乱文失礼致しました。--Sethemhat会話2022年6月10日 (金) 14:52 (UTC)[返信]
私もただの感想を書きます。コンテンツ翻訳を先日はじめて入れてみましたが、どんどん訳せとばかりにサンプル記事が出てきます。英語中心の世界を「流しソーメン」のように押し付けられているようで、気持ちが悪い、というのが正直な感想です。知的帝国主義、といったうがった見方をしてしまいます。おそらく善意からやっておられるのだとはわかりますが。
例えば、jawp で拡張承認された利用者のみが翻訳記事を立項できるようにして、「新人の方の新規翻訳記事を1時間で消すbot」を作る案が出たら、私も賛成してしまうであろう、と思います。
@AppleRingo777さん、細かいことですが読み間違えまして申し訳ありません。
「財団担当者」という言葉だけで、コンテンツ翻訳担当者と受け止めるのは、私には難しかったです。まず、2030年運動戦略チームのキムさんの話で始まり、数段落のちに「財団担当者」という言葉が出てきます。文脈から、キムさんの部門の方かと思いました。--Kizhiya会話2022年6月10日 (金) 22:03 (UTC)[返信]

皆さま、さまざまなご意見をありがとうございました。特別:差分/89945302/こちらのYShibata (WMF)さんの投稿にありますように、この問題は自分の手から離れていると判断し、自分のメッセンジャーの役割は終えたとものとさせていただきます。--AppleRingo777会話2022年6月13日 (月) 20:10 (UTC)[返信]

情報

編集
@Afaz様、 @Kizhiya様、 @RottenApple777 様、@Xx kyousuke xx様、 @紅い目の女の子 様、「運動戦略フォーラム」は、財団の技術者はじめほぼ一人残らず注目しています。日本語のままでコミュニケーションが取れます。しかし評判が悪かったり参加者が少ないと7月か8月に閉鎖になります。2022年6月30日で日本語の担当者である柴田は契約終了になります。7月1日以降については未定です。誰もいない期間を作りたくなかったので数か月前に財団に申し出ていたのですが、募集がまだ公表されていません。興味のある方はこの募集ページをウォッチお願いいたします。他に日本語担当者はいません。疑問点など、気軽に柴田にメールお願いいたします。
また、直接、トークページに英語で書く、という手段は以前同様です。メディアウィキのコンテンツ翻訳」のトークページにご記入ください。
  • コンテンツ翻訳ツールは既存の Translate (翻訳) 拡張機能を補完するものです。ウィキペディアのメニュー他、ユーザーインターフェースなどの要素はコミュニティでの統一を保つために翻訳拡張機能、コンテンツにはコンテンツ翻訳ツールと対応を分けています。
  • 翻訳ツールの利用中に問題が発生した場合や、使ってみた感想などをご紹介していただける場合は、コンテンツ翻訳ツールのトークページ に書き込んでください。
このページの日本語訳は実績の豊かな方によります。このメディアウィキのページに名前がある人たちが、財団の翻訳技術分野での頭脳のような人たちです。--YShibata (WMF)会話2022年6月6日 (月) 05:44 (UTC)[返信]
上記メディアウィキの機能は、自動翻訳ではありません
コンテンツ翻訳ツールは次の方針にのっとり設計されています。
  • 時間の節約。翻訳者が外部ツールへのコピーやペーストなど不要な手間をかけず、すばやくコンテンツを作成する支援。
  • 支援の提供。間違いを防ぎ、利用者が翻訳に自信を持てるようにすること。
  • 翻訳品質の向上を促す。ツールはウィキメディアにおける翻訳の意義を的確に伝え、利用者が品質の劣る翻訳を投稿しないように支援すること
  • 利用を強制しない。編集の方法は翻訳者ごとに異なるので、本ツールが翻訳者自身の編集手順の妨げとならないようにすること。
  • 内容に集中する。翻訳作業はテキストの整形よりも記事の内容に集中すること。ウィキテキストなど技術的な要素は、翻訳作業のハードルをあげないように処理すること。--YShibata (WMF)会話2022年6月6日 (月) 05:51 (UTC)[返信]
お疲れさまです。情報ありがとうございます。議論に関わった内容ですが、コミュニティの意見と議論とは別なので分けさせていただきました。--AppleRingo777会話)(ID改名しました)2022年6月6日 (月) 14:41 (UTC)[返信]
  コメント 以下、参照先のリンクを示していない点をお断りします。
コンテンツ翻訳の出力先を、投稿者の編集習熟度に関わらず、個人のサンドボックスに限定してはダメでしょうか。推敲が必要な記事未満は、サンドボックスに留めます。このコメントの背景にCX2の欠陥を意識しています。例えば検証可能性を担保する典拠が翻訳原文にあっても、出力した訳文から欠けるのはその一例です。端的に申すならCX2作業空間ではウィキ文編集に切り替え不能だから修正したくてもできないからです(同拡張機能のノートページで提案は既出)。あるいは出典構文の引数が非対称である点を開発側で解決していないからです。結果、典拠不十分のasboxを誰か貼るという不毛な循環に皆さんが振り回されてしまいます。
初学者の定着率を上げる
2030イニシアチブの課題に照らすと、初学者が長く活動を続けなければコミュニティは縮小します。それではどなたの益にもなりません。
  • 統計は持ち合わせませんが、眺めていると編集回数が1千回に満たない利用者がCX2を使って記事を〈投稿する〉体験をして、版指定削除を受けてウィキペディアでの活動が止まる例をしばしば見ます。これは翻訳したOmotechoも責めを負うべきながら、メタの解説文には〈編集初学者が投稿するのに使える拡張機能〉という表現があります。
未熟な記事は、推敲するための場に出力する。
悪意のある投稿ではなく未熟な投稿なら、下書きとして個人サンドボックスに出力しておき、テンプレートや出典など「記事として練ってから、正式な記事(記事名前空間への出稿)にしましょうね」と示しませんか。誰がその面倒を見るのかという応用篇はここでは述べません。
  • 私個人はこの拡張機能を使うとき、個人サンドボックスに出します。Kizhiyaさんが言及された日本語資料の渉猟と参照作業ほかは重要で、それを意識するからでもありますし、それが叶わない主題こそ他言語版にたくさんあり、Omotecho個人はそれらに興味を感じて翻訳します。おっしゃる通り、主題が日本の典拠にない記事は他言語版にたくさんあります。あるいはウルトラシーで記事の論旨から離れて用語単位でないと典拠が付かない記事もあります。「人類の知の集積を万人に」という、ウィキメディア運動の高邁な理想がつまずきかねません。
コンテンツ翻訳に欠陥
出典の構文(の引数=パラメータ)が翻訳原語と訳語の言語版で非対称だと、機械的にその出典タグごと除去する仕組みです。技術的に解決されるには、Phabricator を調べようと思いながら投げてあります。〈出典の構文が不適合なため除去した〉という意味の警告に気付いたときは、CX2作業空間で左窓から無理やり右窓にコピーペーストし、出力時にエラータグ(出典テンプレートの不備)がつくことを承知の上で個人サンドボックスに出力。出典タグを〈編集〉する作業は実質、CX2ではできないと承知しています。どうも原語版から引き写せなかったそれらこそ、典拠の吟味が求められる点が経験則のようです。
日本語版その他、SVOC構文でない言語は、現状の機械翻訳側から眺めるなら、原理として非適合です。その点は、ぜひ2030イニシアチブに照らして改善してほしいと望みます。これは機械翻訳を適用もしくは研究する団体なら共通の課題であり、ぜひ提携して研究し、削除された機械翻訳の生出力記事はウィキメディアのデータベースに死蔵されていると想像しますので、それらを活用してもらいたいです。
そうであれば、機械翻訳の生出稿の見回りと、それらを削除する手間を負ってくださった編集者にも、また推敲に難儀された皆さんにも、少しは労に報いる道ができるなら望外の喜びです。老婆心ながら、CX2を便利と信じてコミュニティへの扉をたたく編集初学者には、ここで議論されている皆さんのレベルまで伸びしろがある点を惜しく思います。--Omotecho会話2022年6月10日 (金) 02:16 (UTC)[返信]

財団の方とミーティングを行いました&機械翻訳機能廃止を要請するための日本語版合意形成提案

編集

こんにちは。McYataと申します。この件について、別ルートで財団の方と接触しておりました。まずは独自行動をとっていたことを謝罪いたします。AppleRingo777さんがこのスレッドを立てる少し前から動いていたのですが、中途半端な段階で情報共有をして議論が錯綜してしまうのを防ぐため、このタイミングでのご報告となりました。

2022年6月17日、私と利用者:Eugene Ormandyさんがウィキメディア財団の方とオンラインミーティングを行い、コンテンツ翻訳における機械翻訳機能にまつわる、日本語版ウィキペディア上の各種議論について情報共有をしました。財団からの参加者は、Quim Gilさん、Uzoma Ozurumbaさん、Amir E. Aharoniさんの3名です。なお取次には、YShibata (WMF)さんのお力添えをいただきました。

共有内容は以下のとおりです。

  • 日本語版では、機械翻訳に起因するコンテンツ翻訳不信が広がっている。
  • 英語などから日本語への機械翻訳は非常に不正確で、情報の欠落など致命的な誤訳も頻発する。
  • コンテンツ翻訳内で算出されている機械翻訳率(機械翻訳放置投稿を阻止するために用いられている)はあてにならない。ほとんど機械翻訳を放置していても規制を回避するのは容易だし、逆に一切機械翻訳を使用していなくても高い割合を表示してくることがあるため。
  • コンテンツ翻訳で大量の機械翻訳記事が出続けている反面、それらを検証し改稿したり削除したりするのに膨大な人的資源が浪費されている。
  • またコンテンツ翻訳がGoogle翻訳の利用を奨励するような構造になっているゆえに、本来翻訳ウィキペディアンとして成長できたはずの新規利用者が安易な機械翻訳立項に走ってしまうケースがみられる。
  • 日本語版でもプロジェクト:翻訳検証の設立や機械翻訳の濫用を理由とする削除方針の新設など、機械翻訳に厳しく対処しようという流れが出来ている。
  • 以上の点をふまえ、コンテンツ翻訳内の機械翻訳機能を削除するよう財団に要請しよう、という議論が起こっている。
  • なお同様の議論は2019年から続いていた。これまで日本語版から財団へアプローチしなかったのは、他言語版との似たような交渉でコンテンツ翻訳開発チームが機械翻訳機能の維持を(言語版コミュニティの合意を蹴ってまで)強硬に主張しているのを目の当たりにし、説得のために十分なデータ収集と理論立てが必要と考えられたためである。

財団の方は、このような議論が行われていることに驚いておりました。また、今後も財団に情報提供してほしい、そして日本語版ユーザーとしてPhabricatorで意思表示をしてほしいとおっしゃっていました。つきましては、レビュープロジェクト等の事例も集まってきたので、日本語版ウィキペディアのコンテンツ翻訳から機械翻訳機能を除去することの是非についての投票スペースを近日中に設け、Phabricatorでの議論も立ち上げようと思っております。投票スペースについては、極力英語訳を付記し、財団の方にもウォッチしてもらおうと考えています。

なお、円滑な情報共有(何か方針や方策を定めるための「議論」ではない)をするため、今回は私とEugene Ormandyさんのみで財団とミーティングを行いました。しかし今後再びミーティングの機会などあれば、オープンな形で行いたいと考えている旨、またそのように先方にも伝えた旨を追記いたします。

ご理解・ご協力のほどよろしくお願いします。また、本件について、忌憚なきご意見をいただければ幸いです。--McYata会話2022年6月25日 (土) 14:46 (UTC)[返信]

Eugene Ormandyと申します。McYataさんが投稿されたとおり、コンテンツ翻訳の機械翻訳機能について、財団の方とミーティングを行いました。McYataさんがお示ししたとおり、あくまで情報共有に徹したミーティングでした。よろしくお願いいたします。--Eugene Ormandy会話2022年6月25日 (土) 14:53 (UTC)[返信]
(長文失礼します)
議論された皆様には感謝申し上げます。私も電鈴ドリームガールズ (映画)の映画製作の節において、自動翻訳を参照しつつ、原文を読み返して翻訳記事を書いた実体験を申し上げます。まず挙げられるのは機械翻訳の精度の甘さで、これには文の構成構造の大きく異なる二言語の自動翻訳の難しさを物語るものです。機械翻訳は近年、AIや対訳ベースの蓄積により翻訳の精度を上げつつありますが、精度が上がっているのは主語も述語もぼかさずきっちり書かれた技術文書などであり、新聞記事等はまあまあ、そしてWikipedia英語版記事を書かれている多くのウィキペディアンが採用する、いわゆる口語においては、まだまだ日本語記事とするには適当でない訳が散見されます。この理由には英語と日本語との、それぞれの『言い回しの違い』が大きいのではないでしょうか? その中でも主語以外の「省略」は自動翻訳には致命的で、英語でも並列表記などで省略が発生した場合、機械翻訳では適切な語句を補わないと、どうしようもない誤訳を起こすことがあります。また長文の接続関係についても熟成が甘く、これも誤訳を発生させるもととなっています。実際の翻訳で困った例を上げると、ドリームガールズ (映画)の一節、最終選考で落ちたバリーノの記述: Hudson was eventually selected to play Effie, leading Barrino to telephone Hudson and jokingly complain that Hudson "stole [Barrino's] part." で、Google翻訳では『ハドソンは最終的にエフィーを演じるために選ばれ、バリーノをハドソンに電話させ、ハドソンが「[バリノの]部分を盗んだ」と冗談めかして不平を言った。』と、バリーノがハドソンに電話をかけ、「(バリーノが演じるはずだった)役を盗んだ」ニュアンスが全く訳せませんでした(ライセンスの関係で DeepL翻訳の文は載せられませんが、このくだけた用法は私の訳文『最終的にはジェニファー・ハドソンが選ばれた。バリーノいわく、ハドソンに電話をかけ、ハドソンが「(バリーノの)役を盗んだ。」と冗談めかして不平を言ったという。 』もあるせいでしょうが訳せています)。なおこの部分は出典資料でバリーノが語った事実だと書いてあったのでこの訳ができました。
このように私は常に原文と自動翻訳文、私が不完全に訳した文それぞれを突き合わせ、訳の正確性を上げていくようにしていますが、コンテンツ翻訳を使った翻訳では基礎の基礎であるべき、自身で原文を読解しての『原文との突き合わせがおろそかにされてしまうきらいがあると、私は思います。どうかインターフェース設計により翻訳者に、書いた訳文が妥当なものか強制的に検証させる仕組みを用意するとか、(ウィキ構文にある程度明るいことが求められますので)コンテンツ翻訳をアカウントを持つ拡張承認された人に限るだけでなく、悪質な訳文を書いた人には一定期間コンテンツ翻訳の使用を控えていただく仕組みがあれば、翻訳検証の負担は減るかな、と個人的には思ったりします。
以上、対訳として自動翻訳がゾロゾロ出てくるコンテンツ翻訳の問題を挙げてきましたが、一方で従来の翻訳手法では問題となるのが脚注やテンプレートの問題です。従来の翻訳手法では注釈はどうしても外されがちで、元のところに注釈を復元する手間は大変です。ですからウィキのシステムを最大限使うとするならば脚注やテンプレートは可能な限り再利用するのが望ましく、互換性のないテンプレートはその都度書き換えるほうが似合った使い方だと思います。日本語での特に航空エンジン記事では、テンプレート換算が嫌われ、手計算の結果が表示されているのがほとんどで、数値と単位との間にスペースを入れる表記ガイドも忘れ去られがちです。ですからコンテンツ翻訳は自動翻訳機能の提供よりも、むしろウィキ文書の「移植」の手助けをもっとすべきだと思います。記事の翻訳の過程において、どのみち訳の手直しは必要でしょうから私の意見では自動翻訳は「有ればすごく便利だけど、無くても困らない」です。
このことは逆向き翻訳の日本語版記事の英訳その他言語への訳出でも問題になるはずです。各国からメンバーが集って不具合を検証するとなれば、日本語版記事からの翻訳においても、おそらく英日翻訳よりもひどい訳出例が出るものと思います。そのことが問題になっていないかどうか、いち翻訳者としては知りたいものです。
--Licsak会話2022年6月30日 (木) 17:07 (UTC)[返信]