w3c / jlreq

Text Layout Requirements for Japanese

Home Page:https://w3c.github.io/jlreq/

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

How we use Two- and Three Dashes in Japanese text, esp, EPUB?

kidayasuo opened this issue · comments

編集会議 #278 に集まった問題から、ここでは下の二倍(&三倍)ダーシの問題について議論します。

二倍ダーシについてです。二倍ダーシはInDesign等のDTPアプリ内ではEM DASH(U+2014)もしくはHORIZONTAL BAR(U+2015)を200%変倍して表現されているケースが多いですが、EPUBでは文字の変倍は使えないため、これをそのまま持っていくことができません。また、二倍ダーシを表すために2連続で入力した際に間に隙間が出るフォントや、縦組みの際に**に表示されないフォントがあり、EPUBではフォントを明示的に指定もできないため回避策として罫線素片(U+2500)を使用したりもしています。もちろん符号の本来の意味合いとして正しくないことはわかっているのですが、これはどうしておくべきでしょうか。

・和文/欧文間にInDesign等では自動でスペースが入りますが、これはEPUB化のためにXHTMLにすると消えてしまいます。このため現状では場合によっては半角スペースを挿入するなどして見た目上のアキを作らなければならないことがあります。かなりの手間がかかりますので現場的には決して喜ばしい状況ではないです。これは本来組版的にはどうあるべきでしょうか。また、将来的に自動でアキが入る等の見通しはどうなっていますでしょうか。

・二倍ダーシについてです。二倍ダーシはInDesign等のDTPアプリ内ではEM DASH(U+2014)もしくはHORIZONTAL BAR(U+2015)を200%変倍して表現されているケースが多いですが、EPUBでは文字の変倍は使えないため、これをそのまま持っていくことができません。また、二倍ダーシを表すために2連続で入力した際に間に隙間が出るフォントや、縦組みの際に**に表示されないフォントがあり、EPUBではフォントを明示的に指定もできないため回避策として罫線素片(U+2500)を使用したりもしています。もちろん符号の本来の意味合いとして正しくないことはわかっているのですが、これはどうしておくべきでしょうか。

というようなところでまずはどうでしょうか。

まずは、二倍ダーシでいきますか。
で、まずは、敏さんに質問。
元々の二倍ダーシって、倍角に鋳込んだ専用の活字があったのですよね。それとも、中細罫とかをちょん切って使っていたりとか。

二倍ダーシについてはDTP制作者の悩みが垣間見えるところで、200%変倍ではなく190%にしておいてアキを前後に入れてあったり、酷い例では全角スペースに打ち消し線を設定して二倍ダーシとして見せていたケースもありました。InDesignでアンカーオブジェクトとしてダーシを入れていたものもあったような記憶があります。

commented

What about using ⸺ U+2E3A TWO-EM DASH ? Would that work?

@KobayashiToshi
ところで、倍角に鋳込む約物って他にどんなものがあるのでしょうね。
くの字点とかは、すぐに思いつきますが。
というか、くの字点は、UnicodeとJIS X 0213とで、設計方針が異なりますが。

半角といえば、新聞では[(と半角漢数字]+[半角漢数字と)]で、倍角サイズに、パーレン付の二桁漢数字を鋳込んでいたことがあったような。共同通信の配信用の文字セットで見た記憶が。。。。

スクリーンショット 2021-06-16 9 36 14
InDesignでの二倍ダーシの表示テスト結果を貼っておきますね。U+2E3Aは一般的な日本語フォントがグリフを持っていないようなので(Adobe-Japan 1-6外字)除外しています。

U+2014では**に来ているのが秀英明朝と源ノ明朝だけで、前後にスペースが入っているように見えるのは源ノ明朝だけです。U+2015ではほぼ**には来ているようですが、秀英明朝とヒラギノで間にスペースが見えてしまっています。源ノ明朝はU+2014と同じくほぼ理想的ですが、これは自動で合字処理が行われた結果と思います。

また、EPUBで二倍ダーシを表現する際に一般的な技術的制約として踏まえておかなければならない点として、

・コンテンツ側で明示的にフォントを指定することが難しい(デバイス/アプリ側の表示フォントに依存する)
・JIS X 0213外の文字の使用はリスクがある(電書協ガイドの規定、一部ビューアでJIS X 0213内の文字しか持たないフォントを表示用に採用しているのが理由)
・文字の縦変倍等は使えない

ということもあります。JIS X 0213外の文字がNGとなると、U+2E3AのTWO-EM DASHはもちろんU+2015も使用できないということになります。

これ、現状使えるかという immediate solution と、将来に向けての提言と分けても良いかもしれませんね。将来的に two, three em-dash のグリフが和文に対応した位置になっていて使えるなら便利?

EPUB的にはあれば使われそうですね。DTPはさてどうなんでしょうか(笑)。DTPデータからの電子化という視点で言うならもちろん「そのまま持って行けること」が望ましいですが。

・コンテンツ側で明示的にフォントを指定することが難しい(デバイス/アプリ側の表示フォントに依存する)

マヌケな質問ですが、EPUBには、「フォント埋め込み」という機能があるのだろうか。

フォント埋め込みはできますし、実際やったこともあります。ただ、商用フォントでそれをやるには当然ライセンスをクリアにしなければなりませんし、日本語の場合は可能なら使用するグリフだけサブセット抜き出しをして埋め込みたいところですが、手軽にそれができるサービス等はまだないと思います。過去に私がやったケースではオープンライセンスのフォントをフルセットのまま埋め込んでいます。また、フォント埋め込みをしたEPUBデータを作成しても配信時のサーバサイドの処理でフォントが取り除かれてしまう例があったので油断できません。

最近の例だと星海社さんが自社フォントを埋め込んでAmazonで販売していましたね。

現状商用フォントのEPUB埋め込みは「ソフトウェアバンドル扱い」になってしまうため、ライセンス価格的に電子書籍の販売単価では現実的ではありません。星海社さんでそれが可能だったのは「自社で制作したフォントだったから」だからかと思います。つまりそこのハードルは埋め込み技術ではなく商用フォントのライセンスかと思います。

みなさま、この GitHub issue が二倍ダーシ問題の議論に入っていますので、タイトルを変えて、問題を集めるための GitHub issue を別個に作りますね。ここではこのまま二倍ダーシの議論を続けてください。議論の結論的なものが見えてきたら、どなたかまとめを作っていただくのも良いと思います。happy github issues!

途中まとめ

結局、二倍三倍ダーシは現状で良い解がない。部分的な解決としては下が示された

  • 用法によっては別の文字を使う。例えば全角ダーシ、パーレン、アキ。英文での用法同様、全角ダーシは多くの場合に適用が可能
  • この方法の問題は、どうしても二倍ダーシという場合がある。また、著者や編集者に別の文字を使う許可を取れるか

なぜ良い解がないかというと:

  • フォントによらず意図した結果になる(二つに分かれず、真ん中に来て、前後少しアキがある)ようなコードポイントがない
  • U+2E3A TWO-EM DASH は X0213 に含まれず使いにくい。なぜなら、X0213 の文字しか持っていないようなビューアがある。U+2E3Aがあるような環境でも、日本語用として持っているわけではないので真ん中に来ず特に縦組みでは使えない (X0213外文字の使用がガイドラインに抵触するという問題だけならガイドラインを変えれば良いんですよね?)
  • 日本語フォントを埋め込むのはライセンス料の問題で難しい

こうなったら良いな、は:

  • ハイフン,二分ダーシ,全角ダーシ,2倍ダーシ及び3倍ダーシ、が和文で使えるようになると良い
  • 全角ダーシ二つ、三つを入力すると2倍ダーシ及び3倍ダーシになってほしい

で抜けはないですかね?

X0213記号集合のばかやろー、と叫びたい気持ちですが。それはおいておいて、将来的な解決方法の案と残る問題点:

  • X0213 の改定を含め、何らかの方法で、2倍ダーシ及び3倍ダーシを標準日本語文字セットに含める
  • なんらかのドキュメントで望ましいグリフの形を記述する。あれ、これダーシのみならず全ての記号で欲しくない?
  • それでも、和文用記号と欧文用記号が同じコードポイントであるという問題は残る。和文フォントは英文を作るときにも使われるので、フォントで切り替える方法では解決しない。クオーテーションマークでも同じ問題がある。然るに Unicode の基準では別コードポイントにする理由がない。

もう少し短期的になんとかなるかもしれない案

  • AJ1-x には和文用2倍3倍ダーシは入っているの?入っていないなら、入れる。そして、なんらかの方法でそれを EPUB 基準文字セットにする。
  • 2倍ダーシや3倍ダーシなど、必要だけれど欠けている記号の入ったライセンスフリーな埋め込み用フォントを誰かが開発して提供する。(文字利用技術促進協議会という、ぴったりな名前の会が!)

TWO-EM DASHについてはAdobe-Japan 1-6にも入っていないようなのでそもそもどんなフォントを使えば使用できる符号なのか見当がつきませんし、実際DTPで使われているのは見たことがありません。

つまり極めて限られたフォントでしか使用できないということですね。源ノ角ゴシックや源ノ明朝がプリインストールされているのは現状Androidだけかと思いますのでフォールバック表示も期待できません。

フム。そろそろ、掛け合い漫才風/ガリレオ・ガリレイの「進化学対話」風なフィクションに纏めてみますね。

ははは。。。
数式問題は、また、今度。
倍角ダーシだけで、十分楽しめそうです。ウルウル。
ま、余裕があれば、くの字点をコラム風に扱うかなあ。

倍角ダーシの問題を、雑誌掲載用に纏めてみました。
落語スタイル。ま、賛否あるでしょうが、このあたりは、掲載誌の編集者の意見も聞いて。
ごらんになってお分かりのように、流れはほとんどいじっていません。みなさん、さすが、というか。
倍角ダーシ.docx

いや内容はいいのですが名前はこれで確定なんでしょうか(笑)

私のフィードバック

全体に

  • 最初は設定通りに江戸言葉だが、最後の方は普通の言葉
  • 登場人物の設定を説明する必要性ない? 例えば「はっつぁん」は電子書籍を作っている人。御隠居さんはご意見番、とか。
  • U+2014 の問題点として、欧文と共有であって、多くの書体は欧文用の位置になっていること、が触れられていない。これ、特にフォントの比較の箇所で必要。それが問題の根本。

–––––––––––

はっつぁん:ねえねえ、ご隠居さん、電子書籍の2倍ダーシで悩みまくっているんですけどね。というか、日本語ではよく使われているのに…

  • はっつぁんが「日本語では」とか言うかな? 大家さんなら言いそうだけど
  • このパラグラフで U+2015にも言及。なぜなら下で唐突に出てくる
  • 英単語の区切りが全角の場所がちらほら

ご隠居さん:もともと2倍ダーシてのは、活字組版では、2倍のボディ(台)に鋳込んでいたんだよ。もちろん全角のボディ(台)もあるにはあるが、これを2つ並べると、どうしても途中に空白が入るからね。このあたりは、活字時代から変わっていないね。

  • 「2倍の」が何の2倍かわからない → 全角二つ分の
  • 質問、全角ダーシはそもそも両端にアキある?それとも全角幅100%で線が入っているべきもの?

一方で、3点リーダーの方は、全角を二つ並べて使っていた。隙間とか分からないのでね。そんなわけで、3点リーダーの方は、やむを得ぬ場合は、分割オーケー。ご都合主義もいいところだね。

  • 「3点リーダーの方は、全角を二つ並べて使っていた」の意味がわかりませんでした。全角二つなら2倍角ではなくて?
  • 「分割規則なんてご都合主義もいいところ」と明確にするのはどうだろう?金科玉条のように捉えている人に訴えたい

ダーシとかは、だんだん短くなっていく傾向があってね、ちかごろは、2倍ダーシの用法にもかかわらず,全角ダーシを使う方法もある。英文でも(欧文の)2倍ダーシが入るべき所に、和文の全角ダーシが使われていたりする。(ただし、2分ダーシを使って、前後を四分空ける方法もかなり前から使われているがね。)

  • 「2倍ダーシの用法にもかかわらず」 → 「今まで2倍ダーシを使うのが普通の場所でも」など明確化
  • 「(欧文の)2倍ダーシが入るべき所に、和文の全角ダーシ」どゆこと? 欧文の文字組版で日本語の概念の全角ダーシを使うことはないですよね?

熊さん:ユニコードには、その名もずばり、U+2E3A TWO-EM DASHてのがありますけどね。いっそ、これを使ったら?

  • 3倍もちらと言及?

ご隠居さん:しかし、この符号は、JIS X 0213には含まれていないからなあ。

  • 含まれていないことがなぜ問題なのかこの文ではわからない。要説明

大家さん:そんなこと言ったって、ご隠居さん、そもそも誰が悪いのか知らないけれど、近ごろ話題になっている約物の問題には、JIS X 0208をユニコードに当て込んだ時の、矛盾に大元があるヤツが、結構ありますぜ。

  • 例が欲しい。また、これ、JIS が独立のコードを確保し損なった問題? Unicode のポリシーの問題?

U+2014では**に来ているのが…

  • ここで U+2015 をテストする理由は?要説明
  • ここで、本来のコードポイント U+2014 が欧文と共有なことを要説明。それが問題の根本の一つ

どうしても使用しないといけない場合の当面の対応策として考えられる方法(繋がっていなくてもよいという判断も含め,というのは繋がっていなくても,誤解は与えない,かっこわるいだけ)と,その問題点.

  • どうしても全角ダーシではなく2倍ダーシを使用しないといけない場合というのはどんな場合? 説明欲しい

最後に望ましい解決策への提案.GSUB又は別の方法でもよいが,途中にアキが入らない処理が普通にできるようにするか,あるいはU+2E3A(TWO-EM DASH)とU+2E3B(THREE-EM DASH)が普通に使用できるようする.

  • 欧文と共有という問題が残る

これ、図版もいろいろ入れていくべき記事でしょうね。でないと一般の人は意味がわからなかったりしそう。

それと、記号を2つ連続で入れずに2つで済ませたい理由として「改行による泣き別れ防止」はあるかと思います。

2つで済ませたい

1つで済ませたい、の間違い、かな?

これ、敏先生の言われた歴史的経緯と逆の動きですね。つまり元々二倍角で一体となった活字なので改行がその間に物理的に入らないことが改行規則の原因で、今度はその改行規則をデジタルでも守るために、全角二つではなくて二倍角の文字が欲しい、と。その解釈で合ってます?

すみません、「1つで済ませたい」です。元としてDTPのデータがあってそれをEPUBやWebデータにする場合には、当然ですが勝手に表現は変えられないので2倍ダーシの箇所は2倍ダーシで、となります。

勝手に表現は変えられない

出版社の方に、全角ダーシでもいいですか?と言える環境ではないということですね。とすると、ご隠居さんの「当面の対応として」の部分、EPUB 作成の現場ではできることはあまりない(って今どうしてるんでしたっけ)、つまり「はっつあん」の悩みは解決されなかった、というオチになるんじゃないですか?

悩みは解決されなかったけれど、著者や編集者の段階での全角ダーシへの移行の検討は価値あるし、規格として将来に向けてすべきことも分かった…… と。角川でしたっけ、電子書籍のガイドラインで全角ダーシに変えてもいいよ、と言ってくれれば楽になるのかな?

ダーシとかは、だんだん短くなっていく傾向があってね、普通であれば2倍ダー シを使用するところに、ちかごろは、全角ダーシを使っている例もある.英文で も和文の2倍ダーシと同じ用法があるが,英文の場合はtwo-em dash(2倍ダー シ)ではなくem dash(全角ダーシ)を使う.それが,en dash(2分ダーシ)を 使って、前後を四分空ける方法もかなり前から使われてるようになっている。

質問があります。どうしてダーシとかはだんだん短くなっていく傾向があるのでしょうか?

個人的には、全角ダーシ(—)は漢数字のいち(一)や音引き記号(ー)と混同しやすいと感じています(英文にはこの問題はないようです)。

現状EPUB 作成の現場ではU+2500の罫線にしちゃったり、間に隙間ができたり縦組みで**に来ないのを諦めてU+2014のEM DASHにしたりしてると思います。ウチではやったことないですが買った本で外字画像化してるのも見ました。つまり現状最適解がないしこのまま放っておくと外字画像をどんどん増やすことにもなりかねないので将来的に技術側でどうにかして欲しいなと。
で、二倍ダーシの場合にはEPUBだけでなくてDTPの段階で混乱が見られるので問題の根は深いなと思います。200%縦変倍がワークフローとして常態化してるのはずっと最適解がなかったということかなと。

いただいた図版、適当な位置に埋め込んでみました。
罫線素片の例、行長を縮めるの、1字分ではなく2字分の方が(もっとグチャグチャ感が出て)いいかも>>敏さん
2倍ダーシの闇鍋2021年7月30日.pdf