和語の里(Wagonosato) - 日本語・データ化・考察 -

やまとことば・和語・日本語に関する情報をデータ化・日本語の問題点解説。語彙力・難読漢字クイズなどによる教養アオリの否定など。

px数が少ない低解像度フォントで学ぶ、文字と文脈・経験・知識【日本語の盲点・小さいドット絵のフォント】

▼低解像度フォントから学ぶ文字の認識

 この記事では便宜上「低解像度フォント」というコトバを
・ビットマップフォント
ピクセル数が少ない※10px以下程度
 というフォントとして使っています。

▼5x5pxという、とてもpx数の少ないフォント


https://twitter.com/Computeum/status/1634200633128435715 *1
【WA】http://web.archive.org/web/20230409214835/https://twitter.com/Computeum/status/1634200633128435715
   ↑
 こちらの※Googleによるドイツ語からの翻訳では、下のようなツイート内容です。
>>質問ですが、この 5x5 ピクセルの圧縮フォントを本当に読めますか、それとも内容を理解できますか?


 ここで貼られているフォントの画像は、下のような文です。

もしも、
せかいが
きょうおわりなら
あなたはどうする?

▼日本人なら読める可能性が高い

 パッと見た一瞬では、読めなくても、
・複数文字を続けて読んだり
・文全体を見たり

 などするうちに、読めたという人も多いのではないでしょうか?

▼ひらがなを覚えた程度の外国人には読めない可能性が高い

 今回紹介した低解像度フォントの文は、すべて"ひらがな"で書かれています。

 だからといって、「ひらがなさえ読み書きできれば読める」というわけではありません。

 たとえば、日本語を習いたての外国人は、ひらがなを最初のうちに習うと思います。
 そこで、ヒラガナを完璧に書けるようになったとしても、今回のフォントで書かれた文を日本人のようには読めません。

▼日本人が読める理由「経験+感覚」

 ヒラガナを覚えた程度の外国人には読めないのに、日本人は読める可能性が高いのはナゼでしょう?
 それは、経験と感覚です。
※知識もありますが、知識はノチに語ります。

▽どんな経験?


 こちらの画像で説明したとおり、このような極小フォントでは、日本人でも1文字1文字で見たら認識できない文字もあります。

 しかし、それが「複数文字」だとしたら見え方が変わってきます。

 日本人ならば「日本語を使ってきた膨大な経験」があります。
 その経験により、「似たような文字列を脳の引き出しから見つけて、曖昧な文字を認識」します。

▽何万回も世界というコトバを見聞きした

 日本語を母国語としていて、日本に住んでいるとします。
 そのような人は「せかい(世界)」というコトバを何度も見聞きすることになります。
※何万回でも足りない人もいるくらい何度も。

 そういった経験から、外国人よりも「せかい(世界)」らしき文字と認識できる確率は高くなります。

▽さまざまなフォント、さまざまな手書きを見てきた

 さきほどは、見聞きする回数の多さという経験を数字で考えました。

 しかし、それだけではなく、
・さまざまな日本語フォント
・さまざまな人の手で書かれた手書き文字

 などに触れる機会があります。

 日本人は「せ」「か」「い」の字のさまざまなカタチ・種類を見ています。
【A】さまざまな日本語フォントで書かれた文字
【B】さまざまな人の手で書かれた手書き文字

 そのような経験から、崩れた「せ」の字を見た際も理解できます。
 それは、脳内にある大量の「せ」の文字パターンと比較して総合的に判別しているからです。
😀✨「これは"せ"と書かれているんだ!」
 と経験にもとづく感覚で判別できるのです。
 しかも、かなりの瞬時に行える人が多いです。


▼日本人が読める理由「経験+知識」

 さきほどは、経験重視・感覚重視での話をしました。

 もちろん「知識」も読める理由になります。

▽文脈把握の前に、現時点で見分けがつく字


 「せかい」の次に
「きょうでおわりなら」
 と書かれています。

 まず、この低解像度フォントの「きょう」を日本人が無意識に「きょう」と認識できる理由の第一が…
小さい「ょ」です。
 ほかの文字よりも小さく見えるので、通常サイズの「よ」ではなく、小さい「ょ」だと判別します。

▽なぜ「きょう」?

 次に、となりの2文字を「き・う」と判別できて、3文字が「きょう」であると判別できる理由を説明します。

 日本人ならば、【間に「ょ」が含まれるコトバ・漢字】を多く知っています。

【間に「ょ」が含まれるコトバ・漢字】
・きょう(今日)・きょう(強)
・きょう(教)・きょう(狂)
・きょう(京)
・ぎょう(行)・ぎょう(業)
・ぎょう(凝)
・しょう(章)・しょう(症)
・しょう(小)
・じょう(条)・じょう(情)
・じょう(常)・じょう(状)
・ちょう(町)・ちょう(長)
・ちょう(超)
・にょう(尿)・みょう(妙)
・ひょう(表)・ひょう(氷)
・ひょう(票)
・びょう(病)・びょう(秒)
・りょう(量)・りょう(料)
・りょう(寮)
 など、他多数。

 上に示した以上に、日本人の脳内には「〇ょ〇」のパターンが記憶されています。
 それは、「知識」です。
 
 その膨大な知識があるからこそ、「〇ょ〇」を見て、候補が脳内に浮かびます。
 そして、文脈上適するものとしても厳選もあります。

 この文では、「ひ(日)」に関する「きょう」だと推測できるので、「ょ」を囲う2文字は「き」「う」っぽいなと判別できるのです。
 ほかにも、「ょ」の次の文字は、漢字音的に「う」が入る可能性が多いので、「う」を仮置きして「○ょう」までは埋まります。
 
 このように、日本人のように知識があり、それを引き出す力が高いからこそ、読めるのです。

▼ネイティブたらしめるのは文脈理解力と引き出す力?

 日本生まれ日本育ちの日本語ネイティブが我々です。
 「日本語ネイティブ」だからこそ、持っている率が高い能力があります。

 今回の記事で紹介した中で言えば…「文脈理解力・コトバを引き出す力」などが、それにあたります。
 他にも、「スラングへの理解」「発音のナマリ」なども日本語ネイティブ感を高める一つでしょう。

 こういった「学校教育では学べない話」の記事を増やしていきたいです。
 日本語の盲点となる部分こそ大事なことが含まれています。



https://twitter.com/monopoly928/status/1624012255393353729 *2
   ↑
 こちらの画像には、「日付・曜日・情報欄」の順番に電光掲示板に書かれています。
 基礎工事


【記事編集用Link】
https://blog.hatena.ne.jp/peaceheart/onbin.hateblo.jp/edit?entry=4207112889983322129

【KEYWORD ZONE】font_teikaizoudo
ぶんみゃく、ふんみやく、分み役、ブンミャク、bunmyaku。bunnmyaku、文脈
日本語の盲点、にほんごのもうてん、にほんこのもうてん、日本湖の盲点、ニホンゴノモウテン、nihonngonomoutenn、nihongonomouten
にほんごねいてぃぶ、にほんこねいていふ、日本コネいていふ、ニホンゴネイティブ、nihongoneithibu、nihonngoneithibu、日本語ネイティブ、日本語Native、
にほんごねいてぃぶすぴーかー、にほんこねいていふすひーかー、日本コネいていふスヒーカー、ニホンゴネイティブスピーカー、nihongoneithibusupi-ka-、nihonngoneithibusupi-ka-、日本語ネイティブスピーカー、日本語NativeSpeaker、日本語 Native Speaker
低解像度フォントから学ぶ文字の認識
低解像度フォントから学ぶ"文字の認識"

*1:Computeum@Computeum Liebe @hexenkurs eine Frage, kann man diese auf 5x5 pixel verdichtete Schrift wirklich lesen bzw. sich den Inhalt zusammenreimen?

*2:ものぽ on Twitter: "読めてしまうドットフォント。 https://t.co/dP05zJU7mx" / Twitter