▼低解像度フォントから学ぶ文字の認識
この記事では便宜上「低解像度フォント」というコトバを
・ビットマップフォント
・ピクセル数が少ない※10px以下程度
というフォントとして使っています。
▼5x5pxという、とてもpx数の少ないフォント
Liebe @hexenkurs eine Frage, kann man diese auf 5x5 pixel verdichtete Schrift wirklich lesen bzw. sich den Inhalt zusammenreimen? pic.twitter.com/cLanm5KmXR
— Computeum (@Computeum) 2023年3月10日
https://twitter.com/Computeum/status/1634200633128435715 *1
【WA】http://web.archive.org/web/20230409214835/https://twitter.com/Computeum/status/1634200633128435715
↑
こちらの※Googleによるドイツ語からの翻訳では、下のようなツイート内容です。
>>質問ですが、この 5x5 ピクセルの圧縮フォントを本当に読めますか、それとも内容を理解できますか?
ここで貼られているフォントの画像は、下のような文です。
もしも、
せかいが
きょうおわりなら
あなたはどうする?
▼日本人なら読める可能性が高い
パッと見た一瞬では、読めなくても、
・複数文字を続けて読んだり
・文全体を見たり
などするうちに、読めたという人も多いのではないでしょうか?
▼ひらがなを覚えた程度の外国人には読めない可能性が高い
今回紹介した低解像度フォントの文は、すべて"ひらがな"で書かれています。
だからといって、「ひらがなさえ読み書きできれば読める」というわけではありません。
たとえば、日本語を習いたての外国人は、ひらがなを最初のうちに習うと思います。
そこで、ヒラガナを完璧に書けるようになったとしても、今回のフォントで書かれた文を日本人のようには読めません。
Liebe @hexenkurs eine Frage, kann man diese auf 5x5 pixel verdichtete Schrift wirklich lesen bzw. sich den Inhalt zusammenreimen? pic.twitter.com/cLanm5KmXR
— Computeum (@Computeum) 2023年3月10日
▼日本人が読める理由「経験+感覚」
ヒラガナを覚えた程度の外国人には読めないのに、日本人は読める可能性が高いのはナゼでしょう?
それは、経験と感覚です。
※知識もありますが、知識はノチに語ります。
▽どんな経験?
こちらの画像で説明したとおり、このような極小フォントでは、日本人でも1文字1文字で見たら認識できない文字もあります。
しかし、それが「複数文字」だとしたら見え方が変わってきます。
日本人ならば「日本語を使ってきた膨大な経験」があります。
その経験により、「似たような文字列を脳の引き出しから見つけて、曖昧な文字を認識」します。
▽何万回も世界というコトバを見聞きした
日本語を母国語としていて、日本に住んでいるとします。
そのような人は「せかい(世界)」というコトバを何度も見聞きすることになります。
※何万回でも足りない人もいるくらい何度も。
そういった経験から、外国人よりも「せかい(世界)」らしき文字と認識できる確率は高くなります。
▽さまざまなフォント、さまざまな手書きを見てきた
さきほどは、見聞きする回数の多さという経験を数字で考えました。
しかし、それだけではなく、
・さまざまな日本語フォント
・さまざまな人の手で書かれた手書き文字
などに触れる機会があります。
日本人は「せ」「か」「い」の字のさまざまなカタチ・種類を見ています。
【A】さまざまな日本語フォントで書かれた文字
【B】さまざまな人の手で書かれた手書き文字
そのような経験から、崩れた「せ」の字を見た際も理解できます。
それは、脳内にある大量の「せ」の文字パターンと比較して総合的に判別しているからです。
😀✨「これは"せ"と書かれているんだ!」
と経験にもとづく感覚で判別できるのです。
しかも、かなりの瞬時に行える人が多いです。
▼日本人が読める理由「経験+知識」
さきほどは、経験重視・感覚重視での話をしました。
もちろん「知識」も読める理由になります。
▽文脈把握の前に、現時点で見分けがつく字
「せかい」の次に
「きょうでおわりなら」
と書かれています。
まず、この低解像度フォントの「きょう」を日本人が無意識に「きょう」と認識できる理由の第一が…
小さい「ょ」です。
ほかの文字よりも小さく見えるので、通常サイズの「よ」ではなく、小さい「ょ」だと判別します。
▽なぜ「きょう」?
次に、となりの2文字を「き・う」と判別できて、3文字が「きょう」であると判別できる理由を説明します。
日本人ならば、【間に「ょ」が含まれるコトバ・漢字】を多く知っています。
【間に「ょ」が含まれるコトバ・漢字】
・きょう(今日)・きょう(強)
・きょう(教)・きょう(狂)
・きょう(京)
・ぎょう(行)・ぎょう(業)
・ぎょう(凝)
・しょう(章)・しょう(症)
・しょう(小)
・じょう(条)・じょう(情)
・じょう(常)・じょう(状)
・ちょう(町)・ちょう(長)
・ちょう(超)
・にょう(尿)・みょう(妙)
・ひょう(表)・ひょう(氷)
・ひょう(票)
・びょう(病)・びょう(秒)
・りょう(量)・りょう(料)
・りょう(寮)
など、他多数。
上に示した以上に、日本人の脳内には「〇ょ〇」のパターンが記憶されています。
それは、「知識」です。
その膨大な知識があるからこそ、「〇ょ〇」を見て、候補が脳内に浮かびます。
そして、文脈上適するものとしても厳選もあります。
この文では、「ひ(日)」に関する「きょう」だと推測できるので、「ょ」を囲う2文字は「き」「う」っぽいなと判別できるのです。
ほかにも、「ょ」の次の文字は、漢字音的に「う」が入る可能性が多いので、「う」を仮置きして「○ょう」までは埋まります。
このように、日本人のように知識があり、それを引き出す力が高いからこそ、読めるのです。
▼ネイティブたらしめるのは文脈理解力と引き出す力?
日本生まれ日本育ちの日本語ネイティブが我々です。
「日本語ネイティブ」だからこそ、持っている率が高い能力があります。
今回の記事で紹介した中で言えば…「文脈理解力・コトバを引き出す力」などが、それにあたります。
他にも、「スラングへの理解」「発音のナマリ」なども日本語ネイティブ感を高める一つでしょう。
こういった「学校教育では学べない話」の記事を増やしていきたいです。
日本語の盲点となる部分こそ大事なことが含まれています。
読めてしまうドットフォント。 pic.twitter.com/dP05zJU7mx
— ものぽ (@monopoly928) 2023年2月10日
https://twitter.com/monopoly928/status/1624012255393353729 *2
↑
こちらの画像には、「日付・曜日・情報欄」の順番に電光掲示板に書かれています。
基礎工事
- ▼低解像度フォントから学ぶ文字の認識
- ▼5x5pxという、とてもpx数の少ないフォント
- ▼日本人なら読める可能性が高い
- ▼ひらがなを覚えた程度の外国人には読めない可能性が高い
- ▼日本人が読める理由「経験+感覚」
- ▼日本人が読める理由「経験+知識」
- ▼ネイティブたらしめるのは文脈理解力と引き出す力?
【記事編集用Link】
https://blog.hatena.ne.jp/peaceheart/onbin.hateblo.jp/edit?entry=4207112889983322129
【KEYWORD ZONE】font_teikaizoudo
ぶんみゃく、ふんみやく、分み役、ブンミャク、bunmyaku。bunnmyaku、文脈
日本語の盲点、にほんごのもうてん、にほんこのもうてん、日本湖の盲点、ニホンゴノモウテン、nihonngonomoutenn、nihongonomouten
にほんごねいてぃぶ、にほんこねいていふ、日本コネいていふ、ニホンゴネイティブ、nihongoneithibu、nihonngoneithibu、日本語ネイティブ、日本語Native、
にほんごねいてぃぶすぴーかー、にほんこねいていふすひーかー、日本コネいていふスヒーカー、ニホンゴネイティブスピーカー、nihongoneithibusupi-ka-、nihonngoneithibusupi-ka-、日本語ネイティブスピーカー、日本語NativeSpeaker、日本語 Native Speaker
低解像度フォントから学ぶ文字の認識
低解像度フォントから学ぶ"文字の認識"
*1:Computeum@Computeum Liebe @hexenkurs eine Frage, kann man diese auf 5x5 pixel verdichtete Schrift wirklich lesen bzw. sich den Inhalt zusammenreimen?
*2:ものぽ on Twitter: "読めてしまうドットフォント。 https://t.co/dP05zJU7mx" / Twitter