和語の里(Wagonosato) - 日本語・データ化・考察 -

やまとことば・和語・日本語に関する情報をデータ化・日本語の問題点解説。語彙力・難読漢字クイズなどによる教養アオリの否定など。

【AIの文字認識の限界辞典】Google文字認識【随時更新】

f:id:peaceheart:20201114120849j:plain

 画像としての文字を認識する場合、「AIが文字を誤認」してしまうというのは、「あって普通」「誤認識して当たり前」です。

 どんなにAIが発達しようと「平片漢+ローマ字+記号」が交じる日本語文書のカンペキな文字認識は不可能です。

※タイトルは、引き寄せ用に「クソ」などとキツめの表現をしてるだけです。

 

 「AIの文字認識の限界辞典」に載せる条件/載せない条件については、コチラをクリック

 

【日付】

 クソ変換が起きた時点を記します。未入力のデータは20210727のクソ変換です。

 

▼Data

【etc(記号・数字など)】

「144」→「☆」;20211010

※いや、なんでこうなる?

 

キリル文字の「3」である「Ⅲ」→「皿」

【A】

 

【K】

教→微

誤謬→誤

カタカナ→力夕力于;pdf

※これ別に「カタカ」の後に改行がある文書でもなくて、「カタカナ」と続いて書かれてて、かつ一般的なフォントにもかかわらず「力夕力于」というバカげた認識は、さすがにヒドイ…

から→办占;pdf

※「分析の観点から」を文字認識して「分析D觀点办占」という結果に…

 

【S】

斎藤→斋藤;pdf

※有名所の名字「斎藤」くらいは、ちゃんと認識してほしかった。

齋 - ウィクショナリー日本語版によれば、「斋」は「齋」の異体字

【T】

 

【N】

における→拍片子;pdf;雜誌における→雜誌拍片子

※なめとんのか?

の→功;pdf;漢字の→漢字功

※なめとんのか?

 

【H】

㈱ビデオリサーチ→E才少少一子;pdf

※意味不明

 

【M】

 

【Y】

 

【R】

リサーチ→少少一子;pdf

 

 みなさんも、「こんな、ふざけた文字認識あったよ😣」ってものがあったら、コメントでお知らせください。

 

 

kw:くそにんしき、クソニンシキ、糞認識、クソ認識、kusoninnsiki、kusoninski

くそもじにんしき、くそもしにんしき、クソモジニンシキ、糞文字認識、クソ文字認識、kusomojininnsiki、kusomojininski

もじにんしきがくそ、もしにんしきかくそ、モジニンシキガクソ、文字認識が糞、文字認識がクソ、mojininnsikigakuso、mojininskigakuso

 

 

▼joukenn

【「AIの文字認識の限界辞典」に載せる条件】

・印刷物の文章を撮影、またはwebサイトの文章をスクショ

Google Keepに保存

Google Keepの「画像のテキストを抽出」を使う

・そこで抽出された文字と実際の文字を比べ

・認識が失敗している文字をまとめ

※試行回数は重ねない

 

【「AIの文字認識の限界辞典」に載せない条件】

・潰れた印刷物の文字

・特殊フォント

・文字に濃い背景、ハデな背景がある場合

・折れた紙を撮影したもの

 

 

【記事編集用Link】
https://blog.hatena.ne.jp/peaceheart/onbin.hateblo.jp/edit?entry=26006613795409277

【KEYWORD ZONE】dic0mojininnsiki
文字認識、もじにんしき、もしにんしき、もし認識、mojininsiki、mojininnsiki、モジニンシキ、