画像としての文字を認識する場合、「AIが文字を誤認」してしまうというのは、「あって普通」「誤認識して当たり前」です。
どんなにAIが発達しようと「平片漢+ローマ字+記号」が交じる日本語文書のカンペキな文字認識は不可能です。
※タイトルは、引き寄せ用に「クソ」などとキツめの表現をしてるだけです。
「AIの文字認識の限界辞典」に載せる条件/載せない条件については、コチラをクリック
【日付】
クソ変換が起きた時点を記します。未入力のデータは20210727のクソ変換です。
▼Data
【etc(記号・数字など)】
「144」→「☆」;20211010
※いや、なんでこうなる?
キリル文字の「3」である「Ⅲ」→「皿」
【A】
【K】
教→微
誤謬→誤
カタカナ→力夕力于;pdf
※これ別に「カタカ」の後に改行がある文書でもなくて、「カタカナ」と続いて書かれてて、かつ一般的なフォントにもかかわらず「力夕力于」というバカげた認識は、さすがにヒドイ…
から→办占;pdf
※「分析の観点から」を文字認識して「分析D觀点办占」という結果に…
【S】
斎藤→斋藤;pdf
※有名所の名字「斎藤」くらいは、ちゃんと認識してほしかった。
齋 - ウィクショナリー日本語版によれば、「斋」は「齋」の異体字。
【T】
【N】
における→拍片子;pdf;雜誌における→雜誌拍片子
※なめとんのか?
の→功;pdf;漢字の→漢字功
※なめとんのか?
【H】
㈱ビデオリサーチ→E才少少一子;pdf
※意味不明
【M】
【Y】
【R】
リサーチ→少少一子;pdf
※
みなさんも、「こんな、ふざけた文字認識あったよ😣」ってものがあったら、コメントでお知らせください。
kw:くそにんしき、クソニンシキ、糞認識、クソ認識、kusoninnsiki、kusoninski
くそもじにんしき、くそもしにんしき、クソモジニンシキ、糞文字認識、クソ文字認識、kusomojininnsiki、kusomojininski
もじにんしきがくそ、もしにんしきかくそ、モジニンシキガクソ、文字認識が糞、文字認識がクソ、mojininnsikigakuso、mojininskigakuso
▼joukenn
【「AIの文字認識の限界辞典」に載せる条件】
・印刷物の文章を撮影、またはwebサイトの文章をスクショ
・Google Keepに保存
・Google Keepの「画像のテキストを抽出」を使う
・そこで抽出された文字と実際の文字を比べ
・認識が失敗している文字をまとめ
※試行回数は重ねない
【「AIの文字認識の限界辞典」に載せない条件】
・潰れた印刷物の文字
・特殊フォント
・文字に濃い背景、ハデな背景がある場合
・折れた紙を撮影したもの
【記事編集用Link】
https://blog.hatena.ne.jp/peaceheart/onbin.hateblo.jp/edit?entry=26006613795409277
【KEYWORD ZONE】dic0mojininnsiki
文字認識、もじにんしき、もしにんしき、もし認識、mojininsiki、mojininnsiki、モジニンシキ、