OCRによる文字認識


 
 朝日新聞の記事をスキャナーで読み込み
スキャナーに付属しているOCR(Optical Character Reader)ソフトで自動認識させた結果が下記の通り

見出しの認識が悪いのは 文字以外の修飾があった為だろう

その他は数字 記号部分に誤認識があるが その他は正確


                  左が自動認識結果
                    −−−−−−−−−−−−−−−−−−−−−−−−−−−−
                    富、、修 に20此                  富士通、修理に20億円
                    HDD                        HDD
                    不具合                     不具合
                    富士通は3日、今年7            富士通は13日、今年7
                    月下句に発表した同社製         月下句に発表した同社製
                    パソコンの不具合など             パソコンの不具合など
                    で、無料で応じる修理費          で、無料で応じる修理費
                    が少なくとも15億I20億             が少なくとも15億〜20億
                    円になる見通しを明らか          円になる見通しを明らに
                    にした。不具合は年9           にした。不具合は00年9
                    月から01年9月に製造し           月から01年9月に製造し
                    たパソコン用ハードディ            たパソコン用ハードディ
                    スク駆動装置(HDD)                スク駆動装置(HDD)
                    が原因で、HDD約1千              が原因で、HDD約1千
                    万台のうち故障の可能性         万台のうち故障の可能性
                    は2i3%という。                  は2〜3%という。
                     このHDDは、NEC                 このHDDは、NEC
                    や日立製作所、18Mな             や日立製作所、IBMな
                    どのパソコンにも使われ          どのパソコンにも使われ
                    ており、各社も無料修理          ており、各社も無料修理
                    に応じている。交換用の          に応じている。交換用の
                    HDDは富士通が負担す             HDDは富士通が負担す
                    る。故障がなくても一部           る。故障がなくても一部
                    は交換しており、今後、            は交換しており、今後、
                    この分の負担や作業費が          この分の負担や作業費が
                    上乗せされる可能性もあ          上乗せされる可能性もあ
                    る。                             る。