如果以檔案局那裡常看見的 pdf 的話,去掉雜點、切成一行字一個圖檔、再丟給 tesseract 抓字,這樣的 ocr 結果就好多了。不過感覺起來正確率好像也只有六、七成