PdfBox-Android icon indicating copy to clipboard operation
PdfBox-Android copied to clipboard

fail to load non-english pdf

Open evolapp opened this issue 11 years ago • 5 comments

Hi,

I found that if I try to extract txt from non-english pdf, for example, a Chinese one, it gives some "wrong" text. e.g.

https://www.spj.org/pdf/ethicscode-chinese.pdf

    long startTime = System.currentTimeMillis();        
    String data = null;
    try {
           File tempFile = new File(Environment.getExternalStoragePublicDirectory(Environment.DIRECTORY_DOWNLOADS), "scratchfile");
           File pdfFile = new File(filename);
           tempFile.createNewFile();
           RandomAccess scratchFile;            
           scratchFile = new RandomAccessFile(tempFile, "rw");
           PDFTextStripper textStripper = new PDFTextStripper();
           PDDocument doc = PDDocument.loadNonSeq(pdfFile, scratchFile);
           if (pe==-1) pe= doc.getNumberOfPages();
           textStripper.setStartPage(ps);
           textStripper.setEndPage(pe);            
           data = textStripper.getText(doc);            
    } catch (FileNotFoundException e) {
        // TODO Auto-generated catch block
        e.printStackTrace();
    } catch (IOException e) {
        // TODO Auto-generated catch block
        e.printStackTrace();
    }

evolapp avatar Jan 27 '15 13:01 evolapp

I'll look into this. Can you give an example of some text that comes out wrong and the wrong text that TextStripper is giving?

TomRoush avatar Jan 30 '15 05:01 TomRoush

thanks.

導言 專業記者協會相信啟明公眾是公義及民主的根基,記者的責任是通過尋求事實,公平及全 面地敘述事件和議題,推進正義及民主。有良知的記者奮力追求透徹及誠實地效力公眾。 道德的專業行為是記者可信性的基石。專業記者協會的成員共同採用這規則以彰顯專業行 為。 報導事實 在採訪,報導及詮釋資料的過程中,記者應該誠實,公平及勇敢。 記者應該 • 從所有消息來源查證資料的真實性,避免疏忽的錯誤,絕不容許故意歪曲。 • 努力地找尋被指責當事人,讓對方有機會回應。 • 盡所能明示消息來源,公眾有權知道新聞來源以判斷事件的真實性。 • 在消息來源要求匿名保護時,必須問清楚其動機。匿名保護的約定條件,必需遵守 • 標題、引子、宣傳、照片、影音、引用句子、都不能偏離原意。切勿過度簡化或強 調。 • 切勿曲解新聞圖片及片段的內容。可通過影像增進以達致技術上清晰表達主題。為 蒙太奇效果及圖片註上說明。 • 避免新聞事件重現及預先採排的新聞事件。如無法避免新聞重現,必須清楚說明。 • 除非沒有公開的方式取得對公眾至為重要的消息,否則避免?底或鬼祟式的新聞採 集。如無它法,在故事中解釋因由。 • 不能抄襲。 • 就算不受大眾歡迎,也必需勇敢地表達人類經驗的多樣性及廣闊性。 • 探討各種人類經驗的文化背景,避免把一套價值觀套諸所有人。 • 避免將某一種族、性別、年齡、宗教、族群、地域、性別取向、殘疾、樣貌或社會 階層的人刻板化。 • 公開討論各種觀點,包括一些受公眾厭惡的角度。 • 沈寂公眾的,官方的或非官方的資訊同等重要。 • 客觀報導與倡導式言論必須明確分開。分析及評論必須標明,內容不得歪曲事實。 • 新聞與廣告不能混淆,排拒兩者的混合體。 • 記者有特殊責任確保公家事務在公開的形式中進行,或公家事務保存公開記錄以供 查閱。 減少傷害 堅守道德的記者尊重消息來源,受訪者及同儕。 記者應該: : • 同情因新聞消息曝光而受到反面影響的人。特別是兒童及沒有接受採訪經驗的人。 • 關懷受到悲愴事件影響的人以諒解的態度採用照片或訪問。 • 明白到採集及報導新聞時可能會對他人做成傷害及不安,追逐新聞不等如記者就有 權自以為是。 • 明白到平民百姓比公眾人物有更多私隱權。公眾人物包括官員在內,刻意尋求權 力,影響力和公眾關注,但平民百姓個人的私隱應受保護,除非有巨大公眾利益的 考量。 • 良好品味,勿以聳人聽聞迎合公眾。 • 小心處理或保護少年及性罪案受害人的身份。 • 在檢控未正式提出前,審慎處理罪案疑犯姓名。 • 公眾知情權與疑犯受公正審訊的權利應得到平衡。 獨立行事 記者的責任以公眾知情權為依歸,不能受制於任何其他利益。 記者應當 • 避免無論是真實的還是疑似利益衝突的處境。 • 不要參與任何會破壞記者道德及可信性的聯繫或活動。 • 拒絕禮物、人情、金錢、免費旅遊或任何特殊待遇。不要接受使記者道德受到影響 的兼職、政治參與、 公職及社區組織。 • 如不能避免地遇上利益衝突,必須公開。 • 警覺地及勇敢地代表公眾向在權位者問責。 • 不能優待廣告商和特殊利益者,抗拒他們向新聞採訪施壓。 • 對於求取酬勞及拍賣新聞消息的來源,多加謹慎。 承擔責任 記者應對讀者、聽眾、觀眾及同儕負責任。 記者應當: : • 清楚解釋新聞採訪及鼓勵公眾參與討論記者的操行。 • 鼓勵民眾公開他們對新聞媒體的不滿。 • 承認錯誤,立即更正。 • 揭發不道德的記者及新聞媒體。 • 要求他人做到的嚴格標準,自己必須遵守。 專業記者守則是經過協會成員多月的辯論及研討後在1996年專業記者協會全國會議 中通過採納。數以千計的記者,編輯及其他新聞從業員自願以此為鑑。 Sigma Delta Chi的專業記者守則源自美國報業編輯協會於1926年訂下的規章。 1973 年Sigma Delta Chi編下了協會的版本,重訂於1984, 1987 和 1996年。

¨

Y 8 æ k X 6 ¥ ¶ º ¸ Æ : J Æ» ø O Ù Y Ï ? d æ kY ™ Ç J · @0 À + º d Æ; ø å & Æ æ + Å q DZ d ™ Ü M »ø O Ù f fi ] Y æ kß b ¤ À ¿ œø º Æ ÷ bÆ : f 8 CY Y 8 â J æ k ¶ à Y ? i f Y 8 æk X 6 Y” p ç ù Æ \µ ù Æ ¯ Œ Y 8 â f ¨ + º Ø Æû d ¨ ø Q ÿ Y @ ˚ï d æ k – º d Æ; ø « r f æ k – • } ‘fi
¹ 8 U _« ÿ Y F ºÃ d í 5 / ¡Y y ¨ d î ô ¢ B i ‹ f • @ bÆ ¨ 0 ó 8 ™Ö + [ d + ¡Ÿ fi ⁄ 6 ´ – f • 8 ‘ ê ¸ j
¹ 8U d Æ : fi Æ] 8 - r 8 U¯ : Ÿ +Å Y F º Ã f • Ø
¹ 8 U À § ­ ê ¤ d @ ²

ˆ 9 I ⁄ f §­ ê Y “ õ ‚Å d @ Í m ¬ • z Z e œ  e ¬ e k Í e B * e œ \ )  e« î ê N a f ² ¶@ · – v f • ² ¶‹ - r ° Íø Í l Y ´ ô f · @ B Ö# Ü ¯ :Á ¶ î j ˆ xå : Ù Z f â Ü ƒÉ ÷ ø ° Í W j ­ ¸ f • í 5- r + Å $ø k ã Æ ° Y- r + Å f ½Ã , í 5- r $ d @ ² ˆ 9 ­ ¸ f • ð ¢⁄ fi Æ ö Y ŸÃ _ { ¡ Æ : â Y
¹ d I Æí 5 µ – ˙ X Ã Y - r Æ

´ f½ à 4 , d ØB + ï Q ™_ f • î ê£ ’ f • 1 Qî a } : « é d p @ Í « rÆ å : [ Û æ Y µ uà ø ? ™ à f • û ¿¢ G [ Û æ Y ÷ · ‡ { dí 5 ™ S Å = H Å ‘ fi [ f • í 5 Z T S G ƒ eà 9 e À g eö º e ƒ eÆ 9 e Ã9 _ £ e û 6 e u ¶ – _ 6

† 4Y [ M · f • Æ ö ¿ ¢ G H à d < S , aÆ : è F Y f • œ UÆ : Y d ú ŸY – ¢ ú Ÿ Y à ù f • H ¨ ~ G ¨ à @ ² ¸ ½± ö f ± ø Y @ ²z ¸ d ´ ô î { i ‹ + º f • - r~ ? S î ê ˇ d ° ‹ G kY ˇ • f • æ kfi $ ˇ ™ Ç ½­ Æ ï + ØÆ ö Y ñ à ï Ü d –Æ ï + ­ ¿Æ ö æ } ¯ 6 _ a f Ø « Æ î

: ¬8 C Y æ k /
¹ 8 U da û k ø ù é f æ k – • ù ã™ - r
¹ Öà ˛ a Q ¿ &B § Y [ f $9 J E ø ⁄ fi ü a Æû æ Y [ f • Î a Q G + ÅB § Y [ ¯ Y “ Æ \k Í – û

  • f • ¸ cQ Æ ´ ø ¨- r ¤ ê 6¡ ¸ [ ” Æî ø î ƒ d ¤ º - r î ½ æ k 1 fi Æ ¯ â J f • ¸ cQ ; O ı ë ‚Æ : [ J fi ªµ ˜ Ø Æ f Æ: [ J < ú p Ø ´ dM 0 À Æ b dB § b q Æ :Î ! d ( ; Oı ë H [ Y ˜Ø – a ­ê d ð ¢ fi 6} Æ : ; B Y ˝ é f • ª‹ b d ¶ ¯ M[ ” r é • Æ: f • É –à # – ­ ê «À ø Ã Æ È aî [ Y Ö f • Ø Ë õ J M à d à d 2 à #Æ È 2 U ë § f • Æ :] ã Æ ~ 2 Ua Æ M 2 à YÆ ; – { Q ;E f ˘ m + æ kY ™ Ç ¯ Æ :] ã Æ â 1  d î ê a S ıÇ I ¸; B f æ k – Ö • í 5à J F º Yî J 2 ' ; B … Y à § f • î ~ Ç 6 Nx æ k 8 C ø ¶ à Y L © – z f • ‹ ˇ J e [ ã eñ z e 5 l ⁄7 – Ç $ ˇ > f î ü a 4 æ k8 C a Q B § Y R e A 7 ~ e Æ ø _ \ f • ½ î ê í 5 Æ > j; B … d @ ² Æ ö f • F BÆ ø « r Æ ˛å Æ : £ Ø Æ k
  • ™ f • î ê¥ ? S q $ ˇ ; B k d§ ‹ ¸ A £ -r Æ û D¿ f • ¡ ıÀ _ G ˆ ø È- - r
    ¹ Y8 U d µ + f ’ ƒ ™ Ç æ k– ¡ ÿ k e ”: e H : ø ùé ™ Ç f æ k – Ö • ˆ 9 Q - r Æ ûø | ¸ Æ : ~ ¿ æ k Y¡ f • | ¸O : Æ ö ¸ A¡ - r & Yî f • ’ ©y ¨ d m C ªM f • g Ôî 8 C Y æ kø - r & f • À¸ [ Q Y ¯ z _ d â@ ² m ¬ f

Y8 æk¬ÆJæ@X6”pµ‹Yóøº ¿Ø 1996 À Y8 ækX6å 76D ï·@ Æ v fp¯wY æk d‹høI¸-r }8pÙ¯‰â‡ f

S i gm a D e l t a C hi Y Y8 æk¬ÆU’ 78 ‹hX6ı 1926 ÀhYù› f 1973 À S i gm a D e l t a C hi ‹hYX6YHI d ı 1 984, 1987 q 1996 À f

evolapp avatar Jan 30 '15 12:01 evolapp

(i tried to use apache to auto detect charset to correct it, but failed.)

evolapp avatar Jan 30 '15 12:01 evolapp

or u can focus on this:

1973

年Sigma Delta Chi編下了協會的版本,重訂於1984, 1987 和 1996年。

1973 À S i gm a D e l t a C hi ‹hYX6YHI d ı 1 984, 1987 q 1996 À f

evolapp avatar Jan 30 '15 12:01 evolapp

That's what I was looking for, thanks. I'll look into it when I get the chance.

TomRoush avatar Jan 30 '15 15:01 TomRoush