Java可以輕松讀取Word文檔文件,包括老版本的.doc和新版本的.docx文件。這可以通過Apache poi庫來實現(xiàn)。
Apache poi是Java平臺上的一個開源庫,它可以處理Microsoft Office文件主要是Word、Excel和PowerPoint。使用這個庫,我們可以利用Java程序來讀取、創(chuàng)建和修改這些Microsoft Office文件。
//讀取doc文件 FileInputStream fis = new FileInputStream(new File("example.doc")); HWPFDocument document = new HWPFDocument(fis); WordExtractor extractor = new WordExtractor(document); String text = extractor.getText(); System.out.println(text);
//讀取docx文件 FileInputStream fis = new FileInputStream(new File("example.docx")); XWPFDocument document = new XWPFDocument(fis); XWPFWordExtractor extractor = new XWPFWordExtractor(document); String text = extractor.getText(); System.out.println(text);
解釋一下上面的代碼:
第一段代碼是讀取doc文件。我們使用HWPFDocument類來讀取文件,然后使用WordExtractor來提取文本。最后,我們將提取的文本打印到控制臺上。
第二段代碼是讀取docx文件。和讀取doc文件相似,我們使用XWPFDocument類來讀取文件,然后使用XWPFWordExtractor來提取文本。最后,我們將提取的文本打印到控制臺上。
讀取Word文件的過程可能會比較慢,因此最好在另一個線程中進行。此外,使用poi庫可以實現(xiàn)更高級的操作,如創(chuàng)建和修改文檔,添加段落和表格等等。