Java将word转换为文本
2023-12-29 17:47:56
在Java中,你可以使用Apache POI库来读取Word文档并提取文本内容。你可以在 Maven 项目中添加以下依赖:
<!--Word-->
<dependency>
<groupId>org.apache.poi</groupId>
<artifactId>poi</artifactId>
<version>4.1.2</version>
</dependency>
<dependency>
<groupId>org.apache.poi</groupId>
<artifactId>poi-ooxml</artifactId>
<version>4.1.2</version>
</dependency>
以下是一个简单的示例代码,展示如何使用Apache POI将Word文档转换为文本:
import com.fasterxml.jackson.databind.exc.InvalidFormatException;
import org.apache.poi.xwpf.extractor.XWPFWordExtractor;
import org.apache.poi.xwpf.usermodel.XWPFDocument;
import java.io.FileInputStream;
public class WordToTextConverter {
public static void main(String[] args) {
String filePath = "C:\\xxx.docx";
try (FileInputStream fis = new FileInputStream(filePath);
XWPFDocument document = new XWPFDocument(fis)) {
// 1. Check if the document is empty
if (document.getParagraphs().isEmpty()) {
System.err.println("Word文档为空");
return;
}
// 2. Create XWPFWordExtractor
XWPFWordExtractor extractor = new XWPFWordExtractor(document);
// 3. Get text from the Word document
String text = extractor.getText();
// 4. Print the extracted text
System.out.println("Text from Word document:\n" + text);
} catch (InvalidFormatException e) {
System.err.println("无效的Word文档格式");
e.printStackTrace();
} catch (Exception e) {
System.err.println("无法读取Word文档");
e.printStackTrace();
}
}
}
文章来源:https://blog.csdn.net/weixin_43652507/article/details/135294507
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。 如若内容造成侵权/违法违规/事实不符,请联系我的编程经验分享网邮箱:veading@qq.com进行投诉反馈,一经查实,立即删除!
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。 如若内容造成侵权/违法违规/事实不符,请联系我的编程经验分享网邮箱:veading@qq.com进行投诉反馈,一经查实,立即删除!