首页 > 学院 > 开发设计 > 正文

采用POI和ANTLR提取WORD文档数据

2019-11-18 11:27:37
字体:
来源:转载
供稿:网友

1. POI提取Word文档内容

POI是Apache开源项目之一,用java实现跨平台MS Word/Excel文档解析。 也就是说可以在非Windows平台提取MS Word/Excel文档内容。 本文采用POI的一个扩展Jar包tm-extractors_0.4.jar提取Word文档内容。 Word文档内容如下:(该文档有2页,每页记录一个组件内容),

采用POI和ANTLR提取WORD文档数据(图一)

采用POI和ANTLR提取WORD文档数据(图二)

Java类中Import import org.textmining.text.extraction.WordExtractor;然后在方法中:

  PRotected String getText() throws Exception {
                WordExtractor extractor=null;
                String text=null;
                extractor = new WordExtractor();
                text=extractor.extractText(in);   // in为 FileInputStream(new File("Word文档地址"));
                return text;
 }

 运行结果如下:

Colimas Component Specification

1. Component: Apache Jakarta POI Java API To access Microsoft Format Files
 
1.1 Basic Information
?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦

Alias                               : POI
Author                            : http://jakarta.apache.org/poi/index.Html
Version                           : 0.0.1
Language                        : Java
Platform                          : Windows, linux, Unix
Status                              : Confirmed
Is public?                         : Y
?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦
1.2 Developers
?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦
Apache developer1
Apache developer2
?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦?¦



发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表