|
我有大量从PDF转换过来的XML文件。主要内容如下
<text top="xxx" left="xxx"...>...</text>
我要继续转换成格式化的文本文件,但是left并不统一,有时候用的是left来定位,有时候却是在text的内容前加空格来定位。
要怎么根据left 转换成空格或者把空格转换成相应的left
=======================
用xpdf 的pdftotxt解决了,-layout 保持样式,基本上保持和PDF一样了。
内容里还有一些组合的生僻字。。。是用left+top把各部分组合起来的 |
|