AI解析器
2025/7/21大约 10 分钟pdfbox模块高级功能解析器
说明
- 基于 AI 大模型实现
- 支持自定义模型
- 支持解析文本
- 支持解析图像
- 支持解析页面内容
- 支持解析文档内容
- 适配大模型列表:
- 智谱(glm)
- 腾讯(hunyuan)
- 阿里(qwen)
- 字节跳动(doubao)
- 月之暗面(kimi)
- 深度求索(deepseek)
- 昆仑万维(tiangong)
- 科大讯飞(spark)
- 开源中国(gitee)
添加依赖
<!--http客户端-->
<dependency>
<groupId>com.squareup.okhttp3</groupId>
<artifactId>okhttp</artifactId>
<version>4.12.0</version>
</dependency>
<!--json解析器-->
<dependency>
<groupId>com.alibaba</groupId>
<artifactId>fastjson</artifactId>
<version>2.0.57</version>
</dependency>
示例
智谱AI解析器
说明
- 默认文本模型为 glm-4-flash
- 默认图像模型为 glm-4v-flash
// 获取api密钥
String apiKey = System.getenv("apiKey");
// 加载文档
Document document = PdfHandler.getDocumentHandler().load("E:\\PDF\\pdfbox\\allTest.pdf");
// 获取解析器
ZhiPuAIParser parser = PdfHandler.getDocumentAIParser(document).getZhiPuAI(apiKey, false);
// 解析图像
AIParseInfo info = parser.parseImageWithPage("根据“这是一张XXX地点XXX的图片”的格式描述图片展示的内容,说出具体的城市,使用中文回答", 0, 1);
// 打印解析结果
System.out.println("返回内容:\n" + info.getResult());
// 关闭文档
document.close();
// 获取api密钥
String apiKey = System.getenv("apiKey");
// 加载文档
Document document = PdfHandler.getDocumentHandler().load("E:\\PDF\\pdfbox\\allTest.pdf");
// 获取解析器
ZhiPuAIParser parser = PdfHandler.getDocumentAIParser(document).getZhiPuAI(apiKey, true);
// 解析页面图像
AIParseInfo info = parser.parsePageWithImage("提取表格内容,以json格式返回", 1);
// 打印解析结果
System.out.println("返回内容:\n" + info.getResult());
// 关闭文档
document.close();
// 获取api密钥
String apiKey = System.getenv("apiKey");
// 加载文档
Document document = PdfHandler.getDocumentHandler().load("E:\\PDF\\pdfbox\\allTest.pdf");
// 获取解析器
ZhiPuAIParser parser = PdfHandler.getDocumentAIParser(document).getZhiPuAI(apiKey, true);
// 解析页面文本
AIParseInfo info = parser.parseTextWithPage("一句话总结文本内容", 0, 0);
// 打印解析结果
System.out.println("返回内容:\n" + info.getResult());
// 关闭文档
document.close();
// 获取api密钥
String apiKey = System.getenv("apiKey");
// 加载文档
Document document = PdfHandler.getDocumentHandler().load("E:\\PDF\\pdfbox\\allTest.pdf");
// 获取解析器
ZhiPuAIParser parser = PdfHandler.getDocumentAIParser(document).getZhiPuAI(apiKey, true);
// 解析页面文本
AIParseInfo info = parser.parseTextWithDocument("一句话总结文本内容", 0, 0);
// 打印解析结果
System.out.println("返回内容:\n" + info.getResult());
// 关闭文档
document.close();
腾讯AI解析器
说明
- 默认文本模型为 hunyuan-turbo
- 默认图像模型为 hunyuan-turbo-vision
// 获取api密钥
String apiKey = System.getenv("apiKey");
// 加载文档
Document document = PdfHandler.getDocumentHandler().load("E:\\PDF\\pdfbox\\allTest.pdf");
// 获取解析器
TencentAIParser parser = PdfHandler.getDocumentAIParser(document).getTencentAI(apiKey, false);
// 解析图像
AIParseInfo info = parser.parseImageWithPage("根据“这是一张XXX地点XXX的图片”的格式描述图片展示的内容,说出具体的城市,使用中文回答", 0, 1);
// 打印解析结果
System.out.println("返回内容:\n" + info.getResult());
// 关闭文档
document.close();
// 获取api密钥
String apiKey = System.getenv("apiKey");
// 加载文档
Document document = PdfHandler.getDocumentHandler().load("E:\\PDF\\pdfbox\\allTest.pdf");
// 获取解析器
TencentAIParser parser = PdfHandler.getDocumentAIParser(document).getTencentAI(apiKey, true);
// 解析页面图像
AIParseInfo info = parser.parsePageWithImage("提取表格内容,以json格式返回", 1);
// 打印解析结果
System.out.println("返回内容:\n" + info.getResult());
// 关闭文档
document.close();
// 获取api密钥
String apiKey = System.getenv("apiKey");
// 加载文档
Document document = PdfHandler.getDocumentHandler().load("E:\\PDF\\pdfbox\\allTest.pdf");
// 获取解析器
TencentAIParser parser = PdfHandler.getDocumentAIParser(document).getTencentAI(apiKey, true);
// 解析页面文本
AIParseInfo info = parser.parseTextWithPage("一句话总结文本内容", 0, 0);
// 打印解析结果
System.out.println("返回内容:\n" + info.getResult());
// 关闭文档
document.close();
// 获取api密钥
String apiKey = System.getenv("apiKey");
// 加载文档
Document document = PdfHandler.getDocumentHandler().load("E:\\PDF\\pdfbox\\allTest.pdf");
// 获取解析器
TencentAIParser parser = PdfHandler.getDocumentAIParser(document).getTencentAI(apiKey, true);
// 解析页面文本
AIParseInfo info = parser.parseTextWithDocument("一句话总结文本内容", 0, 0);
// 打印解析结果
System.out.println("返回内容:\n" + info.getResult());
// 关闭文档
document.close();
阿里AI解析器
说明
- 默认文本模型为 qwen-turbo
- 默认图像模型为 qwen-vl-plus
// 获取api密钥
String apiKey = System.getenv("apiKey");
// 加载文档
Document document = PdfHandler.getDocumentHandler().load("E:\\PDF\\pdfbox\\allTest.pdf");
// 获取解析器
ALiAIParser parser = PdfHandler.getDocumentAIParser(document).getALiAI(apiKey, false);
// 解析图像
AIParseInfo info = parser.parseImageWithPage("根据“这是一张XXX地点XXX的图片”的格式描述图片展示的内容,说出具体的城市,使用中文回答", 0, 1);
// 打印解析结果
System.out.println("返回内容:\n" + info.getResult());
// 关闭文档
document.close();
// 获取api密钥
String apiKey = System.getenv("apiKey");
// 加载文档
Document document = PdfHandler.getDocumentHandler().load("E:\\PDF\\pdfbox\\allTest.pdf");
// 获取解析器
ALiAIParser parser = PdfHandler.getDocumentAIParser(document).getALiAI(apiKey, true);
// 解析页面图像
AIParseInfo info = parser.parsePageWithImage("提取表格内容,以json格式返回", 1);
// 打印解析结果
System.out.println("返回内容:\n" + info.getResult());
// 关闭文档
document.close();
// 获取api密钥
String apiKey = System.getenv("apiKey");
// 加载文档
Document document = PdfHandler.getDocumentHandler().load("E:\\PDF\\pdfbox\\allTest.pdf");
// 获取解析器
ALiAIParser parser = PdfHandler.getDocumentAIParser(document).getALiAI(apiKey, true);
// 解析页面文本
AIParseInfo info = parser.parseTextWithPage("一句话总结文本内容", 0, 0);
// 打印解析结果
System.out.println("返回内容:\n" + info.getResult());
// 关闭文档
document.close();
// 获取api密钥
String apiKey = System.getenv("apiKey");
// 加载文档
Document document = PdfHandler.getDocumentHandler().load("E:\\PDF\\pdfbox\\allTest.pdf");
// 获取解析器
ALiAIParser parser = PdfHandler.getDocumentAIParser(document).getALiAI(apiKey, true);
// 解析页面文本
AIParseInfo info = parser.parseTextWithDocument("一句话总结文本内容", 0, 0);
// 打印解析结果
System.out.println("返回内容:\n" + info.getResult());
// 关闭文档
document.close();
字节跳动AI解析器
说明
- 无默认文本模型,需自行设置
- 无默认图像模型,需自行设置
// 获取api密钥
String apiKey = System.getenv("apiKey");
// 获取模型
String model = System.getenv("model");
// 加载文档
Document document = PdfHandler.getDocumentHandler().load("E:\\PDF\\pdfbox\\allTest.pdf");
// 获取解析器
ByteDanceAIParser parser = PdfHandler.getDocumentAIParser(document).getByteDanceAI(apiKey, false);
// 设置模型
parser.setImageModel(model);
// 解析图像
AIParseInfo info = parser.parseImageWithPage("根据“这是一张XXX地点XXX的图片”的格式描述图片展示的内容,说出具体的城市,使用中文回答", 0, 1);
// 打印解析结果
System.out.println("返回内容:\n" + info.getResult());
// 关闭文档
document.close();
// 获取api密钥
String apiKey = System.getenv("apiKey");
// 获取模型
String model = System.getenv("model");
// 加载文档
Document document = PdfHandler.getDocumentHandler().load("E:\\PDF\\pdfbox\\allTest.pdf");
// 获取解析器
ByteDanceAIParser parser = PdfHandler.getDocumentAIParser(document).getByteDanceAI(apiKey, true);
// 设置模型
parser.setImageModel(model);
// 解析页面图像
AIParseInfo info = parser.parsePageWithImage("提取表格内容,以json格式返回", 1);
// 打印解析结果
System.out.println("返回内容:\n" + info.getResult());
// 关闭文档
document.close();
// 获取api密钥
String apiKey = System.getenv("apiKey");
// 获取模型
String model = System.getenv("model");
// 加载文档
Document document = PdfHandler.getDocumentHandler().load("E:\\PDF\\pdfbox\\allTest.pdf");
// 获取解析器
ByteDanceAIParser parser = PdfHandler.getDocumentAIParser(document).getByteDanceAI(apiKey, true);
// 设置模型
parser.setTextModel(model);
// 解析页面文本
AIParseInfo info = parser.parseTextWithPage("一句话总结文本内容", 0, 0);
// 打印解析结果
System.out.println("返回内容:\n" + info.getResult());
// 关闭文档
document.close();
// 获取api密钥
String apiKey = System.getenv("apiKey");
// 获取模型
String model = System.getenv("model");
// 加载文档
Document document = PdfHandler.getDocumentHandler().load("E:\\PDF\\pdfbox\\allTest.pdf");
// 获取解析器
ByteDanceAIParser parser = PdfHandler.getDocumentAIParser(document).getByteDanceAI(apiKey, true);
// 设置模型
parser.setTextModel(model);
// 解析页面文本
AIParseInfo info = parser.parseTextWithDocument("一句话总结文本内容", 0, 0);
// 打印解析结果
System.out.println("返回内容:\n" + info.getResult());
// 关闭文档
document.close();
月之暗面AI解析器
说明
- 默认文本模型为 moonshot-v1-32k
- 默认图像模型为 moonshot-v1-32k-vision-preview
// 获取api密钥
String apiKey = System.getenv("apiKey");
// 加载文档
Document document = PdfHandler.getDocumentHandler().load("E:\\PDF\\pdfbox\\allTest.pdf");
// 获取解析器
MoonshotAIParser parser = PdfHandler.getDocumentAIParser(document).getMoonshotAI(apiKey, false);
// 解析图像
AIParseInfo info = parser.parseImageWithPage("根据“这是一张XXX地点XXX的图片”的格式描述图片展示的内容,说出具体的城市,使用中文回答", 0, 1);
// 打印解析结果
System.out.println("返回内容:\n" + info.getResult());
// 关闭文档
document.close();
// 获取api密钥
String apiKey = System.getenv("apiKey");
// 加载文档
Document document = PdfHandler.getDocumentHandler().load("E:\\PDF\\pdfbox\\allTest.pdf");
// 获取解析器
MoonshotAIParser parser = PdfHandler.getDocumentAIParser(document).getMoonshotAI(apiKey, true);
// 解析页面图像
AIParseInfo info = parser.parsePageWithImage("提取表格内容,以json格式返回", 1);
// 打印解析结果
System.out.println("返回内容:\n" + info.getResult());
// 关闭文档
document.close();
// 获取api密钥
String apiKey = System.getenv("apiKey");
// 加载文档
Document document = PdfHandler.getDocumentHandler().load("E:\\PDF\\pdfbox\\allTest.pdf");
// 获取解析器
MoonshotAIParser parser = PdfHandler.getDocumentAIParser(document).getMoonshotAI(apiKey, true);
// 解析页面文本
AIParseInfo info = parser.parseTextWithPage("一句话总结文本内容", 0, 0);
// 打印解析结果
System.out.println("返回内容:\n" + info.getResult());
// 关闭文档
document.close();
深度求索AI解析器
说明
- 默认文本模型为 deepseek-chat
- 不支持图像模型
// 获取api密钥
String apiKey = System.getenv("apiKey");
// 加载文档
Document document = PdfHandler.getDocumentHandler().load("E:\\PDF\\pdfbox\\allTest.pdf");
// 获取解析器
DeepSeekAIParser parser = PdfHandler.getDocumentAIParser(document).getDeepSeekAI(apiKey, true);
// 解析页面文本
AIParseInfo info = parser.parseTextWithPage("一句话总结文本内容", 0, 0);
// 打印解析结果
System.out.println("返回内容:\n" + info.getResult());
// 关闭文档
document.close();
// 获取api密钥
String apiKey = System.getenv("apiKey");
// 加载文档
Document document = PdfHandler.getDocumentHandler().load("E:\\PDF\\pdfbox\\allTest.pdf");
// 获取解析器
DeepSeekAIParser parser = PdfHandler.getDocumentAIParser(document).getDeepSeekAI(apiKey, true);
// 解析页面文本
AIParseInfo info = parser.parseTextWithDocument("一句话总结文本内容", 0, 0);
// 打印解析结果
System.out.println("返回内容:\n" + info.getResult());
// 关闭文档
document.close();
昆仑万维AI解析器
说明
- 无默认文本模型
- 不支持图像模型
// 获取api密钥
String apiKey = System.getenv("apiKey");
// 加载文档
Document document = PdfHandler.getDocumentHandler().load("E:\\PDF\\pdfbox\\allTest.pdf");
// 获取解析器
KunLunWanWeiAIParser parser = PdfHandler.getDocumentAIParser(document).getKunLunWanWeiAI(apiKey, true);
// 解析页面文本
AIParseInfo info = parser.parseTextWithPage("一句话总结文本内容", 0, 0);
// 打印解析结果
System.out.println("返回内容:\n" + info.getResult());
// 关闭文档
document.close();
// 获取api密钥
String apiKey = System.getenv("apiKey");
// 加载文档
Document document = PdfHandler.getDocumentHandler().load("E:\\PDF\\pdfbox\\allTest.pdf");
// 获取解析器
KunLunWanWeiAIParser parser = PdfHandler.getDocumentAIParser(document).getKunLunWanWeiAI(apiKey, true);
// 解析页面文本
AIParseInfo info = parser.parseTextWithDocument("一句话总结文本内容", 0, 0);
// 打印解析结果
System.out.println("返回内容:\n" + info.getResult());
// 关闭文档
document.close();
// 获取api密钥
String apiKey = System.getenv("apiKey");
// 加载文档
Document document = PdfHandler.getDocumentHandler().load("E:\\PDF\\pdfbox\\allTest.pdf");
// 获取解析器
MoonshotAIParser parser = PdfHandler.getDocumentAIParser(document).getMoonshotAI(apiKey, true);
// 解析页面文本
AIParseInfo info = parser.parseTextWithDocument("一句话总结文本内容", 0, 0);
// 打印解析结果
System.out.println("返回内容:\n" + info.getResult());
// 关闭文档
document.close();
科大讯飞AI解析器
说明
- 默认文本模型为 generalv3
- 不支持图像模型
// 获取api密钥
String apiKey = System.getenv("apiKey");
// 加载文档
Document document = PdfHandler.getDocumentHandler().load("E:\\PDF\\pdfbox\\allTest.pdf");
// 获取解析器
XunFeiAIParser parser = PdfHandler.getDocumentAIParser(document).getXunFeiAI(apiKey, true);
// 解析页面文本
AIParseInfo info = parser.parseTextWithPage("一句话总结文本内容", 0, 0);
// 打印解析结果
System.out.println("返回内容:\n" + info.getResult());
// 关闭文档
document.close();
// 获取api密钥
String apiKey = System.getenv("apiKey");
// 加载文档
Document document = PdfHandler.getDocumentHandler().load("E:\\PDF\\pdfbox\\allTest.pdf");
// 获取解析器
XunFeiAIParser parser = PdfHandler.getDocumentAIParser(document).getXunFeiAI(apiKey, true);
// 解析页面文本
AIParseInfo info = parser.parseTextWithDocument("一句话总结文本内容", 0, 0);
// 打印解析结果
System.out.println("返回内容:\n" + info.getResult());
// 关闭文档
document.close();
开源中国AI解析器
说明
- 默认文本模型为 glm-4-9b-chat
- 不支持图像模型
// 获取api密钥
String apiKey = System.getenv("apiKey");
// 加载文档
Document document = PdfHandler.getDocumentHandler().load("E:\\PDF\\pdfbox\\allTest.pdf");
// 获取解析器
OSChinaAIParser parser = PdfHandler.getDocumentAIParser(document).getOSChinaAI(apiKey, true);
// 解析页面文本
AIParseInfo info = parser.parseTextWithPage("一句话总结文本内容", 0, 0);
// 打印解析结果
System.out.println("返回内容:\n" + info.getResult());
// 关闭文档
document.close();
// 获取api密钥
String apiKey = System.getenv("apiKey");
// 加载文档
Document document = PdfHandler.getDocumentHandler().load("E:\\PDF\\pdfbox\\allTest.pdf");
// 获取解析器
OSChinaAIParser parser = PdfHandler.getDocumentAIParser(document).getOSChinaAI(apiKey, true);
// 解析页面文本
AIParseInfo info = parser.parseTextWithDocument("一句话总结文本内容", 0, 0);
// 打印解析结果
System.out.println("返回内容:\n" + info.getResult());
// 关闭文档
document.close();