推荐一个双语对照的 PDF 翻译工具的开源项目:PDFMathTranslate

为你推荐一个符合要求的双语对照 PDF 翻译工具的开源项目:"PDFMathTranslate"。
这是一个专门为包含数学公式、表格等复杂内容的 PDF 文档设计的开源翻译工具。它特别强调在翻译过程中保持原文的格式(如数学公式、表格布局),并提供双语对照视图。
"主要特点:"
1. "双语对照显示 (Bilingual Display):" 这是它的核心功能之一。它可以将源语言文本和目标语言翻译后的文本并排显示在同一页面上,方便用户对照阅读原文和译文。 2. "保留复杂格式 (Format Preservation):" 特别擅长处理和保留 PDF 中的数学公式(通常使用 MathML 或 LaTeX 生成)、表格、图片等复杂元素,在翻译后尽量维持其原始布局和样式。 3. "基于开源库 (Based on Open Source Libraries):" 通常会使用开源的 PDF 处理库(如 `pdfplumber`)来解析 PDF 内容,并使用强大的机器翻译 API(如 OpenAI GPT, Hugging Face Transformers 等)进行翻译。 4. "交互式翻译 (Interactive Translation):" 用户可以逐段、逐句地选择文本进行翻译,并实时看到翻译结果和格式更新。 5. "开源免费 (Open Source & Free):" 代码是开源的,用户可以自由使用、修改和分发。
"如何获取和使用:"
"

相关内容:

今天给大家推荐一个双语对照的 PDF 翻译工具的开源项目:PDFMathTranslate 。

项目介绍:

基于 AI 完整保留排版的 PDF 文档全文双语翻译,支持
Google/DeepL/Ollama/OpenAI 等服务,提供 CLI/GUI/Docker 。

项目亮点:

  • 基于 AI 布局分析和 PDF 指令流分析实现对文档排版的完整保留 ;
  • 保留行内/行间公式和图表样式,对 Latex 文献进行特殊优化;
  • 保留文档可索引目录结构 ;
  • 支持 Google、DeepL 和 OpenAI 等多种翻译服务 。

预览效果:

快速开始

1、确保服务器安装的 Python 版本大于 3.8 且小于 3.12 ;

2、安装此程序 ;

pip install pdf2zh

3、打开 GUI 界面 , 访问:http://localhost:7860/

pdf2zh -i

4、上传文件并翻译

如上图,我们上传一个英文版 PDF ,上传完成后,在预览区域会显示 PDF 的内容。

接下来,选择翻译服务 Google、Bing、zhipu、Tentcent 等和翻译方向(英文转中文),

最后点击翻译按钮即可。

当然,我们也可以使用 命令行直接翻译:

pdf2zh raft.pdf

基本原理

核心流程:

1、上传文件后,通过 AI 模型
DocLayout-YOLO-DocStructBench-onnx 解析文档格式 ;

2、调用翻译服务 Google 、智普、Bing、DeepL、OpenAI 等开放平台的服务 ;

3、将数据流整合在一起并输出到目标 PDF 。

参考资料:

https://huggingface.co/wybxc/DocLayout-YOLO-DocStructBench-onnx



关于作者: 网站小编

码农网专注IT技术教程资源分享平台,学习资源下载网站,58码农网包含计算机技术、网站程序源码下载、编程技术论坛、互联网资源下载等产品服务,提供原创、优质、完整内容的专业码农交流分享平台。

热门文章