构建 Web EPUB 阅读器的技术选型与架构设计

为什么要做一个 Web EPUB 阅读器

电子书阅读看似已经是一个被充分解决的问题，但当你真正深入 EPUB 格式的细节时，会发现现有方案都有各自的局限性。

EPUB 本质上是一个 ZIP 压缩包，内部包含 XHTML 文件、CSS 样式表、图片资源以及一个描述书籍结构的 OPF 文件。这种设计既灵活又复杂——灵活在于它支持几乎所有的 Web 排版能力，复杂在于要正确渲染一个 EPUB 文件需要处理大量的边界情况。

技术选型

解析层

选择使用原生的 JSZip 库来解压 EPUB 文件，然后用 DOMParser 解析 XML/HTML 内容。相比引入重量级的解析库，这种方式更轻量且可控。

import JSZip from 'jszip';

async function parseEpub(buffer: ArrayBuffer) {
  const zip = await JSZip.loadAsync(buffer);
  const container = await zip.file('META-INF/container.xml')?.async('text');
  // 解析 container.xml 获取 OPF 路径
  // ...
}

渲染层

核心挑战在于如何在 Web 环境中实现类似原生阅读器的排版效果。主要考虑了三种方案：

iframe 隔离渲染 — 每章一个 iframe，样式隔离好但内存开销大
Shadow DOM — 组件化程度高但 CSS 支持有限
单容器分页 — 性能最优但需要自实现分页逻辑

最终选择了 iframe 方案，因为它提供了最好的样式隔离性，这对于支持不同 EPUB 文件的自定义 CSS 至关重要。

分页引擎

分是 Web 阅读器最核心的难题之一。CSS Columns 方案虽然简洁但在不同浏览器间存在渲染差异，最终采用了基于 Range API 的自定义分页方案。

遇到的坑

中文排版

中文 EPUB 的排版需求与英文有显著差异：避头尾规则、标点挤压、竖排支持等。这些在 Web 原生支持中并不完善，需要额外处理。

大文件性能

一些 EPUB 文件包含大量图片，单次加载所有资源会导致严重的性能问题。最终实现了基于虚拟化的内容懒加载策略。

当前进展

基础阅读功能已经稳定，正在完善以下特性：

笔记标注与持久化
阅读进度同步
自定义主题系统
目录导航优化

后续会专门写文章详细分享每个模块的实现细节。