ISBNdb转储，或有多少书籍被永久保存？

annas-archive.li/blog, 2022-10-31

如果我们正确地对影子图书馆的文件进行去重，我们保存了世界上多少百分比的书籍？

通过海盗图书馆镜像（编辑：已移至安娜的档案），我们的目标是收集世界上所有的书籍，并永久保存它们。¹在我们的Z-Library种子和原始Library Genesis种子之间，我们有11,783,153个文件。但这到底是多少呢？如果我们正确地对这些文件进行去重，我们保存了世界上多少百分比的书籍？我们真的希望有这样的东西：

10% 的人类书面遗产永久保存

对于百分比，我们需要一个分母：有史以来出版的书籍总数。²在Google Books消亡之前，该项目的一名工程师Leonid Taycher试图估算这个数字。他开玩笑地得出了129,864,880（“至少到星期天”）。他通过建立一个世界上所有书籍的统一数据库来估算这个数字。为此，他汇集了不同的数据集，然后以各种方式将它们合并。

顺便说一句，还有另一个人试图将世界上所有的书籍编目：已故的数字活动家和Reddit联合创始人Aaron Swartz。³ 他创办了Open Library，目标是“为每本出版的书创建一个网页”，结合来自许多不同来源的数据。他最终为他的数字保存工作付出了最高的代价，因为他因批量下载学术论文而被起诉，导致他自杀。不用说，这就是我们小组使用化名的原因之一，也是我们非常小心的原因。Open Library仍然由互联网档案馆的工作人员英勇地运营，继续Aaron的遗产。我们将在本文后面回到这一点。

在Google的博客文章中，Taycher描述了估算这个数字的一些挑战。首先，什么构成一本书？有几种可能的定义：

实体副本。 显然这不是很有帮助，因为它们只是相同材料的重复。如果我们能保存人们在书中做的所有注释，比如费马著名的“边缘涂鸦”，那就太酷了。但遗憾的是，这将仍然是档案管理员的梦想。
“作品”。 例如，“哈利·波特与密室”作为一个逻辑概念，涵盖了它的所有版本，如不同的翻译和再版。这是一种有用的定义，但很难划定界限。例如，我们可能希望保存不同的翻译，尽管只有细微差别的再版可能不那么重要。
“版本”。 在这里，您计算书籍的每个独特版本。如果它的任何方面不同，比如不同的封面或不同的前言，它就算作不同的版本。
文件。 在与影子图书馆如Library Genesis、Sci-Hub或Z-Library合作时，还有一个额外的考虑因素。可能会有同一版本的多次扫描。人们可以通过使用OCR扫描文本或纠正角度扫描的页面来制作现有文件的更好版本。我们希望只将这些文件计为一个版本，这需要良好的metadata，或使用文档相似性度量进行去重。

“版本”似乎是“书籍”最实用的定义。方便的是，这个定义也用于分配唯一的ISBN号。ISBN，即国际标准书号，通常用于国际商务，因为它与国际条码系统（“国际商品编号”）集成在一起。如果您想在商店中销售书籍，就需要一个条码，因此您需要获得ISBN。

Taycher的博客文章提到，虽然ISBN很有用，但它们并不普遍，因为它们实际上是在七十年代中期才被广泛采用，并且并非在全球范围内都使用。尽管如此，ISBN可能是书籍版本中最广泛使用的标识符，因此它是我们最好的起点。如果我们能找到世界上所有的ISBN，我们就能得到一份有用的书籍清单，知道哪些书籍仍需保存。

那么，我们从哪里获取数据呢？目前有许多现有的努力正在尝试编制世界上所有书籍的清单：

Google。 毕竟，他们为Google Books进行了这项研究。然而，他们的metadata无法批量访问，并且相当难以抓取。
Open Library。 如前所述，这是他们的整个使命。他们从合作图书馆和国家档案馆中获取了大量的图书馆数据，并继续这样做。他们还有志愿图书管理员和技术团队，试图去重记录，并用各种metadata标记它们。最重要的是，他们的数据集是完全开放的。您可以简单地下载。
WorldCat。 这是一个由非营利组织OCLC运营的网站，OCLC销售图书馆管理系统。他们从许多图书馆中聚合书籍metadata，并通过WorldCat网站提供。然而，他们也通过销售这些数据赚钱，因此无法批量下载。他们确实与特定图书馆合作，提供一些更有限的批量数据集供下载。
ISBNdb。 这是这篇博客文章的主题。ISBNdb从各种网站抓取书籍metadata，特别是定价数据，然后将其出售给书商，以便他们可以根据市场的其余部分为他们的书定价。由于ISBN在当今相当普遍，他们实际上建立了“每本书的网页”。
各种独立的图书馆系统和档案馆。 有些图书馆和档案馆没有被上述任何一个索引和聚合，通常是因为资金不足，或者出于其他原因不愿与Open Library、OCLC、Google等分享他们的数据。许多这些确实有通过互联网访问的数字记录，并且通常没有很好地保护，因此如果您想帮助并乐于学习奇怪的图书馆系统，这些是很好的起点。

在这篇文章中，我们很高兴宣布一个小型发布（与我们之前的Z-Library发布相比）。我们抓取了大部分ISBNdb，并将数据在海盗图书馆镜像网站上提供种子下载（编辑：已移至安娜的档案；我们不会在此直接链接，只需搜索即可）。这些大约有3090万条记录（20GB作为JSON Lines；4.4GB压缩后）。在他们的网站上，他们声称实际上有3260万条记录，所以我们可能遗漏了一些，或者他们可能做错了什么。无论如何，目前我们不会分享我们是如何做到的——我们将其留作读者的练习。😉

我们将分享一些初步分析，以尝试更接近估算世界上书籍的数量。我们查看了三个数据集：这个新的ISBNdb数据集，我们从Z-Library影子库（包括Library Genesis）抓取的元数据的原始发布，以及Open Library的数据转储。

让我们从一些粗略的数字开始：

	Editions	ISBNs
ISBNdb	-	30,851,787
Z-Library	11,783,153	3,581,309
Open Library	36,657,084	17,371,977

在Z-Library/Libgen和Open Library中，书籍数量远多于唯一的ISBN。这是否意味着许多书籍没有ISBN，或者只是缺少ISBN元数据？我们可能可以通过基于其他属性（标题、作者、出版商等）的自动匹配、引入更多数据源以及从实际书籍扫描中提取ISBN（在Z-Library/Libgen的情况下）来回答这个问题。

这些ISBN中有多少是唯一的？这最好用维恩图来说明：

更精确地说：

ISBNdb ∩ OpenLib	10,177,281
ISBNdb ∩ Zlib	2,308,259
Zlib ∩ OpenLib	1,837,598
ISBNdb ∩ Zlib ∩ OpenLib	1,534,342

我们对重叠之少感到惊讶！ISBNdb有大量的ISBN没有出现在Z-Library或Open Library中，其他两个也是如此（虽然程度较小但仍然显著）。这引发了许多新问题。自动匹配在标记未标记ISBN的书籍方面能有多大帮助？会有很多匹配从而增加重叠吗？另外，如果我们引入第四或第五个数据集，会看到多少重叠？

这确实为我们提供了一个起点。我们现在可以查看所有不在Z-Library数据集中的ISBN，并且也不匹配标题/作者字段。这可以帮助我们保存世界上的所有书籍：首先通过在互联网上抓取扫描件，然后在现实生活中扫描书籍。后者甚至可以通过众筹实现，或者由希望看到特定书籍数字化的人提供“赏金”来驱动。所有这些都是另一个时间的故事。

如果您想帮助其中的任何一项——进一步分析；抓取更多元数据；寻找更多书籍；对书籍进行OCR；在其他领域（如论文、有声书、电影、电视节目、杂志）中进行这些工作，甚至将这些数据用于机器学习/大语言模型训练等用途——请联系我（Reddit）。

如果您对数据分析特别感兴趣，我们正在努力使我们的数据集和脚本以更易于使用的格式提供。如果您能直接分叉一个笔记本并开始使用，那就太好了。

最后，如果您想支持这项工作，请考虑捐款。这是一个完全由志愿者运营的项目，您的贡献会产生巨大的影响。每一点帮助都很重要。目前我们接受加密货币捐款；请参阅Anna的档案馆的捐赠页面。

- Anna和团队（Reddit）

1. 对“永远”的某种合理定义。;)

2. 当然，人类的书面遗产远不止书籍，尤其是在当今时代。为了这篇文章和我们最近的发布，我们专注于书籍，但我们的兴趣更广泛。

3. 关于Aaron Swartz还有很多可以说的，但我们只想简要提及他，因为他在这个故事中扮演了关键角色。随着时间的推移，可能会有更多人第一次听到他的名字，并随后自己深入了解。