ISBNdb转储,或有多少书籍被永久保存?
annas-archive.li/blog, 2022-10-31
如果我们正确地对影子图书馆的文件进行去重,我们保存了世界上多少百分比的书籍?
通过海盗图书馆镜像(编辑:已移至安娜的档案),我们的目标是收集世界上所有的书籍,并永久保存它们。1在我们的Z-Library种子和原始Library Genesis种子之间,我们有11,783,153个文件。但这到底是多少呢?如果我们正确地对这些文件进行去重,我们保存了世界上多少百分比的书籍?我们真的希望有这样的东西:
对于百分比,我们需要一个分母:有史以来出版的书籍总数。2在Google Books消亡之前,该项目的一名工程师Leonid Taycher试图估算这个数字。他开玩笑地得出了129,864,880(“至少到星期天”)。他通过建立一个世界上所有书籍的统一数据库来估算这个数字。为此,他汇集了不同的数据集,然后以各种方式将它们合并。
顺便说一句,还有另一个人试图将世界上所有的书籍编目:已故的数字活动家和Reddit联合创始人Aaron Swartz。3 他创办了Open Library,目标是“为每本出版的书创建一个网页”,结合来自许多不同来源的数据。他最终为他的数字保存工作付出了最高的代价,因为他因批量下载学术论文而被起诉,导致他自杀。不用说,这就是我们小组使用化名的原因之一,也是我们非常小心的原因。Open Library仍然由互联网档案馆的工作人员英勇地运营,继续Aaron的遗产。我们将在本文后面回到这一点。
在Google的博客文章中,Taycher描述了估算这个数字的一些挑战。首先,什么构成一本书?有几种可能的定义:
- 实体副本。 显然这不是很有帮助,因为它们只是相同材料的重复。如果我们能保存人们在书中做的所有注释,比如费马著名的“边缘涂鸦”,那就太酷了。但遗憾的是,这将仍然是档案管理员的梦想。
- “作品”。 例如,“哈利·波特与密室”作为一个逻辑概念,涵盖了它的所有版本,如不同的翻译和再版。这是一种有用的定义,但很难划定界限。例如,我们可能希望保存不同的翻译,尽管只有细微差别的再版可能不那么重要。
- “版本”。 在这里,您计算书籍的每个独特版本。如果它的任何方面不同,比如不同的封面或不同的前言,它就算作不同的版本。
- 文件。 在与影子图书馆如Library Genesis、Sci-Hub或Z-Library合作时,还有一个额外的考虑因素。可能会有同一版本的多次扫描。人们可以通过使用OCR扫描文本或纠正角度扫描的页面来制作现有文件的更好版本。我们希望只将这些文件计为一个版本,这需要良好的metadata,或使用文档相似性度量进行去重。
“版本”似乎是“书籍”最实用的定义。方便的是,这个定义也用于分配唯一的ISBN号。ISBN,即国际标准书号,通常用于国际商务,因为它与国际条码系统(“国际商品编号”)集成在一起。如果您想在商店中销售书籍,就需要一个条码,因此您需要获得ISBN。
Taycher的博客文章提到,虽然ISBN很有用,但它们并不普遍,因为它们实际上是在七十年代中期才被广泛采用,并且并非在全球范围内都使用。尽管如此,ISBN可能是书籍版本中最广泛使用的标识符,因此它是我们最好的起点。如果我们能找到世界上所有的ISBN,我们就能得到一份有用的书籍清单,知道哪些书籍仍需保存。
那么,我们从哪里获取数据呢?目前有许多现有的努力正在尝试编制世界上所有书籍的清单:
- Google。 毕竟,他们为Google Books进行了这项研究。然而,他们的metadata无法批量访问,并且相当难以抓取。
- Open Library。 如前所述,这是他们的整个使命。他们从合作图书馆和国家档案馆中获取了大量的图书馆数据,并继续这样做。他们还有志愿图书管理员和技术团队,试图去重记录,并用各种metadata标记它们。最重要的是,他们的数据集是完全开放的。您可以简单地下载。
- WorldCat。 这是一个由非营利组织OCLC运营的网站,OCLC销售图书馆管理系统。他们从许多图书馆中聚合书籍metadata,并通过WorldCat网站提供。然而,他们也通过销售这些数据赚钱,因此无法批量下载。他们确实与特定图书馆合作,提供一些更有限的批量数据集供下载。
- ISBNdb。 这是这篇博客文章的主题。ISBNdb从各种网站抓取书籍metadata,特别是定价数据,然后将其出售给书商,以便他们可以根据市场的其余部分为他们的书定价。由于ISBN在当今相当普遍,他们实际上建立了“每本书的网页”。
- 各种独立的图书馆系统和档案馆。 有些图书馆和档案馆没有被上述任何一个索引和聚合,通常是因为资金不足,或者出于其他原因不愿与Open Library、OCLC、Google等分享他们的数据。许多这些确实有通过互联网访问的数字记录,并且通常没有很好地保护,因此如果您想帮助并乐于学习奇怪的图书馆系统,这些是很好的起点。
在这篇文章中,我们很高兴宣布一个小型发布(与我们之前的Z-Library发布相比)。我们抓取了大部分ISBNdb,并将数据在海盗图书馆镜像网站上提供种子下载(编辑:已移至安娜的档案;我们不会在此直接链接,只需搜索即可)。这些大约有3090万条记录(20GB作为JSON Lines;4.4GB压缩后)。在他们的网站上,他们声称实际上有3260万条记录,所以我们可能遗漏了一些,或者他们可能做错了什么。无论如何,目前我们不会分享我们是如何做到的——我们将其留作读者的练习。😉
我们将分享一些初步分析,以尝试更接近估算世界上书籍的数量。我们查看了三个数据集:这个新的ISBNdb数据集,我们从Z-Library影子库(包括Library Genesis)抓取的元数据的原始发布,以及Open Library的数据转储。
让我们从一些粗略的数字开始:
| Editions | ISBNs | |
|---|---|---|
| ISBNdb | - | 30,851,787 |
| Z-Library | 11,783,153 | 3,581,309 |
| Open Library | 36,657,084 | 17,371,977 |
在Z-Library/Libgen和Open Library中,书籍数量远多于唯一的ISBN。这是否意味着许多书籍没有ISBN,或者只是缺少ISBN元数据?我们可能可以通过基于其他属性(标题、作者、出版商等)的自动匹配、引入更多数据源以及从实际书籍扫描中提取ISBN(在Z-Library/Libgen的情况下)来回答这个问题。
这些ISBN中有多少是唯一的?这最好用维恩图来说明:
更精确地说:
| ISBNdb ∩ OpenLib | 10,177,281 |
|---|---|
| ISBNdb ∩ Zlib | 2,308,259 |
| Zlib ∩ OpenLib | 1,837,598 |
| ISBNdb ∩ Zlib ∩ OpenLib | 1,534,342 |
我们对重叠之少感到惊讶!ISBNdb有大量的ISBN没有出现在Z-Library或Open Library中,其他两个也是如此(虽然程度较小但仍然显著)。这引发了许多新问题。自动匹配在标记未标记ISBN的书籍方面能有多大帮助?会有很多匹配从而增加重叠吗?另外,如果我们引入第四或第五个数据集,会看到多少重叠?
这确实为我们提供了一个起点。我们现在可以查看所有不在Z-Library数据集中的ISBN,并且也不匹配标题/作者字段。这可以帮助我们保存世界上的所有书籍:首先通过在互联网上抓取扫描件,然后在现实生活中扫描书籍。后者甚至可以通过众筹实现,或者由希望看到特定书籍数字化的人提供“赏金”来驱动。所有这些都是另一个时间的故事。
如果您想帮助其中的任何一项——进一步分析;抓取更多元数据;寻找更多书籍;对书籍进行OCR;在其他领域(如论文、有声书、电影、电视节目、杂志)中进行这些工作,甚至将这些数据用于机器学习/大语言模型训练等用途——请联系我(Reddit)。
如果您对数据分析特别感兴趣,我们正在努力使我们的数据集和脚本以更易于使用的格式提供。如果您能直接分叉一个笔记本并开始使用,那就太好了。
最后,如果您想支持这项工作,请考虑捐款。这是一个完全由志愿者运营的项目,您的贡献会产生巨大的影响。每一点帮助都很重要。目前我们接受加密货币捐款;请参阅Anna的档案馆的捐赠页面。
- Anna和团队(Reddit)
1. 对“永远”的某种合理定义。;)
2. 当然,人类的书面遗产远不止书籍,尤其是在当今时代。为了这篇文章和我们最近的发布,我们专注于书籍,但我们的兴趣更广泛。
3. 关于Aaron Swartz还有很多可以说的,但我们只想简要提及他,因为他在这个故事中扮演了关键角色。随着时间的推移,可能会有更多人第一次听到他的名字,并随后自己深入了解。