人类知识之光丨安娜的档案/读秀数据库/ LLM data
Exclusive access for LLM companies to largest Chinese non-fiction book collection in the world
昨天影子图书馆 Anna’s Archive 宣布已获取「超星」旗下读秀数据库的 750 多万份、共计 359TB 的电子图书,超过 Library Genesis 530 万本存量,且大多数都是学术图书的扫描存储,这意味着很多中文书籍都可以直接在「安娜的档案」找到。
另外,前不久「安娜的档案 LLM data」就已经宣布其所有存储内容,书籍/论文/杂志都已经开放可用作 LLM 的数据获取和训练,而且大多数都已经 OCR 处理,内容几乎没有重叠。(包括这次的读秀数据)
数字存储、知识开放、数据训练、法权抗争,知识和信息没有永恒,但知识的自我保存会在每一次下载存储和阅读传播中生根繁衍,寄生岁月。
Reference
人类 10% 的文本遗产被永久保存
Sci-Hub 创始人荣获「EFF」颁发的奖项
Zlib,海盗镜像图书项目
#books
Exclusive access for LLM companies to largest Chinese non-fiction book collection in the world
昨天影子图书馆 Anna’s Archive 宣布已获取「超星」旗下读秀数据库的 750 多万份、共计 359TB 的电子图书,超过 Library Genesis 530 万本存量,且大多数都是学术图书的扫描存储,这意味着很多中文书籍都可以直接在「安娜的档案」找到。
另外,前不久「安娜的档案 LLM data」就已经宣布其所有存储内容,书籍/论文/杂志都已经开放可用作 LLM 的数据获取和训练,而且大多数都已经 OCR 处理,内容几乎没有重叠。(包括这次的读秀数据)
数字存储、知识开放、数据训练、法权抗争,知识和信息没有永恒,但知识的自我保存会在每一次下载存储和阅读传播中生根繁衍,寄生岁月。
Reference
人类 10% 的文本遗产被永久保存
Sci-Hub 创始人荣获「EFF」颁发的奖项
Zlib,海盗镜像图书项目
#books