哈佛携手谷歌，将百万公共领域书籍转化为AI训练数据集

2024-12-12 / 阅读约2分钟

来源：TechCrunch

哈佛大学计划发布包含约100万本无版权保护的公共领域书籍的数据集，用于AI训练。该数据集来源于Google Books项目，微软和OpenAI为该项目提供资金支持。

图片来源：Nadezhda Deineka／Getty Images

鉴于AI训练数据的高昂成本，这一资源往往成为财大气粗的科技公司的专属。因此，哈佛大学计划发布一个包含约100万本公共领域书籍的数据集，这些书籍涵盖各种体裁、语言和作者，如狄更斯、但丁和莎士比亚等，因年代久远而不再受版权保护。

尽管这一新的数据集尚未发布，且其具体发布时间和方式尚不明确，但它将依托谷歌的长期图书扫描项目——Google Books，这意味着谷歌也将参与这一宝贵资源的广泛发布。

早在今年3月，哈佛大学便首次透露了机构数据倡议（IDI），概述了其旨在创建“AI法律数据的可信渠道”的计划。然而，直至今日正式启动，我们才得以了解更多详情，并确认IDI已获得微软和OpenAI的资金支持。

IDI执行主任格雷格·莱伯特表示，该数据集旨在通过向所有希望训练大型语言模型（LLMs）的个人或机构——无论是研究实验室还是AI初创公司——开放这一庞大资源，从而实现“公平竞争”。

2 天前

意法第一财季营业利润锐减至 300 万美元，营收同比环比降幅均超两成

3 天前

2 天前

泛林集团 2025 年 3 月季度营收同比增长 24.4%，中国大陆贡献 31%

2 天前

兆易创新 2024 年营收增长 27.69%，2025 年一季度营收同比提升 17.32%

2 天前

Dynatron 确认英特尔 LGA9324 和 AMD SP7 服务器处理器平台

2 天前

Dynatron冷却器支持高达660W的Intel Diamond Rapids与AMD Venice CPU

2 天前

寒武纪拟定增49.8亿：公司市值2937亿陈天石身价达870亿

3 天前

3 天前

美蓓亚三美加价，国巨重新评估对日本芝浦电子的收购要约条款

2 天前

英特尔首席商务官 Christoph Schell 将于 6 月末离任，转投 Kuka