哈佛携手谷歌,将百万公共领域书籍转化为AI训练数据集
2024-12-12 / 阅读约2分钟
来源:TechCrunch
哈佛大学计划发布包含约100万本无版权保护的公共领域书籍的数据集,用于AI训练。该数据集来源于Google Books项目,微软和OpenAI为该项目提供资金支持。

图片来源:Nadezhda Deineka/Getty Images

鉴于AI训练数据的高昂成本,这一资源往往成为财大气粗的科技公司的专属。因此,哈佛大学计划发布一个包含约100万本公共领域书籍的数据集,这些书籍涵盖各种体裁、语言和作者,如狄更斯、但丁和莎士比亚等,因年代久远而不再受版权保护。

尽管这一新的数据集尚未发布,且其具体发布时间和方式尚不明确,但它将依托谷歌的长期图书扫描项目——Google Books,这意味着谷歌也将参与这一宝贵资源的广泛发布。

早在今年3月,哈佛大学便首次透露了机构数据倡议(IDI),概述了其旨在创建“AI法律数据的可信渠道”的计划。然而,直至今日正式启动,我们才得以了解更多详情,并确认IDI已获得微软和OpenAI的资金支持。

IDI执行主任格雷格·莱伯特表示,该数据集旨在通过向所有希望训练大型语言模型(LLMs)的个人或机构——无论是研究实验室还是AI初创公司——开放这一庞大资源,从而实现“公平竞争”。