图片来源:Nadezhda Deineka/Getty Images
鉴于AI训练数据的高昂成本,这一资源往往成为财大气粗的科技公司的专属。因此,哈佛大学计划发布一个包含约100万本公共领域书籍的数据集,这些书籍涵盖各种体裁、语言和作者,如狄更斯、但丁和莎士比亚等,因年代久远而不再受版权保护。
尽管这一新的数据集尚未发布,且其具体发布时间和方式尚不明确,但它将依托谷歌的长期图书扫描项目——Google Books,这意味着谷歌也将参与这一宝贵资源的广泛发布。
早在今年3月,哈佛大学便首次透露了机构数据倡议(IDI),概述了其旨在创建“AI法律数据的可信渠道”的计划。然而,直至今日正式启动,我们才得以了解更多详情,并确认IDI已获得微软和OpenAI的资金支持。
IDI执行主任格雷格·莱伯特表示,该数据集旨在通过向所有希望训练大型语言模型(LLMs)的个人或机构——无论是研究实验室还是AI初创公司——开放这一庞大资源,从而实现“公平竞争”。