本周早些時(shí)候紐約時(shí)報(bào)發(fā)布了一篇內(nèi)容描述人工智能公司 OpenAI 在收集高質(zhì)量訓(xùn)練數(shù)據(jù)方面遇到的大戰(zhàn)的困難,昨夜紐約時(shí)報(bào)發(fā)布新內(nèi)容描述 OpenAI 如何處理這些問(wèn)題。觸即
OpenAI 一開始迫切需要海量的錄超藍(lán)點(diǎn)香港外圍模特經(jīng)紀(jì)人(外圍預(yù)約)(電話微信180-4582-8235)提供1-2線城市高端外圍預(yù)約快速安排30分鐘到達(dá)訓(xùn)練數(shù)據(jù),報(bào)道稱為了解決訓(xùn)練數(shù)據(jù)問(wèn)題 OpenAI 開發(fā)了語(yǔ)音轉(zhuǎn)錄模型 Whisper。過(guò)萬(wàn)
該模型被用于轉(zhuǎn)錄 OpenAI 獲取的小時(shí)訓(xùn)練超過(guò) 100 萬(wàn)小時(shí)的 YouTube 視頻,也就是視頻將 YouTube 視頻中的音頻內(nèi)容轉(zhuǎn)錄文字,然后再拿去訓(xùn)練 GPT-4。模型
OpenAI 顯然知道自己的大戰(zhàn)的這種做法存在法律上的爭(zhēng)議,不過(guò)該公司相信這是觸即合理使用的,而且 OpenAI 總裁 Greg Brockman 親自參與了上述所使用視頻的錄超藍(lán)點(diǎn)收集工作。
在被紐約時(shí)報(bào)報(bào)道后,過(guò)萬(wàn)OpenAI 發(fā)言人表示,小時(shí)訓(xùn)練該公司為其每個(gè)模型策劃了獨(dú)特的視頻香港外圍模特經(jīng)紀(jì)人(外圍預(yù)約)(電話微信180-4582-8235)提供1-2線城市高端外圍預(yù)約快速安排30分鐘到達(dá)數(shù)據(jù)集,以幫助該公司了解世界并保持其全球研究競(jìng)爭(zhēng)力,模型該公司使用了眾多數(shù)據(jù)源,大戰(zhàn)的包括公開數(shù)據(jù)和非公開數(shù)據(jù)的合作伙伴,并且 OpenAI 在考慮生成自己的合成數(shù)據(jù)。
不過(guò)早在 2021 年 OpenAI 就耗盡了有用的數(shù)據(jù)供應(yīng),包括轉(zhuǎn)錄的超過(guò) 100 萬(wàn)小時(shí)的 YouTube 視頻、播客和其他有聲讀物,那時(shí)候 OpenAI 已經(jīng)使用這些數(shù)據(jù)進(jìn)行訓(xùn)練,模型數(shù)據(jù)也包括 GitHub 上的計(jì)算機(jī)代碼、國(guó)際象棋走棋數(shù)據(jù)庫(kù)以及 Quizlet 等。

谷歌稱相關(guān)行為已經(jīng)違規(guī):
對(duì)于上述報(bào)道谷歌自然不會(huì)坐視不理的,畢竟對(duì)谷歌來(lái)說(shuō),YouTube 內(nèi)容庫(kù)現(xiàn)在就是個(gè)金山,谷歌自己能用,但絕對(duì)不能給其他公司用。
谷歌發(fā)言人稱已經(jīng)注意到有關(guān) OpenAI 活動(dòng)的未經(jīng)證實(shí)的報(bào)告,谷歌的 robots.txt 文件和服務(wù)條款都禁止未經(jīng)授權(quán)的抓取或下載 YouTube 內(nèi)容,這與谷歌相關(guān)的條款相符。
本周 YouTube CEO 也就 OpenAI 使用 YouTube 數(shù)據(jù)來(lái)訓(xùn)練 Sora 模型的可能性發(fā)布了類似言論,同時(shí)她警告稱當(dāng)有明確的法律或技術(shù)依據(jù)時(shí),谷歌會(huì)采取技術(shù)和法律措施來(lái)防止此類未經(jīng)授權(quán)的使用。
谷歌自己使用 YouTube 數(shù)據(jù)訓(xùn)練 AI:
雖然谷歌強(qiáng)調(diào)保護(hù)創(chuàng)作者的內(nèi)容,不過(guò)谷歌也承認(rèn)他們也使用 YouTube 視頻來(lái)訓(xùn)練 AI,谷歌此前已經(jīng)透露該公司與創(chuàng)作者的協(xié)議中,可以使用一些 YouTube 內(nèi)容來(lái)訓(xùn)練模型。
數(shù)據(jù)收集方法也是類似的,即將 YouTube 的音頻內(nèi)容轉(zhuǎn)換為文字內(nèi)容后,再拿去訓(xùn)練模型,對(duì)谷歌來(lái)說(shuō) YouTube 的內(nèi)容庫(kù)可以提供海量數(shù)據(jù),是個(gè)不可多得的幾乎不用花錢的數(shù)據(jù)源。
接下來(lái)是否會(huì)出現(xiàn)法律訴訟:
考慮到 OpenAI 對(duì)數(shù)據(jù)的迫切需求,OpenAI 通過(guò)各種方式抓取受版權(quán)保護(hù)的內(nèi)容不足為奇,在初期也就是 2021 年前后這種情況估計(jì)還不會(huì)引起關(guān)注,但現(xiàn)在情況已經(jīng)不同了。
如果谷歌找到證據(jù)表明 OpenAI 抓取 YouTube 內(nèi)容用于訓(xùn)練,那么谷歌肯定會(huì)起訴 OpenAI,畢竟 OpenAI 的行為確實(shí)可能已經(jīng)違反了 YouTube 相關(guān)協(xié)議。
所以或許在不久之后我們就能看到各種因?yàn)閮?nèi)容版權(quán)問(wèn)題引起的法律大戰(zhàn),到時(shí)候牽涉進(jìn)來(lái)的自然也不只是谷歌和 OpenAI,可能還有更多 AI 公司和內(nèi)容提供商牽涉進(jìn)來(lái)。