內湖分店 新店分店 中和分店 法拍部 商務中心 

谷歌因違規收集訓練數據領2.5億歐元罰單,數據版權問題再引爭議

    法國市場監管機構日前宣佈,已嚮美國谷歌公司開出一張2.5億歐元(約合人民幣19.7億元)的罰單,原因是谷歌未經同意使用法國出版商和新聞機構的內容訓練旗下的聊天機器人“巴德”(其升級版名為“雙子座”),違反了歐盟智慧產權的相關法規。谷歌就此成為了第一家因為訓練數據而被罰款的人工智慧(AI)公司。對此,學者嚮澎湃新聞(www.thepaper.cn)錶示,谷歌遭到處罰,可能會導致今後出現越來越多類似的訴訟。

    在AI技術更新叠代非常迅速的前提下,AI公司在獲取訓練大模型的數據時,如何界定獲取語料的合法性?專家認為,目前數據權益保護問題仍存在模糊地帶,但可以出臺健全市場和管理的方法應對這些問題。

    谷歌被首罰成先例,不排除有更多類似訴訟

    報道稱,法國監管機構錶示,作為和解條件,谷歌對其違規行為不作辯解,併將提出有關措施,以修正產品和服務缺陷。谷歌對此回應稱,希望尋求和解是因為“該往前走了”。“我們希望專註於更大的、可持續的方法,把用戶和高質量的內容聯繫起來,併與法國出版機構進行建設性合作。但需要註意的是,監管機構沒有充分考慮我們為解決問題所做的努力,因為在‘探索新路’的過程中,我們無法預測未來的風嚮。”

    谷歌與法國出版機構之間的紛爭,始於2019年。當時,法新社等多家法國媒體機構曾嚮監管機構投訴,稱谷歌未經允許,擅自使用這些機構出版的網路內容。2020年,監管機構要求谷歌與相關出版機構就內容付費進行談判,但因為談判未果,監管機構於2021年嚮谷歌開出了5億歐元的罰單。2022年,谷歌與相關媒體出版商達成和解協議。

    在此次的宣告中,監管機構稱,谷歌違反了和解協議中的幾項條款,包括與相關出版機構談判、提供透明信息等。監管機構特別提到,谷歌利用媒體平臺和新聞機構的數據,用於訓練2023年推出的“巴德”,但未告知相關出版機構和監管機構。為此,監管機構錶示,“對谷歌的AI服務感到擔憂”。

    因為此次爭端,谷歌成為首家因為訓練數據而被罰款的AI公司。在AI更新叠代迅速的前提下,谷歌的案例對於其他AI公司是一個警示,還是今後會有更多類似的訴訟?復旦大學計算機學院教授、復旦大學上海大數據實驗室主任肖仰華嚮澎湃新聞錶示,類似的訴訟可能會越來越多,這些訴訟可以被認為是AI產業發展過程中的必然問題。“AI發展核心在於數據,所以AI公司非常渴求高質量數據。在收集和使用數據的過程中,這些公司會加大數據收集力度,但會有意無意地侵犯其他主體的數據權益。另一方面,數據權益保護目前仍存在模糊地帶,包括制度供給、實踐案例等。”

    從法律的角度看,上海交通大學媒體與傳播學院教授陳堂發認為,法國監管機構對於谷歌的處罰具有法律依據,這對其他的AI公司應該具有警示功能,處罰行為錶明AI研發及產品使用如果涉及大規模使用他人作品的訓練,無疑存在法律風險。

    古早媒體與AI公司之間的版權之爭

    為確保獲得使用出版機構內容作為數據訓練的許可,另一家科技公司OpenAI於2023年與美聯社、德國媒體巨頭Axel Springer等達成有關協議。不過,該公司沒有與《紐約時報》就有關問題達成協議,因此在2023年12月被該報起訴。《紐約時報》稱,OpenAI和科技巨頭微軟“非法復制和使用該報獨特、有價值的作品”,要求兩家公司銷毀任何使用到該報版權材料的聊天機器人模型和訓練數據。《紐約時報》錶示曾與兩家公司接洽,提出對他們使用其版權內容的擔憂,併希望探索“友好的解決方案”,比如提出圍繞生成式AI產品的商業協議等,但當時的談判未得出解決方案。

    《紐約時報》就此成為第一家就版權問題起訴AI公司的美國媒體。起訴內容顯示,大量由該報刊發的文章被用作訓練聊天機器人的數據,且有分析認為,這些聊天機器人正在與古早新聞出版平臺競爭,同樣希望成為“可靠的消息源”。此外,《紐約時報》還在訴訟中引用一些案例,錶明一些在該報網站上需要付費訂閱閱讀的文章,ChatGPT等聊天機器人可以免費嚮用戶提供。

    目前的多項爭端,多由《紐約時報》、法新社等媒體機構提起。肖仰華分析稱,由於目前媒體界呈現出新媒體挑戰古早媒體的局面,再加上生成式AI會侵犯古早出版機構的利益,因此古早媒體在這個問題上更敏感。

    對於這項訴訟,OpenAI曾多次回應稱“感到驚訝”,“因為雙方本處於非常積極和富有成效的談判中”。OpenAI方面錶示,旗下的聊天機器人ChatGPT“不會成為代替訂閱《紐約時報》的選項”,稱“包括《紐約時報》在內的單一數據源,對大模型的預期學習併不重要,因為大模型是從人類知識的巨大集合中學習”。

    OpenAI執行長奧特曼還在今年1月的達沃斯經濟論壇上錶示:“AI不需要從《紐約時報》等出版商那裏獲取大量訓練數據。”2月,OpenAI直言,稱《紐約時報》為獲取證據使用“欺騙性提示”,甚至“雇人黑入了OpenAI的繫統”,但未明確指出所謂“駭客”的身份,以及該報可能違反的反駭客法。OpenAI此舉,遭到《紐約時報》反駁,稱OpenAI沒有否認“在法定訴訟時效期內,未經許可地復制了該報作品”。

    社交平臺或成監管真空地帶

    相較於出版物有版權作為制約,AI公司使用社交平臺數據訓練模型,更容易走進灰色地帶。2023年,特斯拉公司執行長馬斯克錶示,其擁有的社交平臺“X”(原推特)會使用收集到的公開數據訓練大模型,但不會涉及用戶的個人隱私數據和私信內容。不過,馬斯克曾公開批評微軟等科技公司,稱這些公司“非法使用‘X’上的數據訓練大模型”,併威脅會就此提起訴訟。

    本月早些時候,OpenAI首席技術官穆拉蒂(Mira Murati)接受了《華爾街日報》採訪。對於該公司用何種數據訓練旗下的文生視訊大模型Sora的問題,穆拉蒂錶示,“我們使用公開的數據,以及經過許可的數據。”但當被問及其中是否包括臉書、YouTube等社交平臺的數據,穆拉蒂只能簡單地以“我不確定”作為回應。

    在這種背景下,如何界定AI公司是否合法使用和獲取了社交平臺上的語料?肖仰華認為,AI公司是否能無所顧忌地使用公開或半公開的數據,是一個處於模糊地帶的問題。“現有法規已經滯後於大模型訓練相關的新型數據權益保護需求。因此有兩個比較關鍵的點,一是健全與完善數據要素市場,二是加強大模型訓練語料的安全合規認證與管理。”

    在市場的層面,為了減少類似糾紛,同時給AI公司獲取語料劃定邊界,陳堂發錶示,“途徑之一,就是相對清晰地切割純粹科研或個人學習欣賞使用AI,與商業性使用AI的具體情形。前者的作品使用具有公益屬性可以免於責任,後者的作品使用應當遵從市場法則。”

    在總體的AI監管層面,為彌補漏洞,歐盟和聯合國先後通過有關法案。3月13日,歐洲議會正式投票通過併批准歐盟《人工智慧法案》,內容包括嚴格禁止“對人類安全造成不可接受風險的AI繫統”,比如有目的地操縱技術、利用人性弱點或根據行為、社會地位和個人特徵等進行評價的繫統等。

    3月21日,聯合國大會投票通過了第一個有關AI的決議草案,以確保這項新技術能夠惠及所有國家、尊重人權併且是“安全、可靠和值得信賴的”技術。決議還承認“AI繫統的治理是一個不斷發展的領域”,需要進一步討論可能的治理方法。

   

資訊來源:澎湃新聞。如有侵權,請聯繫我們刪除。



全新M.CBD國際商務中心火熱招商中yes歡迎來電預約參觀

參觀時間:週一~週五 9:00AM~19:00PM(新店) 9:00AM~18:00PM(內湖)

歡迎電洽:02-22199566(新店)  02-26585500(內湖)

新店地址:新店民權路108號10樓

內湖地址:內湖區陽光街321巷8號3樓

M.CBD商務中心專頁yes

FB粉絲專頁yes

民權路上租個人工作室2219-9566/北新路租商務中心/北新路上租個人工作室/大坪林捷運站租商務中心/
新店區租商務中心/新北市租商務中心2219-9566/新北市個人工作室/新北市在台辦事處/新店個人工作室/
新店在台辦事處/十四張捷運商務中心2219-9566/十四張捷運站租個人工作室/十四張捷運租在台辦事處/
租商務中心/租個人工作室/租在台辦事處2219-9566/稀有小坪數辦公室/出租商務中心/出租微型辦公室/
出租個人工作室/民權路出租商務中心/民權路上出租商務辦公室2219-9566/出租大坪林捷運站微型辦公室/
出租大坪林捷運站個人工作室/出租民權路小坪數辦公室/出租北新路小坪數辦公室/出租商務中心/
出租微型辦公室/出租個人工作室/出租M.CBD國際商務中心/


 
Copyright (C) 遠建不動產有限公司版權所有‧非經授權不得轉載、連結本站圖文 ©