科技媒體 TechCrunch 昨日(1 月 19 日)PO博文,報道稱 Epoch AI 因未及時披露 OpenAI 的資助而引發爭議,其開發的數學基准測試 FrontierMath 的客觀性受到質疑。
IT之家簡要介紹下 Epoch AI 組織,是主要由 Open Philanthropy 資助的非營利組織。該組織推出了 FrontierMath 基准測試,通過整合專家級數學問題,衡量和測試 AI 模型的數學能力。
OpenAI 的 o3 模型在 EpochAI 的 FrontierMath 基准測試中,以碾壓式優勢傲視其它模型,准確率高達 25%,而其他模型得分在 2% 左右。
Epoch AI 的一位承包商“Meemi”在 LessWrong 論壇上發帖稱,許多 FrontierMath 的貢獻者直到公開宣佈時才知道 OpenAI 參與了該基准搭建。
Meemi 寫道:“溝通完全不透明。我認為 Epoch AI 應該披露 OpenAI 的資助,承包商在選擇是否參與基准測試工作時,應該獲得關於其工作成果可能被用於能力提升的透明信息。”
六位參與 FrontierMath 基准測試設計的數學家錶示,他們併不知道 OpenAI 擁有獨家訪問權限。如果事先知道,他們可能不會參與。
一些社交媒體用戶擔心,這種保密行為可能會損害 FrontierMath 作為客觀基准的聲譽。除了資助 FrontierMath 之外,OpenAI 還可以訪問該基准測試中的許多問題和解決方案 ——Epoch AI 在 12 月 20 日 o3 PO之前併未透露這一事實。
Epoch AI 副主任兼聯合創始人之一 Tamay Besiroglu 在回復 Meemi 的帖子時堅稱,FrontierMath 的完整性沒有受到損害,但也承認 Epoch AI 在未能更加透明方面“犯了一個錯誤”。
AI 專家 Gary Marcus 質疑 OpenAI 的宣告,將此事件與 Theranos 醜聞相提併論。IT之家註:該醜聞是由伊麗莎白・霍爾姆斯創立的血液檢測公司 Theranos 的欺詐事件,該公司聲稱其技術只需幾滴血就能進行數百項檢測,但最後謊言被揭穿,公司最終倒閉,霍爾姆斯也被判犯有欺詐罪。
Besiroglu 承認 OpenAI 可以訪問 FrontierMath 的大部分問題和答案,但有一個“OpenAI 未見過的保留數據集”用於驗證模型的能力。
Besiroglu 寫道
我們被限制在 o3 PO前後才能披露合作關繫,事後看來,我們應該更努力地爭取盡快對基准測試貢獻者保持透明。我們的數學家應該知道誰可以訪問他們的工作。即使我們在契約上受到限制,我們也應該讓與貢獻者的透明度成為我們與 OpenAI 協議中不可協商的一部分。
資訊來源:IT之家。如有侵權,請聯繫我們刪除。
全新M.CBD國際商務中心火熱招商中 歡迎來電預約參觀
參觀時間:週一~週五 9:00AM~19:00PM(新店) 9:00AM~18:00PM(內湖)
歡迎電洽:02-22199566(新店) 02-26585500(內湖)
新店地址:新店民權路108號10樓
內湖地址:內湖區陽光街321巷8號3樓
M.CBD商務中心專頁![yes yes](http://www.h104.com.tw/ckeditor/plugins/smiley/images/thumbs_up.png)
FB粉絲專頁![yes yes](http://www.h104.com.tw/ckeditor/plugins/smiley/images/thumbs_up.png)
民權路上租個人工作室2219-9566/北新路租商務中心/北新路上租個人工作室/大坪林捷運站租商務中心/
新店區租商務中心/新北市租商務中心2219-9566/新北市個人工作室/新北市在台辦事處/新店個人工作室/
新店在台辦事處/十四張捷運商務中心2219-9566/十四張捷運站租個人工作室/十四張捷運租在台辦事處/
租商務中心/租個人工作室/租在台辦事處2219-9566/稀有小坪數辦公室/出租商務中心/出租微型辦公室/
出租個人工作室/民權路出租商務中心/民權路上出租商務辦公室2219-9566/出租大坪林捷運站微型辦公室/
出租大坪林捷運站個人工作室/出租民權路小坪數辦公室/出租北新路小坪數辦公室/出租商務中心/
出租微型辦公室/出租個人工作室/出租M.CBD國際商務中心/
|