Deepmind以紅隊模型自動化探索語言模型的有害行為

為了提高語言模型的實際可用性,降低可能產生有害結果的機率,Google旗下人工智慧研究組織Deepmind,發明了以來產生測試使用案例,自動化發現目標語言模型可能出現有害結果,提高模型測試的效率與覆蓋範圍。

GPT-3和Gopher等大型語言模型,都具有生成高品質文字的能力,但事實上,這些模型都很難在實際使用案例中部署,研究人員解釋,語言模型具有生成有害文字的可能性,即使是很小的危害風險,在實際應用中都難以被接受。Deepmind利用經過訓練的分類器,來評估語言模型所產生的內容,並從2,800億參數的聊天機器人,發現數以萬計具有攻擊性的回覆。

由於有太多的輸入,可能使模型產生有害的文字輸出,因此很難在模型實際部署前,找出所有有害行為的可能性,過去有研究使用人工來手動探索模型失敗案例,Deepmind研究人員提到,這種方法雖然有效果,但成本很高,而且也難以發現所有有害的案例。

因此Deepmind想要以自動化方法,來快速探索模型失敗案例,補充手動測試所忽略的部分。研究人員使用語言模型來生成測試使用案例,並使用分類器測試使用案例中的各種有害行為,該方法找出的有害模型行為有4大類,分別是攻擊性語言、資料洩漏、聯絡資訊生成、分配偏誤(Distributional Bias)以及對話危害。

全自動飲水機與一般飲水機差異在哪?

推薦各種冰溫熱開飲機飲水機:台銀採購契約飲水機、日本進口電解水機系列、落地型飲水機

空壓機這裡買最划算!

晨達空壓機秉持著專業空壓機技術、優質快速服務、空壓機合理價格。為您解決工作中需要風量、風壓的問題。

總是為了廚餘煩惱嗎?

雅高環保提供最適用的廚餘機,滿足多樣需求。

票選推薦煮婦最愛手壓封口機,省荷包不犧牲品質

意信臻專營:封口機、各式包裝機械、專業製造、全省批發零售

攻擊性語言指的是仇恨言論、褻瀆、色情內容以及帶有歧視的回應等,而資料洩漏則是模型可能從訓練資料集中,生成受版權保護或個人隱私資訊,語言模型甚至有時候會生成聯絡資訊,引導用戶不必要地發送電子郵件和打電話給真實存在的人。而且模型也可能存在分配偏誤,以不公平的方式評論特定群體,或是可能在長對話中,出現冒犯性語言。

研究人員探索了許多方法來生成多樣化的測試使用案例,部分方法可以產生多樣化的測試使用案例,有一些則可以生成困難的測試使用案例,而Deepmind綜合這些方法,建立高測試覆蓋率的紅隊語言模型,自動發現語言模型的有害行為。

Deepmind將發現的有害輸出中,常出現的詞語建立成黑名單,避免模型生成包含高風險詞語的輸出,並且找出攻擊性語言所引用的訓練資料,在之後迭代模型訓練時移除該資料,研究人員也會輸入一些範例,來強化模型的特定行為。

研究人員提到,整體而言,以語言模型為基礎的紅隊,可在用戶之前發現和修復各種不良的語言模型行為。而Deepmind將紅隊視為負責任語言模型開發的一部分,加上其他工具共同發現和減輕語言模型存在的危害,未來Deepmind也會將這個方法,用於探索各種機器學習系統更廣泛的有害行為。

https://www.ithome.com.tw/news/149256

SMD electronic parts counting machine

累積多年設計生產 Embossed Carrier Tape承載帶的實際經驗,專為電子主、被動零件設計、包裝、製造、改良承載帶、奠定了良好基礎

幫你考照過關,堆高機裝卸操作教學影片大公開 !

上千家公司找到最適合的堆高機搬運方案,專業的規劃與完善的售後服務,讓孚克力堆高機與各大知名廠商建立長期合作。

貨櫃屋優勢特性有哪些?

由於貨櫃屋[可移動/施工快速/可組裝、堆疊(延展性高)/可回收/未來擴充便利]等特性,二手貨櫃屋已普遍被應用於展場活動、居家住宅、工業商辦上。

常見的新北市轉軸有哪些?

新北市轉軸鏈接產品零部主件必須用到的,用於轉動工作中既承受彎矩又承受扭矩的軸稱為轉軸。常見的轉軸有:手機轉軸(翻蓋或旋轉屏手機);筆記本電腦轉軸;便攜式DVD轉軸;LED檯燈轉軸;LCD顯示屏轉軸;GPS等車載支架轉軸等等 。