Deepmind以紅隊模型自動化探索語言模型的有害行為 | 廚房餐飲設備,冷凍設備-食品機械公司

為了提高語言模型的實際可用性，降低可能產生有害結果的機率，Google旗下人工智慧研究組織Deepmind，發明了以來產生測試使用案例，自動化發現目標語言模型可能出現有害結果，提高模型測試的效率與覆蓋範圍。

GPT-3和Gopher等大型語言模型，都具有生成高品質文字的能力，但事實上，這些模型都很難在實際使用案例中部署，研究人員解釋，語言模型具有生成有害文字的可能性，即使是很小的危害風險，在實際應用中都難以被接受。Deepmind利用經過訓練的分類器，來評估語言模型所產生的內容，並從2,800億參數的聊天機器人，發現數以萬計具有攻擊性的回覆。

由於有太多的輸入，可能使模型產生有害的文字輸出，因此很難在模型實際部署前，找出所有有害行為的可能性，過去有研究使用人工來手動探索模型失敗案例，Deepmind研究人員提到，這種方法雖然有效果，但成本很高，而且也難以發現所有有害的案例。

因此Deepmind想要以自動化方法，來快速探索模型失敗案例，補充手動測試所忽略的部分。研究人員使用語言模型來生成測試使用案例，並使用分類器測試使用案例中的各種有害行為，該方法找出的有害模型行為有4大類，分別是攻擊性語言、資料洩漏、聯絡資訊生成、分配偏誤（Distributional Bias）以及對話危害。

全自動飲水機與一般飲水機差異在哪?

推薦各種冰溫熱開飲機飲水機:台銀採購契約飲水機、日本進口電解水機系列、落地型飲水機

空壓機這裡買最划算!

晨達空壓機秉持著專業空壓機技術、優質快速服務、空壓機合理價格。為您解決工作中需要風量、風壓的問題。

總是為了廚餘煩惱嗎？

雅高環保提供最適用的廚餘機，滿足多樣需求。

票選推薦煮婦最愛手壓封口機,省荷包不犧牲品質

意信臻專營：封口機、各式包裝機械、專業製造、全省批發零售

攻擊性語言指的是仇恨言論、褻瀆、色情內容以及帶有歧視的回應等，而資料洩漏則是模型可能從訓練資料集中，生成受版權保護或個人隱私資訊，語言模型甚至有時候會生成聯絡資訊，引導用戶不必要地發送電子郵件和打電話給真實存在的人。而且模型也可能存在分配偏誤，以不公平的方式評論特定群體，或是可能在長對話中，出現冒犯性語言。

研究人員探索了許多方法來生成多樣化的測試使用案例，部分方法可以產生多樣化的測試使用案例，有一些則可以生成困難的測試使用案例，而Deepmind綜合這些方法，建立高測試覆蓋率的紅隊語言模型，自動發現語言模型的有害行為。

Deepmind將發現的有害輸出中，常出現的詞語建立成黑名單，避免模型生成包含高風險詞語的輸出，並且找出攻擊性語言所引用的訓練資料，在之後迭代模型訓練時移除該資料，研究人員也會輸入一些範例，來強化模型的特定行為。

研究人員提到，整體而言，以語言模型為基礎的紅隊，可在用戶之前發現和修復各種不良的語言模型行為。而Deepmind將紅隊視為負責任語言模型開發的一部分，加上其他工具共同發現和減輕語言模型存在的危害，未來Deepmind也會將這個方法，用於探索各種機器學習系統更廣泛的有害行為。

https://www.ithome.com.tw/news/149256

SMD electronic parts counting machine

累積多年設計生產 Embossed Carrier Tape承載帶的實際經驗，專為電子主、被動零件設計、包裝、製造、改良承載帶、奠定了良好基礎

幫你考照過關，堆高機裝卸操作教學影片大公開 !

上千家公司找到最適合的堆高機搬運方案，專業的規劃與完善的售後服務，讓孚克力堆高機與各大知名廠商建立長期合作。

貨櫃屋優勢特性有哪些?

由於貨櫃屋［可移動／施工快速／可組裝、堆疊（延展性高）／可回收／未來擴充便利］等特性，二手貨櫃屋已普遍被應用於展場活動、居家住宅、工業商辦上。

常見的新北市轉軸有哪些?

新北市轉軸鏈接產品零部主件必須用到的，用於轉動工作中既承受彎矩又承受扭矩的軸稱為轉軸。常見的轉軸有：手機轉軸（翻蓋或旋轉屏手機）；筆記本電腦轉軸；便攜式DVD轉軸；LED檯燈轉軸；LCD顯示屏轉軸；GPS等車載支架轉軸等等。

Related posts: