Meta開源奠基於全球網路內容的AI知識語料庫Sphere

圖片來源: 

GitHub

一個爬梳全球網路內容的AI知識語料庫Sphere,號稱是全球最大的同類型語料庫,並利用Sphere打造了一個Side模型,可用來改善維基百科(Wikipedia)所引用的資訊的關聯性與正確性。

語料庫(Corpus)為知識密集型自然語言處理(Knowledge-Intensive Natural Language Processing,KI-NLP)的基礎,KI-NLP模型爬梳數位檔案來尋求問題的解答或進行事實查核,因此,語料庫的規模愈大,所能解答的問題也愈多。

在現階段的KI-NLP研究領域中,研究人員多半是透過商業搜尋引擎或是Wikipedia來尋找答案,但Meta的研究人員認為,商業搜尋引擎就像是個黑盒子,人們可能不知道自己遺失了哪些重要訊息,而就算Wikipedia相對精確、有良好的格式,而且因為規模小而方便使用,但它畢竟是個眾包平臺,並未容納網路上的所有內容。

而Sphere即是一個奠基在全球開放網路內容的語料庫,它是開源的、通用的、未經組織的、非結構化的知識來源,因此可支援各種KI-NLP任務。它內含1.34億個文件,具備9.06億個段落,每個段落都含有100個標記,比現今最大的知識語料庫多了一個數量級。

Sphere的建置源自於Meta AI所開發的CCNet,CCNet為Common Crawl的變種,把每月固定爬梳全球網路的Common Crawl檔案去蕪存菁而來。

哪裡買的到省力省空間,方便攜帶的購物推車

多功能爬梯購物推車/手推車/爬梯車/推車/購物車!

?

買不起高檔茶葉,精緻包裝茶葉罐,也能撐場面!

鴻和興精密工業股份有限公司集合了製茶罐業各相關技術的專業人士,不論是在印刷上或在茶葉罐加工製造上都能夠給客戶一個專業上的技術服務與諮詢。

空壓機這裡買最划算!

晨達空壓機秉持著專業空壓機技術、優質快速服務、空壓機合理價格。為您解決工作中需要風量、風壓的問題。

示波器探測執行效能最佳化的8大秘訣

示波器是一種能夠顯示電壓訊號動態波形的電子測量儀器。它能夠將時變的電壓訊號,轉換為時間域上的曲線,原來不可見的電氣訊號,就此轉換為在二維平面上直觀可見光訊號,因此能夠分析電氣訊號的時域性質。

Meta的AI研究人員指出,Sphere與搜尋引擎最大的不同在於它開放研究人員存取完整的語料庫,研究人員不僅能夠檢視並控制語料庫,也能展開不同的實驗來推動檢索技術的發展,另一方面,開源社群也將協助Meta辨識Sphere的檢索盲點。

研究人員將可利用Sphere來訓練檢索器,以處理更廣泛的文件,或者是建置自動化系統來檢查不實資訊、噪音或不連貫的文字。

,可用來協助強化維基百科的引用資訊,因為維基百科的編輯可能無法仔細檢查每一個引用的資訊,或是志願者在撰寫時無意中流露出的偏見。

目前Sphere仍是個研究中的產品,尚未實際應用於Meta自家的平臺上,也未與維基百科合作,只是以Side模型作為示範案例。

https://www.ithome.com.tw/news/151893

總是為了廚餘煩惱嗎?

雅高環保提供最適用的廚餘機,滿足多樣需求。

(全省)堆高機租賃保養一覽表

由簡易堆高機修改而成,無需現場施工,交機即可使用!

重新改造貨櫃屋基礎設計有哪些呢

金誠貨櫃實業社能把原有貨櫃屋改裝成任何尺寸大小及多咖貨櫃合併,加裝流梯、櫃頂加蓋鐵皮屋頂、加裝鐵架等、除鏽噴漆,顏色皆依客戶指定。

臭氧機的滅菌效果如何?

臭氧的性質活潑,是強力的氧化劑。臭氧的標準還原電位2.07比次氯酸1.49更高,而且臭氧不會產生致癌的三鹵甲烷類消毒副產物。臭氧不會殘留,會自動回復成氧氣是優良的消毒劑,因此臭氧像是優良的工匠,工作時很有效率,離開時也不拖泥帶水,收拾的乾乾淨淨,沒有殘留副產物。