2023 年 4 月 05 日

關於大型語言模型你應該知道的 8 件事

發佈時間：05 年 2023 月 4 日上午 29:05 更新日期：2023 年 4 月 30 日上午 XNUMX:XNUMX

簡單來說

大型語言模型（法學碩士）用於探索自然語言的細微差別，提高機器理解和生成文本的能力，以及自動執行語音識別和機器翻譯等任務。

管理 LLM 沒有簡單的解決方案，但它們與人類一樣有能力。

隨著自然語言處理的發展及其在商業中的使用激增，人們對大型語言模型的興趣與日俱增。這些模型用於探索自然語言的細微差別，提高機器理解和生成文本以及自動執行語音識別和機器翻譯等任務的能力。關於大型語言模型 (LLM)，您應該了解以下八項基本知識。

關於大型語言模型你應該知道的 10 件事 — @Midjourney /塔卡#4076

隨著成本不斷上升，法學碩士更“有能力”
快速瀏覽如何 GPT 模型隨著訓練成本的上升而調整
法學碩士通過使用外部世界的表徵來學習玩棋盤遊戲
管理 LLM 沒有簡單的解決方案
專家難以解釋 LLM 的工作原理
法學碩士和人類一樣有能力
法學碩士不能只是“萬事通”
模型比人們根據第一印象認為的要“聰明”

隨著成本不斷上升，法學碩士更“有能力”

可以預見，即使沒有很酷的創新，法學碩士也會隨著成本的增加而變得更加“有能力”。這裡最主要的是可預測性，這在關於 GPT-4: 教了五到七個小模型，預算是最後一個的0.1%，然後據此預測一個大模型。對於一個特定任務的子樣本的困惑度和指標的一般評估，這樣的預測是非常準確的。這種可預測性對於依賴 LLM 開展業務的企業和組織非常重要，因為他們可以相應地制定預算併計劃未來的開支。然而，值得注意的是，雖然成本增加可能會導致能力提高，但提高速度最終可能會趨於平穩，因此有必要投資於新的創新以繼續推進。

快速瀏覽如何 GPT 模型隨著訓練成本的上升而調整

然而，作為不斷增長的副產品，特定的重要技能往往會不可預測地出現。培訓費用（更長時間的訓練、更多的數據、更大的模型）——幾乎不可能預測模型何時開始執行某些任務。我們更深入地探討了這個話題文章關於發展史 GPT 楷模。圖中顯示了不同任務中模型品質提升的分佈。只有大模型才能學習完成各種任務。該圖突顯了擴大規模的重大影響 GPT 模型他們在各種任務中的表現。然而，值得注意的是，這是以增加計算資源和環境影響為代價的。

法學碩士通過使用外部世界的表徵來學習玩棋盤遊戲

法學碩士經常學習和使用外部世界的表徵。這裡有很多例子，這裡是其中之一：模型訓練根據各個動作的描述來玩棋盤遊戲，而無需看到比賽場地的圖片，了解棋盤在每個動作中的狀態的內部表示。然後可以使用這些內部表示預測未來動作和結果，使模型能夠以高水平玩遊戲。這種學習和使用表徵的能力是關鍵機器學習的方面和人工智能。

管理 LLM 沒有簡單的解決方案

沒有可靠的方法來控制 LLM 行為。儘管在理解和緩解各種問題（包括 ChatGPT 和 GPT-4 在回饋的幫助下），對於我們是否可以解決這些問題還沒有共識。人們越來越擔心，當未來創建更大的系統時，這將成為一個巨大的、潛在災難性的問題。因此，研究人員正在探索新方法，以確保人工智慧系統符合人類價值和目標，例如價值調整和獎勵工程。但要保證法學碩士的安全性和可靠性在複雜的現實場景中。

閱讀更多： OpenAI 組建50+專家團隊強化 GPT-4的安全

專家難以解釋 LLM 的工作原理

專家還不能解釋 LLM 的內部運作。沒有任何技術可以讓我們以任何令人滿意的方式說明模型在生成任何結果時使用了什麼樣的知識、推理或目標。這種可解釋性的缺乏引起了人們對 LLM 決策的可靠性和公平性的擔憂，尤其是在刑事司法或信用評分等高風險應用中。它還強調需要進一步研究開發更透明和負責任的人工智能模型。

法學碩士和人類一樣有能力

儘管法學碩士的訓練主要是為了書寫文字時模仿人類行為，他們有潛力在許多任務上超越我們。這在下棋或圍棋時已經可以看到。這是因為它們能夠分析大量數據，並以人類無法比擬的速度根據分析做出決策。然而，法學碩士仍然缺乏人類所擁有的創造力和直覺，這使得他們不太適合許多任務。

閱讀更多： OpenAI 組建50+專家團隊強化 GPT-4的安全

法學碩士不能只是“萬事通”

法學碩士不得表達其創作者的價值觀或在互聯網選擇中編碼的價值觀。他們不應重複刻板印像或陰謀論或試圖冒犯任何人。相反，LLM 應該旨在為用戶提供公正和真實的信息，同時尊重文化和社會差異。此外，他們應該接受定期測試和監控，以確保他們繼續滿足這些標準。

模型比人們根據第一印象認為的要“聰明”

基於第一印像對模型能力的估計通常會產生誤導。很多時候，你需要提出正確的提示，建議一個模型，也許還可以展示示例，它會開始更好地應對。也就是說，它比乍看起來更“聰明”。因此，給模型一個公平的機會並為其提供必要的資源以發揮最佳性能至關重要。如果採用正確的方法，即使是看似不充分的模型也能以其功能讓我們大吃一驚。

如果我們專注於 BIG-Bench 資料集中的 202 個任務樣本（它被特意設計得難以測試）語言模型從和到），然後作為一項規則（平均而言），模型隨著規模的增加而顯示品質的提高，但單獨而言，任務中的指標可以：

逐漸改善，
大幅改善，
保持不變，
減少，
顯示沒有相關性。

所有這些導致無法自信地推斷任何未來系統的性能。綠色部分特別有趣——這正是質量指標無緣無故急劇上升的地方。

閱讀有關人工智能的更多信息：

標籤：

免責聲明

在與線信託專案指南，請注意，本頁提供的資訊無意且不應被解釋為法律、稅務、投資、財務或任何其他形式的建議。重要的是，僅投資您可以承受損失的金額，並在有任何疑問時尋求獨立的財務建議。如需了解更多信息，我們建議您參閱條款和條件以及發行人或廣告商提供的幫助和支援頁面。 MetaversePost 致力於提供準確、公正的報告，但市場狀況如有變更，恕不另行通知。

關於作者

Damir 是團隊領導、產品經理和編輯 Metaverse Post，涵蓋 AI/ML、AGI、LLM、Metaverse 等主題 Web3- 相關領域。他的文章每月吸引超過一百萬用戶的大量讀者。他似乎是一位在 SEO 和數字營銷方面擁有 10 年經驗的專家。達米爾曾在 Mashable、Wired、 Cointelegraph、《紐約客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。他作為數字游牧者往返於阿聯酋、土耳其、俄羅斯和獨聯體國家之間。達米爾獲得了物理學學士學位，他認為這賦予了他在不斷變化的互聯網格局中取得成功所需的批判性思維技能。