11 Tháng Bảy, 2023

GPT-4Những chi tiết bị rò rỉ của nó làm sáng tỏ quy mô khổng lồ và kiến trúc ấn tượng của nó

Được xuất bản: ngày 11 tháng 2023 năm 7 lúc 19:11 sáng Đã cập nhật: ngày 2023 tháng 7 năm 23 lúc XNUMX:XNUMX sáng

Đã chỉnh sửa và xác minh tính xác thực: ngày 11 tháng 2023 năm 7 lúc 19:XNUMX sáng

Tóm lại

Những thông tin rò rỉ về GPT-4 đã làm dấy lên sự phấn khích trong cộng đồng AI. Với thông số gấp hơn 10 lần so với người tiền nhiệm, GPT-3, GPT-4 ước tính có 1.8 nghìn tỷ tham số được phân bổ trên 120 lớp.

OpenAI đã triển khai mô hình hỗn hợp các chuyên gia (MoE), sử dụng 16 chuyên gia với 111 tỷ tham số cho các tri giác đa lớp (MLP). Quá trình suy luận hiệu quả của mô hình sử dụng 280 tỷ tham số và 560 TFLOP cho mỗi lần chuyển tiếp, thể hiện OpenAIcam kết của để tối đa hóa hiệu quả và hiệu quả chi phí. Bộ dữ liệu đào tạo của mô hình bao gồm 13 nghìn tỷ mã thông báo, với khả năng tinh chỉnh từ 8k đến 32k.

OpenAI sử dụng tính song song trong GPT-4 để tận dụng tối đa tiềm năng của GPU A100, sử dụng song song tensor 8 chiều và song song đường dẫn 15 chiều. Quá trình đào tạo rất rộng rãi và tốn nhiều nguồn lực, với chi phí dao động từ 32 triệu USD đến 63 triệu USD.

GPT-4Chi phí suy luận của nó cao hơn khoảng ba lần so với phiên bản trước, nhưng nó cũng kết hợp sự chú ý đa truy vấn, phân nhóm liên tục và giải mã suy đoán. Kiến trúc suy luận hoạt động trên một cụm gồm 128 GPU, được phân bổ trên nhiều trung tâm dữ liệu.

Những thông tin rò rỉ gần đây xung quanh GPT-4 đã gây chấn động cộng đồng AI. Thông tin bị rò rỉ, thu được từ một nguồn không được tiết lộ, cung cấp cái nhìn thoáng qua về khả năng đáng kinh ngạc và quy mô chưa từng có của mô hình đột phá này. Chúng tôi sẽ chia nhỏ sự thật và tiết lộ những khía cạnh chính tạo nên GPT-4 một tuyệt tác công nghệ thực sự.

GPT-4Những chi tiết bị rò rỉ của nó làm sáng tỏ quy mô khổng lồ và kiến trúc ấn tượng của nó — Tín dụng: Metaverse Post (mpost.io)

GPT-4Số lượng tham số lớn của

Một trong những tiết lộ nổi bật nhất từ vụ rò rỉ là mức độ nghiêm trọng của GPT-4. Nó tự hào có kích thước đáng kinh ngạc, với thông số gấp hơn 10 lần so với phiên bản tiền nhiệm, GPT-3. Người ta ước tính có tổng số đáng kinh ngạc là khoảng 1.8 nghìn tỷ tham số được phân phối trên 120 lớp ấn tượng. Sự gia tăng đáng kể về quy mô này chắc chắn góp phần vào GPT-4khả năng nâng cao của và tiềm năng cho những tiến bộ đột phá.

Mô hình hỗn hợp các chuyên gia (MoE)

Để đảm bảo chi phí hợp lý trong khi vẫn duy trì hiệu suất vượt trội, OpenAI đã triển khai mô hình hỗn hợp các chuyên gia (MoE) trong GPT-4. Bằng cách sử dụng 16 chuyên gia trong mô hình, mỗi chuyên gia bao gồm khoảng 111 tỷ tham số cho các perceptron nhiều lớp (MLP), OpenAI phân bổ nguồn lực được tối ưu hóa hiệu quả. Đáng chú ý, trong mỗi lần chuyển tiếp, chỉ có hai chuyên gia được định tuyến, giảm thiểu các yêu cầu tính toán mà không ảnh hưởng đến kết quả. Cách tiếp cận sáng tạo này thể hiện OpenAIcam kết tối đa hóa hiệu quả và hiệu quả chi phí trong các mô hình của họ.

Rò rỉ rất thú vị và chi tiết của GPT-4 kiến trúc, với những phân tích xuất sắc về lý do đằng sau nó và những hàm ý của nó – bởi @dylan522p :https://t.co/eHE7VlGY5V

Bạn có thể tìm thấy bản tóm tắt không có tường phí tại đây: https://t.co/rLxw5s9ZDt
- Jan P. Harries (@jphme) 11 Tháng Bảy, 2023

Thuật toán định tuyến MoE đơn giản hóa

Mặc dù mô hình thường khám phá các thuật toán định tuyến nâng cao để chọn chuyên gia xử lý từng mã thông báo, OpenAIcách tiếp cận hiện nay GPT-4 mô hình được cho là đơn giản hơn. Thuật toán định tuyến được AI sử dụng được cho là tương đối đơn giản nhưng vẫn hiệu quả. Khoảng 55 tỷ tham số được chia sẻ để thu hút sự chú ý tạo điều kiện thuận lợi cho việc phân phối mã thông báo hiệu quả cho các chuyên gia phù hợp trong mô hình.

suy luận hiệu quả

GPT-4Quá trình suy luận của nó thể hiện tính hiệu quả và khả năng tính toán của nó. Mỗi lượt chuyển tiếp, dành riêng để tạo một mã thông báo duy nhất, sử dụng khoảng 280 tỷ tham số và 560 TFLOP (các phép toán dấu phẩy động tera mỗi giây). Điều này hoàn toàn trái ngược với quy mô to lớn của GPT-4, với 1.8 nghìn tỷ tham số và 3,700 TFLOP mỗi lần chuyển tiếp trong một mô hình hoàn toàn dày đặc. Điểm nổi bật của việc sử dụng hiệu quả các nguồn tài nguyên OpenAIcống hiến của để đạt được hiệu suất tối ưu mà không yêu cầu tính toán quá mức.

Tập dữ liệu đào tạo mở rộng

GPT-4 đã được đào tạo trên bộ dữ liệu khổng lồ bao gồm khoảng 13 nghìn tỷ mã thông báo. Điều quan trọng cần lưu ý là các mã thông báo này bao gồm cả mã thông báo duy nhất và mã thông báo chiếm số kỷ nguyên. Các quá trình đào tạo bao gồm hai kỷ nguyên cho dữ liệu dựa trên văn bản và bốn kỷ nguyên cho dữ liệu dựa trên mã. OpenAI tận dụng hàng triệu hàng dữ liệu tinh chỉnh hướng dẫn có nguồn gốc từ ScaleAI và nội bộ để tinh chỉnh hiệu suất của mô hình.

Giai đoạn tiền đào tạo của GPT-4 sử dụng độ dài bối cảnh 8k. Sau đó, mô hình đã được tinh chỉnh, tạo ra phiên bản 32k. Quá trình này được xây dựng dựa trên giai đoạn tiền đào tạo, nâng cao khả năng của mô hình và điều chỉnh nó cho phù hợp với các nhiệm vụ cụ thể.

Mở rộng quy mô với GPU thông qua Parallelism

OpenAI khai thác sức mạnh của sự song song trong GPT-4 để tận dụng tối đa tiềm năng của GPU A100 của họ. Họ sử dụng cơ chế song song tensor 8 chiều, giúp tối đa hóa quá trình xử lý song song vì đó là giới hạn đối với NVLink. Ngoài ra, tính song song của đường dẫn 15 chiều đã được sử dụng để nâng cao hơn nữa hiệu suất. Mặc dù các kỹ thuật cụ thể như ZeRo Giai đoạn 1 có thể đã được sử dụng nhưng phương pháp chính xác vẫn chưa được tiết lộ.

Chi phí đào tạo và thách thức sử dụng

Hội thảo GPT-4 là một nỗ lực sâu rộng và tốn nhiều tài nguyên. OpenAI đã phân bổ khoảng 25,000 GPU A100 trong khoảng thời gian từ 90 đến 100 ngày, hoạt động ở mức sử dụng khoảng 32% đến 36% MFU (được sử dụng thường xuyên nhất). Quá trình đào tạo phát sinh nhiều lỗi, buộc phải khởi động lại thường xuyên từ các điểm kiểm tra. Nếu ước tính ở mức 1 đô la cho mỗi A100 giờ, chi phí đào tạo riêng cho hoạt động này sẽ lên tới khoảng 63 triệu đô la.

Đánh đổi trong hỗn hợp các chuyên gia

Việc thực hiện mô hình hỗn hợp các chuyên gia đưa ra một số sự đánh đổi. Trong trường hợp GPT-4, OpenAI đã chọn 16 chuyên gia thay vì một con số cao hơn. Quyết định này phản ánh sự cân bằng giữa việc đạt được kết quả tổn thất vượt trội và đảm bảo tính khái quát hóa trong các nhiệm vụ khác nhau. Nhiều chuyên gia hơn có thể đưa ra những thách thức về khái quát hóa và hội tụ nhiệm vụ. OpenAIsự lựa chọn của để tập thể dục thận trọng trong chuyên gia lựa chọn phù hợp với cam kết của họ về hiệu suất mạnh mẽ và đáng tin cậy.

Chi phí suy luận

So với người tiền nhiệm của nó, mô hình Davinci 175 tỷ tham số, GPT-4chi phí suy luận của nó cao hơn khoảng ba lần. Sự khác biệt này có thể là do một số yếu tố, bao gồm cả các cụm lớn hơn cần thiết để hỗ trợ GPT-4 và mức sử dụng thấp hơn đạt được trong quá trình suy luận. Các ước tính cho thấy chi phí xấp xỉ là 0.0049 USD cho mỗi 1,000 mã thông báo cho 128 GPU A100 và 0.0021 USD cho mỗi 1,000 mã thông báo cho 128 GPU H100 khi suy luận GPT-4 với 8k. Những số liệu này giả định mức sử dụng hợp lý và quy mô lô cao, những cân nhắc quan trọng để tối ưu hóa chi phí.

Chú ý nhiều truy vấn

OpenAI tận dụng sự chú ý đa truy vấn (MQA), một kỹ thuật được sử dụng rộng rãi trong lĩnh vực này, trong GPT-4 cũng. Bằng cách triển khai MQA, mô hình chỉ yêu cầu một đầu, giảm đáng kể dung lượng bộ nhớ cần thiết cho bộ đệm khóa-giá trị (bộ đệm KV). Bất chấp sự tối ưu hóa này, cần lưu ý rằng lô 32k GPT-4 không thể hỗ trợ trên GPU A40 100 GB và 8k bị hạn chế bởi kích thước lô tối đa.

Batch liên tục

Để đạt được sự cân bằng giữa độ trễ và chi phí suy luận, OpenAI kết hợp cả kích thước lô thay đổi và phân mẻ liên tục trong GPT-4. Cách tiếp cận thích ứng này cho phép xử lý linh hoạt và hiệu quả, tối ưu hóa việc sử dụng tài nguyên và giảm chi phí tính toán.

GPT-4 giới thiệu một bộ mã hóa hình ảnh riêng biệt cùng với bộ mã hóa văn bản, có tính năng chú ý chéo giữa hai bộ mã hóa này. Kiến trúc này, gợi nhớ đến Flamingo, bổ sung thêm các tham số vào con số 1.8 nghìn tỷ tham số vốn đã rất ấn tượng của GPT-4. Mô hình tầm nhìn trải qua quá trình tinh chỉnh riêng biệt bằng cách sử dụng khoảng 2 nghìn tỷ mã thông báo sau giai đoạn đào tạo trước chỉ bằng văn bản. Khả năng tầm nhìn này trao quyền đại lý tự trị để đọc các trang web, chép lại hình ảnh và diễn giải nội dung video—một tài sản vô giá trong thời đại dữ liệu đa phương tiện.

Giải mã đầu cơ

Một khía cạnh thú vị của GPT-4Chiến lược suy luận của nó là khả năng sử dụng giải mã suy đoán. Cách tiếp cận này liên quan đến việc sử dụng một kích thước nhỏ hơn, nhanh hơn kiểu mẫu để tạo dự đoán trước cho nhiều mã thông báo. Những mã thông báo được dự đoán này sau đó được đưa vào một mô hình “nhà tiên tri” lớn hơn dưới dạng một đợt duy nhất. Nếu nhỏ hơn dự đoán mô hình phù hợp với thỏa thuận của mô hình lớn hơn, một số mã thông báo có thể được giải mã cùng nhau. Tuy nhiên, nếu mô hình lớn hơn từ chối mã thông báo được dự đoán bởi mô hình dự thảo, thì phần còn lại của lô sẽ bị loại bỏ và quá trình suy luận chỉ tiếp tục với mô hình lớn hơn. Cách tiếp cận này cho phép giải mã hiệu quả trong khi có khả năng chấp nhận các chuỗi xác suất thấp hơn. Điều đáng chú ý là suy đoán này vẫn chưa được xác minh vào thời điểm này.

Kiến trúc suy luận

GPT-4Quá trình suy luận của nó hoạt động trên một cụm gồm 128 GPU, được phân bổ trên nhiều trung tâm dữ liệu ở các vị trí khác nhau. Cơ sở hạ tầng này sử dụng song song tensor 8 chiều và song song đường ống 16 chiều để tối đa hóa hiệu quả tính toán. Mỗi nút, bao gồm 8 GPU, chứa khoảng 130 tỷ thông số. Với kích thước mô hình 120 lớp, GPT-4 có thể vừa với 15 nút khác nhau, có thể có ít lớp hơn trong nút đầu tiên do nhu cầu tính toán các phần nhúng. Những lựa chọn kiến trúc này tạo điều kiện thuận lợi cho việc suy luận hiệu suất cao, thể hiện OpenAIcam kết của để vượt qua các ranh giới của hiệu quả tính toán.

Kích thước và thành phần tập dữ liệu

GPT-4 đã được đào tạo trên 13 nghìn tỷ mã thông báo ấn tượng, cung cấp cho nó một kho văn bản phong phú để học hỏi. Tuy nhiên, không phải tất cả các mã thông báo đều có thể được tính toán bằng các bộ dữ liệu đã biết được sử dụng trong quá trình đào tạo. Trong khi các bộ dữ liệu như CommonCrawl và RefinedWeb đóng góp một phần đáng kể vào dữ liệu đào tạo, vẫn còn một phần mã thông báo chưa được tính đến, thường được gọi là dữ liệu “bí mật”.

Tin đồn và suy đoán

Đã xuất hiện những suy đoán liên quan đến nguồn gốc của dữ liệu không được tiết lộ này. Một tin đồn cho rằng nó bao gồm nội dung từ các nền tảng phổ biến như Twitter, Reddit và YouTube, nêu bật tầm ảnh hưởng tiềm tàng của nội dung do người dùng tạo trong việc định hình GPT-4nền tảng kiến thức của. Ngoài ra, còn có những phỏng đoán xung quanh việc đưa vào các bộ sưu tập mở rộng như LibGen, kho lưu trữ hàng triệu cuốn sách và Sci-Hub, một nền tảng cung cấp quyền truy cập vào nhiều bài báo khoa học. Quan niệm cho rằng GPT-4 được đào tạo về toàn bộ GitHub cũng đã được lưu hành trong những người đam mê AI.

Ý kiến của Phóng viên

Mặc dù có rất nhiều tin đồn nhưng điều quan trọng là phải tiếp cận những tin đồn này một cách thận trọng. Việc đào tạo của GPT-4 có thể đã được hưởng lợi rất nhiều từ một tập dữ liệu đặc biệt được tạo thành từ sách giáo khoa đại học. Bộ dữ liệu này, bao gồm nhiều khóa học và chủ đề, có thể được tập hợp một cách tỉ mỉ bằng tay. Sách giáo khoa đại học cung cấp nền tảng kiến thức toàn diện và có cấu trúc, có thể được sử dụng thành công để đào tạo mô hình ngôn ngữ và có thể dễ dàng chuyển đổi thành tệp văn bản. Việc đưa vào một tập dữ liệu như vậy có thể tạo ấn tượng rằng GPT-4 có kiến thức về nhiều lĩnh vực khác nhau.

Sự quyến rũ với GPT-4kiến thức của

Một khía cạnh hấp dẫn của GPT-4Điểm đào tạo của nó là khả năng thể hiện sự quen thuộc với những cuốn sách cụ thể và thậm chí nhớ lại các mã nhận dạng duy nhất từ các nền tảng như Project Euler. Các nhà nghiên cứu đã cố gắng trích xuất các phần sách đã được ghi nhớ từ GPT-4 để hiểu rõ hơn về quá trình đào tạo của nó, tiếp tục khơi dậy sự tò mò về hoạt động bên trong của mô hình. Những khám phá này làm nổi bật khả năng đáng kinh ngạc của GPT-4 để lưu giữ thông tin và nhấn mạnh khả năng ấn tượng của các mô hình ngôn ngữ quy mô lớn.

Tính linh hoạt của GPT-4

Phạm vi rộng của các chủ đề và lĩnh vực GPT-4 dường như có thể tương tác với thể hiện tính linh hoạt của nó. Cho dù đó là trả lời những câu hỏi phức tạp trong khoa học máy tính hay đi sâu vào các cuộc tranh luận triết học, GPT-4Việc đào tạo về tập dữ liệu đa dạng giúp trang bị cho nó khả năng tương tác với người dùng từ nhiều miền khác nhau. Tính linh hoạt này bắt nguồn từ việc nó tiếp xúc với nhiều nguồn tài nguyên văn bản, khiến nó trở thành một công cụ có giá trị cho nhiều người dùng.

Đọc thêm về AI:

tags:

Từ chối trách nhiệm

Phù hợp với Hướng dẫn của Dự án Tin cậy, xin lưu ý rằng thông tin được cung cấp trên trang này không nhằm mục đích và không được hiểu là tư vấn pháp lý, thuế, đầu tư, tài chính hoặc bất kỳ hình thức tư vấn nào khác. Điều quan trọng là chỉ đầu tư những gì bạn có thể đủ khả năng để mất và tìm kiếm lời khuyên tài chính độc lập nếu bạn có bất kỳ nghi ngờ nào. Để biết thêm thông tin, chúng tôi khuyên bạn nên tham khảo các điều khoản và điều kiện cũng như các trang trợ giúp và hỗ trợ do nhà phát hành hoặc nhà quảng cáo cung cấp. MetaversePost cam kết báo cáo chính xác, không thiên vị nhưng điều kiện thị trường có thể thay đổi mà không cần thông báo trước.

Giới thiệu về Tác giả

Damir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet.

Xem thêm bài viết

Damir Yalalov