12 Tháng Sáu, 2023

Hơn 30 mô hình máy biến áp hàng đầu trong AI: Chúng là gì và chúng hoạt động như thế nào

Được xuất bản: ngày 12 tháng 2023 năm 6 lúc 52:12 sáng Cập nhật: ngày 2023 tháng 6 năm 52 lúc XNUMX:XNUMX sáng

Đã chỉnh sửa và xác minh tính xác thực: ngày 12 tháng 2023 năm 6 lúc 52:XNUMX sáng

Trong những tháng gần đây, nhiều mô hình Transformer đã xuất hiện trong AI, mỗi mô hình có những cái tên độc đáo và đôi khi gây cười. Tuy nhiên, những cái tên này có thể không cung cấp nhiều thông tin chi tiết về những gì các mô hình này thực sự làm. Bài viết này nhằm mục đích cung cấp một danh sách toàn diện và đơn giản về các mẫu Transformer phổ biến nhất. Nó sẽ phân loại các kiểu máy này, đồng thời giới thiệu các khía cạnh và cải tiến quan trọng trong dòng Máy biến áp. Danh sách hàng đầu sẽ bao gồm đào tạo người mẫu thông qua việc học tập tự giám sát, như BERT hoặc GPT-3, cũng như các mô hình trải qua quá trình đào tạo bổ sung với sự tham gia của con người, chẳng hạn như InstructGPT mô hình được sử dụng bởi ChatGPT.

Mẹo chuyên nghiệp
Hướng dẫn này được thiết kế để cung cấp kiến thức toàn diện và kỹ năng thực tế về kỹ thuật nhanh chóng cho người mới bắt đầu đến người học nâng cao.
Có rất nhiều khóa học có sẵn cho những cá nhân muốn tìm hiểu thêm về AI và các công nghệ liên quan của nó.
Hãy nhìn vào 10+ máy gia tốc AI hàng đầu được kỳ vọng sẽ dẫn đầu thị trường về hiệu suất.

Mục lục

Transformers trong AI là gì?
Bộ mã hóa và bộ giải mã trong AI là gì?
Các lớp chú ý trong AI là gì?
Mô hình tinh chỉnh trong AI là gì?
Tại sao Transformers là tương lai của AI?
3 loại kiến trúc tiền đào tạo
8 loại nhiệm vụ cho các mô hình được đào tạo trước
Hơn 30 Transformers hàng đầu trong AI
Câu Hỏi Thường Gặp

Transformers trong AI là gì?

Máy biến áp là một loại mô hình học sâu đã được giới thiệu trong một bài báo nghiên cứu có tên “Chú ý là tất cả những gì bạn cần” của các nhà nghiên cứu Google vào năm 2017. Bài báo này đã được công nhận rộng rãi, tích lũy được hơn 38,000 trích dẫn chỉ trong XNUMX năm.

Kiến trúc Transformer ban đầu là một dạng cụ thể của các mô hình bộ mã hóa-giải mã đã trở nên phổ biến trước khi được giới thiệu. Các mô hình này chủ yếu dựa vào LSTM và các biến thể khác của Mạng thần kinh tái phát (RNN), với sự chú ý chỉ là một trong những cơ chế được sử dụng. Tuy nhiên, bài báo Transformer đã đề xuất một ý tưởng mang tính cách mạng rằng sự chú ý có thể đóng vai trò là cơ chế duy nhất để thiết lập sự phụ thuộc giữa đầu vào và đầu ra.

Transformers trong AI là gì? — Tín dụng: dominodatalab.com

Trong ngữ cảnh của Transformers, đầu vào bao gồm một chuỗi mã thông báo, có thể là từ hoặc từ phụ trong xử lý ngôn ngữ tự nhiên (NLP). Các từ phụ thường được sử dụng trong các mô hình NLP để giải quyết vấn đề các từ nằm ngoài từ vựng. Đầu ra của bộ mã hóa tạo ra một đại diện có chiều cố định cho mỗi mã thông báo, cùng với một nhúng riêng cho toàn bộ chuỗi. Bộ giải mã lấy đầu ra của bộ mã hóa và tạo ra một chuỗi mã thông báo làm đầu ra của nó.

Kể từ khi xuất bản bài báo Transformer, các mô hình phổ biến như Chứng nhận và GPT đã áp dụng các khía cạnh của kiến trúc ban đầu, bằng cách sử dụng các thành phần bộ mã hóa hoặc bộ giải mã. Điểm tương đồng chính giữa các mô hình này nằm ở kiến trúc lớp, kết hợp các cơ chế tự chú ý và các lớp chuyển tiếp nguồn cấp dữ liệu. Trong Transformers, mỗi mã thông báo đầu vào đi qua đường dẫn riêng của nó qua các lớp trong khi vẫn duy trì sự phụ thuộc trực tiếp với mọi mã thông báo khác trong chuỗi đầu vào. Tính năng độc đáo này cho phép tính toán song song và hiệu quả các biểu diễn mã thông báo theo ngữ cảnh, một khả năng không khả thi với các mô hình tuần tự như RNN.

Mặc dù bài viết này chỉ vạch ra bề nổi của kiến trúc Transformer, nhưng nó cung cấp một cái nhìn thoáng qua về các khía cạnh cơ bản của nó. Để hiểu toàn diện hơn, chúng tôi khuyên bạn nên tham khảo tài liệu nghiên cứu gốc hoặc bài đăng The Illustrated Transformer.

Bộ mã hóa và bộ giải mã trong AI là gì?

Hãy tưởng tượng bạn có hai mô hình, một bộ mã hóa và một bộ giải mã, làm việc cùng nhau giống như một đội. Bộ mã hóa lấy một đầu vào và biến nó thành một vectơ có độ dài cố định. Sau đó, bộ giải mã lấy vectơ đó và biến đổi nó thành một chuỗi đầu ra. Các mô hình này được đào tạo cùng nhau để đảm bảo đầu ra khớp với đầu vào nhất có thể.

Cả bộ mã hóa và bộ giải mã đều có nhiều lớp. Mỗi lớp trong bộ mã hóa có hai lớp phụ: lớp tự chú ý nhiều đầu và mạng chuyển tiếp nguồn cấp dữ liệu đơn giản. Lớp tự chú ý giúp mỗi mã thông báo trong đầu vào hiểu được mối quan hệ với tất cả các mã thông báo khác. Các lớp con này cũng có kết nối còn lại và chuẩn hóa lớp để giúp quá trình học mượt mà hơn.

Nhiều đầu của bộ giải mã lớp tự chú ý hoạt động hơi khác so với hoạt động trong bộ mã hóa. Nó che các mã thông báo ở bên phải mã thông báo mà nó đang tập trung vào. Điều này đảm bảo rằng bộ giải mã chỉ xem xét các mã thông báo xuất hiện trước mã thông báo mà nó đang cố gắng dự đoán. Sự chú ý của nhiều đầu được đeo mặt nạ này giúp bộ giải mã tạo ra các dự đoán chính xác. Ngoài ra, bộ giải mã bao gồm một lớp con khác, là lớp chú ý nhiều đầu trên tất cả các đầu ra từ bộ mã hóa.

Điều quan trọng cần lưu ý là những chi tiết cụ thể này đã được sửa đổi trong các biến thể khác nhau của mô hình Máy biến áp. Các mô hình như BERT và GPT, chẳng hạn, dựa trên khía cạnh bộ mã hóa hoặc bộ giải mã của kiến trúc ban đầu.

Các lớp chú ý trong AI là gì?

Trong kiến trúc mô hình mà chúng ta đã thảo luận trước đó, các lớp chú ý nhiều đầu là những yếu tố đặc biệt làm cho nó trở nên mạnh mẽ. Nhưng chính xác thì sự chú ý là gì? Hãy nghĩ về nó như một chức năng ánh xạ một câu hỏi tới một tập hợp thông tin và đưa ra kết quả. Mỗi mã thông báo trong đầu vào có một truy vấn, khóa và giá trị được liên kết với nó. Biểu diễn đầu ra của mỗi mã thông báo được tính bằng cách lấy tổng trọng số của các giá trị, trong đó trọng số cho mỗi giá trị được xác định theo mức độ phù hợp của nó với truy vấn.

Máy biến áp sử dụng một chức năng tương thích được gọi là tích số chấm được chia tỷ lệ để tính toán các trọng số này. Điều thú vị về sự chú ý trong Transformers là mỗi mã thông báo đi qua đường tính toán riêng của nó, cho phép tính toán song song tất cả các mã thông báo trong chuỗi đầu vào. Nó chỉ đơn giản là nhiều khối chú ý tính toán độc lập các biểu diễn cho từng mã thông báo. Các đại diện này sau đó được kết hợp để tạo ra đại diện cuối cùng của mã thông báo.

So với các loại mạng khác như tái phát và mạng phức tạp, các lớp chú ý có một số lợi thế. Chúng hiệu quả về mặt tính toán, nghĩa là chúng có thể xử lý thông tin nhanh chóng. Chúng cũng có khả năng kết nối cao hơn, giúp ích cho việc nắm bắt các mối quan hệ lâu dài theo trình tự.

Mô hình tinh chỉnh trong AI là gì?

Mô hình nền tảng là những mô hình mạnh mẽ được đào tạo trên một lượng lớn dữ liệu chung. Sau đó, chúng có thể được điều chỉnh hoặc tinh chỉnh cho các nhiệm vụ cụ thể bằng cách huấn luyện chúng trên một nhóm nhỏ hơn dữ liệu dành riêng cho mục tiêu. Cách tiếp cận này, được phổ biến bởi giấy BERT, đã dẫn đến sự thống trị của các mô hình dựa trên Transformer trong các tác vụ học máy liên quan đến ngôn ngữ.

Trong trường hợp của các mô hình như BERT, chúng tạo ra các biểu diễn của mã thông báo đầu vào nhưng không tự mình hoàn thành các nhiệm vụ cụ thể. Để làm cho chúng hữu ích, bổ sung lớp thần kinh được thêm vào trên cùng và mô hình được đào tạo từ đầu đến cuối, một quá trình được gọi là tinh chỉnh. Tuy nhiên, với mô hình sinh sản Lượt thích GPT, cách tiếp cận hơi khác một chút. GPT là một mô hình ngôn ngữ giải mã được đào tạo để dự đoán từ tiếp theo trong câu. Bằng cách đào tạo trên lượng lớn dữ liệu web, GPT có thể tạo ra kết quả đầu ra hợp lý dựa trên các truy vấn hoặc lời nhắc đầu vào.

Để thực hiện GPT hữu ích hơn, OpenAI các nhà nghiên cứu đã phát triển DạyGPT, được huấn luyện để làm theo hướng dẫn của con người. Điều này đạt được bằng cách tinh chỉnh GPT sử dụng dữ liệu do con người gắn nhãn từ các nhiệm vụ khác nhau. DạyGPT có khả năng thực hiện nhiều nhiệm vụ khác nhau và được sử dụng bởi các công cụ phổ biến như ChatGPT.

Tinh chỉnh cũng có thể được sử dụng để tạo các biến thể của mô hình nền tảng được tối ưu hóa cho Mục đích cụ thể ngoài mô hình ngôn ngữ. Ví dụ: có những mô hình được tinh chỉnh cho các nhiệm vụ liên quan đến ngữ nghĩa như phân loại văn bản và truy xuất tìm kiếm. Ngoài ra, bộ mã hóa biến áp đã được tinh chỉnh thành công trong đa tác vụ khuôn khổ học tập để thực hiện nhiều tác vụ ngữ nghĩa bằng một mô hình chia sẻ duy nhất.

Ngày nay, tinh chỉnh được sử dụng để tạo ra các phiên bản của mô hình nền tảng có thể được sử dụng bởi một số lượng lớn người dùng. Quá trình này liên quan đến việc tạo ra phản hồi cho đầu vào lời nhắc và để con người xếp hạng kết quả. Bảng xếp hạng này được sử dụng để đào tạo một mô hình phần thưởng, gán điểm cho từng đầu ra. Học tăng cường với phản hồi của con người sau đó được sử dụng để đào tạo thêm mô hình.

Tại sao Transformers là tương lai của AI?

Transformers, một loại mô hình mạnh mẽ, lần đầu tiên được thể hiện trong lĩnh vực dịch thuật ngôn ngữ. Tuy nhiên, các nhà nghiên cứu nhanh chóng nhận ra rằng Transformers có thể được sử dụng cho các nhiệm vụ liên quan đến ngôn ngữ khác nhau bằng cách đào tạo chúng trên một lượng lớn văn bản không được gắn nhãn và sau đó tinh chỉnh chúng trên một tập hợp dữ liệu được gắn nhãn nhỏ hơn. Cách tiếp cận này cho phép Transformers nắm bắt được kiến thức quan trọng về ngôn ngữ.

Kiến trúc Transformer, ban đầu được thiết kế cho các tác vụ ngôn ngữ, cũng đã được áp dụng cho các ứng dụng khác như tạo hình ảnh, âm thanh, âm nhạc và thậm chí cả hành động. Điều này đã khiến Transformers trở thành một thành phần quan trọng trong lĩnh vực Generative AI, lĩnh vực đang thay đổi các khía cạnh khác nhau của xã hội.

Sự sẵn có của các công cụ và khuôn khổ như Kim tự tháp và TensorFlow đã đóng một vai trò quan trọng trong việc áp dụng rộng rãi các mô hình Transformer. Các công ty như Huggingface đã xây dựng kinh doanh xung quanh ý tưởng thương mại hóa các thư viện Transformer nguồn mở và phần cứng chuyên dụng như Hopper Tensor Cores của NVIDIA đã đẩy nhanh hơn nữa tốc độ đào tạo và suy luận của các mô hình này.

Một ứng dụng đáng chú ý của Transformers là ChatGPT, một chatbot được phát hành bởi OpenAI. Nó trở nên vô cùng phổ biến, tiếp cận hàng triệu người dùng trong một thời gian ngắn. OpenAI cũng đã công bố phát hành GPT-4, một phiên bản mạnh mẽ hơn có khả năng đạt được hiệu suất giống con người trong các nhiệm vụ như kiểm tra y tế và pháp lý.

Tác động của Transformers trong lĩnh vực AI và phạm vi ứng dụng rộng rãi của chúng là không thể phủ nhận. Họ có biến đổi cách chúng tôi tiếp cận các nhiệm vụ liên quan đến ngôn ngữ và đang mở đường cho những tiến bộ mới trong AI tổng quát.

3 loại kiến trúc tiền đào tạo

Kiến trúc Máy biến áp, ban đầu bao gồm Bộ mã hóa và Bộ giải mã, đã phát triển để bao gồm các biến thể khác nhau dựa trên các nhu cầu cụ thể. Hãy chia nhỏ các biến thể này theo các thuật ngữ đơn giản.

Đào tạo trước bộ mã hóa: Những mô hình này tập trung vào việc hiểu các câu hoặc đoạn văn hoàn chỉnh. Trong quá trình đào tạo trước, bộ mã hóa được sử dụng để tái tạo lại các mã thông báo ẩn trong câu đầu vào. Điều này giúp mô hình học cách hiểu bối cảnh tổng thể. Các mô hình như vậy rất hữu ích cho các tác vụ như phân loại văn bản, trình bày theo thứ tự và trả lời câu hỏi khai thác.
Đào tạo trước bộ giải mã: Các mô hình bộ giải mã được đào tạo để tạo mã thông báo tiếp theo dựa trên chuỗi mã thông báo trước đó. Chúng được gọi là mô hình ngôn ngữ tự hồi quy. Các lớp tự chú ý trong bộ giải mã chỉ có thể truy cập mã thông báo trước mã thông báo đã cho trong câu. Những mô hình này lý tưởng cho các tác vụ liên quan đến tạo văn bản.
Đào tạo trước máy biến áp (Bộ mã hóa-giải mã): Biến thể này kết hợp cả thành phần bộ mã hóa và bộ giải mã. Các lớp tự chú ý của bộ mã hóa có thể truy cập tất cả các mã thông báo đầu vào, trong khi các lớp tự chú ý của bộ giải mã chỉ có thể truy cập các mã thông báo trước một mã thông báo nhất định. Kiến trúc này cho phép bộ giải mã sử dụng các biểu diễn mà bộ mã hóa đã học. Các mô hình bộ mã hóa-giải mã rất phù hợp cho các nhiệm vụ như tóm tắt, dịch thuật hoặc trả lời câu hỏi tổng quát.

Các mục tiêu đào tạo trước có thể liên quan đến việc khử nhiễu hoặc mô hình hóa ngôn ngữ nhân quả. Các mục tiêu này phức tạp hơn đối với các mô hình bộ mã hóa-giải mã so với các mô hình chỉ có bộ mã hóa hoặc chỉ có bộ giải mã. Kiến trúc Transformer có các biến thể khác nhau tùy thuộc vào trọng tâm của mô hình. Cho dù đó là hiểu các câu hoàn chỉnh, tạo văn bản hay kết hợp cả hai cho các tác vụ khác nhau, Transformers mang đến sự linh hoạt trong việc giải quyết các thách thức khác nhau liên quan đến ngôn ngữ.

8 loại nhiệm vụ cho các mô hình được đào tạo trước

Khi đào tạo một mô hình, chúng ta cần giao cho nó một nhiệm vụ hoặc mục tiêu để học hỏi. Có nhiều nhiệm vụ khác nhau trong xử lý ngôn ngữ tự nhiên (NLP) có thể được sử dụng cho các mô hình đào tạo trước. Hãy chia nhỏ một số nhiệm vụ này thành các thuật ngữ đơn giản:

Mô hình hóa ngôn ngữ (LM): Mô hình dự đoán mã thông báo tiếp theo trong một câu. Nó học cách hiểu ngữ cảnh và tạo ra các câu mạch lạc.
Mô hình hóa ngôn ngữ nhân quả: Mô hình dự đoán mã thông báo tiếp theo trong chuỗi văn bản, theo thứ tự từ trái sang phải. Nó giống như một mô hình kể chuyện tạo ra từng câu một.
Mô hình hóa ngôn ngữ tiền tố: Mô hình tách một phần 'tiền tố' khỏi trình tự chính. Nó có thể tham gia vào bất kỳ mã thông báo nào trong tiền tố và sau đó tạo phần còn lại của chuỗi một cách tự động.
Mô hình hóa ngôn ngữ ẩn (MLM): Một số mã thông báo trong câu đầu vào bị che khuất và mô hình dự đoán các mã thông báo bị thiếu dựa trên ngữ cảnh xung quanh. Nó học cách điền vào chỗ trống.
Mô hình ngôn ngữ được hoán vị (PLM): Mô hình dự đoán mã thông báo tiếp theo dựa trên hoán vị ngẫu nhiên của chuỗi đầu vào. Nó học cách xử lý các đơn đặt hàng mã thông báo khác nhau.
Bộ mã hóa tự động khử nhiễu (DAE): Mô hình lấy đầu vào bị hỏng một phần và nhằm mục đích khôi phục đầu vào ban đầu, không bị biến dạng. Nó học cách xử lý tiếng ồn hoặc các phần còn thiếu của văn bản.
Phát hiện mã thông báo thay thế (RTD): Mô hình phát hiện xem mã thông báo đến từ văn bản gốc hay phiên bản được tạo. Nó học cách xác định các mã thông báo bị thay thế hoặc bị thao túng.
Dự đoán câu tiếp theo (NSP): Mô hình học cách phân biệt xem hai câu đầu vào có phải là các phân đoạn liên tục từ dữ liệu huấn luyện hay không. Nó hiểu mối quan hệ giữa các câu.

Những nhiệm vụ này giúp mô hình tìm hiểu cấu trúc và ý nghĩa của ngôn ngữ. Bằng cách đào tạo trước các nhiệm vụ này, các mô hình sẽ hiểu rõ về ngôn ngữ trước khi được tinh chỉnh cho các ứng dụng cụ thể.

Hơn 30 Transformers hàng đầu trong AI

Họ tên	kiến trúc dự bị	Nhiệm vụ	Các Ứng Dụng	Được phát triển bởi
ALBERT	Mã hoá	MLM/NSP	Tương tự với BERT	Google
Alpaca	decoder	LM	Nhiệm vụ tạo và phân loại văn bản	Stanford
AlphaFold	Mã hoá	Dự đoán gấp protein	Protein gấp	sâu tâm
Trợ lý Anthropic (xem thêm)	decoder	LM	Từ hộp thoại chung đến trợ lý mã.	nhân loại
BART	Bộ mã hóa/Giải mã	DAE	Nhiệm vụ tạo văn bản và hiểu văn bản	Facebook
Chứng nhận	Mã hoá	MLM/NSP	Hiểu ngôn ngữ và trả lời câu hỏi	Google
Máy xay sinh tốBot 3	decoder	LM	Nhiệm vụ tạo văn bản và hiểu văn bản	Facebook
HOA	decoder	LM	Nhiệm vụ tạo văn bản và hiểu văn bản	Khoa học lớn/Huggingface
ChatGPT	decoder	LM	đại lý hộp thoại	OpenAI
sóc ở nam mỹ	decoder	LM	Nhiệm vụ tạo văn bản và hiểu văn bản	sâu tâm
CLIP	Mã hoá		Phân loại hình ảnh/đối tượng	OpenAI
CTRL	decoder		Tạo văn bản có thể kiểm soát	Salesforce
DALL-E	decoder	dự đoán phụ đề	Văn bản thành hình ảnh	OpenAI
DALL-E-2	Bộ mã hóa/Giải mã	dự đoán phụ đề	Văn bản thành hình ảnh	OpenAI
DeBERTa	decoder	MLM	Tương tự với BERT	microsoft
Máy Biến Áp Quyết Định	decoder	Dự đoán hành động tiếp theo	RL chung (nhiệm vụ học tăng cường)	Google/UC Berkeley/ CÔNG BẰNG
quay sốGPT	decoder	LM	Tạo văn bản trong cài đặt hộp thoại	microsoft
Chưng cấtBERT	Mã hoá	MLM/NSP	Hiểu ngôn ngữ và trả lời câu hỏi	Mặt ôm
DQ-BART	Bộ mã hóa/Giải mã	DAE	Tạo và hiểu văn bản	đàn bà gan dạ
Dolly	decoder	LM	Nhiệm vụ tạo và phân loại văn bản	Databricks, Inc
ERNIE	Mã hoá	MLM	Các công việc liên quan đến kiến thức chuyên sâu	Các tổ chức khác nhau của Trung Quốc
Chim hồng hạc	decoder	dự đoán phụ đề	Văn bản thành hình ảnh	sâu tâm
thiên hà	decoder	LM	Đảm bảo chất lượng khoa học, lập luận toán học, tóm tắt, tạo tài liệu, dự đoán thuộc tính phân tử và trích xuất thực thể.	Siêu dữ liệu
TRƯỢT	Mã hoá	dự đoán phụ đề	Văn bản thành hình ảnh	OpenAI
GPT-3.5	decoder	LM	Đối thoại và ngôn ngữ chung	OpenAI
GPTDạy	decoder	LM	Các nhiệm vụ ngôn ngữ hoặc hội thoại chuyên sâu về kiến thức	OpenAI
HTML	Bộ mã hóa/Giải mã	DAE	Mô hình ngôn ngữ cho phép nhắc HTML có cấu trúc	Facebook
Ảnh	T5	dự đoán phụ đề	Văn bản thành hình ảnh	Google
LAMDA	decoder	LM	Mô hình ngôn ngữ chung	Google
LLaMA	decoder	LM	Suy luận thông thường, Trả lời câu hỏi, Tạo mã và Đọc hiểu.	Siêu dữ liệu
Minerva	decoder	LM	Lý luận toán học	Google
Cây Cọ	decoder	LM	Hiểu và tạo ngôn ngữ	Google
roberta	Mã hoá	MLM	Hiểu ngôn ngữ và trả lời câu hỏi	UW/Google
Sparrow	decoder	LM	Tác nhân đối thoại và các ứng dụng tạo ngôn ngữ chung như Hỏi & Đáp	sâu tâm
Khuếch tán ổn định	Bộ mã hóa/Giải mã	Dự đoán phụ đề	Văn bản thành hình ảnh	LMU Munich + Ổn định.ai + Eleuther.ai
Vicuna	decoder	LM	đại lý hộp thoại	UC Berkeley, CMU, Stanford, UC San Diego và MBZUAI

Câu Hỏi Thường Gặp

Transformers trong AI là một loại kiến trúc học sâu điều đó đã thay đổi quá trình xử lý ngôn ngữ tự nhiên và các nhiệm vụ khác. Họ sử dụng cơ chế tự chú ý để nắm bắt mối quan hệ giữa các từ trong câu, cho phép họ hiểu và tạo văn bản giống con người.

Bộ mã hóa và giải mã là các thành phần thường được sử dụng trong các mô hình tuần tự. Bộ mã hóa xử lý dữ liệu đầu vào, chẳng hạn như văn bản hoặc hình ảnh và chuyển đổi dữ liệu đó thành dạng biểu diễn nén, trong khi bộ giải mã tạo dữ liệu đầu ra dựa trên dạng biểu diễn được mã hóa, cho phép thực hiện các tác vụ như dịch ngôn ngữ hoặc chú thích hình ảnh.

Các lớp chú ý là các thành phần được sử dụng trong mạng thần kinh, đặc biệt là trong các mô hình Transformer. Chúng cho phép mô hình tập trung có chọn lọc vào các phần khác nhau của chuỗi đầu vào, gán trọng số cho từng phần tử dựa trên mức độ liên quan của nó, cho phép nắm bắt các phụ thuộc và mối quan hệ giữa các phần tử một cách hiệu quả.

Các mô hình được tinh chỉnh đề cập đến các mô hình được đào tạo trước đã được đào tạo thêm về một nhiệm vụ hoặc tập dữ liệu cụ thể để cải thiện hiệu suất của chúng và điều chỉnh chúng cho phù hợp với các yêu cầu cụ thể của nhiệm vụ đó. Quá trình tinh chỉnh này liên quan đến việc điều chỉnh các tham số của mô hình để tối ưu hóa các dự đoán của nó và làm cho nó trở nên chuyên biệt hơn cho nhiệm vụ mục tiêu.

Transformers được coi là tương lai của AI vì chúng đã thể hiện hiệu suất vượt trội trong nhiều tác vụ, bao gồm xử lý ngôn ngữ tự nhiên, tạo hình ảnh, v.v. Khả năng nắm bắt các phụ thuộc tầm xa và xử lý dữ liệu tuần tự một cách hiệu quả khiến chúng có khả năng thích ứng cao và hiệu quả đối với nhiều ứng dụng khác nhau, mở đường cho những tiến bộ trong AI tổng quát và cách mạng hóa nhiều khía cạnh của xã hội.

Các mô hình máy biến áp nổi tiếng nhất trong AI bao gồm BERT (Đại diện bộ mã hóa hai chiều từ máy biến áp), GPT (Biến áp được đào tạo trước tạo) và T5 (Biến áp chuyển văn bản thành văn bản). Những mô hình này đã đạt được kết quả đáng chú ý trong các nhiệm vụ xử lý ngôn ngữ tự nhiên khác nhau và đã trở nên phổ biến đáng kể trong cộng đồng nghiên cứu AI.

Đọc thêm về AI:

tags:

Từ chối trách nhiệm

Phù hợp với Hướng dẫn của Dự án Tin cậy, xin lưu ý rằng thông tin được cung cấp trên trang này không nhằm mục đích và không được hiểu là tư vấn pháp lý, thuế, đầu tư, tài chính hoặc bất kỳ hình thức tư vấn nào khác. Điều quan trọng là chỉ đầu tư những gì bạn có thể đủ khả năng để mất và tìm kiếm lời khuyên tài chính độc lập nếu bạn có bất kỳ nghi ngờ nào. Để biết thêm thông tin, chúng tôi khuyên bạn nên tham khảo các điều khoản và điều kiện cũng như các trang trợ giúp và hỗ trợ do nhà phát hành hoặc nhà quảng cáo cung cấp. MetaversePost cam kết báo cáo chính xác, không thiên vị nhưng điều kiện thị trường có thể thay đổi mà không cần thông báo trước.

Giới thiệu về Tác giả

Damir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet.

Xem thêm bài viết

Damir Yalalov