Stack Overflow tham gia Reddit trong việc tính phí những người khổng lồ công nghệ cho dữ liệu đào tạo AI
Tóm lại
Stack Overflow muốn tính phí những gã khổng lồ công nghệ đang sử dụng dữ liệu của mình để phát triển LLM cho mục đích thương mại.
Cả Stack Overflow và Reddit sẽ tiếp tục cấp phép dữ liệu miễn phí cho một số công ty nhất định.
Stack Overflow hiện đang phát triển các dịch vụ AI tổng quát của riêng mình.
Stack Overflow, một diễn đàn hỏi đáp dành cho các lập trình viên, đã quyết định tính phí những gã khổng lồ công nghệ vì đã sử dụng dữ liệu của mình để đào tạo AI và các mô hình ngôn ngữ lớn (LLM), có dây báo cáo đầu tiên.
Điều này theo sau thông báo của Reddit vào thứ Ba rằng nó sẽ bắt đầu tính phí để truy cập vào API dữ liệu của nó. Đáp lại Google, OpenAI, Meta và các công ty khác đang sử dụng nội dung khổng lồ do người dùng tạo của Reddit cho các dự án AI thương mại mà không phải trả tiền, Giám đốc điều hành và đồng sáng lập của Reddit, Steve Huffman, nói với The New York Times rằng các công ty như vậy giờ đây sẽ phải trả tiền cho việc sử dụng dữ liệu của Reddit để đào tạo các mô hình AI của họ, bắt đầu từ tháng Sáu.
Huffman nói với The Times: “Việc thu thập dữ liệu Reddit, tạo ra giá trị và không trả lại bất kỳ giá trị nào trong số đó cho người dùng của chúng tôi là vấn đề mà chúng tôi gặp phải. Các nhà phát triển muốn tạo ứng dụng và bot hỗ trợ việc sử dụng Reddit, cũng như các nhà nghiên cứu muốn nghiên cứu Reddit hoàn toàn vì mục đích học thuật hoặc phi thương mại, sẽ tiếp tục có quyền truy cập miễn phí vào API của Reddit.
Các nhà xuất bản phương tiện truyền thông kỹ thuật số và in ấn cũng không để những gã khổng lồ AI ra tay. Liên minh Tin tức/Truyền thông đã phát hành nguyên tắc AI vào thứ Năm, tuyên bố rằng việc sử dụng trái phép nội dung của nó bởi các hệ thống trí tuệ nhân tạo (GAI) tổng quát cấu thành hành vi vi phạm quyền sở hữu trí tuệ. Nguyên tắc cũng nêu rõ rằng các hệ thống GAI phải xin phép nhà xuất bản trước khi sử dụng nội dung của họ và nhà xuất bản phải có quyền thương lượng để được bồi thường hợp lý cho việc các nhà phát triển này sử dụng IP của họ.
Hơn 50 triệu câu hỏi và câu trả lời đã được đăng trên Stack Overflow. Meta có được đào tạo mô hình ngôn ngữ lớn của nó LLaMA sử dụng dữ liệu được lấy từ Stack Exchange, nhà sản xuất Stack Overflow.
Phát biểu về sự ủng hộ của mình đối với cách tiếp cận của Reddit, Giám đốc điều hành của Stack Overflow, Prashanth Chandrasekar nói với The Wired:
“Các nền tảng cộng đồng thúc đẩy LLM hoàn toàn nên được đền bù cho những đóng góp của họ để các công ty như chúng tôi có thể tái đầu tư trở lại cộng đồng của mình để tiếp tục giúp họ phát triển.”
Chandrasekar nói thêm rằng các nhà phát triển LLM sử dụng dữ liệu của Stack Overflow đang vi phạm quy định của trang web. điều khoản dịch vụ vì người dùng sở hữu nội dung họ đăng, thuộc giấy phép Creative Commons yêu cầu bất kỳ ai sử dụng nội dung sau này phải ghi nguồn. Ông giải thích rằng các công ty AI “không thể quy kết từng thành viên trong cộng đồng có câu hỏi và câu trả lời được sử dụng để đào tạo mô hình, do đó vi phạm giấy phép Creative Commons.”
Ông cũng làm rõ rằng Stack Overflow sẽ chỉ tính phí các công ty phát triển LLM lớn vì mục đích thương mại. Ngoài ra, Stack Overflow đang làm việc trên các ứng dụng AI tổng quát của riêng mình như một phần của chiến lược AI rộng lớn hơn. Trong một bài đăng trên blog trước đây, Chandrasekar nói rằng anh ấy đã giao nhiệm vụ cho một nhóm chuyên trách “làm việc toàn thời gian trên các ứng dụng GenAI” có thể được tích hợp vào nền tảng công cộng của Stack Overflow.
Cả Reddit và Stack Overflow hiện đang nghiên cứu thông tin về giá cho API dữ liệu của họ, thông tin này sẽ được tiết lộ trong những tháng tới.
Tìm hiểu thêm:
Từ chối trách nhiệm
Phù hợp với Hướng dẫn của Dự án Tin cậy, xin lưu ý rằng thông tin được cung cấp trên trang này không nhằm mục đích và không được hiểu là tư vấn pháp lý, thuế, đầu tư, tài chính hoặc bất kỳ hình thức tư vấn nào khác. Điều quan trọng là chỉ đầu tư những gì bạn có thể đủ khả năng để mất và tìm kiếm lời khuyên tài chính độc lập nếu bạn có bất kỳ nghi ngờ nào. Để biết thêm thông tin, chúng tôi khuyên bạn nên tham khảo các điều khoản và điều kiện cũng như các trang trợ giúp và hỗ trợ do nhà phát hành hoặc nhà quảng cáo cung cấp. MetaversePost cam kết báo cáo chính xác, không thiên vị nhưng điều kiện thị trường có thể thay đổi mà không cần thông báo trước.
Giới thiệu về Tác giả
Cindy là một nhà báo tại Metaverse Post, bao gồm các chủ đề liên quan đến web3, NFT, metaverse và AI, tập trung vào các cuộc phỏng vấn với Web3 người chơi trong ngành. Cô đã nói chuyện với hơn 30 giám đốc điều hành cấp C và ngày càng tăng, mang đến cho độc giả những hiểu biết sâu sắc có giá trị của họ. Xuất thân từ Singapore, Cindy hiện sống ở Tbilisi, Georgia. Cô có bằng Cử nhân về Nghiên cứu Truyền thông & Truyền thông của Đại học Nam Úc và có mười năm kinh nghiệm trong lĩnh vực báo chí và viết lách. Hãy liên lạc với cô ấy qua [email được bảo vệ] với các bài báo, thông báo và cơ hội phỏng vấn.
Xem thêm bài viếtCindy là một nhà báo tại Metaverse Post, bao gồm các chủ đề liên quan đến web3, NFT, metaverse và AI, tập trung vào các cuộc phỏng vấn với Web3 người chơi trong ngành. Cô đã nói chuyện với hơn 30 giám đốc điều hành cấp C và ngày càng tăng, mang đến cho độc giả những hiểu biết sâu sắc có giá trị của họ. Xuất thân từ Singapore, Cindy hiện sống ở Tbilisi, Georgia. Cô có bằng Cử nhân về Nghiên cứu Truyền thông & Truyền thông của Đại học Nam Úc và có mười năm kinh nghiệm trong lĩnh vực báo chí và viết lách. Hãy liên lạc với cô ấy qua [email được bảo vệ] với các bài báo, thông báo và cơ hội phỏng vấn.