Meta muốn thu nhỏ với các mô hình ngôn ngữ AI của mình
Trong khi các mô hình AI ngôn ngữ lớn tiếp tục tạo nên tiêu đề, các mô hình ngôn ngữ nhỏ mới là nơi diễn ra hoạt động. Ít nhất, đó là những gì Meta dường như đang đặt cược, theo một bài báo gần đây được một nhóm các nhà khoa học nghiên cứu của họ công bố.
Các mô hình ngôn ngữ lớn, như ChatGPT, Gemini và Llama, có thể sử dụng hàng tỷ, thậm chí hàng nghìn tỷ tham số để có được kết quả của chúng. Kích thước của các mô hình đó khiến chúng quá lớn để chạy trên các thiết bị di động. Vì vậy, các nhà khoa học Meta đã lưu ý trong nghiên cứu của họ, nhu cầu về các mô hình ngôn ngữ lớn hiệu quả trên các thiết bị di động đang ngày càng tăng — một nhu cầu thúc đẩy bởi chi phí đám mây ngày càng tăng và các mối quan tâm về độ trễ.
Trong nghiên cứu của mình, các nhà khoa học đã giải thích cách họ tạo ra các mô hình ngôn ngữ lớn chất lượng cao với ít hơn một tỷ tham số, mà họ cho rằng đây là kích thước tốt cho việc triển khai trên thiết bị di động.
Trái ngược với niềm tin phổ biến nhấn mạnh vai trò quan trọng của dữ liệu và số lượng tham số trong việc xác định chất lượng mô hình, các nhà khoa học đã đạt được kết quả với mô hình ngôn ngữ nhỏ của họ có thể so sánh ở một số khía cạnh với Llama LLM của Meta.
Nick DeGiacomo, Giám đốc điều hành của Bucephalus , một nền tảng chuỗi cung ứng thương mại điện tử hỗ trợ AI có trụ sở tại Thành phố New York, cho biết: “Có một mô hình phổ biến là ‘càng lớn càng tốt’, nhưng điều này cho thấy vấn đề thực sự nằm ở cách sử dụng các thông số”.
Ông chia sẻ với TechNewsWorld rằng: “Điều này mở đường cho việc áp dụng AI trên thiết bị rộng rãi hơn”.
Một bước quan trọng
Darian Shimy, CEO kiêm nhà sáng lập FutureFund , một công ty đầu tư mạo hiểm tại San Francisco, giải thích rằng nghiên cứu của Meta có ý nghĩa quan trọng vì nó thách thức chuẩn mực hiện tại về AI dựa trên đám mây, vốn thường thấy dữ liệu được xử lý tại các trung tâm dữ liệu ở xa.
Ông chia sẻ với TechNewsWorld: “Bằng cách đưa khả năng xử lý AI vào chính thiết bị, Meta đang đảo ngược tình thế — có khả năng giảm lượng khí thải carbon liên quan đến việc truyền và xử lý dữ liệu trong các trung tâm dữ liệu lớn, tiêu tốn nhiều năng lượng và biến AI dựa trên thiết bị trở thành một yếu tố quan trọng trong hệ sinh thái công nghệ”.
Yashin Manraj, Tổng giám đốc điều hành của Pvotal Technologies , một nhà phát triển phần mềm bảo mật đầu cuối tại Eagle Point, Oregon, cho biết thêm: “Nghiên cứu này là nỗ lực toàn diện và được chia sẻ công khai đầu tiên ở quy mô này”.
“Đây là bước đầu tiên quan trọng để đạt được phương pháp tiếp cận hài hòa SLM-LLM, nơi các nhà phát triển có thể tìm thấy sự cân bằng phù hợp giữa xử lý dữ liệu đám mây và trên thiết bị”, ông nói với TechNewsWorld. “Nó đặt nền tảng để các ứng dụng được hỗ trợ bởi AI có thể đạt đến mức hỗ trợ, tự động hóa và trợ giúp đã được tiếp thị trong những năm gần đây nhưng lại thiếu năng lực kỹ thuật để hỗ trợ các tầm nhìn đó”.
Các nhà khoa học siêu hình cũng đã có bước tiến đáng kể trong việc thu nhỏ mô hình ngôn ngữ. “Họ đang đề xuất thu nhỏ mô hình theo cấp số nhân, giúp nó dễ tiếp cận hơn với thiết bị đeo, thiết bị đeo tai và điện thoại di động”, Nishant Neekhra, giám đốc cấp cao về tiếp thị di động tại Skyworks Solutions , một công ty bán dẫn tại Westlake Village, California, cho biết.
“Họ đang trình bày một bộ ứng dụng hoàn toàn mới cho AI trong khi cung cấp những cách mới để AI tương tác trong thế giới thực”, ông nói với TechNewsWorld. “Bằng cách thu nhỏ, họ cũng đang giải quyết một thách thức tăng trưởng lớn đang gây khó khăn cho LLM, đó là khả năng triển khai của họ trên các thiết bị biên”.
Tác động cao đến chăm sóc sức khỏe
Một lĩnh vực mà các mô hình ngôn ngữ nhỏ có thể có tác động có ý nghĩa là y học.
Danielle Kelvas , cố vấn bác sĩ tại IT Medical, một công ty phát triển phần mềm y tế toàn cầu, chia sẻ với TechNewsWorld: “Nghiên cứu này hứa hẹn sẽ khai phá tiềm năng của AI tạo sinh cho các ứng dụng liên quan đến thiết bị di động, vốn rất phổ biến trong lĩnh vực chăm sóc sức khỏe ngày nay để theo dõi từ xa và đánh giá sinh trắc học” .
Bà tiếp tục, bằng cách chứng minh rằng SLM hiệu quả có thể có ít hơn một tỷ tham số và vẫn hoạt động tương đương với các mô hình lớn hơn trong một số nhiệm vụ nhất định, các nhà nghiên cứu đang mở ra cánh cửa cho việc áp dụng rộng rãi AI trong việc theo dõi sức khỏe hàng ngày và chăm sóc bệnh nhân được cá nhân hóa.
Kelvas giải thích rằng việc sử dụng SLM cũng có thể đảm bảo dữ liệu sức khỏe nhạy cảm có thể được xử lý an toàn trên thiết bị, tăng cường quyền riêng tư của bệnh nhân. Chúng cũng có thể tạo điều kiện cho việc theo dõi và can thiệp sức khỏe theo thời gian thực, điều này rất quan trọng đối với những bệnh nhân mắc bệnh mãn tính hoặc những người cần được chăm sóc liên tục.
Bà nói thêm rằng các mô hình này cũng có thể giảm bớt rào cản về công nghệ và tài chính khi triển khai AI trong các cơ sở chăm sóc sức khỏe, có khả năng phổ biến các công nghệ theo dõi sức khỏe tiên tiến cho nhiều nhóm dân số hơn.
Phản ánh xu hướng của ngành
Caridad Muñoz , giáo sư công nghệ truyền thông mới tại Cao đẳng cộng đồng CUNY LaGuardia, giải thích rằng việc Meta tập trung vào các mô hình AI nhỏ cho thiết bị di động phản ánh xu hướng chung của ngành hướng tới việc tối ưu hóa AI để đạt hiệu quả và khả năng truy cập. Bà nói với TechNewsWorld rằng “Sự thay đổi này không chỉ giải quyết những thách thức thực tế mà còn phù hợp với mối quan tâm ngày càng tăng về tác động môi trường của các hoạt động AI quy mô lớn”.
Muñoz nói thêm: “Bằng cách ủng hộ các mô hình nhỏ hơn, hiệu quả hơn, Meta đang tạo tiền lệ cho sự phát triển AI bền vững và toàn diện”.
Các mô hình ngôn ngữ nhỏ cũng phù hợp với xu hướng điện toán biên, tập trung vào việc đưa khả năng AI đến gần hơn với người dùng. DeGiacomo cho biết: “Các mô hình ngôn ngữ lớn từ OpenAI, Anthropic và các mô hình khác thường quá mức cần thiết — ‘khi bạn chỉ có một cái búa, mọi thứ đều trông giống như một cái đinh'”.
“Các mô hình chuyên biệt, được điều chỉnh có thể hiệu quả hơn và tiết kiệm chi phí hơn cho các nhiệm vụ cụ thể”, ông lưu ý. “Nhiều ứng dụng di động không yêu cầu AI tiên tiến. Bạn không cần siêu máy tính để gửi tin nhắn văn bản”.
Ông nói thêm: “Phương pháp này cho phép thiết bị tập trung vào việc xử lý tuyến đường giữa những gì có thể được trả lời bằng SLM và các trường hợp sử dụng chuyên biệt, tương tự như mối quan hệ giữa bác sĩ đa khoa và bác sĩ chuyên khoa”.
Tác động sâu sắc đến kết nối toàn cầu
Shimy cho rằng những tác động sâu sắc mà SLM có thể gây ra đối với khả năng kết nối toàn cầu.
“Khi AI trên thiết bị trở nên có khả năng hơn, nhu cầu kết nối internet liên tục sẽ giảm đi, điều này có thể thay đổi đáng kể bối cảnh công nghệ ở những khu vực mà quyền truy cập internet không ổn định hoặc tốn kém”, ông nhận xét. “Điều này có thể dân chủ hóa quyền truy cập vào các công nghệ tiên tiến, giúp các công cụ AI tiên tiến có sẵn trên nhiều thị trường toàn cầu khác nhau”.
Trong khi Meta đang dẫn đầu quá trình phát triển SLM, Manraj lưu ý rằng các nước đang phát triển đang theo dõi chặt chẽ tình hình để kiểm soát chi phí phát triển AI của họ. Ông cho biết: “Trung Quốc, Nga và Iran dường như đã phát triển mối quan tâm lớn đến khả năng trì hoãn các phép tính tính toán trên các thiết bị cục bộ, đặc biệt là khi các chip phần cứng AI tiên tiến bị cấm vận hoặc không dễ tiếp cận”.
“Chúng tôi không mong đợi đây là một sự thay đổi đột ngột hay mạnh mẽ”, ông dự đoán, “bởi vì các truy vấn phức tạp, đa ngôn ngữ vẫn sẽ yêu cầu LLM dựa trên đám mây để cung cấp giá trị tiên tiến cho người dùng cuối. Tuy nhiên, sự thay đổi này hướng tới việc cho phép mô hình ‘dặm cuối’ trên thiết bị có thể giúp giảm bớt gánh nặng của LLM trong việc xử lý các tác vụ nhỏ hơn, giảm vòng phản hồi và cung cấp dữ liệu làm giàu cục bộ”.
“Cuối cùng,” ông tiếp tục, “người dùng cuối sẽ rõ ràng là người chiến thắng, vì điều này sẽ cho phép một thế hệ khả năng mới trên các thiết bị của họ và một cuộc đại tu đầy hứa hẹn hơn đối với các ứng dụng giao diện người dùng và cách mọi người tương tác với thế giới.”
“Trong khi những nghi phạm thường gặp đang thúc đẩy sự đổi mới trong lĩnh vực này với tác động tiềm năng đầy hứa hẹn đến cuộc sống hàng ngày của mọi người”, ông nói thêm, “SLM cũng có thể là một con ngựa thành Troy cung cấp một cấp độ tinh vi mới trong việc xâm nhập vào cuộc sống hàng ngày của chúng ta bằng cách có các mô hình có khả năng thu thập dữ liệu và siêu dữ liệu ở mức độ chưa từng có. Chúng tôi hy vọng rằng với các biện pháp bảo vệ thích hợp, chúng tôi có thể chuyển hướng những nỗ lực này đến một kết quả hiệu quả”.
THÔNG TIN LIÊN HỆ
SDT: 0977383456
EMAIL: kbtech.technology@gmail.com
WEBSITE : kbtech.com.vn
ĐĂNG KÝ ZALO OA : dangkyzalooa.com