Anthropic giữ kín mô hình AI mới sau khi phát hiện hàng nghìn lỗi.

Artificial Intelligence20 hours ago

Anthropic has withheld its most powerful AI model, Claude Mythos Preview, from public release after it discovered thousands of cybersecurity vulnerabilities across major platforms. Through Project Glasswing, the company is sharing the model exclusively with leading tech organisations and committing $100 million to help secure critical infrastructure.

Trong một động thái báo hiệu sự thay đổi mạnh mẽ trong cách triển khai các khả năng trí tuệ nhân tạo tiên tiến, Anthropic đã quyết định không phát hành rộng rãi mô hình trí tuệ nhân tạo tiên tiến nhất của mình ra công chúng sau khi phát hiện hàng nghìn lỗ hổng bảo mật chưa từng được biết đến trước đây trên các hệ điều hành và trình duyệt web chính. Thay vì tung ra thị trường, công ty đã âm thầm phân phối quyền truy cập cho các tổ chức chịu trách nhiệm bảo vệ cơ sở hạ tầng kỹ thuật số của thế giới.

Chuyện gì đã xảy ra: Dự án Glasswing và Claude Mythos - Bản xem trước

Mẫu được đề cập có tên là Claude Mythos Preview, và nó đại diện cho hệ thống mạnh mẽ nhất của Anthropic cho đến nay. Trong quá trình thử nghiệm nội bộ, Mythos đã chứng minh khả năng vượt trội trong việc xác định các lỗ hổng bảo mật — phát hiện hàng nghìn lỗ hổng trải rộng trên mọi hệ điều hành và trình duyệt chính hiện đang được sử dụng.

Thay vì coi đây là cơ hội ra mắt sản phẩm, Anthropic đã thiết lập một sáng kiến có tên gọi là Project Glasswing. Chương trình này chuyển giao trực tiếp khả năng của Mythos cho các công ty và tổ chức xây dựng và duy trì phần mềm quan trọng. Các đối tác ra mắt bao gồm những tên tuổi lớn trong lĩnh vực công nghệ toàn cầu: Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, Linux Foundation, Microsoft, Nvidia và Palo Alto Networks.

Ngoài nhóm ban đầu đó, quyền truy cập đã được mở rộng cho hơn 40 tổ chức khác phát triển hoặc duy trì cơ sở hạ tầng phần mềm thiết yếu. Để hỗ trợ nỗ lực này về mặt tài chính, Anthropic cam kết chi tới 100 triệu đô la Mỹ dưới dạng tín dụng sử dụng để các đối tác này có thể chạy Mythos trên mã nguồn của riêng họ.

Vì sao điều này quan trọng: Một mô hình mới cho việc triển khai AI có trách nhiệm

Quyết định này mang ý nghĩa vô cùng quan trọng vì nhiều lý do. Thứ nhất, nó là một trong những ví dụ rõ ràng nhất về việc một phòng thí nghiệm AI chủ động hạn chế tiềm năng thương mại của một mô hình đột phá vì những lo ngại về an ninh. Trong một ngành công nghiệp thường bị chỉ trích vì chạy đua tung sản phẩm, Anthropic đã chọn cách kiềm chế — và điều đó đáng được ghi nhận.

Thứ hai, quy mô của những phát hiện này thật đáng kinh ngạc. Việc tìm thấy hàng nghìn lỗ hổng trên nhiều nền tảng cho thấy Mythos hoạt động ở mức độ phân tích mã vượt xa những gì các nhà nghiên cứu bảo mật con người hoặc các công cụ tự động hiện có có thể đạt được trong khoảng thời gian tương đương. Để dễ hình dung, cơ sở dữ liệu CVE — tiêu chuẩn toàn cầu để theo dõi các lỗ hổng an ninh mạng được công khai — thường lập danh mục khoảng 25.000 đến 30.000 mục mới mỗi năm. Một mô hình AI duy nhất đóng góp hàng nghìn phát hiện trong một khoảng thời gian ngắn sẽ chiếm một phần đáng kể trong tổng số lỗ hổng được công bố trên toàn cầu hàng năm.

Thứ ba, cách tiếp cận này có thể định nghĩa lại nền kinh tế của nghiên cứu lỗ hổng bảo mật. Nếu bạn đã theo dõi bài viết của chúng tôi về Bộ công cụ mã nguồn mở của Microsoft bảo mật các tác nhân AI trong thời gian thực , bạn sẽ biết rằng các chương trình săn tìm lỗi và kiểm thử xâm nhập vẫn còn tốn kém và tốn nhiều công sức. Một mô hình AI có khả năng thực hiện công việc này trên quy mô lớn có thể giúp các tổ chức tiết kiệm hàng tỷ đô la chi phí liên quan đến vi phạm bảo mật.

Bối cảnh: Danh tiếng "An toàn là trên hết" của Anthropic

Anthropic được thành lập vào năm 2021 bởi các nhà nghiên cứu cũ của OpenAI, trong đó có anh chị em Dario và Daniela Amodei. Công ty luôn định vị mình là một lựa chọn an toàn trong cuộc đua AI tiên tiến, công bố các chính sách mở rộng quy mô có trách nhiệm chi tiết và đầu tư mạnh vào nghiên cứu về sự tương thích. Dòng mô hình Claude của họ cạnh tranh trực tiếp với dòng GPT của OpenAI và Gemini của Google.

Quyết định không công khai Mythos là phù hợp với triết lý đó. Việc phát hành một mô hình có thể xác định các lỗ hổng bảo mật zero-day trên quy mô lớn sẽ là con dao hai lưỡi — vô cùng quý giá đối với những người bảo vệ hệ thống, nhưng có thể gây ra hậu quả thảm khốc nếu bị các tác nhân độc hại truy cập và khai thác những lỗ hổng đó trước khi các bản vá được triển khai.

Sự căng thẳng này nằm ở cốt lõi của vấn đề mà các nhà nghiên cứu bảo mật gọi là “sự bất đối xứng tấn công-phòng thủ”. Kẻ tấn công chỉ cần tìm ra một điểm yếu có thể khai thác. Bên phòng thủ cần tìm và vá tất cả các điểm yếu đó. Một trí tuệ nhân tạo (AI) có thể nghiêng cán cân về phía bên phòng thủ — nhưng chỉ khi khả năng của nó được kiểm soát cẩn thận — chính là loại công cụ đòi hỏi một mô hình phân phối hạn chế.

Ý nghĩa chiến lược đối với Anthropic và ngành công nghiệp

Từ góc độ kinh doanh, Dự án Glasswing là một nước đi thiên tài ngay cả khi phải hy sinh doanh thu ngắn hạn. Hãy xem xét những lợi ích chiến lược:

Tích hợp sâu rộng với cơ sở hạ tầng trọng yếu: Bằng cách tích hợp Mythos vào quy trình làm việc của AWS, Microsoft, Google và các đối tác khác, Anthropic tạo ra sự phụ thuộc và tin tưởng mà không một chiến dịch tiếp thị nào có thể mua được.
Thiện chí với các cơ quan quản lý: Khi các chính phủ trên toàn thế giới soạn thảo luật về trí tuệ nhân tạo, việc thể hiện sự kiềm chế có trách nhiệm sẽ tạo dựng được uy tín, điều này sẽ có ý nghĩa quan trọng khi các quyết định chính sách được đưa ra.
Vòng phản hồi dữ liệu: Mỗi lỗ hổng mà các tổ chức đối tác xác nhận và vá lỗi sẽ tạo ra tín hiệu huấn luyện có giá trị, giúp các mô hình Anthropic trong tương lai trở nên hiệu quả hơn nữa.
Lợi thế cạnh tranh: Cả OpenAI và Google DeepMind đều chưa công bố bất cứ sản phẩm nào có quy mô tương đương, điều này mang lại cho Anthropic một vị thế độc đáo trên thị trường bảo mật doanh nghiệp.

Việc JPMorganChase tham gia là một dấu hiệu đặc biệt đáng chú ý. Các tổ chức tài chính phải đối mặt với các cuộc tấn công mạng không ngừng nghỉ và hoạt động dưới một số khung pháp lý nghiêm ngặt nhất trên thế giới. Sự tham gia của họ cho thấy Mythos đã chứng minh được giá trị vượt ra ngoài lĩnh vực công nghệ. Nếu bạn quan tâm đến cách AI đang định hình lại dịch vụ tài chính, hãy xem bài viết của chúng tôi về việc Google AI ra mắt PaperOrchestra để nghiên cứu tự động .

Điều gì sẽ xảy ra tiếp theo?

Vẫn còn một số câu hỏi chưa được giải đáp. Liệu Anthropic cuối cùng có phát hành Mythos ra công chúng, có lẽ sau khi các lỗ hổng nghiêm trọng nhất đã được vá? Làm thế nào công ty có thể xác minh rằng các tổ chức đối tác thực sự hành động dựa trên các phát hiện một cách kịp thời? Và điều gì sẽ xảy ra khi các đối thủ chắc chắn sẽ phát triển các mô hình AI săn lùng lỗ hổng của riêng họ mà không có các rào cản đạo đức tương tự?

Toàn ngành cũng sẽ theo dõi xem liệu cách tiếp cận hợp tác, mang tính chất từ thiện này có trở thành hình mẫu hay không. Nếu khoản đầu tư 100 triệu đô la vào an ninh mạng phòng thủ mang lại kết quả có thể đo lường được — ít vụ xâm phạm hơn, vá lỗi nhanh hơn, internet an toàn hơn — các phòng thí nghiệm AI khác sẽ chịu áp lực phải làm theo.

Ngoài ra còn có câu hỏi liệu các chính phủ có tìm cách bắt buộc áp dụng khuôn khổ công khai thông tin có trách nhiệm kiểu này hay không. Cơ quan An ninh mạng và Cơ sở hạ tầng (CISA) của Hoa Kỳ đã bày tỏ sự quan tâm đến việc phát hiện lỗ hổng bảo mật bằng trí tuệ nhân tạo như một phần trong nhiệm vụ rộng lớn hơn của mình.

Tóm lại

Quyết định của Anthropic giữ kín thông tin về Claude Mythos Preview khỏi công chúng là một trong những động thái quan trọng nhất trong ngành công nghiệp AI năm nay. Bằng cách chọn bảo mật thay vì phô trương, công ty đang đặt cược có tính toán rằng các mô hình AI mạnh mẽ nhất không phải lúc nào cũng nên là sản phẩm — đôi khi chúng nên là công cụ được sử dụng một cách thầm lặng bởi những người có vị trí tốt nhất để bảo vệ mọi người khác. Liệu canh bạc đó có thành công hay không sẽ phụ thuộc vào việc thực hiện, tính minh bạch và liệu phần còn lại của ngành có sẵn sàng đi theo con đường ưu tiên phòng thủ tập thể hơn lợi nhuận cá nhân hay không.