Claude Opus 4.7 Ra Mắt: Đánh Giá Chi Tiết, So Sánh Toàn Diện Với Opus 4.6 và Những Gì Thay Đổi

Anthropic chính thức ra mắt Claude Opus 4.7 – phiên bản cải tiến đáng kể so với Opus 4.6, với khả năng lập trình nâng cao, hỗ trợ hình ảnh độ phân giải cao và hiệu suất vượt trội trong các tác vụ dài hạn.

16 tháng 4, 2026 · Cập nhật: 16 tháng 4, 2026 · 764 lượt xem

Anthropic vừa chính thức công bố Claude Opus 4.7 – phiên bản nâng cấp trực tiếp của Claude Opus 4.6, ra mắt hôm nay ngày 16/4/2026. Đây không phải một bản cập nhật nhỏ: Opus 4.7 mang lại những thay đổi đáng kể ở nhiều mặt, từ khả năng lập trình, thị giác AI, bộ nhớ dài hạn cho đến an toàn và bảo mật. Trong bài viết này, chúng tôi sẽ phân tích chi tiết từng tính năng mới, cùng với bảng so sánh trực tiếp giữa Opus 4.7 và Opus 4.6 để bạn hiểu rõ sự khác biệt thực sự.

Tổng Quan: Opus 4.7 Là Gì Và Tại Sao Quan Trọng?

Claude Opus 4.7 là mô hình AI ngôn ngữ lớn (LLM) thuộc dòng Claude 4 của Anthropic, được thiết kế hướng đến những tác vụ đòi hỏi mức độ suy luận sâu, lập trình phức tạp và làm việc tự động trong thời gian dài. So với dòng Sonnet (nhẹ hơn, nhanh hơn), Opus là mô hình mạnh nhất trong từng thế hệ Claude – phù hợp cho công việc nặng về tư duy và độ chính xác.

Mặc dù Anthropic đã ra mắt Claude Mythos Preview – mô hình mạnh nhất hiện tại – nhưng Opus 4.7 vẫn có vị trí riêng biệt: nó là mô hình được phát hành rộng rãi cho tất cả người dùng, đi kèm với mức giá hợp lý hơn và đã qua kiểm duyệt an toàn chặt chẽ hơn Mythos.

Bảng So Sánh Nhanh: Opus 4.7 vs Opus 4.6

Tiêu chí	Claude Opus 4.6	Claude Opus 4.7	Cải thiện
Độ phân giải hình ảnh tối đa	~800px cạnh dài	2.576px (~3,75 MP)	+3× lần
CursorBench (lập trình)	58%	70%	+12%
Rakuten SWE-Bench (tác vụ production)	Mức cơ bản	Gấp 3× số tác vụ giải quyết được	+200%
Phân tích tài liệu (Databricks OfficeQA Pro)	Mức cơ bản	Ít lỗi hơn 21%	−21% lỗi
Finance Agent Eval	0.767	0.813	+6%
Tuân thủ chỉ dẫn (instruction following)	Trung bình – bỏ qua một số bước	Rất chính xác – theo nghĩa đen	Cải thiện lớn
Bộ nhớ dài hạn (file-based memory)	Hạn chế	Ghi nhớ qua nhiều phiên	Cải thiện lớn
Visual acuity (XBOW benchmark)	54.5%	98.5%	+44 điểm %
Effort level mới	low / medium / high / max	Thêm `xhigh`	Kiểm soát tốt hơn

1. Khả Năng Lập Trình: Bước Nhảy Vọt Thực Sự

Đây là điểm cải tiến nổi bật nhất của Opus 4.7. Trong lĩnh vực kỹ thuật phần mềm, Anthropic mô tả Opus 4.7 là "bước tiến rõ rệt so với Opus 4.6, đặc biệt trên các tác vụ khó nhất". Thực tế từ các công ty đã thử nghiệm sớm xác nhận điều này:

So sánh trực tiếp trên các benchmark lập trình

CursorBench: Opus 4.7 đạt 70%, trong khi Opus 4.6 chỉ đạt 58% – mức chênh lệch 12 điểm phần trăm rất có ý nghĩa trong thực tế.
Rakuten SWE-Bench production: Opus 4.7 giải quyết được gấp 3 lần số tác vụ production so với Opus 4.6, đồng thời ghi nhận cải thiện hai chữ số về chất lượng code và chất lượng test.
Factory Droids benchmark: Opus 4.7 đạt mức cải thiện 10–15% về tỷ lệ hoàn thành tác vụ, với ít lỗi công cụ hơn và độ tin cậy cao hơn trong các bước xác thực.
CodeRabbit (code review): Recall cải thiện hơn 10% trong việc phát hiện các lỗi khó nhất, trong khi precision vẫn giữ nguyên – nghĩa là mô hình tìm ra nhiều lỗi hơn mà không tạo ra nhiều false positive hơn.
Qodo benchmark: Opus 4.7 vượt qua ba tác vụ TBench mà các phiên bản Claude trước không giải quyết được, bao gồm một lỗi race condition mà Opus 4.6 bỏ qua.

Điều gì thực sự thay đổi trong cách lập trình?

Opus 4.7 không chỉ giỏi hơn về benchmark – cách nó tiếp cận lập trình cũng khác về bản chất:

Tự kiểm tra lỗi: Mô hình chủ động phát hiện lỗi logic trong giai đoạn lên kế hoạch, trước khi bắt đầu viết code, thay vì chỉ sửa lỗi sau khi đã chạy thử.
Tự xác minh output: Opus 4.7 kiểm tra lại kết quả của chính mình trước khi báo cáo – hành vi mới hoàn toàn so với Opus 4.6.
Code sạch hơn: Loại bỏ các wrapper function không cần thiết và scaffolding dự phòng – vấn đề mà nhiều lập trình viên gặp phải với các mô hình trước.
Làm việc đến cùng: Thay vì dừng giữa chừng khi gặp khó khăn, Opus 4.7 tiếp tục xử lý qua các lỗi công cụ và trở ngại kỹ thuật.

Ví dụ thực tế: Deepgram đã thử nghiệm Opus 4.7 với tác vụ xây dựng một công cụ chuyển văn bản thành giọng nói hoàn chỉnh bằng Rust – bao gồm mô hình neural, nhân SIMD và demo trên trình duyệt – từ đầu đến cuối. Sau khi hoàn thành, mô hình tự đưa kết quả qua bộ nhận dạng giọng nói để xác minh kết quả khớp với tài liệu tham chiếu Python. Toàn bộ quá trình diễn ra tự động.

2. Thị Giác AI (Vision): Từ Mờ Nhạt Đến Sắc Nét

Một trong những hạn chế lớn nhất của Opus 4.6 là khả năng xử lý hình ảnh ở độ phân giải thấp. Opus 4.7 giải quyết triệt để vấn đề này.

So sánh thị giác Opus 4.6 vs 4.7

Chỉ số	Opus 4.6	Opus 4.7
Độ phân giải tối đa	~800px cạnh dài	2.576px (~3,75 MP)
XBOW visual acuity benchmark	54.5%	98.5%
Đọc screenshot dày đặc	Hạn chế	Hoạt động tốt
Đọc cấu trúc hóa học	Không đáng tin cậy	Cải thiện đáng kể
Giải thích sơ đồ kỹ thuật phức tạp	Trung bình	Tốt hơn rõ rệt

Đây là thay đổi cấp độ model (không phải tham số API), nghĩa là tất cả hình ảnh gửi đến Claude sẽ tự động được xử lý ở độ phân giải cao hơn. Lưu ý: hình ảnh độ phân giải cao tiêu thụ nhiều token hơn, vì vậy người dùng không cần chi tiết cao có thể downsample trước khi gửi.

Ứng dụng thực tế của cải tiến này rất rộng: từ các agent computer-use đọc màn hình dày đặc, đến trích xuất dữ liệu từ sơ đồ phức tạp trong nghiên cứu khoa học đời sống và công việc cần tham chiếu điểm ảnh chính xác.

3. Tuân Thủ Chỉ Dẫn: Chính Xác Đến Mức Cần Cẩn Thận

Opus 4.7 tuân thủ hướng dẫn theo nghĩa đen tốt hơn đáng kể so với Opus 4.6. Đây là cải tiến tích cực, nhưng cũng kéo theo một lưu ý quan trọng mà Anthropic chủ động cảnh báo:

Cảnh báo khi nâng cấp: Các prompt được viết cho Opus 4.6 có thể cho ra kết quả không mong muốn với Opus 4.7. Lý do: Opus 4.6 thường bỏ qua hoặc diễn giải linh hoạt một số chỉ dẫn, trong khi Opus 4.7 thực hiện theo đúng nghĩa đen. Người dùng và lập trình viên cần rà soát và điều chỉnh lại prompt sau khi nâng cấp.

Điều này đặc biệt quan trọng với các hệ thống agentic, nơi một chỉ dẫn mơ hồ có thể dẫn đến hành vi khác hẳn khi mô hình thực sự thực hiện nó.

4. Bộ Nhớ Dài Hạn: Làm Việc Qua Nhiều Phiên

Đây là tính năng ít được chú ý nhưng cực kỳ quan trọng với người dùng chuyên nghiệp. Opus 4.6 xử lý mỗi phiên hội thoại gần như độc lập – nếu bạn đang làm một dự án dài hạn, bạn phải cung cấp lại ngữ cảnh mỗi lần bắt đầu phiên mới.

Opus 4.7 cải thiện đáng kể khả năng sử dụng bộ nhớ dựa trên hệ thống file: mô hình ghi lại các ghi chú quan trọng và sử dụng chúng trong các phiên tiếp theo, giảm đáng kể lượng ngữ cảnh cần cung cấp lại khi bắt đầu tác vụ mới trong cùng một dự án.

Tính năng này đặc biệt hữu ích cho:

Dự án phần mềm dài hạn chạy qua nhiều phiên làm việc
Phân tích tài chính đa giai đoạn
Nghiên cứu pháp lý cần theo dõi nhiều tài liệu và tiền lệ
Bất kỳ tác vụ nào đòi hỏi tính liên tục qua thời gian

5. Tác Nhân Tự Động (Agentic AI): Đáng Tin Cậy Hơn Trong Môi Trường Thực

Lĩnh vực mà Opus 4.7 được thiết kế để tỏa sáng nhất là các tác vụ agentic dài hạn – những luồng công việc tự động chạy trong nhiều giờ, sử dụng nhiều công cụ và đưa ra nhiều quyết định liên tiếp mà không cần con người can thiệp.

Opus 4.6 vs 4.7 trong môi trường agentic

Tình huống	Opus 4.6	Opus 4.7
Gặp lỗi công cụ giữa chừng	Thường dừng lại	Tiếp tục xử lý
Lặp vô hạn (loop resistance)	Có thể bị mắc kẹt	Kháng vòng lặp tốt hơn
Tỷ lệ lỗi công cụ	Cao hơn	Giảm 1/3 (theo Notion)
Nhận biết nhu cầu ngầm định	Không đạt	Vượt qua implicit-need tests
Hiệu suất multi-step workflows	Cơ bản	+14% ít token hơn (Notion)

Đặc biệt đáng chú ý là kết quả từ Devin – nền tảng lập trình tự động – ghi nhận rằng Opus 4.7 có thể làm việc liên tục trong nhiều giờ, vượt qua các vấn đề khó thay vì bỏ cuộc, mở ra một lớp tác vụ điều tra sâu mà trước đây không thể chạy ổn định.

6. Tài Chính và Công Việc Tri Thức: Vượt Chuẩn Ngành

Opus 4.7 đạt điểm hàng đầu trên hai benchmark quan trọng trong lĩnh vực tài chính và công việc tri thức:

Finance Agent Evaluation: Điểm 0.813 so với 0.767 của Opus 4.6 – cải thiện ~6% trên mô-đun tài chính lớn nhất.
GDPval-AA (Artificial Analysis): Benchmark bên thứ ba đánh giá công việc tri thức có giá trị kinh tế thực, bao gồm tài chính, pháp lý và các lĩnh vực khác. Opus 4.7 đứng đầu.
BigLaw Bench (Harvey): Đạt 90.9% độ chính xác ở mức effort cao, với khả năng phân biệt điều khoản chuyển nhượng vs. điều khoản thay đổi kiểm soát – loại phân biệt vốn từ lâu gây khó khăn cho các mô hình frontier.

Trong thực tế, Anthropic báo cáo Opus 4.7 hoạt động tốt hơn Opus 4.6 như một chuyên gia phân tích tài chính: tạo ra các phân tích và mô hình nghiêm ngặt hơn, bản trình bày chuyên nghiệp hơn và tích hợp chặt chẽ hơn giữa các tác vụ.

7. An Toàn và Bảo Mật: Tiên Phong Trong Safeguard An Ninh Mạng

Đây là một điểm quan trọng và khá đặc biệt của Opus 4.7. Anthropic đã công bố Project Glasswing tuần trước, làm nổi bật cả rủi ro lẫn lợi ích của AI trong lĩnh vực an ninh mạng. Trong bối cảnh đó:

Opus 4.7 là mô hình đầu tiên được trang bị biện pháp bảo vệ an ninh mạng tự động, tự động phát hiện và chặn các yêu cầu liên quan đến mục đích an ninh mạng bị cấm hoặc rủi ro cao.
Khả năng an ninh mạng của Opus 4.7 không mạnh bằng Mythos Preview – Anthropic có chủ ý giới hạn điều này trong quá trình huấn luyện.
Những gì học được từ triển khai thực tế của safeguard này sẽ giúp Anthropic hướng đến mục tiêu cuối cùng là phát hành rộng rãi các mô hình cấp Mythos.

Chương trình Cyber Verification

Các chuyên gia bảo mật hợp pháp – nghiên cứu lỗ hổng, kiểm tra xâm nhập, red-teaming – có thể đăng ký tham gia Chương trình Xác minh Cyber mới của Anthropic để được cấp quyền truy cập đầy đủ hơn vào khả năng an ninh mạng của Opus 4.7.

Hồ sơ an toàn tổng thể

Opus 4.7 có hồ sơ an toàn tương tự Opus 4.6 nhưng với một số điểm khác biệt:

Cải thiện: Tính trung thực, khả năng kháng tấn công prompt injection độc hại.
Kém hơn đôi chút: Xu hướng đưa ra lời khuyên giảm hại quá chi tiết với các chất kiểm soát.
Đánh giá chung: Anthropic kết luận mô hình là "largely well-aligned and trustworthy, though not fully ideal" – mô hình tốt nhất về alignment vẫn là Mythos Preview.

8. Tính Năng Mới Đi Kèm Trong Đợt Ra Mắt

Mức Effort Mới: `xhigh`

Opus 4.7 bổ sung mức effort xhigh (extra high) nằm giữa high và max. Điều này cho phép người dùng kiểm soát chi tiết hơn sự đánh đổi giữa độ sâu suy luận và tốc độ phản hồi. Trong Claude Code, mức effort mặc định đã được nâng lên xhigh cho tất cả các gói. Anthropic khuyến nghị bắt đầu với high hoặc xhigh khi kiểm tra cho các tác vụ coding và agentic.

Task Budgets (Beta)

Nhà phát triển sử dụng API giờ có thể thiết lập ngân sách token để định hướng mức chi tiêu của Claude trong các tác vụ dài, giúp ưu tiên công việc trải dài qua nhiều bước mà không bị vượt quá ngưỡng chi phí dự kiến.

Lệnh `/ultrareview` Trong Claude Code

Đây là tính năng mới rất hữu ích cho lập trình viên: lệnh /ultrareview tạo ra một phiên review chuyên sâu, đọc qua toàn bộ thay đổi và gắn cờ các lỗi và vấn đề thiết kế mà một reviewer cẩn thận sẽ phát hiện. Người dùng Pro và Max nhận được 3 lần ultrareview miễn phí để trải nghiệm.

Auto Mode Mở Rộng

Auto mode – chế độ cho phép Claude tự đưa ra quyết định về quyền truy cập, giúp chạy tác vụ dài hơn với ít gián đoạn hơn – đã được mở rộng đến người dùng Max.

9. Hướng Dẫn Nâng Cấp Từ Opus 4.6 Lên 4.7

Hai điểm quan trọng cần lưu ý khi chuyển từ Opus 4.6 sang Opus 4.7:

1. Tokenizer mới – Có thể dùng nhiều token hơn

Opus 4.7 sử dụng tokenizer được cập nhật giúp mô hình xử lý văn bản tốt hơn. Đánh đổi là cùng một đầu vào có thể ánh xạ tới nhiều token hơn – ước tính gấp 1,0–1,35 lần tùy loại nội dung.

2. Suy nghĩ nhiều hơn ở effort cao

Opus 4.7 suy luận sâu hơn ở các mức effort cao, đặc biệt trong các lượt sau của tác vụ agentic. Điều này cải thiện độ tin cậy nhưng cũng tạo ra nhiều output token hơn.

Cách kiểm soát

Sử dụng tham số effort để điều chỉnh mức suy luận
Thiết lập task budgets để giới hạn chi tiêu token
Prompt mô hình để ngắn gọn hơn nếu cần

💡 Lưu ý: Trong kiểm tra nội bộ của Anthropic, tác động ròng là có lợi – tổng lượng token sử dụng trên tất cả mức effort cải thiện trong đánh giá coding nội bộ, dù mỗi output đơn lẻ có thể dài hơn.

Kết Luận: Opus 4.7 Có Đáng Nâng Cấp?

Câu trả lời ngắn gọn: Có, đặc biệt nếu bạn đang sử dụng Claude cho lập trình, tác vụ agentic hoặc phân tích chuyên sâu.

Những điểm mạnh thực sự của Opus 4.7 so với 4.6 nằm ở:

Khả năng lập trình vượt trội – không chỉ trên benchmark mà trong thực tế production
Thị giác AI được nâng cấp đáng kể – từ 54.5% lên 98.5% visual acuity
Độ tin cậy trong các tác vụ dài, phức tạp, nhiều bước
Bộ nhớ dài hạn thực sự có ích trong công việc dự án
Giá không thay đổi – nhận được nhiều hơn với cùng chi phí

Điểm cần lưu ý duy nhất: hãy dành thời gian rà soát và điều chỉnh prompt cũ trước khi triển khai, vì Opus 4.7 thực hiện chỉ dẫn chính xác hơn nhiều so với người tiền nhiệm.