Khám phá tiềm năng xây dựng AI Agent trong kỷ nguyên LLM

Giới thiệu

Trong bối cảnh công nghệ ngày càng phát triển, khái niệm “Agentic AI” (hay còn gọi là hệ thống các tác nhân trí tuệ nhân tạo hoặc tác nhân AI) đã thu hút sự chú ý mạnh mẽ từ nhiều lĩnh vực khác nhau. Agentic AI là một hình thức tự động hóa khác biệt trong hệ sinh thái AI, cho phép thực hiện các hành vi tự chủ mà không bị hạn chế bởi các nhiệm vụ cụ thể hoặc thuật toán chuyên biệt. Ví dụ điển hình là trợ lý ảo Alexa Amazon hay Google Assistant – cho phép người dùng điều khiển thiết bị trong nhà và đặt lịch trình, hay gần đây hơn có Perplexity AI – tự động tìm kiếm và tổng hợp thông tin cho người dùng. 

Các sự kiện công nghệ lớn từ cuối năm 2024 và quý 1 2025 đều nhấn mạnh vào khả năng vượt trội của Agentic AI trong các ứng dụng phức tạp chưa từng được thử nghiệm trước đây. Theo báo cáo về AI của KPMG năm 2024,  hơn 50% các doanh nghiệp đang nghiên cứu để ứng dụng tác nhân AI vào hoạt động vận hành của họ và có tới 37% các doanh nghiệp đã đưa tác nhân AI vào thử nghiệm. Đây là một bước chuyển đầu tư đáng kinh ngạc, khi từ “agent” thậm chí không hề xuất hiện trong các báo cáo về AI tạo sinh của KPMG năm 2023. Tại hội nghị công nghệ Enterprise Connect mới diễn ra tháng 3, những cải tiến ứng dụng Agentic AI cũng là tâm điểm và mục tiêu trình bày chính của những tập đoàn công nghệ đầu ngành như AWS, Microsoft, Zoom, Cisco, etc.

Hình 1: Cách một hệ thống Agentic AI hoạt động khi nhận được yêu cầu của người dùng, hệ thống có thể gọi tới các API hoặc thư viện có sẵn, thậm chí thực hiện tìm kiếm bằng trình duyệt web như con người để giải quyết yêu cầu người dùng. (C. Greyling’s Medium Blog, 2024)

Khác với AI truyền thống, vốn phụ thuộc vào hướng dẫn cấu trúc và sự giám sát chặt chẽ, agentic AI là một hệ thống độc lập được thiết kế để thực hiện các mục tiêu phức tạp với sự can thiệp tối thiểu từ con người. Những ứng dụng thực tế đã thể hiện khả năng thích ứng, khả năng ra quyết định tiên tiến và độc lập, cho phép hệ thống hoạt động linh hoạt và tự thích nghi trong các môi trường thay đổi liên tục. Chỉ trong 1 năm qua, các hệ thống Agentic AI đã liên tục được giới thiệu để ứng dụng trong nhiều lĩnh vực khác nhau, bao gồm chăm sóc sức khỏe, tài chính, và các hệ thống phần mềm , các nhà phát triển cũng nhấn mạnh những lợi ích khi triển khai các hệ thống tác nhân trong thực tế. Bài viết này sẽ trình bày các nội dung dưới đây:

  • Khái niệm cơ bản và khảo sát phương pháp cốt lõi của agentic AI
  • Khảo sát và đánh giá các kiểu kiến trúc 
  • Các framework mã nguồn mở sử dụng khi phát triển hệ thống
  • Ứng dụng hiện tại và tiềm năng cũng như dự báo về agentic AI

Về Agentic AI

Vai trò của LLM trong phát  triển hệ thống Agentic AI

Sự phát triển của Mô Hình Ngôn Ngữ Lớn (LLM – Large Language Models) đã mở ra một kỷ nguyên mới cho các hệ thốngagentic AI, giúp các tác nhân trở nên thông minh, linh hoạt và có khả năng tự hành động hiệu quả hơn. LLM đóng vai trò trung tâm trong hệ thống, giúp các tác nhân AI có khả năng hiểu ngữ cảnh, lập kế hoạch và ra quyết định một cách linh hoạt hơn. Nhờ vào khả năng xử lý ngôn ngữ tự nhiên vượt trội, LLM cho phép tác nhân AI diễn giải yêu cầu của người dùng, trích xuất thông tin quan trọng và phản hồi một cách chính xác. Bên cạnh đó, LLM còn giúp tác nhân AI thích nghi với môi trường, học từ dữ liệu theo thời gian thực mà không cần huấn luyện lại. Thông qua các kỹ thuật như retrieval-augmented generation (RAG) hay few-shot learning, AI có thể mở rộng kiến thức và cải thiện hiệu suất theo ngữ cảnh cụ thể.

Quy trình hoạt động

Agentic AI nổi bật nhờ mục tiêu đa dạng, tính linh hoạt và hành vi, cho phép nó hoạt động gần như độc lập. Khác với các ứng dụng AI truyền thống tuân theo các hướng dẫn nghiêm ngặt, Agentic AI có khả năng lý luận và thích ứng để đạt được mục tiêu trong các tình huống khác nhau. Quy trình thực hiện một yêu cầu của hệ thống Agentic AI có thể khái quát gồm 3 bước: cảm nhận (perception), lý luận (reasoning) và hành động (action).

  • Cảm Nhận: Các hệ thống cảm biến tiên tiến và công nghệ máy học được sử dụng để thu thập hiểu biết về môi trường xung quanh. Điều này cho phép Agentic AI xử lý thông tin từ nhiều nguồn khác nhau một cách linh hoạt và chính xác, ví dụ như Cảm biến vật lý (camera, microphone, radar, LIDAR, v.v.), API hoặc dữ liệu số (tin nhắn, văn bản, dữ liệu web, cơ sở dữ liệu, v.v.).
  • Lý Luận: Với khả năng lý luận dựa trên các quy tắc, Agentic AI có thể đưa ra quyết định thông minh trong các tình huống khác nhau. Hệ thống này áp dụng logic, suy diễn xác suất, tận dụng công nghệ học máy tiên tiến, kỹ thuật NLP hoặc LLM vào hệ thống để mở rộng kiến thức và phản ứng hiệu quả với những thay đổi trong môi trường.
  • Hành Động: Agentic AI có khả năng thực hiện các nhiệm vụ thông qua các hành vi đã được xác định trước, có thể là trên giao diện ứng dụng, tích hợp API với công cụ ngoài hay  là các điều khiển vật lý. Các tác nhân này không chỉ thực hiện những hành động đơn giản mà còn có thể tự điều chỉnh và cập nhật khi có sự biến đổi trong môi trường.

Hệ thống Agentic AI sẽ cần được xem xét điều chỉnh để từng khía cạnh để tạo một  sản phẩm phù hợp. Ví dụ một agent với khả năng lý luận và cảm nhận tốt sẽ phù hợp làm một trợ lý lên lịch cho các chuyến du lịch, hay một agent tập trung vào cảm nhận và hành động sẽ cần thiết để phát triển một trợ lý đầu tư tài chính.

Những kỹ thuật cốt lõi trong hệ thống Agentic AI

Sự phát triển của các hệ thống Agentic AI dựa trên nền tảng kỹ thuật vững chắc, bao gồm các thuật toán và công nghệ cho phép tác nhân đạt được hành vi hướng đến mục tiêu, thích ứng theo ngữ cảnh, và ra quyết định tự trị. Những yếu tố này tích hợp các tiến bộ trong học tăng cường (Reinforcement Learning – RL), kiến trúc hướng mục tiêu (Goal-Oriented Architecture) và cơ chế điều khiển thích ứng (Adaptive Control Mechanism) để tạo ra các hệ thống có khả năng tự động học hỏi và điều chỉnh theo môi trường. Hình 1 minh họa cách ba thành phần cốt lõi này tương tác để giúp AI không chỉ phản ứng với môi trường mà còn tích cực ra quyết định, lập kế hoạch chiến lược, và thích ứng trong môi trường phức tạp. 

Hình 2: Cơ cở kỹ thuật của một hệ thống Agentic AI với 3 thành phần chính: Học tăng cường, Kiến trúc hướng mục tiêu và Cơ chế điều khiển có tính thích ứng. (Deepak Bhaskar Acharya, 2025)

Kiến Trúc Hướng Mục Tiêu cung cấp một kế hoạch (planning) cho việc quản lý các mục tiêu phức tạp trong các hệ thống Agentic AI. Khác với các kiến trúc truyền thống, thường chỉ tập trung vào các nhiệm vụ đơn lẻ, kiến trúc hướng mục tiêu cho phép các tác nhân ưu tiên và theo đuổi nhiều mục tiêu đồng thời. Những kiến trúc này hỗ trợ một cấu trúc mô-đun, nơi các mục tiêu lớn hơn được chia thành các mục tiêu phụ có thể quản lý. Trong ngữ cảnh của Hình 2, các kiến trúc hướng mục tiêu tạo điều kiện cho việc quản lý các mục tiêu phức tạp, cho phép các tác nhân tiếp cận các nhiệm vụ theo từng bước có cấu trúc.

Học Tăng Cường là một phần trung tâm trong nhiều hệ thống agentic, vì nó trang bị cho các mô hình AI khả năng học thông qua phương pháp thử và sai. Trong RL, các tác nhân được huấn luyện để tối đa hóa phần thưởng tích lũy bằng cách tương tác với môi trường, điều chỉnh hành động của mình để đạt được các mục tiêu cụ thể theo thời gian. Mô hình học này đặc biệt hữu ích cho Agentic AI vì nó cho phép các hệ thống liên tục tinh chỉnh chiến lược của mình dựa trên phản hồi. Như được minh họa trong Hình 2, học tăng cường hỗ trợ “Học thông qua tương tác” và liên quan đến một phương pháp thử và sai để tối ưu hóa quyết định theo thời gian.

Cơ Chế Điều Khiển Thích Ứng đảm bảo rằng các hệ thống Agentic AI có thể điều chỉnh theo những thay đổi của môi trường. Bằng cách tích hợp điều khiển thích ứng, các tác nhân hiệu chỉnh các tham số của mình để phản ứng với các biến đổi bên ngoài, chẳng hạn như sự thay đổi dữ liệu hoặc các gián đoạn không mong đợi. Các kỹ thuật như meta-learning, nơi các tác nhân học cách thích ứng dựa trên trải nghiệm trước đó, cho phép tăng cường khả năng phục hồi và linh hoạt. Như được thể hiện trong sơ đồ, các cơ chế điều khiển thích ứng cung cấp “Thích ứng với môi trường,” cho phép các tác nhân duy trì hiệu suất tối ưu ngay cả trong điều kiện thay đổi.

Bằng cách kết hợp những khung các hệ thống tác nhân AI đạt được một mức độ tự động và khả năng tự chỉnh sửa cho phép chúng hoạt động hiệu quả trong các môi trường đa dạng. Đây là nền tảng quan trọng để phát triển các tác nhân AI có mức độ tự chủ cao, mở ra nhiều ứng dụng mới trong tự động hóa, trợ lý số và quản lý hệ thống thông minh.

Kiến trúc xây dựng Agentic AI

Kiến trúc cơ bản

Một tác nhân AI sẽ luôn gồm các module cơ bản gồm:

  • Persona (LLM): Là trung tâm tư duy và nhân cách của Agent, thường được xây dựng trên các mô hình ngôn ngữ lớn (LLM). Module này giúp Agent hiểu ngữ cảnh, suy luận, và phản hồi theo phong cách hoặc vai trò định sẵn.
  • Memory: Cho phép Agent ghi nhớ các tương tác trước đó. Bao gồm bộ nhớ ngắn hạn để duy trì mạch hội thoại và bộ nhớ dài hạn để lưu trữ tri thức, sự kiện, hoặc hành vi người dùng.
  • Tools: Là các công cụ bên ngoài mà Agent có thể gọi để thực hiện hành động như tra cứu thông tin, chạy mã, truy cập API, hoặc tương tác với phần mềm doanh nghiệp.
  • Planning / Orchestration: Là bộ điều phối giúp Agent lập kế hoạch, chia nhiệm vụ thành các bước, quyết định khi nào dùng công cụ nào và theo dõi tiến độ thực hiện cho đến khi hoàn thành mục tiêu.

Tùy từng kiến trúc mà các module này có thể được tối ưu khác nhau. 

Hệ thống Agentic AI có thể được xây dựng theo hai kiến trúc chính là Hệ thống đơn tác nhân (Single-Agent Architectures): Một AI duy nhất đảm nhận toàn bộ nhiệm vụ từ suy luận đến hành động và Hệ thống đa tác nhân (Multi-Agent Architectures): Mở rộng của hệ thống single-agent bằng cách tạo nhiều tác nhân AI hoạt động phối hợp, chia nhỏ nhiệm vụ để tối ưu hiệu suất. Đối với hệ thống multi-agent, có 2 kiểu thiết kế là sử dụng kiến trúc mở rộng chiều ngang bằng cách tạo các agent giao tiếp ngang hàng và bổ sung thông tin cho nhau, mỗi agent sẽ chịu trách nhiệm thực hiện công việc riêng biệt; cách thiết kế còn lại là mở rộng chiều dọc, tạo ra những agent quản lý và điều phối, tổng hợp thông tin từ những agent bên dưới để ra quyết định.

Hình 3: Kiến trúc đơn tác nhân và kiến trúc đa tác nhân. (Neudesic)

Kiến Trúc Đơn Tác Nhân (Single-Agent Architectures)

Các hệ thống đơn tác nhân được thiết kế để một AI duy nhất có thể lập kế hoạch, thực hiện nhiệm vụ và tự điều chỉnh mà không cần tương tác với các tác nhân khác. Những hệ thống này phù hợp với các tác vụ có danh sách công cụ cố định và quy trình rõ ràng​. Việc tối ưu thường sẽ được thực hiện bằng cách thiết kế prompt phù hợp, bao gồm cả hướng dẫn hệ thống (nhân cách chung, cần tư duy ra sao,…) và hướng dẫn từ người dùng (dữ liệu liên quan, tham khảo, hàm cần gọi).

Một trong những phương pháp kết hợp memory – planning vào LLM được giới thiệu đầu tiên là ReAct (Reasoning and Acting), kiến trúc dựa trên ReAct sẽ được xây dựng để tác nhân sử dụng một vòng lặpsuy nghĩ → hành động → quan sát, trong đó mỗi quyết định được đưa ra dựa trên thông tin thu thập được từ bước trước đó. Phương pháp này giúp giảm thiểu lỗi bằng cách giám sát và điều chỉnh hành vi theo thời gian thực, đồng thời cũng cải thiện được khả năng giải quyết vấn đề so với phương pháp zero-shot prompting. Nhóm tác giả đã xây dựng luồng chương trình để hệ thống liên tục gọi tới mô hình LLM với yêu cầu: Suy nghĩ và thực hiện công việc cần thiết cho bước tiếp theo, sau mỗi lần thực hiện, chương trình sẽ sử dụng kết quả tìm được để tiếp tục suy luận cho tới khi trả lời được câu hỏi. Khi được đưa vào thử nghiệm trên bộ dữ liệu benchmark HotpotQA (Bộ dữ liệu ra mắt năm 2017, gồm các câu hỏi phức tạp, cần lấy nội dung tham khảo từ nhiều tài liệu khác nhau để trả lời. Quá trình tìm kiếm có thể đồng thời  hoặc tuần tự.), ReAct đã liên tục suy nghĩ và tra cứu tìm thông tin cần thiết bằng cách tận dụng kỹ thuật RAG.

Hình 4: Kết quả chính xác (exact match) của phương pháp ReAct khi so sánh với các phương pháp prompting truyền thống trên bộ benchmark HotpotQA. (S. Yao, 2023)

Kết quả thực nghiệm cho thấy ReAct hoạt động tốt khi áp dụng trên các mô hình LLM đã được fine-tune cho việc suy luận, còn phương pháp prompting trên mô hình tổng quát không đem lại kết quả khả quan. Tuy nhiên, vẫn cần lưu ý rằng ReAct có thể mắc kẹt trong vòng lặp suy nghĩ, tạo ra các hành động lặp đi lặp lại mà không đạt được mục tiêu và hiệu suất có thể kém nếu không có cơ chế tự đánh giá đủ mạnh, đồng thời tốc độ là một điều đáng lưu tâm khi ứng dụng phương pháp này, do quá trình suy luận – hành động sẽ trở thành gánh nặng về hiệu suất nếu không được quản lý phù hợp. RAISE (Reasoning and Acting through Scratchpad and Examples) được nâng cấp từ ReAct bằng cách tích hợp bộ nhớ làm việc gồm: bộ nhớ ngắn hạn (scratchpad) và bộ nhớ dài hạn của nội dung hội thoại trước đó( ví dụ, nội dung và prompt). Điều này giúp chương trình giảm thiểu được thời gian tìm kiếm, đồng thời giới hạn được vùng truy vấn tài liệu, nhờ đó giảm rủi ro xảy ra hallucination. Kết quả của RAISE cho thấy cải thiện tương đối so với ReAct, tuy nhiên vẫn có những nhược điểm giống với ReAct như hiệu suất thấp trên mô hình tổng quát, khối lượng tính toán của RAISE cũng bị tăng đáng kể do phải lưu trữ và đánh giá dữ liệu trong bộ nhớ ngắn và dài hạn.

Ngoài ra còn có Reflexion đã kết hợp thêm agent tự đánh giá vào cùng với ReAct, phương pháp này đưa yêu cầu người dùng vào 1 vòng lặp Thực thi – Đánh giá – Tự nhận xét cho tới khi chương trình đánh giá kết quả nhận được là chính xác. Tuy nhiên Reflexion lại gặp phải vấn đề về việc điều hướng cho giải pháp tiếp theo. Để cải thiện, LATS ( Language Agent Tree Search) được thiết kế để lựa chọn các phương pháp tiềm năng và thực hiện chúng, sau đó các phương pháp sẽ được đi qua 1 module thưởng, đánh trọng số và tiếp tục đưa vào và cập nhật cây tìm kiếm Monte Carlo. Độ phức tạp của LATS tương đối lớn với k phương pháp là O(kn), n là số nhánh con để chọn trong cây MC, trong khi đó ReAct chỉ có độ phức tạp O(k), nhưng đổi lại độ chính xác LATS đã tăng gấp đôi (Bảng 1), việc đánh đổi hiệu năng với độ chính xác này sẽ là điều cần lưu ý khi ứng dụng LATS vào các sản phẩm doanh nghiệp. 

Hình 5: Kiến trúc của LATS, xử lý môi trường bên ngoài và tận dụng cây tìm kiến Monte Carlo để tối ưu quá trình lý luận và đưa ra quyết định. ( A. Zhou, 2023)
Bảng 1: So sánh kết quả kết hợp của các phương pháp prompting trên bộ HotpotQA. Dù có độ chính xác cao hơn, xong LATS lại có độ phức tạp cao gấp nhiều lần. ( A. Zhou, 2023)

Chỉ từ năm 2023, nhiều phương pháp mới đã liên tục được phát triển nhằm tối ưu hóa khả năng của một tác nhân AI độc lập. Những kỹ thuật và kiến trúc tiên tiến đã giúp độ chính xác của tác nhân AI tăng đáng kể: từ 16% lên 71% trong nhiệm vụ trả lời câu hỏi, từ 8% lên 44% trong bài toán giải toán, và đạt 38% thành công khi thực hiện giả lập mua hàng trực tuyến. ( A. Zhou, 2023) Tuy nhiên, do tính tuần tự của các hệ thống đơn tác nhân, các phương pháp này thường gặp phải hạn chế về tốc độ xử lý và dễ xảy ra hiện tượng ảo giác. Ngoài ra một lưu ý chung cho các hệ thống đơn tác nhân là bước đánh giá, do bước này sẽ điều hướng toàn bộ quá trình ra quyết định, việc lựa chọn một metric phù hợp là thiết yếu; đối với các lĩnh vực đặc thù nghiệp vụ, có thể sẽ cần xem xét sử dụng những công cụ ngoài để đánh giá. Để khắc phục những vấn đề này, các phương pháp đa tác nhân đã được đề xuất nhằm cải thiện hiệu suất, đồng thời mở rộng khả năng của hệ thống Agentic AI.

Kiến trúc Đa Tác Nhân (Multi-Agent Architectures)

Cách các agent giao tiếp

Việc xây dựng các hệ thống agent đóng vai trò quan trọng trong việc phát triển trí tuệ nhân tạo (AI) hiện đại. Các hệ thống này cho phép AI tự động hóa các nhiệm vụ phức tạp, tương tác linh hoạt với môi trường và con người, đồng thời cải thiện hiệu suất và độ chính xác trong quá trình xử lý thông tin. Bằng cách mô phỏng hành vi con người và khả năng giao tiếp, các agent có thể được thiết kế làm những việc chuyên biệt 1 cách đồng thời và gửi kết quả cho nhau, giúp tối ưu hiệu suất, nhược điểm lớn nhất của hệ thống single-agent. X. Gui và cộng sự đã thực hiện một thử nghiệm khá thú vị khi đặt các agent vào những nhóm mô phỏng, mỗi agent sẽ có vai trò riêng và hợp tác lẫn nhau như cách con người thực hiện khi làm việc nhóm. (X. Gui, 2024) Thử nghiệm đã chứng minh được khả năng mạnh mẽ của LLM trong việc mô phỏng hành vi của con người khi giao tiếp với nhau và khẳng định khả năng xây dựng hệ thống multi-agent. 

Hình 6: Cách các agent giao tiếp với nhau phụ thuộc nhiều vào cách tổ chức cấu trúc của agent.  (X. Gui, 2024)

Kết quả thực nghiệm cho thấy cách tổ chức agent ảnh hưởng lớn tới thời gian hoàn thiện yêu cầu của 1 hệ thống multi-agent. Trên hệ thống 3 agent, một tổ chức với agent quản lý được chọn sẵn xử lý yêu cầu nhanh gấp 5 lần so với 1 tổ chức không có quản lý, và chi phí giao tiếp của hệ thống này cũng nhỏ hơn đáng kể. Tổ chức multi-agent phân sẵn cấp bậc sẽ giúp cải thiện tốc độ, tuy nhiên cách tổ chức này chỉ phù hợp với tác vụ như giải toán hoặc sinh mã nguồn, khi yêu cầu chỉ cần 1 kết quả chính xác duy nhất. Trong khi đó multi-agent ngang hàng sẽ yêu cầu nhận xét và chỉnh sửa lẫn nhau giữa các lần giao tiếp, tuy nhiên chi phí sẽ tăng lên gần gấp đôi, song đây là tổ chức phù hợp với những tác vụ như tư vấn thông tin hay tìm cách sử dụng các công cụ ngoài. Do mỗi tổ chức đều có ưu nhược điểm riêng, việc lựa chọn để thiết kế kiến trúc sẽ còn phụ thuộc vào bài toán, ưu tiên thời gian hay tính đầy đủ thông tin.

Kiến trúc sử dụng multi-agent ngang hàng

Hình 7: Quy trình thực hiện sinh mã nguồn của AgentVerse với nhiều agent (trái) so với 1 agent (phải). Nhóm các agent đã viết được mã nguồn cho một phần mềm tính toán cơ bản theo yêu cầu. (W. Chen, 2023)

Một trong những framework multi-agent đầu tiên là CAMEL (C. Li, 2023),  framework này tiếp cận bằng cách “nhập vai”, tạo ra 2 agent: người hỏi và người thực hiện, sau mỗi bước thì hệ thống sẽ giao lại  yêu cầu mới cho 2 agent này cho tới khi công việc hoàn thành. Phương pháp này thường được sử dụng trong nghiên cứu để phân tích cách mô hình tương tác. AgentVerse (W. Chen, 2023gồm framework chính là thực hiện yêu cầu: gồm 1 vòng lặp chứa 4 giai đoạn: tạo ra các expert agent, giao tiếp và ra quyết định, thực thi công việc, đánh giá kết quả. Trong bước giao tiếp, chương trình lựa chọn giữa multi-agent ngang hàng hoặc phân cấp. Việc lựa chọn được thực hiện bằng cách đánh  giá yêu cầu, ví dụ như khi giả lập một cuộc chơi Minecraft, các agent sẽ giao tiếp ngang hàng với cùng một vai trò và ngược lại khi thực hiện sinh mã nguồn. 

Hình 8: So sánh kiến trúc của các hệ thống single / multi-agent (Z. Liu, 2024)

Tiếp nối AgentVerse, DyLAN (Z. Liu, 2024cũng thực hiện lựa chọn các agent trước khi thực hiện xử lý yêu cầu, tuy nhiên thay vì sinh trực tiếp mô tả cho từng vai trò của agent, framework này sử dụng mạng feed-forward theo thời gian (T-FFN) để liên tục cập nhật tổ chức agent dựa vào mức độ quan trọng của agent với kết quả của tác vụ. Mạng nơ-ron này có node là agent và cạnh là cách giao tiếp giữa các agent, sau mỗi lớp thì mạng sẽ che các node không được chọn và tiếp tục tìm phương thức giao tiếp phù hợp cho tác vụ tiếp theo. DyLAN có thể sinh mã nguồn chính xác hơn AgentVerse, với số lần gọi LLM ít hơn (trung bình 16.8 so với 22.5 lần để hoàn thành tác vụ), nhưng do tính phức tạp của mạng nơ-ron, DyLAN không phù hợp để ứng dụng vào các bài toán tổng quát khi có quá nhiều agent cần lựa chọn.

Kiến trúc sử dụng multi-agent có cấp bậc

Kiến trúc có cấp bậc thường được dùng trong việc sinh mã nguồn. Framework ChatDev( C. Qian, 2023đã tận dụng triệt để kiến trúc này khi xây dựng hệ thống các agent làm việc – quản lý để kiểm tra và nhận xét từng bước trong quá trình viết mã. Trong  thử nghiệm viết chương trình, mã nguồn sinh bởi ChatDev đã đạt tới 88% khả năng thực thi và 80% tính nhất quán.

Để giải quyết mất mát thông tin khi cần mở rộng quy mô các agent cho tác vụ phức tạp, các nhóm nghiên cứu đang hướng tới sử dụng đồ thị có hướng không chu trình (DAG). Nhóm phát triển ChatDev đã giới thiệu MacNet (C. Qian, 2025), một kỹ thuật tổ chức cách giao tiếp của các agent để tổ chức có thể tự lý luận để tìm cách thực hiện yêu cầu. MacNet là một DAG với giới hạn 3 kiểu topology: chuỗi, cây và đồ thị. Mỗi cạnh có hướng sẽ là nhận xét từ agent cấp trên tới agent cấp dưới, nhờ vậy các agent này sẽ tận dụng được thông tin đa chiều hơn. MacNet có thể hỗ trợ tới 1000 agent, khi dùng các mô hình LLM tổng quát, kết quả cho kết quả tương đương với những phương pháp sử dụng mô hình fine-tune trước đó. Đây có thể là một đường tắt để cải thiện hiệu suất cho tác nhân AI mà không cần thực hiện quá trình xây dựng dữ liệu và fine-tune mô hình truyền thống. LangChain cũng đã ra mắt framework LangGraph hỗ trợ xây dựng Agentic AI workflows theo DAG, giúp quản lý dễ dàng hơn. LangGraph cho phép tối ưu việc thực hiện tác vụ theo thứ tự hợp lý, đồng thời hỗ trợ vòng lặp để xử lý các tác vụ phức tạp hơn. Có thể  thấy việc sử dụng multi-agent và DAG có thể sẽ là xu hướng trong triển khai Agentic AI trong tương lai gần.

Hình 9: Cách xây dựng MacNet, với 3 kiểu đồ thị cho phép và giá trị của mỗi cạnh có hướng là nhận xét để thực hiện tác vụ tiếp theo cho agent cấp dưới. (C. Qian, 2025)

Giới thiệu một số framework mã nguồn mở phổ biến 

Ngoài các phương pháp được công bố trong nghiên cứu, những thư viện mã nguồn mở cũng có nhiều đóng góp trong việc phát triển Agentic AI đơn tác nhân. Điển hình là AutoGPT, một nền tảng cho phép người dùng tự triển khai các agent theo yêu cầu riêng mà không cần lập trình nhiều. AutoGPT có sẵn danh sách các tác vụ,  kết nối với Vector DB và cả giao diện cho chương trình. Dù không ứng dụng công nghệ vượt trội, AutoGPT vẫn là một framework dễ sử dụng khi cần tạo 1 agent trong ngày cho các mục đích thử nghiệm cục bộ.

Hình 10: Kiến trúc của AutoGPT, tổng hợp bởi người dùng Zvi (Lesswrong, 2023)
Hình 11: So sánh khả năng của những agent mã nguồn mở trên benchmark autogenbench. Được xét ở các tác vụ khác nhau như tạo / sửa mã nguồn, truy vấn tài liệu, khả năng đảm bảo làm đúng theo yêu cầu và tương tác (AutoGPT Github)

Nếu muốn xây dựng một sản phẩm Agentic AI single-agent, các nhà phát triển có thể tham khảo một số framework mã nguồn mở chuyên biệt khá phổ biến được tác giả tổng hợp trong bảng dưới đây.

Thế giới công nghệ và tầm nhìn với Agentic AI

Thị trường Agentic AI hiện đang phát triển nhanh chóng với tổng giá trị 5.1 tỷ đô năm 2024 và dự kiến đạt 47 tỷ đô năm 2030 (mức tăng hàng năm được dự báo lên đến 44%) (capgemini), mức tăng trưởng khổng lồ này chính là kim chỉ nam tiềm năng cho các doanh nghiệp muốn đầu tư phát triển kỹ thuật. Hiện tại thị trường được thống trị bởi những công ty đầu ngành như Google, AWS, IBM, NVIDIA và Microsoft với tổng thị phần gần 40%.

Trong hội nghị CES 2025, có thể thấy rõ thời gian sắp tới chính là thời điểm để bắt đầu triển khai thực sự Agentic AI, không như năm 2023 – bùng nổ LLM và 2024- các doanh nghiệp mới chỉ tìm cách khai thác LLM. Thông điệp đã được truyền tải rất rõ ràng qua những công nghệ AI được ra mắt khi mà các công ty lớn đều đặt Agentic AI làm nền tảng chiến lược cho những phát triển sắp tới. Điển hình là NVIDIA với phần mềm đạt giải nhất NVIDIA Cosmos, một nền tảng với những mô hình multimodal được huấn luyện sẵn cho các tác vụ tự động hóa như lái xe, di chuyển đồ đạc,… NVIDIA cũng giới thiệu 5 sản phẩm đều xoay quanh tác nhân AI, từ việc ra mắt Blueprints giúp xây dựng tác nhân AI phân tích và hành động trên dữ liệu phức tạp (văn bản, hình ảnh, video), triển khai AI Refinery cùng Accenture để phổ cập tác tử AI trong doanh nghiệp, đến việc phát triển lớp điều phối tác tử, tác tử phân tích video theo thời gian thực, và mô hình ngôn ngữ mở Llama Nemotron. 

Hơn thế, chỉ trong vòng 1 tháng gần đây, đã có rất nhiều sản phẩm và tính năng mới ứng dụng Agentic AI được đưa ra thị trường. Phần lớn các sản phẩm đều sử dụng kiến trúc multi-agent. Dưới đây là một số sản phẩm Agentic AI nổi bật được giới thiệu tại Enterprise Connect 2025:​

  • CXone Mpower Orchestrator: Đây là một hệ thống điều phối mạnh mẽ, cho phép tích hợp và quản lý các tác nhân dịch vụ khách hàng trên một nền tảng duy nhất, tối ưu hóa quy trình làm việc và nâng cao trải nghiệm khách hàng.​
  • RingCentral AI Receptionist (RingCentral AIR): Được triển khai từ tháng 2 với hơn 200 khách hàng, RingCentral AIR có thể đóng vai trò như một lễ tân, đại diện bán hàng hoặc nhân viên dịch vụ khách hàng với chi phí chỉ 30 USD mỗi tháng.​
  • Talkdesk Voice: Giải pháp hội thoại tự nhiên cho phép người dùng tạo ra các trợ lý ảo trả lời câu hỏi của khách hàng và cung cấp thông tin giá trị sau khi phân tích. Điểm đặc biệt của Talkdesk là khả năng thích ứng nhanh chóng với người dùng mà không cần dựa vào các kịch bản cố định.​
  • Zoom AI Companion/ Microsoft Teams Intelligent meeting: Zoom và Microsoft đều đã giới thiệu các tính năng AI mới như quản lý lịch trình, tự động tạo video và hỗ trợ viết tài liệu phức tạp, giúp nâng cao hiệu quả công việc và trải nghiệm người dùng khi tham gia các buổi họp online.

Trong lĩnh vực sản xuất công nghiệp,  Juna là một trong những hệ thống agent tiên tiến nhất hiện nay, chuyên quản lý nhà máy nhằm tối ưu hóa năng suất. Hệ thống này hoạt động bằng cách phối hợp giữa các agent chuyên biệt, mỗi agent đảm nhiệm một vai trò cụ thể như điều phối quy trình sản xuất hay kiểm tra chất lượng sản phẩm.  Bên cạnh sản xuất và kinh doanh, Agentic AI cũng đang dần khẳng định vị thế trong lĩnh vực chăm sóc sức khỏe. Hippocratic AI phát triển các personas chuyên biệt, mỗi persona được thiết kế để xử lý một khía cạnh khác nhau trong quá trình chăm sóc bệnh nhân. Judy là một trợ lý tiền phẫu thuật, cung cấp hướng dẫn và giải đáp các câu hỏi của bệnh nhân trước khi phẫu thuật. Trong khi đó, Sarah đóng vai trò là trợ lý kiểm tra cuộc sống hàng ngày, hỗ trợ người dùng theo dõi sức khỏe và sinh hoạt thường nhật. 

Ngoài ra, các nhà phát triển Trung Quốc cũng vừa cho ra mắtManus AI vào tháng 2, một trợ lý AI thế hệ mới, được phát triển để thu hẹp khoảng cách giữa suy nghĩ và hành động của con người. Theo kết quả trên benchmark GAIA, Manus AI được báo cáo đạt khoảng 86,5%, vượt trội so với h2oGPTe Agent của H2O.ai – một mô hình SOTA với điểm số 65% tại thời điểm Manus ra mắt, và 74.75% tại thời điểm hiện tại (bản cập nhật 20/3 của h2o).​Khác với các chatbot truyền thống chỉ cung cấp phản hồi, Manus AI tự động thực hiện các nhiệm vụ trong nhiều lĩnh vực, biến nó thành một tác nhân AI thực sự tự động và linh hoạt trong ứng dụng hàng ngày. 

Hình 12: Những tính năng tự động của Manus AI, một sản phẩm công nghệ mới được giới thiệu tháng 2 năm nay, đã tạo ra đột phá về tính năng dù không sử dụng công nghệ lõi đột phá. (Tahir’s Medium Blog, 2025)

Sự xuất hiện đồng loạt của các nền tảng, sản phẩm và kiến trúc Agentic AI trong thời gian gần đây cho thấy không còn là “tương lai” mà làhiện thực đang diễn ra từng ngày. Từ công nghệ lõi của NVIDIA, giải pháp doanh nghiệp của Accenture, đến những ứng dụng cụ thể như CXone, RingCentral, hay Hippocratic AI – tất cả đều cho thấy một xu hướng rõ ràng: Agentic AI sẽ là nền móng cho thế hệ sản phẩm AI tiếp theo. Với khả năng tự động hóa thông minh, linh hoạt và mang tính phối hợp cao, Agentic AI không chỉ mở ra cơ hội tối ưu hiệu suất mà còn định hình lại cách doanh nghiệp tương tác với dữ liệu, quy trình và con người trong kỷ nguyên hậu-LLM. Đây chính là thời điểm để các tổ chức bắt đầu thử nghiệm, tích hợp và đầu tư nghiêm túc vào hạ tầng tác nhân AI – trước khi cuộc chơi bước sang một giai đoạn cạnh tranh mới.

Kết luận

Rõ ràng, Agentic AI đang từng bước khẳng định vị thế như một trụ cột công nghệ mới, với khả năng ứng dụng rộng khắp từ dịch vụ khách hàng, sản xuất, bán hàng đến chăm sóc sức khỏe. Không chỉ giúp doanh nghiệp vận hành hiệu quả và linh hoạt hơn, các hệ thống này còn mang lại trải nghiệm cá nhân hóa và thông minh hơn cho người dùng. Trong tương lai gần, sự hoàn thiện của các framework và nền tảng Agentic AI sẽ mở đường cho hàng loạt doanh nghiệp dễ dàng tích hợp tác tử AI vào quy trình vận hành – đẩy nhanh quá trình chuyển đổi số và tối ưu hóa hiệu suất trên diện rộng. Với Việt Nam, việc nhanh chóng tiếp cận, ứng dụng và phát triển công nghệ Agentic AI sẽ là chìa khóa giúp doanh nghiệp trong nước bắt nhịp xu thế toàn cầu, tạo lợi thế cạnh tranh và chủ động thích ứng với những yêu cầu công nghệ ngày càng cao của thị trường thế giới.

Tài liệu tham khảo

https://cobusgreyling.medium.com/whats-your-definition-of-an-ai-agent-edb7d5e1c760

https://langfuse.com/blog/2025-03-19-ai-agent-comparison

https://www.cxtoday.com/conversational-ai/nvidia-at-ces-2025-5-massive-ai-agent-announcements

https://medium.com/@tahirbalarabe2/what-is-manus-ai-the-first-general-ai-agent-unveiled-39a2c5702f91

https://www.forbes.com/sites/libertbarry/2024/12/19/agentic-ai-accelerates-network-effects–corporate-and-customer-value

0 0 đánh giá
Đánh giá bài viết
Theo dõi
Thông báo của
guest
0 Góp ý
Cũ nhất
Mới nhất Được bỏ phiếu nhiều nhất
Phản hồi nội tuyến
Xem tất cả bình luận
0
Rất thích suy nghĩ của bạn, hãy bình luận.x