Giới thiệu nhóm Xử lý ngôn ngữ tự nhiên tại SDSRV
NLP Cell là một trong những nhóm đầu tiên được thành lập tại SDSRV. Hãy cùng tìm hiểu thêm về những bài toán và sản phẩm đang được nghiên cứu và phát triển tại NLP Cell nhé!
Giới thiệu
Xử lý ngôn ngữ tự nhiên (NLP) là một lĩnh vực con liên ngành của Trí tuệ nhân tạo (AI) và Ngôn ngữ học (Linguistics). NLP liên quan đến việc phân tích và hiểu ngôn ngữ tự nhiên được con người nói và viết. Trong máy tính, ngôn ngữ tự nhiên được biểu diễn theo nhiều dạng như tài liệu, bài đăng, hoặc các tệp âm thanh. NLP Cell là một trong những nhóm đầu tiên được thành lập tại SDSRV vào tháng 5 năm 2019. Mục tiêu của nhóm là cung cấp các giải pháp dựa trên AI cho doanh nghiệp thông qua các công nghệ hiện đại nhất trong NLP và ứng dụng các nghiên cứu khoa học vào thực tế để tạo ra giá trị cho doanh nghiệp. Các sản phẩm của nhóm bao gồm Nền tảng hỏi đáp (Question-answering platform), Công cụ Tìm kiếm Thông minh (Intelligent Search Engine), Trợ lý Ảo (Virtual Assistant), Dịch máy (Machine Translator) và nhiều dự án khác.
Lĩnh vực nghiên cứu
Nhóm NLP hiện đang nghiên cứu nhiều bài toán khác nhau như: hiểu ngôn ngữ tự nhiên (NLU), sinh ngôn ngữ tự nhiên (NLG), truy xuất văn bản (text retrieval), hỏi đáp (question answering), dịch máy (machine translation), nhận diện thực thể (named entity recognition) và đồ thị tri thức (knowledge graph). Kết quả được tích hợp dưới dạng các mô-đun trong phần mềm của Samsung hoặc được xây dựng như một nền tảng độc lập. Nhóm đã tối ưu hóa quy trình để đạt được hiệu năng tính toán nhanh hơn, mang lại trải nghiệm mượt mà hơn cho người dùng cuối.
Sản phẩm
– Trợ lý ảo Brity: trợ lý ảo có khả năng hiểu ý định và các thực thể trong câu nói của khách hàng và thực hiện luồng kịch bản do quản trị viên thiết kế để hỗ trợ khách hàng 24/7 qua các kênh nhắn tin.
– Công cụ tìm kiếm tài liệu trong doanh nghiệp: là một nền tảng lưu trữ tài liệu và tìm kiếm tài liệu liên quan theo yêu cầu. Tương tự như khi truy vấn trên công cụ tìm kiếm trên Internet, người dùng có thể tìm kiếm dưới dạng các câu hỏi hoặc các từ khóa ngắn. Đặc biệt các câu trả lời có thể đưa ra dưới dạng câu/ con số/ từ khóa có liên quan thay vì trả về toàn bộ tài liệu.
– Hệ thống dịch máy: phá vỡ rào cản ngôn ngữ và tạo điều kiện hợp tác giữa các nhóm đa quốc gia, giảm bớt nỗ lực biên dịch và phiên dịch của con người.
Thành tựu
Nhóm của chúng tôi đã chuyển giao thành công các dự án NLP cho các doanh nghiệp khác nhau:
– Trợ lý ảo hỗ trợ đào tạo nhân viên mới và hỗ trợ dịch vụ IT cho một số ngân hàng tại Việt Nam và Samsung Electronics Việt Nam
– Công cụ Tìm kiếm Thông minh cho Trung tâm Chăm sóc Khách hàng của một công ty viễn thông lớn tại Việt Nam
– Hệ thống hỏi đáp tự động giảm đáng kể thời gian và công sức trong việc xây dựng một chatbot tương tác thông tin. Một trong những mô-đun quan trọng là mô hình trích xuất câu trả lời. Mô hình này có điểm F1 lớn hơn 4% so với mô hình Đọc hiểu tiếng Việt tốt nhất tại thời điểm năm 2022.
<English version> Introduction to Natural Language Processing Cel
About
Natural Language Processing (NLP) is an interdisciplinary subfield of Artificial Intelligence (AI) and Linguistics that involves analyzing and understanding the natural language spoken and written by humans. In computers, natural languages are in the format of documents, posts, and various textual data formats or audio files. The NLP team is one of the initial teams since the SDSRV establishment in May 2019. It aims to deliver AI-powered solutions to businesses through state-of-the-art NLP techniques and bring academic work to actual application to generate values for corporates. Its products include a question-answering platform, Intelligent Search Engine, Virtual Assistant, and Machine Translator among other concept projects.
Research Areas
The NLP team conducts R&D on various text-related problems including but not limited to natural language understanding (NLU), natural language generation (NLG), text retrieval, question answering, machine translation, named entity recognition, and knowledge graph. The results are usually integrated as a module in other Samsung software or built as a standalone platform. The team optimized the pipeline to achieve higher throughput, bringing smoother experiences to end-users.
Products
– Brity Virtual Assistant: understanding customers’ intent and entities in customers’ utterances and executing workflow designed by admin to support customers 24/7 via multiple social messaging channels.
– Enterprise Search solution: a platform to store documents and search for relevant documents on demand. Similar to an Internet search engine, the queries can be naturally written questions or short keywords. The answers can be refined at the subparagraph level, meaning a relevant sentence/value/keyword is highlighted instead of returning the whole document.
– Neural Machine Translation system: break the language barrier and facilitate collaboration between multinational teams, alleviating the human efforts of translating and interpreting.
Accomplishments
Our team has successfully delivered NLP projects to various businesses:
– Virtual Assistant that supports training new onboarding employees and IT service management to some banks in Vietnam and Samsung Electronics Vietnam.
– Intelligent Search Engine for Customer Care Center of a big telecom company in Vietnam
– Question Answering System reduces a substantial amount of time and effort in building an informational interactive chatbot. One of the key modules is an answer extraction model that surpassed 4% of the F1 score in comparison with SOTA in Vietnamese Machine Reading Comprehension