Bài toán trích rút thông tin từ giấy tờ tùy thân

by SDSRV · Published Tháng 12 2, 2022 · Updated Tháng 6 21, 2023

Hiện nay, với sự phát triển mạnh mẽ của Trí tuệ nhân tạo (Aritificial Intelligence – AI), nhiều nghiên cứu đã chứng minh các mô hình học sâu có thể được hiệu năng rất tốt trong việc Phát hiện và Nhận dạng kí tự quang học (Optical Character Recognition – OCR). Điều này tạo tiền đề cho một bài toán phức tạp hơn là Trích rút thông tin từ văn bản (Key Information Extraction – KIE).

Tuy nhiên, ngoài việc nhận dạng chính xác kí tự trong văn bản, bài toán trích rút thông tin vẫn còn những thử thách lớn vì một văn bản không những cấu thành từ ngữ nghĩa của câu chữ, mà còn từ các thực thể phức hợp khác như bố cục, hình ảnh, bảng biểu. Vì thế, các mô hình trích rút thông tin hiện đại thường kết hợp các kĩ thuật từ cả hai lĩnh vực mũi nhọn của AI là Xử lí ngôn ngữ tự nhiên và Thị giác máy tính để có thể tăng cường hiệu năng cho các mô hình học sâu.

Bài viết này giới thiệu tổng quan về bài toán trích rút thông tin từ văn bản cũng như phương pháp trích rút thông tin từ giấy tờ tùy thân sử dụng mô hình LayoutLM [1]

1. Giới thiệu bài toán

Trích rút thông tin từ văn bản là một chủ đề đã được quan tâm và nghiên cứu trong suốt nhiều năm. Gần đây, bài toán này ngày càng thu hút sự chú ý vì sự phát triển của các mô hình học sâu hiện đại đạt được hiệu năng vượt trội so với các phương pháp truyền thống.

Mục đích của bài toán Trích rút thông tin từ văn bản là để thu được những trường thông tin cần thiết được định nghĩa sẵn từ ảnh chụp hoặc scan, sau đó lưu vào hệ thống dữ liệu có cấu trúc nhằm phục vụ cho các mục tác vụ phân tích hoặc lưu trữ. Vì thực tế có rất nhiều loại văn bản khác nhau với đa dạng bố cục và nội dung, do đó rất nhiều phương pháp đã được nghiên cứu và đề xuất để có thể đáp ứng được các nhu cầu khác nhau. Để có thể trích xuất các thông tin cần thiết trong một văn bản đòi hỏi mô hình học sâu cần phải hiểu được một cách tổng quát cả về nội dung của văn bản, lẫn các đặc trưng về hình ảnh như bố cục, vị trí đoạn văn.

Ngoài các yêu cầu khắt khe để đảm bảo thông tin trích rút là chính xác như trên, tốc độ xử lí cũng là một yếu tố cực kì quan trọng cần phải cân nhắc khi xây dựng hệ thống trích rút thông tin. Thông thường, một văn bản hành chính có rất nhiều nội dung và có bố cục phức tạp, do đó đòi hỏi hệ thống phải được đảm bảo về mặt hiệu năng để tăng cường trải nghiệm của khách hàng.

Tại Samsung SDS, hệ thống Trích rút thông tin từ văn bản được tối ưu với lượng lớn dữ liệu gồm các định dạng văn bản khác nhau, cho phép người dùng nhanh chóng trích xuất thông tin từ hơn 30 loại văn bản như các loại giấy tờ tùy thân (Căn cước công dân, chứng minh nhân dân, giấy phép lái xe, hộ chiếu), các loại văn bản hành chính, các loại hóa đơn…

2. Ứng dụng trong các lĩnh vực

Bài toán Trích rút thông tin từ văn bản cho phép số hóa tài liệu, đọc hiểu văn bản tự động ứng dụng vào các lĩnh vực như tài chính – ngân hàng, bảo hiểm, dịch vụ y tế, kế toán.

2.1. Ứng dụng trong ngành tài chính – ngân hàng và bảo hiểm

Khi có khách hàng mở mới tài khoản hay đăng kí các dịch vụ mới, một trong những tác vụ gần như lặp lại là cần phải xác thực thông tin từ giấy tờ tùy thân của khách hàng nhằm để so khớp, chứng thực. Các tác vụ này nếu xử lí bằng sức người không chỉ gây ra lãng phí về nguồn lực mà đôi khi còn không đảm bảo được về độ chính xác, an toàn và bảo mật. Nghiêm trọng hơn, các hành vi cấu kết với giao dịch viên để gian lận các hợp đồng trong ngành bảo hiểm không phải là chưa từng có tiền lệ. Việc ứng dụng AI để tự động hóa quy trình xác thực thông tin là cần thiết và hiệu quả.

2.2. Ứng dụng trong lĩnh vực y tế

Trong lĩnh vực y tế, ứng dụng AI trích rút thông tin có thể số hóa và lưu trữ các đơn thuốc, tiền sử bệnh giúp bác sĩ có cái nhìn tổng quát hơn về tình trạng sức khỏe của bệnh nhân và nâng cao hiệu quả của chẩn đoán. Ngoài ra, bằng cách phân tích mối tương quan giữa các tài liệu y học và hồ sơ bệnh nhân qua thông tin trích rút từ lượng lớn tài liệu, bác sĩ có thể xác định các liệu pháp điều trị thích hợp dễ dàng hơn.

2.3. Ứng dụng trong lĩnh vực kế toán

Trong lĩnh vực kế toán, việc trích xuất thông tin tự động từ các hóa đơn và đơn đặt hàng, tự động phân tích một số lượng lớn tài liệu không có cấu trúc giúp tiết kiệm rất nhiều thời gian xử lý thủ công.

3. Phương pháp tiếp cận

Bài toán trích rút thông tin ngày càng thu hút rất nhiều sự quan tâm từ những tổ chức nghiên cứu hàng đầu trên thế giới, chính vì thế rất nhiều hướng tiếp cận đã được đề xuất. Một cách tổng quát, các hướng tiếp cận có thể chia thành ba nhóm theo mô hình học sâu được sử dụng là Mạng thần kinh tích chập (Convolutional Neural Networks – CNN), Mạng thần kinh đồ thị (Graph Neural Networks – GNN), và Mạng thần kinh Transformer [2].

3.1. Mạng thần kinh tích chập – CNN

Trong những năm gần đây, CNN đã đạt được thành công lớn trong lĩnh vực thị giác máy tính, đặc biệt là mô hình ResNet [3] được huấn luyện trên hai tập dữ liệu lớn là ImageNet và COCO đã mang lại những cải tiến hiệu suất tuyệt vời cho các tác vụ phân loại hình ảnh, phát hiện đối tượng và phân khúc hình ảnh. Schreiber, Sebastian và cộng sự [5] đề xuất sử dụng kiếm trúc của mạng Faster-RCNN [4] để đưa ra các dự báo về vùng có thông tin cần trích xuất trên ảnh, các vùng này có thể kết hợp với mô hình nhận diện văn bản để trích rút thông tin.

Mô hình trích rút thông tin sử dụng Faster-RCNN [5]

3.2. Mạng thần kinh đồ thị – GNN

Hướng tiếp cận sử dụng GNN không chỉ sử dụng nội dung ngữ nghĩa của văn bản, mà còn kết hợp các yếu tố hình ảnh như bố cục, các định dạng sắp chữ cũng như bảng biểu. Mô hình này thường được sử dụng cho các giấy tờ có cấu trúc phức tạp như biên lai, giấy chứng nhận, hồ sơ bảo hiểm.

Liu và cộng sự. (2019a) [6] đề xuất mô hình hóa các tài liệu trực quan phong phú bằng cách sử dụng GNN. Mô hình này xem mỗi khối văn bản sau khi đi qua một hệ thống OCR là một nút trong mạng đồ thị, các nút này liên kết với nhau và được tích chập qua mạng thần kinh sử dụng cơ chế tự chú ý để dự đoán các trường thông tin cần trích rút.

Mô hình trích rút thông tin sử dụng GNN [6]

3.3. Mạng thần kinh Transformer

Như đã đề cập, trong các văn bản có bố cục phức tạp, việc sử dụng kết hợp giữa cả thông in hình ảnh và thông tin ngữ nghĩa có thể giúp tăng cường hiệu năng của mô hình trích rút thông tin. Các mô hình Transformer có thể tận dụng tối đa sức mạnh của cơ chế tự chú ý để có thể kết hợp hiệu quả các thông tin trong văn bản. Trong đó, mô hình LayoutLM đạt được hiệu năng vượt trội nhờ vào việc huấn luyện trên tập dữ liệu văn bản cực lớn và không cần gán nhãn. Chi tiết về mô hình LayoutLM đã được đề cập trong bài viết Phân loại ảnh văn bản – Document image classification.

4. LayoutLM cho bài toán trích rút thông tin từ giấy tờ tùy thân

LayoutLM là mô hình được huấn luyện cho mục đích chung, nghĩa là mô hình này có thể được huấn luyện thêm để sử dụng cho nhiều tác vụ khác nhau và đạt được hiệu năng vượt trội.

Với bài toán trích rút thông tin, ta có thể sử dụng mô hình LayoutLM được huấn luyện cho bài toán phân loại khối văn bản (Token classification). LayoutLM là nhận đầu vào là dữ liệu vị trí của các token và nội dung của các khối văn bản đã được phát hiện và nhận dạng bởi hệ thống OCR. Các thông tin này kết hợp với trường thông tin về thứ tự (positional embedding), sau đó được truyền vào mô hình. Đầu ra của mô hình là các lớp của từng token, chẳng hạn như trường thông tin về số chứng minh nhân dân.

Tuy nhiên, các token sẽ được dự đọán riêng lẻ với nhau, chẳng hạn một trường thôn tin về ngày tháng năm sinh sẽ có ba token tương ứng với ngày tháng năm, do đó cần có một mô-đun hậu xử lí để có thể ghép nối các token đã dự đoán thành một trường thông tin hoàn chỉnh.

4.1. Chuẩn bị dữ liệu

Một trong những mối quan tâm lớn trong việc chuẩn bị dữ liệu cho bài toán là sự cân bằng dữ liệu. Giấy tờ tùy thân là thuộc về loại thông tin cá nhân nhạy cảm, do đó dữ liệu thường hạn chế cả về mặt số lượng và chất lượng. Ngoài ra, một số loại giấy tờ như căn cước công dân có mẫu mả khá đa dạng do được cập nhật qua nhiều năm, do đó việc thu thập đủ các loại giấy tờ để có thể bao phủ hết các trường hợp trong thực tế là cần thiết. Dữ liệu mặt trước và mặt sau của các loại giấy tờ thường bị mất cân bằng nghiêm trọng, điều này có thể gây ảnh hưởng lớn đến hiệu năng của mô hình.

4.2. Tiền xử lí dữ liệu

Thông thuờng, các ứng dụng trích xuất thông tin từ giấy tờ tùy thân nhận ảnh đầu vào là ảnh chụp từ camera điện thoại của người dùng. Các ảnh này được xem như dữ liệu thô và cần phải xử lí để đảm bảo mô hình có thể học được những đặc trưng mong muốn.

Thứ nhất, ảnh chụp có thể không được sắc nét do chuyển động (motion blur), điều kiện ánh sáng , hay khoảng cách từ camera đến giấy tờ tùy thân quá xa. Các ảnh với điều kiện kém có thể gây nên hiện tượng rất phố biến trong học máy là “garbage in garbage out”. Nghĩa là, đầu vào chất lượng kém thì đầu ra cũng sẽ cho chất lượng kém tương ứng.

Thứ hai, giấy tờ trong ảnh có thể bị xoay hoặc bị nghiêng do người dùng chụp với các góc máy khác nhau, việc xoay ảnh quá nhiều có thể làm mô hình khó “đọc” và bị nhầm lẫn giữa các token. Có những kí tự khi xoay đi một góc sẽ trờ thành những kí tự khác như số “1” và số “7”. Chính vì thế, một mô-đun con giúp xoay thẳng ảnh chính diện sẽ giúp mô hình dễ dàng hơn trong cả việc huấn luyện và suy diễn.

Ngoài ra, khi các giấy tờ tùy thân được đặt trên nền có nhiều nhiễu như là các văn bản hành chính chứa nhiều kí tự, mô hình sẽ bị ảnh hưởng bởi các thông tin không cần thiết. Điều này có thể được xử lí bằng một mô-đun giúp phát hiện vùng chỉ chứa giấy tờ tùy thân.

4.3. Huấn luyện mô hình

Có những ưu và nhược điểm riêng khi sử dụng mô hình LayoutLM cho bài toán trích rút thông tin từ giấy tờ tùy thân. Ưu điểm là do đã được tiền huấn luyện trên lượng lớn dữ liệu từ trước, mô hình LayoutLM thường có hiệu năng rất tốt dù chỉ với số ít mẫu huấn luyện. Như đã để cập, giấy tờ tùy thân là loại dữ liệu nhạy cảm và có số mẫu ít, do đó sử dụng LayoutLM là phù hợp với bài toán, Ngoài ra, các thiết lập cơ bản của mô hình LayoutLM cũng phù hợp với loại giấy tờ chứa ít thông tin như giấy tờ tùy thân.

Hạn chế lớn nhất của mô hình LayoutLM là kích thước của mô hình khá lớn do sử dụng kiến trúc nền là Transformer. Trong khi đó, các ứng dụng thực tế thường có yêu cầu khá ngặt nghèo về mặt tốc độ xử lí để đảm bảo trải nghiệm người dùng cũng như tính cạnh tranh của sản phẩm. Điều này đòi hỏi các thuật toán tối ưu hóa mô hình để có thể đảm bảo cả về mặt hiệu năng lẫn tốc độ.

Có một sự đánh đổi giữa chi phí gán nhãn và hiệu năng của mô hình khi huấn luyện mô hình LayoutLM. Với đặc tính là sử dụng cả ba loại dữ liệu là hình ảnh, văn bản và vị trí các token, hiệu năng của mô hình thường bị ảnh hưởng trực tiếp bởi dữ liệu đầu vào cũng chính là dữ liệu đầu ra của một hệ thống OCR hoàn toàn độc lập. Hệ thống OCR trực tiếp ảnh hưởng đến hai trong ba đặc trưng đầu vào của mô hình LayoutLM là đặc trưng văn bản và đặc trưng vị trí. Điều này dẫn đến hai lựa chọn: huấn luyện mô hình trực tiếp trên dữ liệu đầu ra của hệ thống OCR hay huấn luyện trên dữ liệu được gán nhãn bởi con người. Huấn luyện trực tiếp trên dữ liệu đầu ra của hệ thống OCR có thể giúp đảm bảo hiệu năng của mô hình trích rút thông tin đầu-cuối là tốt nhất. Tuy nhiên, khi hệ thống OCR được nâng cấp hoặc có sự thay đổi thì mô hình sẽ cần được gán nhãn và huấn luyện lại từ đầu vì dữ liệu đầu ra của hệ thống OCR lúc này đã khác với những gì mô hình đã học được trước đó. Điều này gây nên lãng phí về mặt chi phí gán nhãn và huấn luyện mô hình. Để xử lí vấn đề này, một hạ tầng gán nhãn tự động và chuyên nghiệp là cần thiết.

4.4. Đánh giá kết quả

Kết quả thực nghiệm được tiến hành trên bộ dữ liệu hình ảnh gồm 445 CCCD/CMND các loại. cả mặt trước và mặt sau. Các trường thông tin cần trích rút được xác định như sau:

Số thẻ
Họ và tên
Ngày, tháng, năm sinh
Giới tính
Quốc tịch
Quê quán
Địa chỉ thường trú
Thời hạn sử dụng
Dân tộc
Tôn giáo
Ngày cấp
Nơi cấp

Kết quả của hệ thống trích rút thông tin được đánh giá trên cả hai loại thang đo là Token Classification Accuracy (TAC) và Normalized Levenshtein Distance (NLD). TAC đại diện cho độ chính xác mô hình mà LayoutLM có thể phân biệt được các trường thông tin, còn NLD không chỉ bị ảnh hưởng bởi hiệu năng của mô hình LayoutLM mà còn phụ thuộc vào hệ thống OCR. Sử dụng cả hai độ đo giúp đảm bảo chất lượng tuyệt đối của đầu ra hệ thống trích rút thông tin.

Như đã đề cập, nhờ vào việc tiền huấn luyện trên lượng lớn dữ liệu, mô hình LayoutLM dễ dàng hội tụ rất nhanh trên bài toán với lượng nhỏ dữ liệu huấn luyện. Dữ liệu được chia thành 145 ảnh để huấn luyện và 300 ảnh để kiểm thử. Tiến hành huấn luyện mô hình trên 30 chu kỳ, ta được kết quả như sau:

TAC: 99.35%	NLD word-level: 0.02	NLD char-level: 0.01

Ta có thể thấy được hiệu năng của mô hình cực kì ấn tượng. TAC = 99.35% nghĩa là với trung bình 154 tokens, mô hình LayoutLM chỉ mắc lỗi phân loại đúng một lần duy nhất . NLD word-level = 0.02 nghĩa là với trung bình 100 từ, hệ thống trích rút thông tin có thể nhận diện chính xác đến 98 từ. Tương tự, NLD char-level = 0.01 đặc trưng cho việc hệ thống cũng thành công nhận diện chính xác 99/100 chữ cái trong những trường thông tin cần trích rút.

Kết quả trích rút thông tin giấy tờ tùy thân sử dụng mô hình LayoutLM

Mặc dù mô hình LayoutLM có hiệu năng cực kì mạnh mẽ trong việc trích rút thông tin, độ chính xác của trường thông tin trích rút được còn phụ thuộc rất lớn vào hệ thống OCR vì mô hình LayoutLM chỉ xác định token nào thuộc trường thông tin nào. Chính vì thế, để có một hệ thống trích rút thông tin hiệu quả, cần kết hợp hiệu năng giữa cả hai hệ thống con là OCR là LayoutLM.

Ngoài ra, mô hình LayoutLM còn có phiên bản được huấn luyện trên bộ dữ liệu văn bản đa ngôn ngữ, trong đó có cả tiếng Việt là LayoutXLM, có kiến trúc dựa trên LayoutLMv2 có rất nhiều cải tiến so với mô hình LayoutLM ban đầu. Vì vậy để đạt được hiệu năng tốt nhất cho các văn bản tiếng Việt, LayoutXLM là một lựa chọn phù hợp.

Tài liệu tham khảo

Xu, Yiheng, et al. “Layoutlm: Pre-training of text and layout for document image understanding.” Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2020.
Han, Kai, et al. “Transformer in transformer.” Advances in Neural Information Processing Systems 34 (2021): 15908-15919.
Targ, Sasha, Diogo Almeida, and Kevin Lyman. “Resnet in resnet: Generalizing residual architectures.” arXiv preprint arXiv:1603.08029 (2016)
Ren, Shaoqing, et al. “Faster r-cnn: Towards real-time object detection with region proposal networks.” Advances in neural information processing systems 28 (2015)
Schreiber, Sebastian, et al. “Deepdesrt: Deep learning for detection and structure recognition of tables in document images.” 2017 14th IAPR international conference on document analysis and recognition (ICDAR). Vol. 1. IEEE, 2017.
Liu, Xiaojing, et al. “Graph convolution for multimodal information extraction from visually rich documents.” arXiv preprint arXiv:1903.11279 (2019).

Tags: CNN Faster-RCNN GNN KIE LayoutLM OCR Transformer

Bài toán trích rút thông tin từ giấy tờ tùy thân

1. Giới thiệu bài toán

2. Ứng dụng trong các lĩnh vực

3. Phương pháp tiếp cận

4. LayoutLM cho bài toán trích rút thông tin từ giấy tờ tùy thân

Tài liệu tham khảo

You may also like...

Danh mục bài viết

Bài viết mới

Danh mục

Bài viết được yêu thích

Bài toán trích rút thông tin từ giấy tờ tùy thân

1. Giới thiệu bài toán

2. Ứng dụng trong các lĩnh vực

3. Phương pháp tiếp cận

4. LayoutLM cho bài toán trích rút thông tin từ giấy tờ tùy thân

Tài liệu tham khảo

You may also like...

The research paper of Samsung SDS R&D Center in Vietnam was accepted at IEEE BigData Conference 2023

Brightics Deep Learning – Gợi ý mô hình tối ưu và gán nhãn ảnh tự động

Introduction on AI-based Vision Inspection Solution

Danh mục bài viết

Bài viết mới

Danh mục

Bài viết được yêu thích