Bài toán trích rút thông tin từ giấy tờ tùy thân

Hiện nay, với sự phát triển mạnh mẽ của Trí tuệ nhân tạo (Aritificial Intelligence – AI), nhiều nghiên cứu đã chứng minh các mô hình học sâu có thể được hiệu năng rất tốt trong việc Phát hiện và Nhận dạng kí tự quang học (Optical Character Recognition – OCR). Điều này tạo tiền đề cho một bài toán phức tạp hơn là Trích rút thông tin từ văn bản (Key Information Extraction – KIE).  

Tuy nhiên, ngoài việc nhận dạng chính xác kí tự trong văn bản, bài toán trích rút thông tin vẫn còn những thử thách lớn vì một văn bản không những cấu thành từ ngữ nghĩa của câu chữ, mà còn từ các thực thể phức hợp khác như bố cục, hình ảnh, bảng biểu. Vì thế, các mô hình trích rút thông tin hiện đại thường kết hợp các kĩ thuật từ cả hai lĩnh vực mũi nhọn của AI là Xử lí ngôn ngữ tự nhiên và Thị giác máy tính để có thể tăng cường hiệu năng cho các mô hình học sâu. 

Bài viết này giới thiệu tổng quan về bài toán trích rút thông tin từ văn bản cũng như phương pháp trích rút thông tin từ giấy tờ tùy thân sử dụng mô hình LayoutLM [1] 

1. Giới thiệu bài toán 

Trích rút thông tin từ văn bản là một chủ đề đã được quan tâm và nghiên cứu trong suốt nhiều năm. Gần đây, bài toán này ngày càng thu hút sự chú ý vì sự phát triển của các mô hình học sâu hiện đại đạt được hiệu năng vượt trội so với các phương pháp truyền thống.  

Mục đích của bài toán Trích rút thông tin từ văn bản là để thu được những trường thông tin cần thiết được định nghĩa sẵn từ ảnh chụp hoặc scan, sau đó lưu vào hệ thống dữ liệu có cấu trúc nhằm phục vụ cho các mục tác vụ phân tích hoặc lưu trữ. Vì thực tế có rất nhiều loại văn bản khác nhau với đa dạng bố cục và nội dung, do đó rất nhiều phương pháp đã được nghiên cứu và đề xuất để có thể đáp ứng được các nhu cầu khác nhau. Để có thể trích xuất các thông tin cần thiết trong một văn bản đòi hỏi mô hình học sâu cần phải hiểu được một cách tổng quát cả về nội dung của văn bản, lẫn các đặc trưng về hình ảnh như bố cục, vị trí đoạn văn. 

Ngoài các yêu cầu khắt khe để đảm bảo thông tin trích rút là chính xác như trên, tốc độ xử lí  cũng là một yếu tố cực kì quan trọng cần phải cân nhắc khi xây dựng hệ thống trích rút thông tin. Thông thường, một văn bản hành chính có rất nhiều nội dung và có bố cục phức tạp, do đó đòi hỏi hệ thống phải được đảm bảo về mặt hiệu năng để tăng cường trải nghiệm của khách hàng.  

Tại Samsung SDS, hệ thống Trích rút thông tin từ văn bản được tối ưu với lượng lớn dữ liệu gồm các định dạng văn bản khác nhau, cho phép người dùng nhanh chóng trích xuất thông tin từ hơn 30 loại văn bản như các loại giấy tờ tùy thân (Căn cước công dân, chứng minh nhân dân, giấy phép lái xe, hộ chiếu), các loại văn bản hành chính, các loại hóa đơn… 

2. Ứng dụng trong các lĩnh vực 

Bài toán Trích rút thông tin từ văn bản cho phép  số hóa tài liệu, đọc hiểu văn bản tự động ứng dụng vào các lĩnh vực như tài chính – ngân hàng, bảo hiểm, dịch vụ y tế, kế toán. 

2.1. Ứng dụng trong ngành tài chính – ngân hàng và bảo hiểm 

Khi có khách hàng mở mới tài khoản hay đăng kí các dịch vụ mới, một trong những tác vụ gần như lặp lại là cần phải xác thực thông tin từ giấy tờ tùy thân của khách hàng nhằm để so khớp, chứng thực. Các tác vụ này nếu xử lí bằng sức người không chỉ gây ra lãng phí về nguồn lực mà đôi khi còn không đảm bảo được về độ chính xác, an toàn và bảo mật. Nghiêm trọng hơn, các hành vi cấu kết với giao dịch viên để gian lận các hợp đồng trong ngành bảo hiểm không phải là chưa từng có tiền lệ. Việc ứng dụng AI để tự động hóa quy trình xác thực thông tin là cần thiết và hiệu quả. 

2.2. Ứng dụng trong lĩnh vực y tế 

Trong lĩnh vực y tế, ứng dụng AI trích rút thông tin có thể số hóa và lưu trữ các đơn thuốc, tiền sử bệnh giúp bác sĩ có cái nhìn tổng quát hơn về tình trạng sức khỏe của bệnh nhân và nâng cao hiệu quả của chẩn đoán. Ngoài ra, bằng cách phân tích mối tương quan giữa các tài liệu y học và hồ sơ bệnh nhân qua thông tin trích rút từ lượng lớn tài liệu,  bác sĩ có thể xác định các liệu pháp điều trị thích hợp dễ dàng hơn. 

2.3. Ứng dụng trong lĩnh vực kế toán 

Trong lĩnh vực kế toán, việc trích xuất thông tin tự động từ các hóa đơn và đơn đặt hàng, tự động phân tích một số lượng lớn tài liệu không có cấu trúc giúp tiết kiệm rất nhiều thời gian xử lý thủ công.  

3. Phương pháp tiếp cận 

 Bài toán trích rút thông tin ngày càng thu hút rất nhiều sự quan tâm từ những tổ chức nghiên cứu hàng đầu trên thế giới, chính vì thế rất nhiều hướng tiếp cận đã được đề xuất. Một cách tổng quát, các hướng tiếp cận có thể chia thành ba nhóm theo mô hình học sâu được sử dụng là Mạng thần kinh tích chập (Convolutional Neural Networks – CNN), Mạng thần kinh đồ thị (Graph Neural Networks – GNN), và Mạng thần kinh Transformer [2]. 

3.1. Mạng thần kinh tích chập – CNN 

Trong những năm gần đây, CNN đã đạt được thành công lớn trong lĩnh vực thị giác máy tính, đặc biệt là mô hình ResNet [3] được huấn luyện trên hai tập dữ liệu lớn là ImageNet và COCO đã mang lại những cải tiến hiệu suất tuyệt vời cho các tác vụ phân loại hình ảnh, phát hiện đối tượng và phân khúc hình ảnh. Schreiber, Sebastian và cộng sự [5] đề xuất sử dụng kiếm trúc của mạng Faster-RCNN [4] để đưa ra các dự báo về vùng có thông tin cần trích xuất trên ảnh, các vùng này có thể kết hợp với mô hình nhận diện văn bản để trích rút thông tin. 

Mô hình trích rút thông tin sử dụng Faster-RCNN [5] 

3.2. Mạng thần kinh đồ thị – GNN 

Hướng tiếp cận sử dụng GNN  không chỉ sử dụng nội dung ngữ nghĩa của văn bản, mà còn  kết hợp các yếu tố hình ảnh như bố cục, các định dạng sắp chữ cũng như bảng biểu. Mô hình này thường được sử dụng cho các giấy tờ có cấu trúc phức tạp như biên lai, giấy chứng nhận, hồ sơ bảo hiểm. 

Liu và cộng sự. (2019a) [6] đề xuất mô hình hóa các tài liệu trực quan phong phú bằng cách sử dụng GNN. Mô hình này xem mỗi khối văn bản sau khi đi qua một hệ thống OCR là một nút trong mạng đồ thị, các nút này liên kết với nhau và được tích chập qua mạng thần kinh sử dụng cơ chế tự chú ý để dự đoán các trường thông tin cần trích rút. 

Mô hình trích rút thông tin sử dụng GNN [6] 

3.3. Mạng thần kinh Transformer 

Như đã đề cập, trong các văn bản có bố cục phức tạp, việc sử dụng kết hợp giữa cả thông in hình ảnh và thông tin ngữ nghĩa có thể giúp tăng cường hiệu năng của mô hình trích rút thông tin. Các mô hình Transformer có thể tận dụng tối đa sức mạnh của cơ chế tự chú ý để có thể kết hợp hiệu quả các thông tin trong văn bản. Trong đó, mô hình LayoutLM đạt được hiệu năng vượt trội nhờ vào việc huấn luyện trên tập dữ liệu văn bản cực lớn và không cần gán nhãn. Chi tiết về mô hình LayoutLM đã được đề cập trong bài viết Phân loại ảnh văn bản – Document image classification.  

4. LayoutLM cho bài toán trích rút thông tin từ giấy tờ tùy thân

LayoutLM là mô hình được huấn luyện cho mục đích chung, nghĩa là mô hình này có thể được huấn luyện thêm để sử dụng cho nhiều tác vụ khác nhau và đạt được hiệu năng vượt trội.

Với bài toán trích rút thông tin, ta có thể sử dụng mô hình LayoutLM được huấn luyện cho bài toán phân loại khối văn bản (Token classification). LayoutLM là nhận đầu vào là dữ liệu vị trí của các token và nội dung của các khối văn bản đã được phát hiện và nhận dạng bởi hệ thống OCR. Các thông tin này kết hợp với trường thông tin về thứ tự (positional embedding), sau đó được truyền vào mô hình. Đầu ra của mô hình là các lớp của từng token, chẳng hạn như trường thông tin về số chứng minh nhân dân.

Tuy nhiên, các token sẽ được dự đọán riêng lẻ với nhau, chẳng hạn một trường thôn tin về ngày tháng năm sinh sẽ có ba token tương ứng với ngày tháng năm, do đó cần có một mô-đun hậu xử lí để có thể ghép nối các token đã dự đoán thành một trường thông tin hoàn chỉnh.

4.1. Chuẩn bị dữ liệu

Một trong những mối quan tâm lớn trong việc chuẩn bị dữ liệu cho bài toán là sự cân bằng dữ liệu. Giấy tờ tùy thân là thuộc về loại thông tin cá nhân nhạy cảm, do đó dữ liệu thường hạn chế cả về mặt số lượng và chất lượng. Ngoài ra, một số loại giấy tờ như căn cước công dân có mẫu mả khá đa dạng do được cập nhật qua nhiều năm, do đó việc thu thập đủ các loại giấy tờ để có thể bao phủ hết các trường hợp trong thực tế là cần thiết. Dữ liệu mặt trước và mặt sau của các loại giấy tờ thường bị mất cân bằng nghiêm trọng, điều này có thể gây ảnh hưởng lớn đến hiệu năng của mô hình.

4.2. Tiền xử lí dữ liệu

Thông thuờng, các ứng dụng trích xuất thông tin từ giấy tờ tùy thân nhận ảnh đầu vào là ảnh chụp từ camera điện thoại của người dùng. Các ảnh này được xem như dữ liệu thô và cần phải xử lí để đảm bảo mô hình có thể học được những đặc trưng mong muốn.

Thứ nhất, ảnh chụp có thể không được sắc nét do chuyển động (motion blur), điều kiện ánh sáng , hay khoảng cách từ camera đến giấy tờ tùy thân quá xa. Các ảnh với điều kiện kém có thể gây nên hiện tượng rất phố biến trong học máy là “garbage in garbage out”. Nghĩa là, đầu vào chất lượng kém thì đầu ra cũng sẽ cho chất lượng kém tương ứng.

Thứ hai, giấy tờ trong ảnh có thể bị xoay hoặc bị nghiêng do người dùng chụp với các góc máy khác nhau, việc xoay ảnh quá nhiều có thể làm mô hình khó “đọc” và bị nhầm lẫn giữa các token. Có những kí tự khi xoay đi một góc sẽ trờ thành những kí tự khác như số “1” và số “7”. Chính vì thế, một mô-đun con giúp xoay thẳng ảnh chính diện sẽ giúp mô hình dễ dàng hơn trong cả việc huấn luyện và suy diễn.

Ngoài ra, khi các giấy tờ tùy thân được đặt trên nền có nhiều nhiễu như là các văn bản hành chính chứa nhiều kí tự, mô hình sẽ bị ảnh hưởng bởi các thông tin không cần thiết. Điều này có thể được xử lí bằng một mô-đun giúp phát hiện vùng chỉ chứa giấy tờ tùy thân.

4.3. Huấn luyện mô hình

Có những ưu và nhược điểm riêng khi sử dụng mô hình LayoutLM cho bài toán trích rút thông tin từ giấy tờ tùy thân. Ưu điểm là do đã được tiền huấn luyện trên lượng lớn dữ liệu từ trước, mô hình LayoutLM thường có hiệu năng rất tốt dù chỉ với số ít mẫu huấn luyện. Như đã để cập, giấy tờ tùy thân là loại dữ liệu nhạy cảm và có số mẫu ít, do đó sử dụng LayoutLM là phù hợp với bài toán, Ngoài ra, các thiết lập cơ bản của mô hình LayoutLM cũng phù hợp với loại giấy tờ chứa ít thông tin như giấy tờ tùy thân.

Hạn chế lớn nhất của mô hình LayoutLM là kích thước của mô hình khá lớn do sử dụng kiến trúc nền là Transformer. Trong khi đó, các ứng dụng thực tế thường có yêu cầu khá ngặt nghèo về mặt tốc độ xử lí để đảm bảo trải nghiệm người dùng cũng như tính cạnh tranh của sản phẩm. Điều này đòi hỏi các thuật toán tối ưu hóa mô hình để có thể đảm bảo cả về mặt hiệu năng lẫn tốc độ.

Có một sự đánh đổi giữa chi phí gán nhãn và hiệu năng của mô hình khi huấn luyện mô hình LayoutLM. Với đặc tính là sử dụng cả ba loại dữ liệu là hình ảnh, văn bản và vị trí các token, hiệu năng của mô hình thường bị ảnh hưởng trực tiếp bởi dữ liệu đầu vào cũng chính là dữ liệu đầu ra của một hệ thống OCR hoàn toàn độc lập. Hệ thống OCR trực tiếp ảnh hưởng đến hai trong ba đặc trưng đầu vào của mô hình LayoutLM là đặc trưng văn bản và đặc trưng vị trí. Điều này dẫn đến hai lựa chọn: huấn luyện mô hình trực tiếp trên dữ liệu đầu ra của hệ thống OCR hay huấn luyện trên dữ liệu được gán nhãn bởi con người. Huấn luyện trực tiếp trên dữ liệu đầu ra của hệ thống OCR có thể giúp đảm bảo hiệu năng của mô hình trích rút thông tin đầu-cuối là tốt nhất. Tuy nhiên, khi hệ thống OCR được nâng cấp hoặc có sự thay đổi thì mô hình sẽ cần được gán nhãn và huấn luyện lại từ đầu vì dữ liệu đầu ra của hệ thống OCR lúc này đã khác với những gì mô hình đã học được trước đó. Điều này gây nên lãng phí về mặt chi phí gán nhãn và huấn luyện mô hình. Để xử lí vấn đề này, một hạ tầng gán nhãn tự động và chuyên nghiệp là cần thiết.

4.4. Đánh giá kết quả

Kết quả thực nghiệm được tiến hành trên bộ dữ liệu hình ảnh gồm 445 CCCD/CMND các loại. cả mặt trước và mặt sau. Các trường thông tin cần trích rút được xác định như sau:

  1. Số thẻ 
  2. Họ và tên
  3. Ngày, tháng, năm sinh
  4. Giới tính
  5. Quốc tịch
  6. Quê quán
  7. Địa chỉ thường trú
  8. Thời hạn sử dụng
  9. Dân tộc
  10. Tôn giáo
  11. Ngày cấp
  12. Nơi cấp

Kết quả của hệ thống trích rút thông tin được đánh giá trên cả hai loại thang đo là Token Classification Accuracy (TAC) và Normalized Levenshtein Distance (NLD). TAC đại diện cho độ chính xác mô hình mà LayoutLM có thể phân biệt được các trường thông tin, còn NLD không chỉ bị ảnh hưởng bởi hiệu năng của mô hình LayoutLM mà còn phụ thuộc vào hệ thống OCR. Sử dụng cả hai độ đo giúp đảm bảo chất lượng tuyệt đối của đầu ra hệ thống trích rút thông tin. 

Như đã đề cập, nhờ vào việc tiền huấn luyện trên lượng lớn dữ liệu, mô hình LayoutLM dễ dàng hội tụ rất nhanh trên bài toán với lượng nhỏ dữ liệu huấn luyện. Dữ liệu được chia thành 145 ảnh để huấn luyện và 300 ảnh để kiểm thử. Tiến hành huấn luyện mô hình trên 30 chu kỳ, ta được kết quả như sau:

TAC:  99.35%NLD word-level: 0.02NLD char-level: 0.01

Ta có thể thấy được hiệu năng của mô hình cực kì ấn tượng. TAC = 99.35% nghĩa là với trung bình 154 tokens, mô hình LayoutLM chỉ mắc lỗi phân loại đúng một lần duy  nhất . NLD word-level = 0.02 nghĩa là với trung bình 100 từ, hệ thống trích rút thông tin có thể nhận diện chính xác đến 98 từ. Tương tự, NLD char-level = 0.01 đặc trưng cho việc hệ thống cũng thành công nhận diện chính xác 99/100 chữ cái trong những trường thông tin cần trích rút.

Kết quả trích rút thông tin giấy tờ tùy thân sử dụng mô hình LayoutLM

Mặc dù mô hình LayoutLM có hiệu năng cực kì mạnh mẽ trong việc trích rút thông tin, độ chính xác của trường thông tin trích rút được còn phụ thuộc rất lớn vào hệ thống OCR vì mô hình LayoutLM chỉ xác định token nào thuộc trường thông tin nào. Chính vì thế, để có một hệ thống trích rút thông tin hiệu quả, cần kết hợp hiệu năng giữa cả hai hệ thống con là OCR là LayoutLM.

Ngoài ra, mô hình LayoutLM còn có phiên bản được huấn luyện trên bộ dữ liệu văn bản đa ngôn ngữ, trong đó có cả tiếng Việt là LayoutXLM, có kiến trúc dựa trên LayoutLMv2 có rất nhiều cải tiến so với mô hình LayoutLM ban đầu. Vì vậy để đạt được hiệu năng tốt nhất cho các văn bản tiếng Việt, LayoutXLM là một lựa chọn phù hợp. 

Tài liệu tham khảo  

  1. Xu, Yiheng, et al. “Layoutlm: Pre-training of text and layout for document image understanding.” Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2020. 
  2. Han, Kai, et al. “Transformer in transformer.” Advances in Neural Information Processing Systems 34 (2021): 15908-15919. 
  3. Targ, Sasha, Diogo Almeida, and Kevin Lyman. “Resnet in resnet: Generalizing residual architectures.” arXiv preprint arXiv:1603.08029 (2016) 
  4. Ren, Shaoqing, et al. “Faster r-cnn: Towards real-time object detection with region proposal networks.” Advances in neural information processing systems 28 (2015) 
  5. Schreiber, Sebastian, et al. “Deepdesrt: Deep learning for detection and structure recognition of tables in document images.” 2017 14th IAPR international conference on document analysis and recognition (ICDAR). Vol. 1. IEEE, 2017. 
  6. Liu, Xiaojing, et al. “Graph convolution for multimodal information extraction from visually rich documents.” arXiv preprint arXiv:1903.11279 (2019). 

You may also like...

0 0 đánh giá
Đánh giá bài viết
Theo dõi
Thông báo của
guest
0 Góp ý
Phản hồi nội tuyến
Xem tất cả bình luận
0
Rất thích suy nghĩ của bạn, hãy bình luận.x