Giới thiệu về giải pháp OCR ứng dụng công nghệ AI của Samsung SDS Việt Nam triển khai trên nền tảng CMC Cloud (C.OPE2N)

Giới thiệu về giải pháp OCR ứng dụng công nghệ AI

Nhận dạng ký tự quang học (Optical Character Recognition – viết tắt là OCR) là giải pháp cho phép chuyển đổi các hình ảnh của chữ viết tay hoặc chữ đánh máy (thường được quét bằng máy scanner) thành các văn bản tài liệu để có thể chỉnh sửa. Đặc biệt, OCR có khả năng kỹ thuật số nhiều dạng tài liệu khác nhau như hóa đơn, hộ chiếu, danh thiếp, tài liệu… Từ khi ra đời, công nghệ OCR đã giúp nhiều doanh nghiệp thúc đẩy nhanh quá trình chuyển đổi số, tối ưu nguồn nhân lực để tiết kiệm chi phí vận hành. Một ví dụ thường thấy như sau quét một biểu mẫu hoặc biên lai, máy tính sẽ lưu bản quét đó dưới dạng tệp hình ảnh mà sau đó không thể sử dụng trình soạn thảo văn bản để chỉnh sửa, tìm kiếm hoặc đếm số từ trong tệp hình ảnh ấy. Khi ấy, giải pháp OCR sẽ giúp chuyển đổi hình ảnh thành tài liệu văn bản, trong đó phần nội dung sẽ cho phép sao chép và lưu trữ dễ dàng.

Nhận thấy được tính ứng dụng cao của giải pháp này, Công ty Samsung SDS Việt Nam đã phát triển phần mềm OCR ứng dụng công nghệ AI trên nền tảng CMC Cloud (C.OPE2N – http://copen.vn/). Các tính năng nổi bật và hướng dẫn về ứng dụng của giải pháp này sẽ được làm rõ ở các phần sau đây.

Tính năng nổi bật của giải pháp OCR trên CMC Cloud

Tính năng nhận diện: Giải pháp OCR cho phép nhận diện thành phần văn bản, nhận diện ký tự trên văn bản scan, nhận diện ký tự chữ viết tay với độ chính xác cao lên đến 99% cho nhận dạng kí tự chữ in, 95% cho kí tự số viết tay như ngày tháng, số điện thoại, số chứng minh nhân dân … và 80% với chữ viết tay như họ tên, địa chỉ.

Tính năng trích xuất thông tin: Giải pháp OCR hỗ trợ nhận diện ý nghĩa từng dòng dữ liệu, từ đó, dễ dàng tích hợp với hệ cơ sở dữ liệu đã có của khách hàng.

Tính năng đáp ứng dữ liệu đặc thù: Giải pháp OCR hướng tới đáp ứng các dữ liệu đặc thù, qua đó, hỗ trợ sẵn các công cụ gán nhãn nhằm cho phép tận dụng tối đa dữ liệu có sẵn của khách hàng

Tính năng số hóa dữ liệu doanh nghiệp: Nhờ việc số hóa dữ liệu doanh nghiệp thông qua giải pháp OCR, khách hàng có thể sao chép thông tin tài liệu một cách chính xác, nhanh chóng, giảm tải không gian lưu trữ cho tổ chức, doanh nghiệp.

Tính năng không phụ thuộc vào biểu mẫu: Giải pháp OCR hỗ trợ nhận diện đa dạng các loại định dạng biểu mẫu với độ chính xác tương đối cao.

Hướng dẫn chi tiết về các chức năng được cung cấp bởi giải pháp OCR trên CMC Cloud

Chức năng 1: Trích xuất thông tin từ các giấy tờ nói chung

Từ một hình ảnh, giải pháp OCR hỗ trợ trích xuất tất cả thông tin văn bản sang tệp txt. Lưu ý, văn bản phải rõ ràng và góc xoay của ảnh không được vượt quá +/-10 độ.

Hướng dẫn chi tiết:

Bước 1: Chọn một ảnh chụp rõ ràng, tài liệu được đặt trên nền phẳng, không xoay quá nhiều, không bị lóa mờ

Bước 2: Nhấn nút “Start Recognition” để bắt đầu trích xuất thông tin

Bước 3: Kiểm tra các thông tin mà hệ thống trả về phía bên phải màn hình

Sau đó, thông tin được trích xuất có thể dễ dàng sao chép để sử dụng.

Chức năng 2: Trích chọn thông tin từ chứng minh nhân dân, căn cước công dân

Từ một hình ảnh màu của chứng minh nhân dân Việt Nam, các thông tin sau sẽ được trích xuất nếu tồn tại, nếu không sẽ trả về một chuỗi rỗng.

Các trường thông tin bao gồm: Số ID, Họ và Tên, Ngày tháng năm sinh, Giới tính, Quốc tịch, Quê quán, Nơi thường trú, Ngày hết hạn, Nơi phát hành

Hướng dẫn chi tiết:

Bước 1:  Chọn một ảnh chụp rõ ràng, đủ góc cạnh, không bị lóa mờ (mặt trước hoặc mặt sau)

Bước 2: Nhấn nút “Start Recognition” để bắt đầu trích xuất thông tin

Bước 3: Kiểm tra các thông tin mà hệ thống trả về phía bên phải màn hình

Bước 4: Tải về các thông tin cần trích xuất dưới dạng file csv

Lưu ý: Chứng minh nhân dân còn đủ 4 góc, chữ rõ nét. Góc quay của ảnh không được vượt quá +-10 độ. Hỗ trợ tất cả các mặt cũ/mới, mặt trước và mặt sau của chứng minh nhân dân Việt Nam. Thông tin trích xuất có thể được lưu dưới dạng tệp csv.

Chức năng 3: Trích chọn thông tin từ bằng lái xe

Từ một hình ảnh màu của bằng lái xe Việt Nam, các thông tin sau sẽ được trích xuất nếu tồn tại, nếu không sẽ trả về một chuỗi trống.

Các trường thông tin bao gồm: số ID, Họ và Tên, Ngày sinh, Quốc tịch, Nơi cư trú, Ngày phát hành, Hạng, Có giá trị đến ngày

Hướng dẫn chi tiết:

Bước 1:  Chọn một ảnh chụp rõ ràng, đủ góc cạnh, không bị lóa mờ (chỉ hỗ trợ mặt trước)

Bước 2: Nhấn nút “Start Recognition” để bắt đầu trích xuất thông tin

Bước 3: Kiểm tra các thông tin mà hệ thống trả về phía bên phải màn hình

Bước 4: Tải về các thông tin cần trích xuất dưới dạng file csv

Lưu ý: Bằng lái xe có đủ 4 góc, chữ rõ ràng. Góc quay của ảnh không được vượt quá +-10 độ. Chỉ hỗ trợ mặt trước của bằng lái xe Việt Nam. Thông tin trích xuất có thể được lưu dưới dạng tệp csv.

Chức năng 4: Trích chọn thông tin từ hóa đơn giá trị gia tăng

Từ hình ảnh rõ hóa đơn giá trị gia tăng hợp pháp của Việt Nam, thông tin sau sẽ được trích xuất nếu tồn tại, nếu không sẽ trả về một chuỗi trống.

Các trường thông tin bao gồm: Mẫu số, Số hóa đơn, Ngày xuất, Đơn vị bán hàng, Mã số thuế của bên bán, Địa chỉ bên bán, Số điện thoại bên bán, Công ty bên mua, Địa chỉ bên mua, Mã số thuế bên mua, Tiền VAT, Tổng tiền, Tổng tiền bằng chữ.

Hướng dẫn chi tiết:

Bước 1: Chọn một ảnh chụp rõ ràng, tài liệu được đặt trên nền phẳng, không xoay quá nhiều, không bị lóa mờ

Bước 2: Nhấn nút “Start Recognition”

Bước 3: Kiểm tra các thông tin mà hệ thống trả về phía bên phải màn hình

Bước 4: Tải về các thông tin cần trích xuất dưới dạng file csv

Hóa đơn còn đủ 4 góc, chữ rõ ràng. Góc quay của ảnh không được vượt quá +-10 độ. Hỗ trợ hóa đơn VAT tiếng Việt một trang duy nhất. Thông tin trích xuất có thể được lưu dưới dạng tệp csv.

Chức năng 5: Trích chọn thông tin từ mẫu tạo sẵn

Chức năng này cho phép người dùng tạo một mẫu văn bản và sử dụng để trích xuất thông tin trên hàng loạt văn bản có cùng một mẫu (định dạng) cố định. Ví dụ: Form Đơn xin gia nhập tổ chức Công đoàn…

Hướng dẫn chi tiết như sau:

Tạo mẫu tài liệu

Bước 1: Chọn một ảnh làm mẫu tài liệu, ảnh chụp rõ ràng, tài liệu được đặt trên nền phẳng, không bị lóa mờ, được căn chỉnh ngay ngắn.

Bước 2: Di chuyển và điều chỉnh kích thước của 3 vùng chữ nhật màu xanh lá để chọn 3 vùng làm neo. Các vùng này cần tạo thành 3 đỉnh của một tam giác (không thẳng hàng), và bao lấy vùng ảnh có đặc trưng khác biệt duy nhất trong ảnh. Các vùng neo này sẽ được sử dụng để căn chỉnh ảnh đầu vào về đúng tọa độ của ảnh mẫu. 

Bước 3: Chọn các vùng thông tin muốn trích xuất trên mẫu tài liệu và đặt tên cho vùng thông tin đó (vùng chữ nhật màu đỏ). Lưu ý tên của các vùng thông tin không được để trống hoặc trùng lặp.

Bước 4: Lưu ảnh mẫu, khi đó, các mẫu đã lưu sẽ được hiển thị ở mục “Mẫu tài liệu” phía trái màn hình.

Trích xuất thông tin từ một ảnh theo mẫu đã tạo

Bước 1: Chọn mẫu tài liệu từ mục “Mẫu tài liệu”

Bước 2: Chọn một ảnh có cùng định dạng với mẫu tài liệu để trích xuất thông tin. Tài liệu được đặt trên nền phẳng, không xoay quá nhiều, không bị lóa mờ

Bước 3: Nhấn nút “Start Recognition” để bắt đầu trích xuất thông tin.

Bước 4: Kiểm tra các thông tin mà hệ thống trả về phía bên phải màn hình.

Bước 5: Tải về các thông tin cần trích xuất dưới dạng file csv.

Một số ứng dụng thực tiễn của giải pháp OCR

Hiện nay, phần mềm OCR đang được ứng dụng rộng rãi trong ba lĩnh vực chính là ngân hàng – bảo hiểm, chăm sóc sức khỏe và kho vận. Các doanh nghiệp trong các ngành trên có thể tận dụng những công năng vượt trội của ứng dụng OCR, cụ thể như sau:

· Ngân hàng – Bảo hiểm: Ngành ngân hàng đã và đang sử dụng phần mềm OCR để xử lý, xác minh thủ tục giấy tờ cho vay, séc tiền gửi cùng nhiều giao dịch tài chính khác. Ngành bảo hiểm áp dụng OCR trong việc xử lý thông tin hồ sơ khách hàng và hợp đồng bảo hiểm. Đây là việc làm quan trọng giúp ngăn chặn các hành động gian lận và tăng cường bảo mật cho giao dịch.

· Chăm sóc sức khỏe: Ngành chăm sóc sức khỏe sử dụng phần mềm OCR để xử lý hồ sơ bệnh nhân trong quá trình điều trị, xét nghiệm và thanh toán bảo hiểm. Nhờ đó mà các thao tác làm việc thủ công được tối ưu, giúp giảm thiểu tối đa nguồn nhân lực.

· Kho vận: Với phần mềm OCR, các công ty kho vận có thể dõi vận đơn, nhãn gói hàng, hóa đơn, biên lai và các tài liệu khác một cách nhanh chóng, chính xác.

You may also like...

0 0 đánh giá
Đánh giá bài viết
Theo dõi
Thông báo của
guest
0 Góp ý
Cũ nhất
Mới nhất Được bỏ phiếu nhiều nhất
Phản hồi nội tuyến
Xem tất cả bình luận
0
Rất thích suy nghĩ của bạn, hãy bình luận.x