Trước khi thực hiện được việc chuyển file PDF sang Word mà font tiếng Việt không bị lỗi, chúng ta hãy thực hiện tảimiễn phí bộ 3 phần mềm trên trên trong một gói dữ liệu nén tại http://www.mediafire.com/file/fyfv4mowydw/nhandang.rar.Tiếp đó chúng ta thực hiện cài đặt cả 3 phần mềm trên máy tính (cách cài đơn giản như các ứng dụng khác là kích đúp chuột vào file cài đặt vừa tải về) và chuẩn bị việc chuyển đổi. Các bước thực hiện việc chuyển đổi cơ bản như sau: Chuyển file PDF sang dạng ảnh với 2 màu (trắng, đen) với độ phân giải càng cao thì kết quả nhận dạng càng tốt. Sẽ có 2 trường hợp xảy ra như sau: + Có sẵn file ảnh 2 màu (đen, trắng) từ việc scan tài liệu: Trường hợp này chỉ cần dùng tới 1 phần mềm VnDocc 4.0 là có thể chuyển sang Word ngay. + Có sẵn file PDF (tiếng Việt) và bộ 3 phần mềm vừa tải về và cài đặt sẵn trong máy tính. Trường hợp này chúng ta thực hiện các bước như sau: * Bước 1: Dùng phần mềm PDF Converter XP để chuyển file PDF thành file ảnh. * Bước 2: Dùng phần mềm IrfanView 4.1 chuyển file ảnh (ở bước 1) về định dạng ảnh 2 màu (đen, trắng) * Bước 3: Sử dụng phần mềm VnDoc 4.0 để chuyển ảnh đen trắng thành văn bản. * Bước 4: Copy văn bản đã được định dạng từ phần mềm VnDoc 4.0 sang Word. Khi đã có sẵn bộ 3 phần mềm trên cài đặt trên máy tính, thì việc thực hiện chuyển đổi văn bản từ file PDF sang Word rất đơn giản qua 4 bước trên, cụ thể chúng ta cùng thực hiện như sau: Bước 1. Chuyển file pdf thành file ảnh bởi phần mềm PDF converter XP: Mở chương trình PDF converter XP (biểu tượng chương trình sau khi cài đặt là ), giao diện chương trình hiện ra như sau: Chuyển qua tab Pdf > Image; Chọn nút Add files…, nhập file pdf sẽ chuyển.. Sau khi đã chọn file PDP cần chuyển, nhấp chuột vào nút Convert now! mở ra hộp thoại mới yêu cầu xác định nơi lưu file ảnh xuất ra và chọn độ phân giải của ảnh. Tốt nhất, chúng ta nên chọn độ phân giải ảnh là 300 dpi để việc nhận dạng ký tự được chính xác hơn. Bước 2. Chuyển định dạng ảnh về đen trắng bằng phần mềm vnDocr 4.0 : Việc chuyển thành ảnh đen trắng nhằm để cho chương trình vnDocr 4.0 có thể làm việc được. Sau khi cài đặt, chương trình có biểu tượng như sau: Kích đúp vào biểu tượng trên để khởi động chương trình IrfanView 4.1, giao diện chương trình mở ra như sau: chọn File> Batch conversion/rename. Một hộp thoại xuất hiện. Trong phần Look in bạn chọn đường dẫn tới nơi đã lưu ảnh ở phần trên. Chọn tất cả hình cần rồi chọn Add. Chọn Use advanced options > Advanced > Change colordepth > 2color (black/while) (1BPP) > OK. Chọn file lưu trong mục Output directory for result files > Start Batch để chương trình bắt đầu làm việc. 3. Sử dụng phần mềm VnDocr 4.0 để nhận dạng văn bản: Mở phần mềm VnDocr 4.0, chọn Đọc ảnh, chọn các ảnh đã lưu ở bước trước, bấm Open. Chọn nút Nhận dạng trên menu, trong bước này, ta cần xác định chính xác vùng chọn là văn bản, ảnh haybảng biểu, bằng cách bấm chuột phải vào vùng đó và chọn định dạng phù hợp (chương trình thường nhầm lẫn giữa định dạng ảnh và bảng).
Sau khi đã chỉnh định dạng các vùng, nhấp chuột vào nút Nhận dạng để chương trình làm việc. 4. Copy qua Word văn bản đã nhận dạng: Trong bộ phần mềm chúng ta tải về, chương trình VNDocr 4.0 chỉ là bản demo nên không cho phép lưu văn bản nhận dạng được vì vậy cần phải copy qua Word để lưu. Để copy được phần văn bản đã được định dạng, chúng ta thực hiện như sau: - Mở một file Word mới. - Thu nhỏ phần mềm VnDocr 4.0 nằm trọn trong chương trình Word. Chọn vùng dữ liệu đã được định dạng từ phần mềm (kéo chuột bôi đen vùng văn bản cần) kéo (giữ chuột trái) sang trang Word mở sẵn và thả. Tiếp tục thực hiện như thế cho đến lúc toàn bộ phần dữ liệu văn bản cần thiết được copy sang Word. Như vậy, chúng ta đã hoàn thành việc chuyển văn bản. Các phần mềm giới thiệu ở trên đều có thể làm việc với nhiều file một lúc, giúp người dùng đỡ tốn thời gian để hoàn thành công việc. Nếu chuyển một file PDFtoàn chữ (tiếng Việt) thành Word thì thời gian thực hiện càng nhanh, chắc chắn hiệu quả hơn nhiều so với việc chúng ta ngồi gõ lại số tài liệu này.
School@net
|