CHUẨN HÓA CÔNG TÁC SỐ HÓA TÀI LIỆU THỰC HIỆN CHUYỂN ĐỔI TRONG HỆ THỐNG THƯ VIỆN QUÂN ĐỘI NHÂN DÂN VIỆT NAM
Thượng tá, Ths. Mạc Thùy Dương - Giám đốc - Thư viện Quân đội
Trung tá, Ths. Trần Nữ Quế Phương - Trưởng phòng Thông tin – Thư mục – Máy tính - Thư viện Quân đội
Ở Việt Nam, năm 2020 được xác định là năm khởi động chuyển đổi số (CĐS) quốc gia. Nhận thức của toàn xã hội về CĐS được thay đổi đột biến. Năm 2021 và giai đoạn 2021-2025 sẽ là giai đoạn tăng tốc với những chương trình, hành động triển khai trên phạm vi quốc gia, ở tất cả các địa phương, các ngành, các lĩnh vực. CĐS quốc gia được thực hiện trên 3 nội dung: Chính phủ số - kinh tế số - xã hội số. Do vậy, CĐS là nhiệm vụ cần sự vào cuộc quyết tâm của toàn hệ thống chính trị, triển khai xuyên suốt, đồng bộ từ cấp Trung ương đến cơ sở.
Những năm qua, đón đầu chủ trương CĐS của Đảng, Nhà nước, Bộ Quốc phòng (BQP) đã quan tâm đầu tư và triển khai nhiều dự án về số hóa tài liệu nói chung và tài liệu trong thư viện nói riêng. Tuy nhiên, mỗi một dự án, chương trình lại có các các quy trình, tiêu chí, tiêu chuẩn về kỹ thuật khác nhau, ...sẽ là rào cản cho quá trình liên thông, tích hợp, chia sẻ, dùng chung dữ liệu trên hệ thống mạng của BQP cũng như trao đổi dữ liệu với các hệ thống khác ngoài quân đội. Vì vậy, để tạo sự chuẩn hóa, thống nhất trong công tác số hóa tài liệu (SHTL), tác giả bài viết đưa ra một số khuyến nghị về dịnh dạng và tiêu chuẩn trong công tác SHTL để các thư viện cơ sở trong toàn quân triển khai thực hiện trong thời gian tới.
SHTL liệu là tiến trình chuyển đổi tài liệu từ dạng truyền thống sang dạng số. Đây cũng là quy trình đầu tiên của 3 bước thực hiện CĐS (số hóa dữ liệu (thay đổi hình thức lưu giữ thông tin/dữ liệu; số hóa quy trình (thay đổi quy trình công việc); số hóa toàn diện/CĐS (thay đổi mô hình hoạt động).
CĐS, theo Cẩm nang Chuyến đổi số của Bộ Thông tin và Truyền thông thì: “Chuyến đối số là quá trình thay đổi tổng thể và toàn diện của cá nhân, tổ chức về cách sông, cách làm việc và phương thức sản xuất dựa trên các công nghệ số” và “Chuyển đổi số là việc sử dụng dữ liệu và công nghệ số đế thay đổi tổng thể và toàn diện cách sổng, cách làm việc và phương thức sản xuất của cá nhân, tổ chức”.
Như vậy, để sử dụng, khai thác dữ liệu số được tạo ra từ quá trình số hóa một cách hiệu quả, chuyên nghiệp góp phần thúc đẩy quá trình CĐS của BQP nói chung và của hệ thống thư viện quân đội nói riêng, đòi hỏi chúng ta phải tuân thủ đúng quy trình, nguyên tắc, tiêu chuẩn, quy định trong công tác SHTL.
Thông thường, quy trình SHTL gồm 10 bước: 1: Lập kế hoạch; 2: Lựa chọn tài liệu; 3: Chuẩn bị thiết bị, phần mềm để số hóa và xử lý tài liệu số hóa; 4: Thực hiện số hóa; 5: Xử lý file; 6: Tạo siêu dữ liệu; 7: Kiểm soát chất lượng; 8: Phổ biến tài liệu số hóa; 9: Thiết lập chính sách truy cập; 10: Thực hiện bảo quản số và an toàn dữ liệu. Trong đó, khâu thực hiện số hóa, xử lý file, tạo siêu dữ liệu đòi hỏi phải nhất quán, thống nhất, tuân thủ nghiêm ngặt các quy trình, tiêu chuẩn kỹ thuật, tiêu chuẩn nghiệp vụ mới có thể cho ra một sản phẩm số hóa đạt chất lượng tốt nhất. Bài viết này, tập trung khuyến nghị chuẩn hóa file số hóa, chuẩn hóa quy trình xử lý file ảnh số, chuẩn hóa tiêu chuẩn nghiệp vụ nhằm giúp các thư viện cơ sở tham khảo, thực hiện sao cho thống nhất, hiệu quả, kinh tế.
Thứ nhất, chuẩn hóa file số hóa
Đây là khâu đòi hỏi sự thống nhất, chuẩn hóa cao nhất trong quá trình SHTL thư viện, đòi hỏi phải tuân thủ một cách nghiêm ngặt để tạo sự nhất quán về chất lượng hình ảnh trong quá trình thực hiện số hóa dù ở mục đích bảo quản hay truy cập.
Như chúng ta đã biết, quá trình số hóa sẽ tạo ra một file chủ (ảnh gốc) dùng để lưu trữ, bảo quản. Không cần chỉnh sửa nào vào nội dung để đảm bảo tính xác thực, toàn vẹn và tin cậy của tài liệu và một file phái sinh (copy) từ file gốc dùng để xử lý và đưa chúng lên các phần mềm quản trị tài liệu số nhằm phục vụ cho bạn đọc truy cập hoặc sử dụng các mục đích khác tùy theo yêu cầu công việc.
Đối với file chủ (master file) khuyến nghị tuân thủ nguyên tắc: Định dạng file phải là mã nguồn mở hoặc được sử dụng rộng rãi, không lưu ảnh ở các định dạng độc quyền để tránh bị phụ thuộc về công nghệ; Bản ghi số hóa chính phải được tạo ra ở chất lượng cao nhất có thể.
Đối với file phái sinh (copy) từ file gốc khuyến nghị tuân thủ nguyên tắc: định dạng file phải là thông dụng, phổ biến nhất để có thể tương thích với nhiều thiết bị truy cập, bảo đảm hình ảnh tốt nhất để đọc trên thiết bị nhưng dung lượng ít nhất có thể.
Về thông số kỹ thuật: Khuyến nghị tuân thủ các tiêu chuẩn đã được chấp nhận rộng rãi sau đây để: Đảm bảo rằng các file kỹ thuật số được tạo ra thông qua số hóa có chất lượng cao và đáp ứng các tiêu chuẩn quốc gia và quốc tế; Duy trì tính toàn vẹn và tuổi thọ của các file kỹ thuật số để thực hiện như là biện pháp bảo quản kỹ thuật số lâu dài; Các tiêu chuẩn này có thể thay đổi khi công nghệ phát triển trong thực tiễn. Hơn nữa, mỗi dự án số hóa có mục tiêu riêng, tuy nhiên mục tiêu cuối cùng là có một bản chính bảo quản là bản sao trung thực của bản gốc mà từ đó có thể tạo ra các bản phái sinh để sử dụng cho việc phố biến, truy cập sao cho thống nhất, chuẩn hóa trong toàn dự án.
a) Đối với dạng bản thảo và văn bản in
File chủ bảo quản và truy cập | File truy cập (dạng in ấn) |
File truy cập(dạng hiển thị màn hình) |
Ảnh thu nhỏ (Thumbnail) | |
Định dạng file | TIFF/ PDF/A với OCR |
JPEG, PNG/ PDF với OCR |
JPEG, PNG/ PDF hoặc OCR |
JPEG/PNG |
Độ phân giải | 300-600 dpi | 150 -300 dpi | 150 dpi | 150 dpi |
Độ sâu bit | 24 bit RBG màu/8 bit xám | 24 bit RBG màu/8 bit xám | 24 bit RBG màu /8 bit xám | 24 bit colour RBG/8 bit xám |
Kích cỡ | 3000 - 6000 pixels | 3000 pixels | 800 pixels | 200 pixels |
Nén | Không nén | Nén không mất | Nén không mất | Nén không mất |
b) Dạng hình ảnh
File chủ bảo quản và truy cập | File truy cập (dạng in ấn) |
File truy cập(dạng hiển thị màn hình) |
Ảnh thu nhỏ (Thumbnail) | |
Định dạng file | TIFF | JPEG/PNG | JPEG/PNG | JPEG/PNG |
Độ phân giải | 300-600 dpi | 150 -300 dpi | 150 dpi | 150 dpi |
Độ sâu bit | 24 bit RBG màu/8 bit xám | 24 bit RBG màu/8 bit xám | 24 bit RBG màu /8 bit xám | 24 bit colour RBG/8 bit xám |
Kích cỡ | 3000 - 6000 pixels | 3000 pixels | 800 pixels | 200 pixels |
Nén | Không nén | Nén không mất | Nén không mất | Nén không mất |
c) Dạng phim, âm bản và slide
File chủ bảo quản và truy cập | File truy cập (dạng in ấn) |
File truy cập(dạng hiển thị màn hình) |
Ảnh thu nhỏ (Thumbnail) | |
Định dạng file | TIFF | JPEG/PNG | JPEG/PNG | JPEG/PNG |
Độ phân giải | 300-600 dpi | 150 -300 dpi | 150 dpi | 150 dpi |
Độ sâu bit | 24 bit RBG màu/8 bit xám | 24 bit RBG màu/8 bit xám | 24 bit RBG màu /8 bit xám | 24 bit colour RBG/8 bit xám |
Kích cỡ | 3000 - 6000 pixels | 3000 pixels | 800 pixels | 200 pixels |
Nén | Không nén | Nén không mất | Nén không mất | Nén không mất |
d) Dạng bản đồ
File chủ bảo quản và truy cập | File truy cập (dạng in ấn) |
File truy cập(dạng hiển thị màn hình) |
Ảnh thu nhỏ (Thumbnail) | |
Định dạng file | TIFF | JPEG/PNG | JPEG/PNG | JPEG/PNG |
Độ phân giải | Dưới 36 inch trên cạnh dài: 600 dpi |
Dưới 36 inch trên cạnh dài: 300 dpi. Hơn 36 inch trên cạnh dài: 150 dpi |
150 dpi | 150 dpi |
Độ sâu bit |
Hơn 36 inch trên cạnh dài: 300 - 400 dpi |
24 bit RBG màu/8 bit xám | 24 bit RBG màu /8 bit xám | 24 bit colour RBG/8 bit xám |
Kích cỡ | 3000 - 6000 pixels | 6000 pixels | 1078 pixels | 200 pixels |
Nén | Không nén | Nén không mất | Nén không mất | Nén không mất |
Về đặt tên cho file ảnh: Để đảm bảo tính nhất quán, thống nhất và tuân thủ các nguyên tắc sau: Sử dụng tên mô tả để xác định nội dung/mục đích của file; Sử dụng dấu gạch ngang giữa các từ; Tránh các ký tự đặc biệt:> <"/ \ I? *: A $; Sử dụng ký tự latinh để đặt tên thư mục, file, không sử dụng chữ Việt có dấu, chữ tượng hình...; Tránh sử dụng dấu chấm hoặc dấu phẩy; Tránh dấu gạch dưới vì chúng không hiển thị tốt trong URL; Tránh khoảng trắng trong tên file; Sử dụng các chữ cái viết thường; Giới hạn độ dài ở 27 ký tự; Không bắt đầu hoặc kết thúc tên file bằng dấu gạch ngang hoặc dấu chấm câu khác; Không sử dụng dấu gạch ngang kép trong một hàng hoặc dấu chấm câu kép khác trong tên file; Chỉ sử dụng các phần mở rộng file tiêu chuẩn và đảm bảo chỉ có một phần mở rộng.
Ví dụ: Nếu tài liệu cần số hóa có ký hiệu hoặc có series liên quan với nhau, thì dùng ký hiệu đầu cho tên file giống nhau. Để thống nhất ký hiệu tên file, sử dụng các ký hiệu chung cho toàn bộ quy trình số hóa. Thông thường hãy lấy ký hiệu kho hoặc số đăng ký cá biệt của tài liệu, hoặc tên bộ sưu tập số để đặt tên cho thư mục quản lý và tên file ảnh số, các định dạng file khác cũng thực hiện tương tự như vậy. Cụ thể: Một cuốn sách lưu chiểu năm 2022, có số ký hiệu là LC.0006688 thì các file ảnh số sẽ được lưu trong thư mục có tên là LC2022-0006688 và các file ảnh sẽ được đánh tên là:
*LUU-CHIEU
*2022
*LC2022-0006688
*LC2022-0006688-0001.tif
*LC2022-0006688-000n.tif
Nếu có nhiều trang liên quan đến nhau: hãy sử dụng thêm chữ cái vào đằng sau dãy ký hiệu đó: Ví dụ: LC2022-0006688-0001a.tif
Thứ hai, chuẩn hóa quy trình xử lý file ảnh số
Quy trình xử lý ảnh số sẽ phụ thuộc vào cách thức thực hiện, thiết bị số hóa và các phần mềm đi kèm thiết bị hỗ trợ, ngày nay, các thiết bị số hóa càng hiện đại thì càng có nhiều tiện ích đi kèm với thiết bị, do vậy đã hỗ trợ cho người sử dụng, đơn giản hóa công việc, giảm bớt quy trình, thao tác thực hiện.
Dưới đây là các quy trình đơn giản để xử lý ảnh số, quy trình này có thể khác (phụ thuộc vào thiết bị số hóa của mỗi thư viện). Cụ thể: 1. Đổi tên file; 2. Điều chỉnh chất lượng ảnh (nếu cần); 3. Lưu bản gốc file chủ vào thiết bị lưu trữ chuyên dụng; 4. Tạo file phái sinh; 5. Điều chỉnh trang; 6. Tạo thêm các định dạng file khác: GIF; PDF: Mã hóa OCR hoặc không,...
Thứ ba, chuẩn hóa tiêu chuẩn nghiệp vụ thư viện
Thông thường, sau quá trình SHTL, là quá trình tạo ra biểu ghi siêu dữ liệu (metadata) gồm một tập hợp các thuộc tính hoặc các phần tử cần thiết để mô tả TNTT theo yêu cầu của mỗi thư viện. Trên thực tế, có nhiều chuẩn mô tả biên mục mang tính chất metadata như: MARC 21, Dulin Core, XML, METS, ALTO,... đã và đang được sử dụng rộng rãi trên toàn thế giới. Mục tiêu đầu tiên và yêu cầu cốt lõi nhất của metadata là mô tả và tìm lại các tài liệu số. Vì vậy, vấn đề đặt ra là đòi hỏi phải có tiêu chuẩn, quy định, nguyên tắc thống nhất tạo chuẩn hóa trong quá trình mô tả tài liệu/dữ liệu góp phần nâng cao chất lượng quản lý, tìm kiếm, truy cập, chia sẻ, trao đổi thông tin, tài liệu. Đối với tài liệu số hóa trong thư viện, tùy vào từng đối tượng tài nguyên cụ thể, khuyến nghị sử dụng một số tiêu chuẩn thông dụng, phổ biến sau:
a) Tiêu chuẩn Dublin Core: là tiêu chuẩn phổ biến nhất dùng để mô tả nội dung của TNTT số dạng văn bản, gồm 15 phần tử (trường), cung cấp thông tin chung về tài nguyên: 1. Nhan đề (Title), 2.Tác giả (Creator), 3. Chủ đề (Subject); 4. Mô tả (Description), 5. Nhà sản xuất ( Publisher), 6. Người đóng góp (Contributor), 7. Ngày tháng (Date), 8. Loại (Type), 9. Khổ mẫu (Format), 10. Định danh (Identifier), 11. Nguồn (Resoure), 12. Ngôn ngữ (Language), 13. Liên kết (Relation), 14. Diện bao quát (Coverage), 15. Bản quyền (Right).
b) Tiêu chuẩn METS (Metadata Encoding and Transmission Standard): Tiêu chuẩn truyền và mã hóa siêu dữ liệu. Đối với tài liệu số hóa dạng báo, tạp chí, sử dụng chuẩn METS/ALTO để mô tả. Một tiêu chuẩn METS bao gồm 5 phần chính: Siêu dữ liệu mô tả, Siêu dữ liệu quản trị, Nhóm file, Sơ đồ cấu trúc, Cơ chế vận hành. METS được sử dụng vào những mục đích chính sau: Tạo tài liệu XML chứa đựng cấu trúc hình cây của những đổi tượng tài liệu số; Ghi lại tên và nơi lưu giữ các tập tin tạo thành những đối tượng tài liệu số đó; Ghi lại những metadata liên quan để có thể sử dụng như một công cụ mô hình hóa những đối tượng trong thế giới vật lý như những loại tài liệu cụ thể.
c) Tiêu chuẩn ALTO (Analyzed Layout and Text Object): Phân tích bố cục và đối tượng văn bản. Trong khi tiêu chuẩn METS được sử dụng để mô tả cấu trúc của một tài liệu số thì ALTO được sử dụng để cất giữ thông tin dàn trang và các ký tự được nhận máy tính nhận dạng (OCR) trong các trang của những tài liệu in như sách, báo và tạp chí. Nó được thiết kế để được sử dụng như một lược đồ mở rộng cho lược đồ METS. Trong đó METS cung cấp các thông tin cấu trúc còn ALTO chứa đựng nội dung và các thông tin vật lý của tài liệu.
Chuẩn ALTO đã mang đến rất nhiều lợi ích cho việc lưu giữ các tài liệu số như: Việc tìm kiếm toàn văn trở nên chính xác hơn khi việc tìm kiếm chỉ được thực hiện trong phần nội dung cuốn sách mà không bị “nhiễu” vì những thông tin như: trang bìa tài liệu, các tiêu đề cột, chú thích v.v...; Việc tìm kiếm theo cấu trúc có thể được thực hiện như tìm kiếm trong các chương hoặc đối với tạp chí là trong những loạt bài viết; Việc định hướng trong cuốn sách trở nên dễ dàng hơn; Các hình minh họa, các công thức, bảng biểu và thậm chí cả các quảng cáo cũng trở thành những thành phần riêng và có thể được truy cập riêng rẽ với phần nội dung còn lại.
Như vậy, để giúp cho các thư viện trong quân đội chọn các định dạng hoặc tiêu chuẩn phù hợp trong công tác số hóa, bài viết đã đưa ra một số khuyến nghị về các tiêu chuẩn, định dạng nêu trên với mong muốn các thư viện trong quân đội tham khảo, nghiên cứu xây dựng các bộ tiêu chí, tiêu chuẩn cụ thể đối với mỗi loại TNTT trong quá trình số hóa để tạo sự nhất quán, chuẩn hóa, chất lượng tốt nhất ở các mục đích khác nhau (bao gồm bảo quản tài liệu lâu dài cho đến phổ biến, truy cập, phân phối, trao đổi tài liệu trực tuyến). Tuân thủ, thống nhất được các định dạng nêu trên không những nâng cao chất lượng công tác số hóa của mỗi thư viện mà còn góp phần nâng cao hiệu quả hoạt động của các thư viện trong quá trình chuyển đối số ngành thư viện trong quân đội trong thời gian tới./.
TÀI LIỆU THAM KHẢO
1. Cẩm nang Chuyển đổi số/Bộ Thông tin và Truyền thông.
2. Tài liệu hướng dẫn sử dụng scanrobot 2.0 MDS/Cty Nam Hoàng, 2016.
3. Tài liệu tập huấn SHTL thư viện thực hiện chuyển đổi số/ Lê Đức Thắng, Nguyễn Lương Ninh, Lê Việt Nga.- Thư viện Quốc gia Việt Nam
Bài,Ảnh: Thượng tá Mạc Thùy Dương, Trung tá Trần Nữ Quế Phương