종이 파일이 디지털로 변환되면 소프트웨어를 폐기할 수 있다.
(a) 종이 문헌의 디지털화 처리 종이 문헌의 디지털화 처리 방법에는 직접 스캔과 마이크로축소판의 두 가지가 있다. 1. 직접 스캔법이란 스캐너를 사용하여 원본 종이 파일을 광학적으로 스캔하고, 이미지 정보를 광전 변환기로 전송하여 아날로그 신호로 전환한 다음 아날로그 전기 신호를 디지털 신호로 변환한 다음 컴퓨터 인터페이스를 통해 컴퓨터 메모리로 전송하는 것을 말합니다. 직접 스캔은 두 가지 방법으로 나눌 수 있습니다. (1) 종이 파일을 스캔한 후 문자 인식 (OCR) 소프트웨어를 사용하여 종이 파일을 인식하여 결국 텍스트 파일을 생성합니다. 이 디지털 파일의 장점은 공간이 작고, 컴퓨터의 전체 텍스트 검색이 용이하며, 파일을 사용할 때 추출 및 편집이 쉽다는 것입니다. 단점은 원본 문서의 조판 형식과 서명, 도장 등의 원본 정보를 유지할 수 없다는 것입니다. 때때로 OCR 문자 인식의 정확도가 낮고, 수정이 어렵고, 디지털화가 비효율적이며, 실제로는 원본 파일의 신뢰성을 손상시킬 수 있습니다. (2) 종이 파일을 스캔하여 디지털 이미지 파일을 형성합니다. 이런 이미지 파일의 장점은 파일 내용과 조판의 원래 모습을 유지하고 디지털화 속도가 빠르다는 것이다. 단점은 전체 텍스트 검색을 수행할 수 없고, 텍스트 내용을 편집할 수 없고, 스토리지 공간을 많이 차지한다는 것입니다. 이 두 가지 방법의 장단점은 바로 상호 보완적이다. 이제 두 가지 방법의 장점을 하나의 문서에 결합할 수 있는 방법이 있습니다. 바로 이중층 PDF 를 만드는 것입니다. 이렇게 하려면 원본 종이 파일을 디지털 이미지 파일로 스캔한 다음 텍스트 파일로 변환한 다음 내용이 같은 두 개의 파일을 같은 PDF 파일에 배치합니다. 이미지 파일은 맨 위에 있고 텍스트 파일은 이미지 파일 아래에 숨겨져 있습니다. 이 파일을 조회할 때 상위 계층의 원본 이미지 파일뿐 아니라 숨겨진 텍스트 파일도 전체 텍스트로 검색할 수 있습니다. 2. 마이크로필름 변환법이란 마이크로필름에 있는 아날로그 이미지를 마이크로필름에 있는 아날로그 이미지를 디지털 이미지로 변환하는 전용 스캔 장치 (즉, 마이크로스캐너) 를 사용하여 마이크로필름에 찍힌 파일을 변환하는 방법입니다. 직접 스캔보다 현미경 스캔이 더 경제적이고 간단하며 효율적입니다. 그러나 이 방법은 종이 문서의 미세 처리를 기반으로 해야 합니다. 마이크로필름 스캔 후 원본은 종이 파일과 함께 보관해야 하며 무단 폐기는 허용되지 않는다는 점에 유의해야 합니다. 이런 식으로 파일은' 3 회' 의 저장 상태를 형성한다. 마이크로필름은 디지털 파일보다 저장, 복사, 쿼리 및 전파가 쉽지는 않지만, 시뮬레이션 정보로서 마이크로필름 파일은 인간의 가독성, 안정성, 크기 감소 등 디지털 파일에 없는 장점을 가지고 있으며 종이 파일에는 없는 아카이브 정보 자원을 보완하는 중요한 형식이어야 합니다. (2) 종이 아카이브의 디지털화 워크플로우 종이 아카이브의 디지털화는 파일 정리, 파일 스캔, 이미지 처리, 이미지 저장, 카탈로그 작성, 데이터 링크, 데이터 수락, 데이터 백업 및 결과 관리 등 복잡한 프로세스입니다. 종이 파일을 스캔하기 전에 파일 관리 상황에 따라 다음 단계에 따라 파일을 적절히 정리하고 필요에 따라 표시를 하여 파일의 디지털화 품질을 보장합니다. (1) 파일 전달은 일반적으로 대량의 종이 파일을 디지털화하여 디지털화할 파일을 파일 창고에서 임시 회전 창고로 옮겨야 합니다. 그런 다음 디지털 프로세서는 회전 창고에서 파일을 받아 디지털화합니다. 전자든 후자든, 디지털 처리기는 반드시 예정된 계획에 따라 신청서를 제출하고, 비준을 거친 후 쌍방에 서류를 이관하고, 등록하고, 인수인계 수속을 완료해야 한다. (2) 카탈로그 데이터 작성은' 기록 규칙' (DA/T 18- 1999) 의 요구 사항에 따라 기록 항목, 필드 길이, 내용 요구 사항 등을 포함한 파일의 내용을 규정합니다. 그런 다음 디지털 파일 검색을 위한 카탈로그 데이터베이스를 설정합니다. 데이터베이스 구축은 기존 종이 파일의 목록 작성 기초를 활용할 수 있다. 원본 종이 파일 디렉토리에 제목, 파일 이름, 책임자, 시작 및 끝 페이지 번호, 페이지 수 등과 같은 오류나 비표준 항목이 있는 경우 , 수정해야 합니다. 종이 서류는 기계 판독 카탈로그 데이터베이스를 구축하지 않았으니, 기록 규칙에 따라 다시 입력해야 한다. (3) 바인딩되지 않은 파일은 바인딩 해제 전에 바코드를 하나씩 붙여 후속 과정에서 바코드를 식별하여 스캔 파일을 정확하고 효율적으로 제어할 수 있습니다. 바코드는 향후 파일 대출 및 활용 관리를 용이하게 할 수 있습니다. 그런 다음 직원들은 한 권씩, 한 페이지씩 파일을 점검한다. 누락 된 내용, 누락 된 내용, 거꾸로 된 페이지 번호 및 귀중한 손상된 파일을 등록하고 파일 보관 기관에 넘겨 적절하게 처리하십시오. 바인딩을 해제하지 않으면 스캔 작업에 영향을 줄 수 있는 파일의 바인딩을 해제해야 합니다. 바인딩을 제거 할 때 파일이 손상되지 않도록주의해야합니다. 제본을 제거한 후에는 원본 문서를 순서대로 배열하고, 흩어지지 않도록 클립으로 끼워야 한다. 역사가 오래되어 종이 조건이 나빠서 개봉이 불편하면 0 여백 스캐너를 사용하여 스캔할 수 있습니다. (4) 스캐너와 비 스캐너를 구별한다. 필요에 따라 동일한 파일의 스캔과 비스캔 파일을 분리하여 관련되지 않은 중복 파일을 제거합니다. (5) 절단 용지의 품질은 스캐너의 선택 및 스캔 효과와 관련이 있습니다. 따라서 파손이 심하고 주름이 고르지 않고 글씨가 흐릿한 서류는 따로 등록해야 한다. 예를 들어 접힌 서류는 다림질 할 수 있습니다. 오염된 종이의 경우 통풍이 잘 되는 환경에서 부드러운 브러시로 떠다니는 먼지, 먼지 또는 곰팡이를 가볍게 닦을 수 있습니다. 손상 및 불완전한 문서를 복구해야 합니다. (6) 보관 등록: 정리된 원본 파일을 스캐너에 제출하고 종이 파일 디지털화 처리 등록서를 작성 및 작성하며 각 파일이 정리된 시작 페이지 번호와 페이지 번호를 상세히 기록합니다. (7) 제본, 수리 및 반환 스캔 작업이 완료된 후 철거된 파일은 파일 보관 요구 사항에 따라 다시 제본해야 합니다. 제본을 회복할 때, 문서의 정렬 순서를 그대로 유지하여 안전하고 정확하며 누락된 것이 없도록 주의해야 한다. 심하게 손상된 롤러와 상자를 교체합니다. 제본 기회는 제본된 문서에 전용 도장과 전용 디지털 도장을 찍는다. 서류의 디지털 처리와 재제본이 완료되면 인벤토리를 해야 한다. 인벤토리가 정확한 후 파일 관리 부서에 반납하여 파일 반환 수속을 처리하다. 2. 파일 스캔 (1) 스캔 장치 선택은 파일 형식 크기 (A4, A3, A0 등) 에 따라 달라집니다. ), 해당 사양의 스캐너를 선택합니다. 대형 면 파일은 와이드 스캐너로 스캔하고, 마이크로필름 디지털 변환 장치로 스캔하고, 소폭 스캔 후 이미지로 접합할 수 있습니다. 용지 상태가 좋지 않거나, 너무 얇거나, 너무 부드럽거나, 너무 두꺼운 문서, 다색 페이지가 있는 문서는 일반 평판 스캐너로 스캔할 수 있습니다. 종이 조건이 좋은 A4, A3 파일은 고속 스캐너로 스캔하여 생산성을 높일 수 있다. 압축 해제에 적합하지 않은 파일은 여백 없는 스캐너로 스캔할 수 있습니다. (2) 스캔 컬러 모드 선택에는 일반적으로 두 가지 스캔 컬러 모드가 있습니다. 하나는 스캔이 흑백 이진 이미지를 형성하는 것입니다. 이 이미지는 흑백 2 단계만 있고 전이 그레이스케일은 없습니다. 흑백이 분명하고, 글씨가 또렷하며, 문서 용량이 작다는 것이 특징이다. 필적과 선이 뚜렷한 텍스트 또는 그래픽 파일을 스캔하는 데 적합합니다. 두 번째는 연속 색조를 형성하는 정적 이미지를 스캔하는 것입니다. 이러한 이미지는 회색조 이미지와 컬러 이미지로 나뉩니다. 그레이스케일 이미지는 가장 어두운 검은색부터 가장 밝은 흰색까지의 다양한 그레이스케일로 구성됩니다. 회색 음영은 이미지에서 밝음부터 어두움까지의 레벨을 나타내며 레벨이라고도 합니다. 그레이스케일이 높을수록 레벨이 풍부할수록 파일 용량이 커집니다. 회색 모드는 흑백 사진과 이미지 파일을 스캔하는 데 적합하며 색상 품질에 영향을 주지 않는 한 레벨 선택이 적당합니다. 색상 모드의 색상 수는 색상 범위를 나타냅니다. 색상이 많을수록 이미지가 생생하고 사실적일수록 파일 용량이 커집니다. 마찬가지로, 색호의 선택도 적당히 해야지, 많을수록 좋은 것은 아니다. 컬러 모드는 스캔 파일이나 페이지에 빨간색 제목과 도장이 있는 컬러 사진 파일에 적합합니다. 영구 보존 또는 장기 보존이 필요하거나 국가 기록 보관소로 넘겨야 하는 파일은 일반적으로 컬러 모드로 스캔해야 합니다. (3) 스캔 해상도 스캔 해상도 매개변수의 선택은 원칙적으로 스캔한 이미지의 선명도와 무결성을 기반으로 하며 이미지 활용에 영향을 주지 않습니다. 흑백 이진, 회색 명암 및 컬러 모드에서 파일을 스캔할 때 해상도는 일반적으로 200dpi 보다 크거나 같은 것이 좋습니다. 특수한 경우, 예를 들면 글자가 작고, 글자가 촘하고, 선명도가 떨어진다. 해상도가 적당히 향상될 수 있다. OCR 한자 인식이 필요한 문서의 경우 스캔 해상도에서 300dpi 를 선택하는 것이 좋습니다. (4) 광학 문자 인식 처리는 현재 OCR 기술이 상당히 성숙해 일반 스캐너에는 자체 OCR 소프트웨어가 있어 사용하기도 매우 편리하다. 그러나 OCR 의 인식 정확도는 종종 만족스럽지 않아 검색 효과에 영향을 줍니다. 원고의 오자를 수동으로 수정하는 것은 번거롭다. 따라서 OCR 인식률을 높이는 것은 파일 디지털화에서 중요한 문제입니다. 사실, 다음과 같은 몇 가지 사항에 주의를 기울이면 OCR 인식률을 크게 높일 수 있습니다. 첫째, 적절한 스캔 해상도를 선택합니다. 스캔 해상도가 너무 낮으면 OCR 인식률이 낮아지는 경우가 많으며, 해상도가 너무 높으면 이미지 파일이 너무 커지고 인식 속도가 느려질 수 있습니다. 실제로 운영자는 OCR 인식 후 생성된 텍스트의 빨간색 오타 수 (예: 3% 미만) 를 보고 허용 가능성을 결정하고 이 해상도 스캔으로 OCR 인식을 수행할지 여부를 결정할 수 있습니다. 두 번째는 가능한 흑백 이진 모드 스캔입니다. 스캐너로 문서를 스캔할 때 OCR 은 일반적으로 회색 또는 흑백 이진 모드를 허용하고 컬러 모드는 허용하지 않습니다. 원고의 인쇄 품질이 좋은 경우 회색 모드를 사용할 수 있습니다. 그렇지 않으면 흑백 이진 모드를 사용해야 합니다. 스캔할 때 흑백 임계값 크기를 수동으로 조정할 수 있습니다. 흑백 이진 이미지의 문자 윤곽선이 완전하지 않은 경우 임계값을 적절히 늘립니다. 텍스트의 윤곽이 너무 두꺼우면 정보 중복이 많으면 임계값을 적절히 낮출 수 있습니다. 이렇게 조정된 흑백 이진 스캔 이미지는 OCR 인식 효과를 높일 수 있습니다. 셋째, OCR 인식을 수행할 때 문자의 기울기 보정에 주의하십시오. OCR 인식을 사용하면 문서를 약간 기울일 수 있지만 너무 많이 기울이면 인식률에 영향을 줄 수 있습니다. 보정 방법은 스캔 소프트웨어에서 기울기 보정 버튼을 클릭하는 것입니다. 인식 소프트웨어는 OCR 인식 전에 이미지를 자동으로 교정합니다. 넷째, 원고 감정 전 사전 처리. 원고에서 잡동사니와 사진을 제거합니다. 잡동사니가 문자 인식을 방해하고, 그림이 인식되지 않고, OCR 의 텍스트 분할에 영향을 미치기 때문입니다. 원고에 있는 열의 경우 수동으로 열 영역을 설정하는 것이 좋습니다. 즉, 여러 상자를 사용하여 인식할 문자를 선택하고 OCR 인식을 수행하는 것이 좋습니다. 다섯째, 적절한 식별 방법을 채택한다. 간체와 번체원고가 뒤섞여 중영어 원고 인식률이 낮은 경우가 많다. 중국어 (간체) 와 중국어 (번체) 영어 블록을 분산시키는 경우 이미지 처리 소프트웨어를 통해 서로 다른 텍스트 블록을 텍스트 블록과 유사한 파일로 편집한 다음 OCR 을 통해 서로 다른 문자를 개별적으로 식별할 수 있습니다. (5) 스캔 등록: 종이 문서 디지털화 변환 프로세스 이전 등록을 꼼꼼히 기입하고, 스캔 페이지 수를 등록하고, 문서당 실제 스캔 페이지 수가 보관 시 채워진 파일 수와 일치하는지 확인합니다. 불일치가 있으면 구체적인 원인과 처리 방법을 명시해야 한다. 3. 이미지 처리 스캔이 완료된 후 얻은 이미지는 스캔 파일과 원본 파일 간의 편차를 수정하기 위해 필요에 따라 기술적으로 처리되어야 스캔 파일이 더 명확하고 규범적입니다. 이미지 처리에는 일반적으로 (1) 이미지 데이터 품질 검사 검사 이미지의 비뚤어짐, 선명도 및 왜곡 상태가 포함됩니다. 품질 요구 사항을 충족하지 못하는 경우 이미지를 다시 처리해야 합니다. 스캔한 이미지 파일이 불완전하거나 부적절한 조작으로 명확하게 인식되지 않을 경우 다시 스캔해야 합니다. 스캔이 누락된 경우, 제때에 스캔을 보충하고 이미지를 올바르게 삽입하십시오. 스캔한 이미지의 정렬 순서가 원본 파일과 일치하지 않는 경우 제때에 조정해야 합니다. 관련 양식을 꼼꼼히 기입하여 품질 검사 결과와 처리 의견을 기록하다. (2) 보정은 편향 이미지를 보정하여 시각적으로 편향을 느끼지 않도록 해야 합니다. 방향이 잘못된 사진은 회전 복원을 해야 하며, 독서 습관에 부합해야 한다. (3) 이미지 품질에 영향을 미치는 검은색 점, 검은색 선, 검은색 프레임, 검은색 가장자리 등의 불순물을 제거합니다. 처리하는 동안 파일의 원본 정보를 손상시키지 않도록 주의해야 합니다. (4) 파일 디지털 이미지의 무결성을 보장하기 위해 여러 영역의 대형 파일 스캔에 의해 형성된 여러 이미지를 하나의 완전한 이미지로 결합해야 합니다. (5) 자르기 색상 모드에서 스캔한 이미지를 자르고 불필요한 흰색 가장자리를 제거하여 이미지 파일의 용량을 줄이고 저장 공간을 절약합니다. 위의 정류, 오염 제거, 정리 등의 처리는 모두 육안으로 수동으로 완성할 수 있다. 특별히 설계된 소프트웨어를 사용하여 미리 특정 설정을 하면 컴퓨터가 자동으로 처리됩니다. 컴퓨터 처리는 당연히 효율이 높지만, 수동 처리만큼 유연하지는 않다. 예를 들어, 얼룩의 크기가 너무 작게 디자인되면 컴퓨터는 자동으로 구두점을 얼룩으로 제거합니다. 따라서 스캔한 이미지 처리도 수동 및 자동 처리를 결합해야 합니다. 4. 이미지 저장소 (1) 저장 형식 흑백 바이너리 모드로 스캔한 이미지 파일은 일반적으로 TIFF(G4) 형식으로 저장됩니다. 회색 모드와 컬러 모드에서 스캔한 이미지 파일은 일반적으로 JPEG 형식으로 저장됩니다. 저장 시 압축비 선택은 스캔한 이미지의 가독성을 유지하면서 스토리지 용량을 최소화하는 것을 기준으로 해야 합니다. 웹 조회를 제공하는 스캔 이미지도 CEB, PDF 또는 기타 파일로 저장할 수 있습니다. (2) 이미지 파일의 명명된 디지털 파일 리소스는 파일 번호 또는 고유 식별자로 명명해야 합니다. 디지털 파일 자원이 파일 번호로 이름이 지정되고 볼륨별로 정렬된 경우 파일 번호 지정 규칙 (DA/T 13- 1994) 에 따라 파일 번호를 매겨야 하며 파일 클래스 코드를 클래스 번호의 하위로 추가하는 것이 좋습니다. 파일별로 정렬할 경우 파일 번호는 "전체 구획 번호-파일 범주 코드 연도-보관 기간-기관 (문제) 코드-파일 번호-품번기호" 구조를 채택할 수 있습니다. 5. 카탈로그 데이터베이스 구축 (1) 데이터 형식 선택 카탈로그 데이터베이스 구축 일반 데이터 형식을 선택해야 하며, 선택한 데이터 형식은 XML 문서를 통해 직접 또는 간접적으로 데이터를 교환할 수 있어야 합니다. 이 데이터베이스는 특수 파일 관리 시스템 또는 스캔 관리 소프트웨어를 통해 입력하거나 EXCEL 에서 특별히 설계된 아카이브 카탈로그 테이블을 통해 데이터를 파일 관리 시스템으로 가져올 수 있습니다. (2) "문서 기록 규칙" (DA/T 18- 1999) 의 요구 사항에 따라 파일 카탈로그 데이터베이스를 구축하고 파일 카탈로그 데이터를 입력합니다. (3) 카탈로그 데이터 품질 검사는 데이터의 정확성을 보장하기 위해 "독립 실행형 입력-수동 교정" 또는 "이중 입력-컴퓨터 자동 교정" 방법을 사용할 수 있습니다. 수동 교정이든 컴퓨터 교정이든, 설명 항목이 완전한지, 설명 내용이 규범적인지 확인해야 한다. 불합격한 데이터가 발견되면 수정하거나 다시 기록해야 한다. 6. 데이터 후크 (1) 요약 링크 파일 디지털화 변환 중 형성된 카탈로그 데이터베이스 및 이미지 파일, 품질 검사를 통과한 후 네트워크를 통해 적시에 데이터 서버에 로드하여 요약합니다. 카탈로그 데이터베이스 및 미러 파일은 느리고 오류가 발생하기 쉬운 수동 후크를 피하고 컴퓨터 자동 후크를 최대한 대량으로 사용합니다. 종이 파일의 파일 번호에 따라 스캔한 디지털 파일의 이름을 지정하면 훅 프로그램을 작성하거나 해당 소프트웨어를 사용하여 관련 디지털 이미지를 자동으로 검색하고 해당 전자 주소 정보를 추가하여 배치, 빠른 후크를 만들 수 있습니다. (2) 데이터 연관은 종이 파일 카탈로그 데이터베이스를 기반으로 하며 각 종이 파일에서 스캔한 하나 이상의 이미지를 이미지 파일로 저장합니다. 이미지 파일을 해당 폴더에 저장할 때 각 이미지 파일의 이름이 아카이브 카탈로그 데이터베이스의 파일 번호와 같은지, 이미지 파일의 페이지 수가 아카이브 카탈로그 데이터베이스의 페이지 수와 같은지, 이미지 파일의 총 수가 아카이브 카탈로그 데이터베이스의 페이지 수와 같은지 자세히 확인해야 합니다. 각 이미지 파일의 파일 이름을 아카이브 카탈로그 데이터베이스의 파일 번호와 일대일로 대응시켜 아카이브 카탈로그 데이터베이스와 이미지 파일의 자동 배치 연결을 위한 조건을 제공합니다. (3) 전송 등록은 종이 파일 디지털화 변환 프로세스 전송 등록을 꼼꼼히 기입하고, 데이터 연결 후의 페이지 수를 기록하고, 각 파일 연결 후의 페이지 수가 파일 정리 스캔 시 채워진 페이지 수와 일치하는지 확인합니다. 불일치가 있으면 구체적인 원인과 처리 방법을 명시해야 한다. 7. 데이터 수용은 카탈로그 데이터베이스, 이미지 파일 및 데이터 링크를 포함한 모든 샘플링 및 디지타이즈 데이터의 전체 품질을 검사합니다. 카탈로그 데이터베이스와 이미지 파일 간의 링크에 오류가 있거나 카탈로그 데이터베이스와 이미지 파일 중 하나가 불완전하거나, 명확하지 않거나, 오류가 있을 경우 현장 검사는 "불합격" 으로 표시됩니다. 디지털 변환 품질 샘플 합격률이 95% 이상 (95% 포함) 에 이르면 전체 파일은' 통과' 로 간주됩니다. 합격률 = 샘플링 검사를 통과한 문서 수/샘플링 검사를 통과한 총 문서 수 × 100% 입니다. 종이 파일 디지털 수락 등록 양식을 신중하게 작성하십시오. "통과" 검수의 결론은 반드시 심사 서명을 거쳐야 효력을 발휘할 수 있다. 8. 데이터 백업은 완전하며, 검증된 데이터는 제때에 백업해야 합니다. 데이터 보안을 위해 백업 캐리어의 선택은 다양해야 하며, 온라인 및 오프라인 결합을 통해 여러 개의 백업을 구현하고 원격 스토리지에 주의를 기울일 수 있습니다. 백업 데이터도 확인해야 합니다. 백업 데이터의 검사에는 주로 백업 데이터를 열 수 있는지 여부, 데이터 정보가 완전한지 여부, 파일 수가 정확한지 여부 등이 포함됩니다. 데이터를 백업한 후에는 쉽게 찾고 관리할 수 있도록 해당 백업 미디어에 레이블을 지정해야 합니다. 종이 문서 디지털 백업 관리 등록 양식을 작성합니다. 9. 디지털 결과 관리는 종이 파일 디지털 결과의 관리를 강화하여 보안, 무결성 및 장기 가용성을 보장해야 합니다. 종이 파일 디지털화 결과를 온라인 검색으로 이용할 수 있는 경우 제작 단위의 전자 로고를 사용해야 하며, 경우에 따라 다운로드 가능하거나 다운로드할 수 없는 데이터 형식을 채택해야 합니다.