현재 위치 - 법률 상담 무료 플랫폼 - 특허 조회 - 중국 컴퓨터 응용 기본 사항: 한자 및 문자 코딩
중국 컴퓨터 응용 기본 사항: 한자 및 문자 코딩
중국 컴퓨터 응용 기본 사항: 한자 및 문자 코딩

(1) 컴퓨터의 정보 단위

단위 비트, 단어, 문자 길이, 바이트 등. , 이것은 컴퓨터의 정보 크기를 나타내는 기본 개념입니다.

① 비트: 컴퓨터에서 데이터 저장소의 최소 단위는 바이너리, 영어 약어는 비트, bit 로 음역되며 소문자 b 로 표시할 수 있다 .....

② 바이트: 8 자리 이진수를 바이트라고 하며, 영어에서는 대문자 B 로 표시할 수 있으며, 컴퓨터 스토리지의 기본 단위입니다. 8 자리 이진수의 1 바이트로 왼쪽에서 오른쪽으로 B7, B6, b5, B4, B3, B2, b 1, B0 을 차례로 사용합니다. 컴퓨터에서 스토리지 용량은 종종 바이트 수로 표시되며, KB, MB, GB, TB 로 표시할 수 있습니다. 이들 사이의 변환 관계는 다음과 같습니다.

1kb = 210b =1024b

1MB = 210kb =1024kb

1GB = 210mb =1024mb

1TB = 210gb =1024gb

③ 문자: 컴퓨터가 저장, 전송 또는 작동 시 전체 단위로 작동하는 이진 코드 세트로, 컴퓨터 문자라고 합니다.

④ 단어 길이: 각 단어에 포함 된 자릿수를 단어 길이라고합니다. 문자 길이는 컴퓨터가 한 번에 처리할 수 있는 이진 자릿수이기 때문에 컴퓨터의 데이터 처리 속도와 관련이 있으며 컴퓨터 성능을 측정하는 중요한 요소입니다.

(2) 문자의 인코딩.

① ASCII 코드.

컴퓨터는 이진수만 인식할 수 있으므로 컴퓨터의 숫자, 문자 및 기호도 이진수로 인코딩해야 합니다. 코딩 방법에는 여러 가지가 있습니다. ASCII 코드 (미국 정보 교환 표준 코드) 는 마이크로컴퓨터에 널리 사용됩니다. ASCII 코드는 ISO (International Organization for Standardization) 에서 ISO-646 이라는 국제 표준으로 받아들여졌습니다. ASCII 코드에는 7 비트 버전과 8 비트 버전, 7 비트 버전은 국제적으로 통용되는 ASCII 코드의 두 가지 유형이 있습니다. 7 비트 버전의 ASCII 에는 10 아라비아 숫자, 52 자의 영문 대/소문자, 32 자의 구두점 및 연산자, 34 개의 조정 코드, * *128 자가 포함되어 있으므로 7 비트 이진수로 표시할 수 있습니다. 7 비트 ASCII 코드 문자는 다음 그림과 같습니다.

숫자, 문자, 기호 또는 제어 문자의 ASCII 코드를 결정하려면 먼저 테이블에서 해당 위치를 찾은 다음 해당 10 진수 또는 이진 값을 결정할 수 있습니다. 예를 들어 소문자 "a" 를 사용하는 ASCII 코드의 10 진수 값은 97 이고 이진 값은 1 1000 1b (b 는 이진수를 나타냄) 입니다 표에서 볼 수 있듯이 숫자 0 ~ 9 의 ASCII 코드는 30H~39H (접미사 h 는 16 진수를 나타냄), 대문자 A ~ Z 의 ASCII 코드는 4 1h ~ 5ah, 소문자 A ~ Z 의 ASCII 코드는 문자 크기의 비교는 ASCII 코드 값의 크기를 보는 것입니다.

표에서 NUL, 벨기에, 프랑스, 프랑스, 체코, 독일 등이 있습니다. 제어 문자, NUL 은 공백, BEL 은 경고, BS 는 백스페이스, LF 는 줄 바꿈, FF 는 페이지 변경, CR 은 캐리지 리턴, SP 는 공백, DEL 은 삭제를 나타냅니다.

② BCD 코드.

컴퓨터가 숫자를 처리할 때 이진과 십진수 사이의 변환이 필요합니다. 즉, 십진수를 이진으로 인코딩하고 BCD (이진 인코딩 십진수) 코드는 이진으로 인코딩된 십진수입니다. 가장 일반적으로 사용되는 BCD 코드는 842 1BCD 코드입니다.

4 비트 이진수를 그룹으로 하여 10 진수를 나타냅니다. 왼쪽에서 오른쪽으로 4 자리 이진수의 가중치는 각각 8, 4, 2, 1 이며 16 가지 상태로 결합할 수 있습니다. 이들 10 의 숫자는 0 에서 9 까지의 인코딩으로 0000 ~ 10065438 만 있으면 됩니다. 여러 자리 10 진수를 인코딩하려면 10 진수만큼 많은 4 비트 이진 그룹이 있어야 하며 순차적으로 인코딩해야 합니다. 표 1-4 는 842 1BCD 코드와 십진수 간의 대응 관계를 보여줍니다.

표 1-4 BCD 코드와 십진수의 대응

③ 유니코드 인코딩

ASCII 코드는 128 자를 제공하고 확장된 ASC 코드는 256 자를 제공합니다. 그러나 세계 각국의 문자 인코딩이 충분하지 않고 더 많은 문자와 의미가 필요하다는 뜻으로 유니코드 인코딩이 다시 나타났다.

유니코드는 16 비트 인코딩으로 65,000 자 이상의 문자나 기호를 나타낼 수 있습니다. 현재 전 세계 여러 언어에 사용되는 글자 또는 기호는 약 34,000 개이므로 유니코드 인코딩을 모든 언어에 사용할 수 있습니다. 유니코드 인코딩은 인기 있는 ASCII 코드와 완벽하게 호환되며 두 코드의 처음 256 개 기호는 동일합니다.

(3) 한자 인코딩

한자는 상형문자로, 글자 수가 많고 (현대 한자는 자주 쓰는 글자는 6,700 개, 총 글자 수는 5 만여 개), 글씨체는 복잡하다. 각 한자에는' 소리, 모양, 의미' 라는 세 가지 요소가 있고, 동음어와 이체자가 많이 있어 한자의 컴퓨터 처리에 큰 어려움을 가져온다. 컴퓨터에서 한자를 처리하려면 먼저 한자의 입력, 즉 구조가 복잡한 덩어리 한자를 컴퓨터에 입력하는 방법이 한자 처리의 관건이라는 몇 가지 문제를 해결해야 한다. 둘째, 컴퓨터에 한자를 표시하고 저장하는 방법, 서양어와 호환되는 방법 마지막으로, 컴퓨터에서 한자 처리 결과를 출력하는 방법. 그래서 한자는 인코딩해야 합니다.

한자를 인코딩하는 것입니다. 위 한자 처리 중 입력, 내부 처리 및 출력의 세 가지 주요 부분에 해당하며 각 한자의 인코딩에는 입력 코드, 교환 코드, 내부 코드 및 글리프 코드가 포함됩니다. 컴퓨터 한자 정보 처리 시스템에서 한자를 처리할 때 다음과 같은 코드 변환이 필요하다. 입력 코드 → 교환 코드 → 내부 코드 → 글리프 코드. 이상은 한자 컴퓨터 처리의 기본 사상과 과정을 간략하게 설명하고, 다음은 한자의 네 가지 코드를 상세히 소개한다.

① 입력 코드.

컴퓨터에 기존의 표준 서양식 키보드를 사용하여 한자를 입력하려면 한자 입력 코드를 설계해야 한다. 입력 코드는 외부 코드라고도 합니다. 현재 특허 출원 중인 한자 입력 인코딩 방안은 6,700 종에 달하며, 새로운 입력기 출시가 끊이지 않아' 만 야드 펜티엄' 으로 불린다. 디자인 아이디어에 따라 이러한 많은 입력 코드는 숫자 코드, 병음 코드, 글리프 코드 및 음코드의 네 가지 범주로 나눌 수 있습니다. 그중 병음 코드와 글리프 코드는 현재 가장 널리 사용되고 있다.

A. 디지털 인코딩: 디지털 인코딩은 길이가 같습니다.

숫자 문자열은 위치 코드, 전기 XX 등과 같은 한자의 입력 코드로 한자에 하나씩 번호를 매깁니다. 이 인코딩의 인코딩 규칙은 간단하고 한자의 내부 코드와 쉽게 변환할 수 있지만 기억하기 어렵고 특정 부서에만 적용됩니다.

B. 병음 코드: 병음 코드는 한자 발음을 기반으로 한 입력 코드입니다. 병음 코드는 사용이 간단하고 배우기 쉽고 보급하기 쉽다. 단점은 반복률이 높다는 점이다 (한자동음자가 많기 때문). 입력시 화면 선택이 자주 필요해 입력 속도에 영향을 미친다. 병음 코드는 한어병음 코드에 따라 입력되므로 한자를 입력할 때 발음 기준이 필요하며 방언을 사용할 수 없습니다. 병음 코드는 입력 속도 요구 사항이 그다지 높지 않은 비전문가 입문자에게 특히 적합합니다.

C 자형 코드: 글리프 코드는 한자의 글리프 구조에 따라 입력된 인코딩입니다. 마이크로컴퓨터에서 널리 사용되는 오필폰트 코드 (왕코드) 가 폰트 코드의 전형적인 대표다. 오비 코드의 주요 특징은 입력 속도가 빠르다는 것이다. 현재 최고 기록은 분당 293 자 (이 기록은 여군 XXXX 가 유지함) 로 높은 입력 속도가 이미 달성됐다.

인간의 눈 스캔의 한계. 하지만 이런 종류의 입력기 때문에 뿌리를 기억 하 고 맞춤법을 연습 해야 합니다, 그래서 그것은 초기 단계에서 많은 시간이 걸립니다. 또 분할하기 어려운 한자는 드물고, 주어진 코드도 한자의 쓰기 습관에 맞지 않는다.

D. 음코드: 음코드는 한자 발음과 서체를 고려한 입력 코드입니다. 현재 널리 사용되고 있는 음코드는 자연코드입니다.

② 코드 교환.

교환코드는 한자 외코드와 내코드 교환에 쓰인다. 우리나라가 1988 년 반포한' 정보교환용 한자 인코딩 문자 세트 기본집' (코드명 GB 23 12- 1980) 은 교환코드의 국가표준이므로 교환코드도 국가코드라고 합니다 국가 표준 코드는 2 바이트 코드입니다. 즉, 한자 코드에는 2 바이트가 있으며 각 바이트의 가장 높은 비트는 "1" 입니다. 국가 표준 GB2312-1980 에는 6763 개의 상용한자 (그 중 1 급 한자 3755 개, 병음 순서로 정렬) 가 포함되어 있습니다. 부수순으로 3008 개의 보조 한자, 기타 글자 및 그래픽 기호 (예: 일련 번호, 숫자, 로마 숫자, 영문자, 일본어 가나, 러시아어 문자) 가 있습니다

한어병음 등. ), 총 7445 자. 이 7445 자는 94 행 ×94 열로 배열되어 GB2312-1980 문자 세트 인코딩 테이블을 형성합니다. 표의 각 한자는 지역 번호라는 고유한 행 번호와 위치 코드라는 열 번호에 해당합니다. 한자의 국가 코드 값은 위치 번호에 따라 결정되며 각각 2 바이트로 저장됩니다. 편폭의 제한으로 인해 이 책에는 GB 23 12- 1980 문자 인코딩 표가 나와 있지 않습니다. 독자는 관련 서적을 참고할 수 있다.

③ 내부 코드.

내부 코드는 컴퓨터에서 한자의 기본 표현으로, 컴퓨터가 한자를 식별, 저장, 처리 및 전송하는 데 사용하는 코드입니다. 내부 코드도 2 바이트 코드입니다. 국가 표준 코드의 2 바이트 최고비트는 "1" 으로 설정됩니다. 즉 한자로 변환된 내부 코드입니다. 컴퓨터 정보 처리 시스템은 문자 코드의 가장 높은 비트가 "1" 인지 "0" 인지에 따라 한자와 ASCII 문자를 구분합니다.

④ 글꼴 코드.

글꼴 코드는 한자의 글꼴 정보 (구조, 모양, 획 등) 를 나타내는 코드입니다. ), 이것은

컴퓨터로 한자 출력 (표시 및 인쇄) 을 실현하다. 한자는 정사각형이기 때문에 가장 일반적으로 사용되는 코드는 16× 16 도트 매트릭스, 24×24 도트 매트릭스, 48×48 도트 포인트를 포함한 도트 매트릭스입니다. 예를 들어 16× 16 래스터는 256 개의 점 (16× 16=256) 이 있다는 것을 의미합니다 따라서 16× 16 한자를 저장하려면 256 개의 이진수와 ***32 바이트 (256 비트 /8 비트) 가 필요합니다. 위의 격자는 한자 출력의 다양한 요구에 따라 선택할 수 있다. 포인트 수가 많을수록 출력한 한자가 더 정확하고 아름답다. 한자의 서체 격자는 많은 저장 공간을 차지하며, 일반적으로 서체로 기계의 외적 메모리에 저장되어 있으며, 필요할 때 서체를 검색하여 해당 한자 글꼴을 출력한다. (윌리엄 셰익스피어, 자서체, 자서체, 자서체, 자서체, 자서체)

을 눌러 섹션을 인쇄할 수도 있습니다