Tag : 다국어
-
WinZip 의 Unicode 지원 시작- 2008-05-14:
미카엘 카플란 의 블로그에서 WinZip이 Unicode를 지원하기 시작–할 예정(?) — 한다는 포스팅을 읽었다.
흔한 현존하는 압축 파일 포맷 중 가장 흔한 것은 .zip, .rar, .gz, .bz2, .7z 정도이다. 이 중에서 .bz2와 .gz 는 단일 파일을 압축하기 위한 것이라 다국어 지원을 좀 빼고 생각하면 , archiving 기능이 있는 .zip, .rar, .7z 중에 공식적으로 Unicode 를 지원하는 것은 [...]
Windows Character Encoding: UCS2? UTF-16?- 2008-02-12:
예전에 문자집합;character-set 과 인코딩에 관해서 일련의 포스팅을 했다(#1, #2, #3). 그런데 어제부터 Windows via C/C++ 이란 책을 읽고있는데, 내가 잘못 알고 있던 부분을 발견해서 이전 포스팅에 대한 정정 포스팅.
Windows에서는 UCS-2 인코딩을 사용한다
라고 했었는데 사실이 아닙니다.
Windows는 2000과 그 이후의 버젼들에서 모두 UTF-16 기반으로 동작하며, 그 이전의 NT 커널들만 UCS-2 기반.
여튼 그런 연유로 저 둘을 다시 부연 [...]
다국어 지원의 난관 - 글꼴- 2007-12-31:
다국어 지원을 하려면, 전에 몇 번 포스팅했던 것 처럼 몇 가지 요소가 갖춰져야 한다. 즉 표현할 문자 집합과 그에 대한 인코딩이 필요하다. 그렇지만 한 가지 요소가 더 필요하다. 바로 화면이나 인쇄물에서 표현되기 위한 "글꼴;font"가 그것이다.
요즘처럼 Unicode 기반의 시스템이 많이 보급된 상황에서는 많은 언어의 문자들이 쉽사리 지원이 된다. 특히나 웹 상으로 전달되는 문서들의 경우 UTF-8 등 [...]
사용중인 Live Writer 플러그인 버그- 2007-10-02:
대략 한 달 넘게 Live Writer로 글을 쓰다보니, 워드프레스에 있는 코드 입력 플러그인을 쓰지 않게 되었다. 그래서 Live Writer 용 플러그인을 좀 찾아봤는데, C++까지 지원되는 Syntax Highlighter라는 걸 발견했다. 그러나 링크를 하지 않는 이유가 있다(…).
ASCII 범위를 벗어나는 (latin1은 다되는지 모르겠지만 별로 테스트할 의욕이) 문자를 입력하면 캡쳐된 화면처럼 깨진 문자가 표시되고, 입력을 계속하고 있으면 깨진 문자가 [...]
다국어 프로그래밍에서 흔히 범하는 실수- 2007-09-29:
특히나 영/미권에서 제작된 프로그램에서 자주 보이는 실수인데 - 그렇다고 다국어 프로그래밍을 좀 해야되는 한국의 프로그래머들이 범하지 않는 것도 아니다 - ASCII나 Latin1 인코딩이 아닌 이상 글자 수 ≠ 바이트 수 라는 것.
캡쳐된 화면은 WordPress.com 에서 제공해주는 통계 기능 중 일부인데, 마지막 행의 title 항목을 보면 좀 이상한 것을 찾아 볼 수 있다.
Title 항목의 경우 [...]
인코딩과 문자집합: C/C++- 2007-09-12:
이전에 다뤘던 내용들에 이어서, 이번엔 C/C++에서 이런 것들을 어떻게 다루고 있는지 얘기해보려한다. 모든 문자집합/인코딩 들을 다루려면 길어질테니 크게 세 가지만 가지고 얘기해보겠다.
euc-kr을 사용한 문자열
Unicode를 사용하고 UTF-8 인코딩을 사용한 경우
Unicode BMP를 사용하고 UCS2를 사용한 경우
1, 2는 데이터를 저장하기 위해 보통 char를 사용하고, 3은 wchar_t를 쓴다. (이 이하는 그렇게 가정하고 진행)
문자열을 다룬다는 행동은 어떤 것들일까? 일단 데이터 [...]
인코딩과 문자집합: Unicode- 2007-09-12:
이전 포스팅에서 인코딩과 문자집합; encoding and charset 그리고 그 자체를 저장하기 위한 데이터 형에 대해서 간략히 설명했었는데, 실제로 구현된 예를 들어보도록 하겠음
앞에서도 말했듯이,
특정 언어가 갖는 문자들을 숫자값들로 변환하는게 문자집합; charset의 개념
캐릭터의 숫자값들을 비트 패턴으로 저장할 수 있게 해주는게 인코딩
그리고 인코딩된 비트들을 저장하는게 기반 데이터 타입 (C/C++의 char 혹은 wchar_t)
로 되어 있다.
지구 상에 존재하는 언어가 몇 [...]
RAF 발음(?) 알파벳- 2007-09-11:
밑에 쓴 라디오 알파벳 글의 고어핀드 군 댓글을 읽다가 어떤 방식이 Able company, Easy company 같은게 나오는 발음 알파벳을 사용했을 까 알아보게 되었음. 찾아보니 RAF 발음 알파벳; RAF phonetic alphabet 이란게 있더군.
대영제국 왕실 공군; United Kingdom Royal Air Force; RAF 의 무선 통신에서 사용되었던 방법이라는데, 1924~42 / 1942~43 / 1943~56 / 1956 이후 이렇게 기간을 [...]
