rein’s world

프로그래머, 독서가, 게이머 그리고 블로거

Tag : 다국어


  • Windows Character Encoding: UCS2? UTF-16?- 2008-02-12:

    예전에 문자집합;character-set 과 인코딩에 관해서 일련의 포스팅을 했다(#1, #2, #3). 그런데 어제부터 Windows via C/C++ 이란 책을 읽고있는데, 내가 잘못 알고 있던 부분을 발견해서 이전 포스팅에 대한 정정 포스팅.
    Windows에서는 UCS-2 인코딩을 사용한다
    라고 했었는데 사실이 아닙니다.
    Windows는 2000과 그 이후의 버젼들에서 모두 UTF-16 기반으로 동작하며, 그 이전의 NT 커널들만 UCS-2 기반.

    여튼 그런 연유로 저 둘을 다시 부연 [...]

    (계속 읽기 »)


  • 다국어 지원의 난관 - 글꼴- 2007-12-31:

    다국어 지원을 하려면, 전에 몇 번 포스팅했던 것 처럼 몇 가지 요소가 갖춰져야 한다. 즉 표현할 문자 집합과 그에 대한 인코딩이 필요하다. 그렇지만 한 가지 요소가 더 필요하다. 바로 화면이나 인쇄물에서 표현되기 위한 "글꼴;font"가 그것이다.
    요즘처럼 Unicode 기반의 시스템이 많이 보급된 상황에서는 많은 언어의 문자들이 쉽사리 지원이 된다. 특히나 웹 상으로 전달되는 문서들의 경우 UTF-8 등 [...]

    (계속 읽기 »)


  • 사용중인 Live Writer 플러그인 버그- 2007-10-02:

    대략 한 달 넘게 Live Writer로 글을 쓰다보니, 워드프레스에 있는 코드 입력 플러그인을 쓰지 않게 되었다. 그래서 Live Writer 용 플러그인을 좀 찾아봤는데, C++까지 지원되는 Syntax Highlighter라는 걸 발견했다. 그러나 링크를 하지 않는 이유가 있다(…).
    ASCII 범위를 벗어나는 (latin1은 다되는지 모르겠지만 별로 테스트할 의욕이) 문자를 입력하면 캡쳐된 화면처럼 깨진 문자가 표시되고, 입력을 계속하고 있으면 깨진 문자가 [...]

    (계속 읽기 »)


  • 다국어 프로그래밍에서 흔히 범하는 실수- 2007-09-29:

    특히나 영/미권에서 제작된 프로그램에서 자주 보이는 실수인데 - 그렇다고 다국어 프로그래밍을 좀 해야되는 한국의 프로그래머들이 범하지 않는 것도 아니다 - ASCII나  Latin1 인코딩이 아닌 이상 글자 수 ≠ 바이트 수 라는 것.
    캡쳐된 화면은 WordPress.com 에서 제공해주는 통계 기능 중 일부인데, 마지막 행의 title 항목을 보면 좀 이상한 것을 찾아 볼 수 있다.
    Title 항목의 경우 [...]

    (계속 읽기 »)


  • 인코딩과 문자집합: C/C++- 2007-09-12:

    이전에 다뤘던 내용들에 이어서, 이번엔 C/C++에서 이런 것들을 어떻게 다루고 있는지 얘기해보려한다. 모든 문자집합/인코딩 들을 다루려면 길어질테니 크게 세 가지만 가지고 얘기해보겠다.

    euc-kr을 사용한 문자열
    Unicode를 사용하고 UTF-8 인코딩을 사용한 경우
    Unicode BMP를 사용하고 UCS2를 사용한 경우

    1, 2는 데이터를 저장하기 위해 보통 char를 사용하고, 3은 wchar_t를 쓴다. (이 이하는 그렇게 가정하고 진행)
    문자열을 다룬다는 행동은 어떤 것들일까? 일단 데이터 [...]

    (계속 읽기 »)


  • 인코딩과 문자집합: Unicode- 2007-09-12:

    이전 포스팅에서 인코딩과 문자집합; encoding and charset 그리고 그 자체를 저장하기 위한 데이터 형에 대해서 간략히 설명했었는데, 실제로 구현된 예를 들어보도록 하겠음
    앞에서도 말했듯이,
    특정 언어가 갖는 문자들을 숫자값들로 변환하는게 문자집합; charset의 개념
    캐릭터의 숫자값들을 비트 패턴으로 저장할 수 있게 해주는게 인코딩
    그리고 인코딩된 비트들을 저장하는게 기반 데이터 타입 (C/C++의 char 혹은 wchar_t)
    로 되어 있다.
    지구 상에 존재하는 언어가 몇 [...]

    (계속 읽기 »)


  • RAF 발음(?) 알파벳- 2007-09-11:

    밑에 쓴 라디오 알파벳 글의 고어핀드 군 댓글을 읽다가 어떤 방식이 Able company, Easy company 같은게 나오는 발음 알파벳을 사용했을 까 알아보게 되었음. 찾아보니 RAF 발음 알파벳; RAF phonetic alphabet 이란게 있더군.
    대영제국 왕실 공군; United Kingdom Royal Air Force; RAF 의 무선 통신에서 사용되었던 방법이라는데, 1924~42 / 1942~43 / 1943~56 / 1956 이후 이렇게 기간을 [...]

    (계속 읽기 »)