Khi làm việc với văn bản, chúng ta thường thấy nhắc đến các thuật ngữ như: “fonts (phông)” và “bảng mã”. Để soạn hay đọc được một văn bản hoàn chỉnh thì “font” và “bảng mã” phải được kết hợp với nhau một cách đúng đắn. Nếu không, sẽ xảy ra hiện tượng mà chũng ta vẫn gọi là “lỗi phỗng”. Hy vọng bài này, tuy chỉ là những ý kiến riêng của mình cũng sẽ giúp mọi người hình dung ra phần nào sự liên quan của phông chữ và bảng mã.
1. Phông chữ (fonts):
Đây là thuật ngữ mà người dung tiếp xúc nhiều nhất. Vì trong điều kiện hiện nay, bảng mã và kiểu gõ thường được cài đặt mặc định (có thể hiểu là cài đặt sẵn và như nhau ở các máy) nên người dung ít chú ý và chỉ việc chọn fonts sao cho phù hợp với thẩm mỹ của mình. Và thực tế, khi đã in ra giấy rồi, thì văn bản chỉ khác nhau về fonts và các định dạng đi kèm (in đậm, in nghiêng, màu chữ, cỡ chữ…).
Trước tiên, ta tìm hiểu khái niệm về kí tự. Kí tự là đơn vị cơ sở của văn bản. Nó bao gồm các chữ cái, chữ số, kí hiệu toán học, âm nhạc, chữ tượng hình… Ngay cả “dấu ngắt dòng” (enter) và “dấu cách” (space) – cái mà ta không nhìn thấy cũng là một kí tự, do vậy, khi soạn tin nhắn đến tổng đài dịch vụ (như: 9119, 8530…) thì việc có hay không có dấu cách là rất quan trọng như khi ta viết sai các kí tự khác bất kì. Như vậy, các chữ cái là đơn vị tạo nên một từ, các từ ngăn cách với nhau bằng “dấu cách” và cả văn bản là một chuỗi các kí tự xếp liến nahu. Các kí tự được phân chia thành các nhóm kí tự theo các chủ đề như: Basic Latin (Latin cơ bản), IPA Extension (ngữ âm mở rộng), Greek and Coptic (Hy Lạp và Ai Cập), Arabic (Ả Rập), Arrows (kí tự chỉ hướng, mũi tên)…
Mỗi kí tự trong một font được đặc trưng bởi hai yếu tố: hình ảnh của kí tự (trông nó ra sao?) và địa chỉ vị trí của nó (nó nằm ở đâu?).
Hình ảnh của kí tự:
Fonts là một tập hợp các hình ảnh của các kí tự. Các hình ảnh này được, lưu trữ, gói gọn vào một file cụ thể. File mà chúng ta thường dùng có định dạng *.ttf. Mỗi một font chỉ có một file tương ứng để lưu trữ nó mà thôi. Ví dụ, font Times New Roman bình thường được cất ở file TIMES.TTF. Do đó, đôi khi người ta thường dung khái niệm “font” và “file font” để chỉ cùng một đối tượng, một vấn đề.
Mỗi kí tự mà chúng ta đang đọc được ở đây đều được lấy từ file fonts (mà người đánh máy đang chọn) ra và có những hình ảnh riêng biệt như khuôn mặt của mỗi người vậy. Nghĩa là, kí tự “A” chẳng hạn, được “vẽ” trong file font thế nào thì sẽ hiển thị ra văn bản y như thế (về độ lớn, màu sắc… thì không phụ thuộc vào font mà do người dung điều chỉnh). Hình ảnh của từng kí tự được dựng sẵn từ trước (có các cách dựng khác nhau mà chúng ta chưa cần phải biết cho rắc rối). Chữ “a” và “A” có hình ảnh riêng. Chữ “Ắ” cũng có hình ảnh riêng chứ không phải được ghép từ “Ă” và dấu sắc (chúng ta không xét đến Unicode tổ hợp). Có thể thấy, việc “dựng hình” cho một font chữ là công việc rất công phu, tỉ mỉ.
Các kí tự trong cùng một font sẽ có cùng một phong cách giống nhau tùy theo ý đồ của nhà thiết kế cũng như các chữ do cùng một người viết ra vậy. Ví dụ, font chữ “Arial” trông có vẻ vuông vắn và sắc cạnh hơn font “Curlz MT” hay “Times New Roman”. Đây chính là yếu tố hấp dẫn người dùng vào viẹc chọn font này hay font kia.
Mỗi font có thể hơn kém font khác ít nhiều các kí tự đặc biệt, ít dung, còn các kí tự chữ, số cơ bản, hay dung thì font nào cũng phải có. Cá biệt có một số fonts như “Webdings” chỉ chứa toàn các kí tự biểu tượng, hình vẽ… Các font chữ tượng hình (như font chữ Hán SimSun, SimHei…) có số lượng kí tự rất đồ sộ, bao gồm các kí tự Latin thông thường, chữ phồn thể, giản thể…mặt khác kí tượng hình lại có số nét phức tạp hơn hẳn các kí tự Latin nên file font của nó có dung lượng lớn, khoảng 10 MB, những font chỉ có chữ giản thể hoặc chỉ có chữ phồn thể thì dung lượng chỉ bằng một nửa (khoảng 4 – 6 MB). Còn các font Latin chúng ta hay dung như Times New Roman chỉ vào khoảng vài trăm KB.
Vị trí của kí tự:
Trong một font, các kí tự ngoài việc có một hình ảnh riêng còn nhất thiết phải có một vị trí riêng. Mỗi vị trí đó được đánh dấu bằng một địa chỉ riêng biệt. Ngay cả “dấu cách” là cái mà chúng ta không nhìn thấy cũng là một kí tự như các kí tự khác, vị trí của nó luôn là 32 (hệ thập phân) hay 0020 (hệ số 16 – hex). Các font có cách “đặt phòng” như nhau cho các kí tự thì chũng thuộc cùng một họ hay nói cách khác là chúng dung chung một bảng mã.
Cài đặt fonts:
Các chương trình soạn thảo văn bản (như MS word, notepad…) chỉ thấy được một font khi file font đó (hoặc shortcut của nó) đang có mặt trong thư mục C:\windows\fonts. Nếu máy tình của bạn thiếu font nào thì bạn phải copy file đó vào thư mục trên. Nếu để nó ở USB hay thư mục nào khác thì coi như font đó chưa được cài.
2. Bảng mã (Character set):
Có thể bạn không biết “bảng mã” là gì, nhưng lại biết những thuật ngữ cụ thể hơn như Unicode, TCVN hay VNI… Đó chính là những bảng mã khác nhau. Ngày nay chúng ta thường dung bảng mã Unicode vì nó phổ biến và tương thích rộng rãi, sẵn có và không cần cài đặt.
Khái niệm:
Bảng mã là một quy tắc sắp xếp vị trí tương đối của các kí tự trong font chứ. Hya nói cách khác, bảng mã là một quy tắc sắp xếp các kí tự trong font chứ một cách có thứ tự, kí tự nào đứng trước, kí tự nào tiếp sau. Cách sắp xếp đó thống nhất với nhau trong các font cùng một họ. Nghĩa là, các chữ ví dụ như “ă” “đ” “Ê”… tại mỗi font có thể có hình ảnh khác nhau (theo thiết kế của người làm font) nhưng địa chỉ thì dù ở font nào cũng như nhau. Do đó, khi ta bôi đen một đoạn văn bản và chọn font khác cho nó (trong cùng một họ) thì kiểu chữ của đoạn đó sẽ thay đổi nhưng nội dung thì vẫn vậy, tiếng Việt vẫn là tiếng Việt, tiếng Nga vẫn là tiếng Nga. Nếu nội dung không còn như trước, thường biến thành những kí tự lạ lung thì có nghĩa là bạn đã chọn nhầm font thuộc họ khác (lỗi font).
Như vậy, bảng mã chỉ là một quy ước mà một nhóm người hoặc cả thế giới đặt ra với nhau về vị trí của các kí tự trong font chữ. Khi bắt đầu làm một font chữ, ta phải dựng được hình ảnh cho mỗi kí tự. Khi đã có hình ảnh của mỗi kí tự rồi, ta sẽ quyết định xem sắp xếp chúng ra sao, cái nào đứng trước cái nào. Đó chính là việc lựa chọn bảng mã cho font. Các font có cùng một cách sắp xếp các kí tự thì được xếp chung vào một họ.
Một số bảng mã hay gặp như:
- Unicodecó các fonts như: Times New Roman, Times, Arial, Tahoma, SimSun, SimHei…
- TCVN3 (hay còn gọi là ABC): các font này thườn có tên bắt đầu bằng .VN như: .VnTime, .VnTimeH, .VnArial, .Vn3D…
- VNI windows: các font này thườn có tên bắt đầu bằng VNI như: VNI Cambodia, VNI-Allegie…
Cần phải phân biệt rõ font và bang mã. Ví dụ, khi nói: “bảng mã TCVN3” có nghĩa là một kiểu bó trí các kí tự theo cách nào đó và nó mang tên TCVN3. Còn khi nói: “font TCVN3” hay “font ABC” có nghĩa là các fonts chữ nói chung mà các kí tự trong nó bố trí theo kiểu của TCVN3.
3. Sơ lược về một vài bảng mã:
ASCII:
Là bảng mã kinh điển trong các thiết bị số. Bảng mã này chỉ mã hóa 2^7 = 128 kí tự, gồm những chữ cái tiếng Anh HOA và thường, số cùng những kí hiệu cơ bản nhất.
Các bảng mã ra đời sau đều mở rộng từ bảng mã này, các kí tự mới (như tiếng Việt có dấu v.v.) được bổ sung vào và đảm bảo tôn trọng vị trí của các kí tự ASCII. Nói cách khác, các bảng mã tuy có khác nhau ở chỗ này hay chỗ khác thì vị trí "thiêng liêng" của 128 kí tự ASCII trong chúng đều như nhau. Như vậy, fonts nào cũng dùng được bảng mã ASCII, hiện tượng "lỗi fonts" cũng miễn trừ các kí tự ASCII.
TCVN3:
Đây là bảng mã sử dụng 1 byte (8 bít) để lưu vị trí của kí tự. Như vậy, TCVN3 chỉ lưu được 2^8 = 256 kí tự. Fonrts TCVN3 vì thế cũng là fonts 1 byte, chứa được 256 kí tự/fonts. Số lượng 256 kí tự không đủ để hiển thị hết các kí tự tiếng Việt. Do đó, các kí tự in HOA được chứa riêng trong các fonts có tận cùng là H như VntimesH. Khi muốn đánh các nguyên âm in hoa có dâu như: "Ấ", "Ế", "Ừ"... bắt buộc phải đổi sang những fonts này.
Trước đây, fonts hỗ trợ TCVN3 thường đi kèm với bộ gõ tiếng Việt ABC "vang bóng một thời" của Quách Tuấn Ngọc nên người ta còn quen gọi là bộ fonts ABC.
Những fonts TCVN3 chỉ được sử dụng chủ yếu ở miền Bắc cho đến khi Unicode trở thành chuẩn chung.
VNI windows:
Bảng mã và bộ fonts VNI windows sử dụng 2 bytes (16 bits) nên mã hóa được đến 2^16 = 65.536 kí tự. Vì thế, tất cả chữ Hoa và chữ thường đều nằm gọn trong một fonts. Những người quen sử dụng VNI windows có thể rất lấy làm lạ về việc phải chuyển sang fonts Vn...H khi muốn gõ chữ HOA ở fonts TCVN3.
VNI windows chỉ được sử dụng chủ yếu ở miền Nam cho đến khi Unicode trở thành chuẩn chung.
Unicode:
Đây là tiêu chuẩn được sử dụng phổ biến ở Việt Nam và rộng rãi trên thế giới hiện nay. Bảng mã này có không gian quy ước rất lớn: 2^20 + 2^16 = 1.114.112, đến nỗi mà tất cả các kí tự ngôn ngữ trên thế giói, các kí tự toán học, kí tự âm nhạc… mà trong bảng mã, những chỗ còn lại tạm thời để trống.
Font chữ Unicode rất đa dạng, tùy theo nhu cầu sử dụng của mỗi ngôn ngữ (hay quốc gia) mà một font New Roman chứa đựng hầu hết các kí tự Latin cơ bản trong đó có tiếng Việt, Anh, Pháp…thậm chí cả phiên âm tiếng Tàu. Do số chữ tượng hình rất lớn nên chúng được chuyển sang một font khác như SimSun chẳng hạn. Các font này vẫn đảm bảo những kí tự Latin cơ bản nhất và dĩ nhiên cả phiên am tiếng Tàu nữa.
Cũng như lãnh thổ của mỗi quốc gia trên bản đò, mỗi nhóm kí tự có một vùng riêng trong không gian trong Unicode. Một font Unicode có thể có hay không một nhóm kí tự nào đó. Khi không có mặt một nhóm kí tự nào đó (ví dụ: nhóm chữ Phổn thể) thìvị trí của nhóm này được để trông và tôn trọng. Cách sắp xếp này dĩ nhiên đã được thống nhất từ trước và đảm bảo cho các kí tự mới ra đời không chồng chéo lên các kí tự cũ.
Tóm lại, bảng mã chỉ là một quy ước, không tồn tại một file cụ thể như fonts. Từ gốc của nó là: Character set. Character = kí tự. Set = bố trí. Vậy dịch sát nghĩa là “bố trí kí tự”. Tuy nhiên, thuật ngữ: “bảng mã” cũng không sai về mặt mô tả và đã quá quen thuộc rồi.
4. Lựa chọn bảng mã khi soạn thảo văn bản:
Để gõ được văn bản tiếng Việt có dấu thì người đánh máy trước tiên phải lựa chọn một bảng mã, sau đó chọn một font thuộc họ của bảng mã đó.
Lựa chọn bảng mã:
Sau khi cài đặt, Uniley (phân mềm gõ tiếng Việt phổ biến nhất hiện nay) đã mặc định chọn sẵn bảng mã Unicode cho người sử dụng. Bạn nên dùng luôn bảng mã Unicode để gõ văn bản vfi nó là lựa chọn chung của Việt Nam cũng như thế giới hiện nay. Khi sử dụng Unicode, file văn bản của bạn dù mang đi đâu hay đưa lên internet cũng sẽ đọc được ở trên khắp thế giới mà không cần cài thêm font khác.
Trong vài năm trở lại đây, các thiết bị di động đều sử dụng chuẩn Unicode. Có những thiết bị đọc được tin nhắn hay trang web bằng tiếng Việt có dấu nhưng lại không cho phép gõ tiếng Việt. Đó là vì nhà sản xuất không tích hợp bộ gõ tiếng Việt sẵn trong thiết bị. Bạn có thể tìm và cài đặt phần mềm gõ tiếng Việt từ bên ngoài nếu nó tương thích với hệ điều hành.
Trước khi Unicode trở nên phổ biến ở Việt Nam (gần như tương đương với thời kì windows XP chưa phổ biến ở Việt Nam) người ta vẫn sử dụng bảng mã TCVN hay VNI windows và ngày nay một số người vẫn giữ thói quen này.
Lựa chọn fonts:
Khi đã quyết định sử dụng bảng mã gì (nếu bạn cài xong Unikey và không chọn gì có nghĩa là bạn sử dụng bảng mã Unicode) thì việc tiếp theo là lựa chọn fonts dùng cho bảng mã đó.
Trong MS Office, mặc định sẵn cho bạn là font Times New Roman. Đay là một font Unicode nên bạn có thể gõ tiếng Việt ngay khi cài Unikey mà không cần cài thêm fonts.
Mỗi bảng mã có một họ font riêng, bạn phải chọn font đúng với bảng mã như đã nói ở phần trên.
5. Hiện tượng lỗi fonts:
Khi mở một văn bản mà ta chỉ lờ mớ đoán ra nội dung của nó vì các nguyên âm hầu hêt bị biến thành những kí tự lạ. Hoặc khi ta soạn thảo hoàn chỉnh một tài liệu ở nhà, nhưng khi đem sang mày khác để đọc hay in ra thì cũng bị như trên. Đó rất có thể là hiện tượng lỗi fonts.
Hiện tượng này xảy ra khi người đánh máy dùng một font nào đó mà giờ đây máy tính của bạn không có font đó. Như vậy, về bản chất, đây không phải là “lỗi fonts” mà là “thiếu fonts”. Hoặc từ “lỗi” ở đây không phải để chỉ cái fonts bị lỗi (fonts không thể bị lỗi khi mà nó chưa có) mà chỉ sự không thỗng nhất giữa mấy tính của người đánh máy và người đọc.
Nếu tác giả soạn tiếng Việt bằng các fonts Unicode thì hiện tượng này hầu như không xảy ra vì hiện nay myá tính nào cũng sẵn có.
Hiên tượng này hay gặp với các văn bản đươc soạn cách đây khá lâu, chủ yếu bằng các fonts TCVN hoặc VNI windows. Cũng có khi, ngày nay, nhiều người vẫn có thói quen sử dụng bảng mã này. Do vậy, máy tính của bạn vẫn nên cài hai bộ font TCVN và VNI windows để có thể đcọ được các văn bản này.
Với những ngôn ngư tượng hình như tiếng Tàu chẳng hạn. Mặc dù,ngày nay họ cũng dùng bảng mã Unicode có lúc bạn mở văn bản này lên thì thấy toàn các ô vuông đều nhau. Đó là vì máy tính của bạn chưa cài đặt các font tiếng Tàu như SImsun, SimHei... chúng có dung lượng khá lớn và khi cài đặt windows chúng sẽ không được cài nếu bạn không yêu cầu. Nếu chưa có, các fonts này, bạn có thể tìm hiểu cách cài đặt qua rất nhiều các bài viết trên internet.
15/5/10
Các khái niệm cơ bản trong soạn thảo văn bản.
M.T
Đăng ký:
Đăng Nhận xét (Atom)
0 Nhận xét:
Đăng nhận xét
Hãy comment theo cách của bạn
[▼/▲] More Emoticons