Dữ liệu văn bản sẽ được số hóa như thế nào để máy tính có thể hiểu được? Những công cụ nào giúp số hóa văn bản? Hãy cùng DapAnHay tham khảo nội dung bài giảng của Bài 3: Số hóa văn bản trong chương trình Tin học 10 Cánh diều Chủ đề ACS dưới đây để có thể giải đáp các nghi vấn trên.
Trong máy tính mỗi kí tự được biểu diễn bằng một dãy bit. Dãy bit này được gọi là mã nhị phân của nó. Để thống nhất cần có quy định chung.
- Quy định đầu tiên là bảng mã ASCII – là bộ mã chuẩn của Mỹ để trao đổi thông tin.
+ Bảng mã ASCII chứa mã nhị phân của bộ chữ cái dùng trong tiếng Anh và một số kí hiệu khác.
+ Mã ASCII của một kí tự là dãy 7 bit, có thể biểu diễn 128 kí tự khác nhau.
+ Ngoài những kí tự in ra màn hình còn có những kí tự không in ra màn hình (gọi là kí tự điều khiển)
+ Tham khảo tại: https://vi.wikipedia.org/wiki/ASCII
Bảng mã ASCII
- Bảng mã ASCII mở rộng: sử dụng mã nhị phân dài 8 bit, biểu diễn thêm được 128 kí tự nữa.
+ Mã nhị phân của những kí tự đã có trong bảng mã ASCII được thêm bit 0 vào trước để đủ độ dài 8 bit. Các kí tự mới thêm đều có mã nhị phân bắt đầu với bit 1.
+ Bảng mã ASCII mở rộng có thể biểu diễn 256 kí tự khác nhau
+ Tham khảo tại: https://vi.wikipedia.org/wiki/ASCII_mở_rộng
Bảng mã ASCII mở rộng
- Bảng mã Unicode thống nhất chung việc mã hóa các kí tự cho tất cả các ngôn ngữ khác nhau trên thế giới.
- Tham khảo tại: https://vi.wikipedia.org/wiki/Unicode
Con đường đi từ các kí tự cho đến mã nhị phân của nó được chia làm hai bước:
Bước thứ nhất:
+ Cho tương ứng mỗi kí tự với một mã kí tự duy nhất, là một dãy kí số
+ Unicode gán 1 điểm mã duy nhất cho mỗi kí tự, kí hiệu, biểu tượng, … được dùng trong tất cả các ngôn ngữ khác nhau trên thế giới.
+ Mỗi điểm mã có 1 tên gọi. Ví dụ điểm mã U+1EC7 là của kí tự “ệ”
+ Mỗi điểm mã được gán một tên gọi duy nhất (không thể thay đổi nữa)
+ Không gian mã Unicode được chia thành các khối, một khối mã sẽ được dành riêng cho một ngôn ngữ cụ thể.
+ Ví dụ: Từ “Việt Nam” có các điểm mã Unicode như Hình 1
Hình 1. Các điểm mã Unicode trong từ "Việt Nam"
Bước thứ hai:
+ Chuyển từ mã kí tự thành dãy bit để máy tính xử lí được, gọi là mã hóa. Kết quả bước này là một dãy bit. Đây là mã nhị phân của kí tự.
+ Bảng mã Unicode chỉ thực hiện bước thứ nhất, sang bước thứ hai có nhiều cách triển khai thực hiện khác nhau.
+ Các bộ kí tự UTF-8, UTF-16, UTF-32 được hiểu là các chương trình thực thi khác nhau chuyển mã kí tự Unicode thành mã nhị phân
+ UTF viết tắt của từ tiếng Anh Unicode Transformation Format.
+ Số 8 nghĩa là dùng các khối 8 bit để biểu diễn một kí tự.
+ UTF-8 có khả năng mã hóa tất cả 1 112 064 điểm mã kí tự hợp lệ trong Unicode bằng cách sử dụng từ 1 đến 4 đơn vị mã 1 byte (8 bit).
+ Nó được thiết kế để tương thích lùi với ASCII: 128 kí tự đầu tiên của Unicode, tương ứng 1 – 1 với ASCII, được mã hóa bằng cách sử dụng 1 byte duy nhất có cùng giá trị nhị phân như ASCII. Văn bản hợp lệ ASCII cũng là hợp lệ UTF-8.
+ UTF-8 an toàn để sử dụng trong hầu hết các ngôn ngữ lập trình.
Văn bản thần chữ (plain text):
- Chỉ gồm các kí tự gõ nhập từ bàn phím khi soạn thảo văn bản.
- Văn bản thuần chữ là một dãy các kí tự xếp liên tiếp từ trái sang phải, từ trên xuống dưới. Mỗi kí tự là một dãy bit.
Dữ liệu văn bản: Dữ liệu văn bản trong máy tính là một dãy bit biểu diễn các kí tự có kiểu dáng, màu sắc và các thông tin định dạng khác.
- TCVN3: Là bảng mã tiêu chuẩn cũ của Việt Nam, dùng phông chữ có “.Vn” đứng đầu.
- Bộ gõ tiếng Việt Unikey khá phổ biến hiện nay có công cụ dễ dàng chuyển đổi các văn bản theo tiêu chuẩn cũ sang dùng mã Unicode để phù hợp với tiêu chuẩn mới.
Công cụ chuyển đổi mã kí tự tiếng Việt trong bộ gõ Unikey
- Bảng mã kí tự ASCII mở rộng gồm 256 kí tự; mã kí tự ASCII chính là số thứ tự của kí tự trong bảng. - Bảng mã chuẩn quốc tế Unicode được thiết kế với mục đích thống nhất mã kí tự để máy tính có thể “viết chữ” của rất nhiều ngôn ngữ khác nhau trên thế giới. - Dữ liệu văn bản trong máy tính là dãy bit biểu diễn các kí tự cùng các thông tin định dạng. |
---|
Bài tập 1: Trang văn bản có thể có nhiều chữ số. Em hãy cho biết các kí tự là chữ số thập phân “0”, “1”, ...., “9” được số hóa, chuyển thành dãy bit như thế nào.
Hướng dẫn giải:
Mỗi ký tự chữ số trong văn bản sẽ được lưu trữ tương ứng 1 byte, có nghĩa nó sẽ biểu diễn 8 bit (thiếu bit sẽ bù bit 0 đằng trước). Ví dụ:
Số 0 => 00000000
Số 1 => 00000001
... Số 9 => 00001001
Bài tập 2: Trong bảng mã ASCII ở hệ nhị phân biểu diễn 100 0010 là của kí tự nào?
Hướng dẫn giải:
Sử dụng bảng mã ASCII để tìm kí tự tương ứng với biểu diễn nhị phân 100 0010
100 0010 | 66 | 42 | B |
Bài tập 3: Con đường đi từ các kí tự cho đến mã nhị phân của nó được chia làm mấy bước?
Hướng dẫn giải:
Con đường đi từ các kí tự cho đến mã nhị phân của nó được chia làm 2 bước:
- Bước 1: Cho tương ứng mỗi kí tự với một mã kí tự duy nhất.
- Bước 2: Chuyển từ mã kí tự thành dãy bit để máy tính xử lí được.
Qua bài học các em cần nắm được các về:
- Biết một số bảng mã kí tự như ASCII, ASCII mở rộng, bảng mã chuẩn quốc tế Unicode là gì và chức năng của chúng.
- Biết được dữ liệu văn bản chứ thông tin về các kí tự kém màu sắc, kiểu dáng, định dạng, ...
- Biết vài khía cạnh lịch sử liên quan đến văn bản tiếng Việt trong máy tính
Các em có thể hệ thống lại nội dung kiến thức đã học được thông qua bài kiểm tra Trắc nghiệm Tin học 10 Cánh diều Chủ đề ACS Bài 3 cực hay có đáp án và lời giải chi tiết.
Khẳng định nào sau đây là đúng khi nói về bảng mã ASCII?
Khẳng định nào sau đây là đúng khi nói về bảng mã UNICODE?
Bộ mã ASCII dùng bao nhiêu bit đề mã hoá các kí tự?
Câu 4-10: Mời các em đăng nhập xem tiếp nội dung và thi thử Online để củng cố kiến thức về bài học này nhé!
Các em có thể xem thêm phần hướng dẫn Giải bài tập Tin học 10 Cánh diều Chủ đề ACS Bài 3để giúp các em nắm vững bài học và các phương pháp giải bài tập.
Khởi động trang 139 SGK Tin học 10 Cánh diều - CD
Hoạt động 1 trang 139 SGK Tin học 10 Cánh diều - CD
Hoạt động 2 trang 141 SGK Tin học 10 Cánh diều - CD
Hoạt động 3 trang 142 SGK Tin học 10 Cánh diều - CD
Luyện tập trang 142 SGK Tin học 10 Cánh diều - CD
Vận dụng trang 142 SGK Tin học 10 Cánh diều - CD
Câu hỏi tự kiểm tra 1 trang 142 SGK Tin học 10 Cánh diều - CD
Câu hỏi tự kiểm tra 2 trang 142 SGK Tin học 10 Cánh diều - CD
Câu hỏi tự kiểm tra 3 trang 142 SGK Tin học 10 Cánh diều - CD
Trong quá trình học tập nếu có thắc mắc hay cần trợ giúp gì thì các em hãy comment ở mục Hỏi đáp, Cộng đồng Tin học DapAnHay sẽ hỗ trợ cho các em một cách nhanh chóng!
Chúc các em học tập tốt và luôn đạt thành tích cao trong học tập!
-- Mod Tin Học 10 DapAnHay
Khẳng định nào sau đây là đúng khi nói về bảng mã ASCII?
Khẳng định nào sau đây là đúng khi nói về bảng mã UNICODE?
Bộ mã ASCII dùng bao nhiêu bit đề mã hoá các kí tự?
Hãy chọn mệnh đề đúng trong các mệnh đề sau đây:
Trong các bộ mã dưới đây, bộ mã nào không hỗ trợ Tiếng Việt?
Con đường đi từ các kí tự cho đến mã nhị phân của nó được chia làm mấy bước?
Trong bảng mã ASCII ở hệ nhị phân biểu diễn 100 0010 là của kí tự gì?
Trong bảng mã ASCII biểu diễn của kí tự "A" ở hệ nhị phân là bao nhiêu?
Trong các phông chữ sau đây phông chữ nào dùng mã Unicode?
Trang văn bản có thể có nhiều chữ số. Em hãy cho biết các kí tự là chữ số thập phân “0”, “1”, ...., “9” được số hóa, chuyển thành dãy bit như thế nào.
Em hãy tìm trong bảng mã ASCII mở rộng và cho biết các kí tự “ấ”, “ẳ”, “ế”, “ệ”, ... có trong bảng mã này không.
Làm theo hướng dẫn và trả lời câu hỏi:
1) Mở trình soạn thảo văn bản Notepad, nhập vào đúng 30 kí tự Latinh đơn giản liền nhau thành một dòng. Không gõ kí tự có dấu trong tiếng Việt. Lưu tệp với ten thuanchu.txt.
a) Tệp có kích thước bao nhiêu byte?
b) Mỗi kí tự là mấy byte?
2) Đóng Notepad. Mở tệp thuanchu.txt bằng trình soạn thảo văn bản WordPad. Đổi màu chữ để có 3 dòng kí tự màu khác nhau. Lưu tệp thành dạng .rtf.
a) Tệp có kích thước bao nhiêu byte?
b) Tại sao kích thước tăng lên như vậy?
Nhấn Ctrl + Shift + F6 để hiển thị bảng điều khiển của bộ gõ tiếng Việt UniKey; trong hộp Bảng mã nháy chuột vào mũi tên dấu trỏ xuống để mở ra danh sách các bảng mã có trong bộ gõ UniKey. Em hãy kể tên những bảng mã xuất hiện.
Lí do ra đời bảng mã chuẩn quốc tế Unicode là gì?
Em hãy tìm hiểu công cụ chuyển mã có trong bộ gõ tiếng Việt Unikey (hình 2) và viết hướng dẫn để người khác biết cách sử dụng.
Hình 2. Công cụ chuyển đổi mã kí tự tiếng Việt trong bộ gõ UniKey
Bảng mã ASCII là gì?
Việc chuyển một kí tự thành mã nhị phân tương ứng gồm mấy bước? Bảng mã Unicode thực hiện bước nào?
Văn bản tiếng Việt hiện nay dùng bảng mã kí tự nào là đúng chuẩn quy định?
Họ và tên
Tiêu đề câu hỏi
Nội dung câu hỏi
0 Bình luận
Để lại bình luận
Địa chỉ email của hạn sẽ không được công bố. Các trường bắt buộc được đánh dấu *