Lý thuyết trọng tâm Tin học 10 cánh diều bài 3: Số hóa văn bản

Tổng hợp kiến thức trọng tâm Tin học 10 cánh diều bài 3: Số hóa văn bản. Tài liệu nhằm củng cố, ôn tập lại nội dung kiến thức bài học cho học sinh dễ nhớ, dễ ôn luyện. Kéo xuống để tham khảo

I. BẢNG MÃ ASCII

- Trong máy tính mỗi kí tự được biểu diễn bằng một dãy bit. Dãy bit này được gọi là mã nhị phân của nó.

- ASCII là bộ mã chuẩn của Mỹ để trao đổi thông tin. Bảng mã ASCII chứa mã nhị phân của bộ chữ cái dùng trong tiếng Anh và một số kí hiệu khác. Mã ASCII của một kí tự là dãy 7 bit, có thể biểu diễn 128 kí tự khác nhau. Ngoài những kí tự in ra màn hình được, còn có những “kí tự” không in ra màn hình mà là một tín hiệu để điều khiển máy tính, đó là kí tự điều khiển.

- Bảng mã ASCII mở rộng: mở rộng bảng mã ASCII bằng cách sử dụng mã nhị phân dài 8 bit, biểu diễn thêm được 128 kí tự nữa. + Mã nhị phân của những kí tự đã có trong bảng mã ASCII được thêm bit 0 vào trước để đủ độ dài 8 bit. Các kí tự mới thêm đều có mã nhị phân bắt đầu với bit 1.

+ Bảng mã ASCII mở rộng có thể biểu diễn 256 kí tự khác nhau.

II. BẢNG MÃ UNICODE

Hoạt động 1:

Bảng mã ASCII không có những kí tự “ấ”, “ẳ”, “ế”, “ệ”, ...

- Bảng mã Unicode thống nhất chung việc mã hóa cho tất cả các ngôn ngữ khác nhau trên thế giới. 

III. MÃ KÍ TỰ, BỘ KÍ TỰ VÀ MÃ NHỊ PHÂN

Từ các kí tự cho đến mã nhị phân của nó được chia làm hai bước:

- Bước thứ nhất: Cho tương ứng mỗi kí tự với một mã kí tự duy nhất, là một dãy kí số.

+ Gán một điểm mã duy nhất cho mỗi kí tự, kí hiệu, biểu tượng,… được dùng trong tất cả các ngôn ngữ khác nhau trên thế giới. Mỗi điểm mã có một tên gọi.

+ Không gian mã Unicode chia thành các khối, một khối mã sẽ được dành riêng cho một ngôn ngữ cụ thể.

Ví dụ: Với từ “Việt Nam” ta có các điểm mã Unicode

Hinh 1

- Bước thứ hai: mã hóa. Kết quả bước này là một dãy bit. Đây là mã nhị phân của kí tự.

+ Có nhiều cách thực hiện khác nhau.

+ Các bộ kí tự UTF-8, UTF-16, UTF-32 được hiểu là các thực thi khác nhau chuyển mã kí tự Unicode. 

IV. DỮ LIỆU VĂN BẢN VÀ SỐ HÓA VĂN BẢN

Hoạt động 2:

1)

a) Tệp có kích thước 30 byte.

b) Mỗi kí tự là 1 byte.

2)

a) Tệp có kích thước chắc chắn hơn 30 byte.

b) Vì đã thêm các kí tự xuống dòng, các thông tin về màu sắc,...

Văn bản thuần chữ

- Chỉ gồm các kí tự gõ nhập từ bàn phím khi soạn thảo văn bản. Văn bản thuần chữ là một dãy các kí tự xếp liên tiếp từ trái sang phải, từ trên xuống dưới. Mỗi kí tự là dãy bit.

Dữ liệu văn bản:

Dữ liệu văn bản trong máy tính là một dãy bit biểu diễn các kí tự có kiểu dáng, màu sắc và các thông tin định dạng khác.

V. KÍ TỰ TIẾNG VIỆT TRONG DỮ LIỆU VĂN BẢN

- Hiện nay tiêu chuẩn Việt Nam đã thống nhất dùng bảng mã kí tự Unicode.

Hoạt động 3:

Hinh 2

TCVN3: bảng mã tiêu chuẩn cũ của Việt Nam.

+ Có thể sử dụng bộ gõ tiếng Việt Unikey để chuyển đổi các văn bản theo tiêu chuẩn cũ sang dùng Unicode để phù hợp tiêu chuẩn mới.

Hinh 3

Nội dung quan tâm khác

Từ khóa tìm kiếm: Lý thuyết trọng tâm Tin học 10 cánh diều bài 3: Số hóa văn bản, Nội dung kiến thức Tin học 10 cánh diều, Tổng hợp kiến thức Tin học 10 cánh diều bài 3

Bình luận

Giải bài tập những môn khác