Nhận dạng mực kỹ thuật số

Nhờ API Nhận dạng mực kỹ thuật số của Bộ công cụ máy học, bạn có thể nhận dạng văn bản viết tay và phân loại cử chỉ trên bề mặt kỹ thuật số bằng hàng trăm ngôn ngữ, cũng như phân loại bản phác thảo. API nhận dạng mực kỹ thuật số sử dụng cùng công nghệ hỗ trợ tính năng nhận dạng chữ viết tay trong Gboard, Google Dịch và trò chơi Quick, Draw!.

Tính năng nhận dạng mực kỹ thuật số cho phép bạn:

  • Viết trên màn hình thay vì nhập trên bàn phím ảo. Tính năng này cho phép người dùng vẽ các ký tự không có sẵn trên bàn phím, chẳng hạn như át, ₪ hoặc 森 cho bàn phím chữ cái Latinh.
  • Thực hiện các thao tác văn bản cơ bản (điều hướng, chỉnh sửa, lựa chọn, v.v.) bằng các cử chỉ.
  • Nhận dạng hình dạng vẽ tay và biểu tượng cảm xúc.

Tính năng nhận dạng mực kỹ thuật số hoạt động với những nét vẽ mà người dùng vẽ trên màn hình. Nếu bạn cần đọc văn bản từ hình ảnh được chụp bằng máy ảnh, hãy sử dụng API Nhận dạng văn bản.

Tính năng nhận dạng mực kỹ thuật số hoạt động hoàn toàn không cần mạng và được hỗ trợ trên Android và iOS.

iOS Android

Các tính năng chính

  • Chuyển đổi văn bản viết tay thành chuỗi ký tự unicode
  • Chạy trên thiết bị gần như theo thời gian thực
  • Chữ viết tay của người dùng vẫn ở trên thiết bị, tính năng nhận dạng được thực hiện mà không cần bất kỳ kết nối mạng nào
  • Hỗ trợ hơn 300 ngôn ngữ và hơn 25 hệ thống viết, xem danh sách đầy đủ các ngôn ngữ được hỗ trợ
  • Nhận dạng biểu tượng cảm xúc và hình dạng cơ bản
  • Duy trì dung lượng lưu trữ trên thiết bị thấp bằng cách tự động tải các gói ngôn ngữ xuống khi cần

Trình nhận dạng sẽ lấy đối tượng Ink làm dữ liệu đầu vào. Ink là một biểu diễn vectơ về nội dung mà người dùng đã viết trên màn hình: một chuỗi các nét vẽ, mỗi chuỗi là một danh sách các toạ độ có thông tin thời gian gọi là điểm chạm. Nét vẽ bắt đầu khi người dùng đặt bút cảm ứng hoặc ngón tay xuống và kết thúc khi nhấc tay lên. Ink được chuyển đến một trình nhận dạng. Phương thức này sẽ trả về một hoặc nhiều kết quả nhận dạng có thể xảy ra, với mức độ tin cậy.

Ví dụ

Viết tay tiếng Anh

Hình ảnh ở bên trái dưới đây cho thấy những gì người dùng đã vẽ trên màn hình. Hình ảnh ở bên phải là đối tượng Ink tương ứng. Nó chứa các nét vẽ có dấu chấm màu đỏ đại diện cho các điểm tiếp xúc trong mỗi nét vẽ.

    

Có bốn nét vẽ. Hai nét đầu tiên trong đối tượng Ink sẽ như sau:

Mực
Nét vẽ 1 x 392, 391, 389, 287, ...
y 52, 60, 76, 97, ...
t 0, 37, 56, 75, ...
Nét vẽ 2 x 497, 494, 493, 490, ...
y 167, 165, 165, 165, ...
t 694, 742, 751, 770, ...
...

Khi bạn gửi Ink này cho một trình nhận dạng tiếng Anh, thao tác này sẽ trả về một số bản chép lời có thể chứa 5 hoặc 6 ký tự. Thứ tự được sắp xếp bằng cách giảm độ tin cậy:

Nhận ra kết quả
Nhận dạng ứng viên số 1 giơ tay
Nhận dạng ứng viên số 2 Soạn tay
Nhận dạng ứng viên số 3 cứng
Nhận dạng ứng viên số 4 điện thoại
Nhận dạng ứng viên số 5 cầm tay

Cử chỉ

Các thuật toán phân loại cử chỉ được phân loại nét vẽ thành một trong chín lớp cử chỉ được liệt kê bên dưới.

Cử chỉ Ví dụ
arch:above
arch:below
caret:above
caret:below
circle
corner:downleft
scribble
strike
verticalbar
writing

Bản phác thảo biểu tượng cảm xúc

Hình ảnh ở bên trái dưới đây cho thấy những gì người dùng đã vẽ trên màn hình. Hình ảnh ở bên phải là đối tượng Ink tương ứng. Nó chứa các nét vẽ có dấu chấm màu đỏ đại diện cho các điểm tiếp xúc trong mỗi nét vẽ.

    

Đối tượng Ink chứa 6 nét.

           

Mực
Nét vẽ 1 x 269, 266, 262, 255, ...
y 40, 40, 40, 41, ...
t 0, 36, 56, 75, ...
Nét vẽ 2 x 179, 182, 183, 185, ...
y 157, 158, 159, 160, ...
t 2475, 2522, 2531, 2541, ...
...

Khi gửi Ink này cho trình nhận dạng biểu tượng cảm xúc, bạn sẽ nhận được một số bản chép lời được sắp xếp theo thứ tự bằng cách giảm độ tin cậy:

Nhận ra kết quả
Nhận dạng ứng viên số 1 Ảnh (U+1f62d)
Nhận dạng ứng viên số 2 😅 (U+1f605)
Nhận dạng ứng viên số 3 😹 (U+1f639)
Nhận dạng ứng viên số 4 😄 (U+1f604)
Nhận dạng ứng viên số 5 😆 (U+1f606)