Nhờ API Nhận dạng mực kỹ thuật số của Bộ công cụ máy học, bạn có thể nhận dạng văn bản viết tay và phân loại cử chỉ trên bề mặt kỹ thuật số bằng hàng trăm ngôn ngữ, cũng như phân loại bản phác thảo. API nhận dạng mực kỹ thuật số sử dụng cùng công nghệ hỗ trợ tính năng nhận dạng chữ viết tay trong Gboard, Google Dịch và trò chơi Quick, Draw!.
Tính năng nhận dạng mực kỹ thuật số cho phép bạn:
- Viết trên màn hình thay vì nhập trên bàn phím ảo. Tính năng này cho phép người dùng vẽ các ký tự không có sẵn trên bàn phím, chẳng hạn như át, ₪ hoặc 森 cho bàn phím chữ cái Latinh.
- Thực hiện các thao tác văn bản cơ bản (điều hướng, chỉnh sửa, lựa chọn, v.v.) bằng các cử chỉ.
- Nhận dạng hình dạng vẽ tay và biểu tượng cảm xúc.
Tính năng nhận dạng mực kỹ thuật số hoạt động với những nét vẽ mà người dùng vẽ trên màn hình. Nếu bạn cần đọc văn bản từ hình ảnh được chụp bằng máy ảnh, hãy sử dụng API Nhận dạng văn bản.
Tính năng nhận dạng mực kỹ thuật số hoạt động hoàn toàn không cần mạng và được hỗ trợ trên Android và iOS.
Các tính năng chính
- Chuyển đổi văn bản viết tay thành chuỗi ký tự unicode
- Chạy trên thiết bị gần như theo thời gian thực
- Chữ viết tay của người dùng vẫn ở trên thiết bị, tính năng nhận dạng được thực hiện mà không cần bất kỳ kết nối mạng nào
- Hỗ trợ hơn 300 ngôn ngữ và hơn 25 hệ thống viết, xem danh sách đầy đủ các ngôn ngữ được hỗ trợ
- Hỗ trợ phân loại cử chỉ cho các ngôn ngữ này thông qua phần mở rộng
-x-gesture
- Hỗ trợ phân loại cử chỉ cho các ngôn ngữ này thông qua phần mở rộng
- Nhận dạng biểu tượng cảm xúc và hình dạng cơ bản
- Duy trì dung lượng lưu trữ trên thiết bị thấp bằng cách tự động tải các gói ngôn ngữ xuống khi cần
Trình nhận dạng sẽ lấy đối tượng Ink
làm dữ liệu đầu vào. Ink
là một biểu diễn vectơ
về nội dung mà người dùng đã viết trên màn hình: một chuỗi các nét vẽ, mỗi chuỗi là một
danh sách các toạ độ có thông tin thời gian gọi là điểm chạm. Nét vẽ bắt đầu khi người dùng đặt bút cảm ứng hoặc ngón tay xuống và kết thúc khi nhấc tay lên. Ink
được chuyển đến một trình nhận dạng. Phương thức này sẽ trả về một hoặc nhiều kết quả nhận dạng có thể xảy ra, với mức độ tin cậy.
Ví dụ
Viết tay tiếng Anh
Hình ảnh ở bên trái dưới đây cho thấy những gì người dùng đã vẽ trên màn hình. Hình ảnh ở bên phải là đối tượng Ink
tương ứng. Nó chứa các nét vẽ có dấu chấm màu đỏ
đại diện cho các điểm tiếp xúc trong mỗi nét vẽ.
Có bốn nét vẽ. Hai nét đầu tiên trong đối tượng Ink
sẽ như sau:
Mực | ||
---|---|---|
Nét vẽ 1 | x
|
392, 391, 389, 287, ... |
y
|
52, 60, 76, 97, ... | |
t
|
0, 37, 56, 75, ... | |
Nét vẽ 2 | x
|
497, 494, 493, 490, ... |
y
|
167, 165, 165, 165, ... | |
t
|
694, 742, 751, 770, ... | |
... |
Khi bạn gửi Ink
này cho một trình nhận dạng tiếng Anh, thao tác này sẽ trả về
một số bản chép lời có thể chứa 5 hoặc 6 ký tự. Thứ tự
được sắp xếp bằng cách giảm độ tin cậy:
Nhận ra kết quả | |
---|---|
Nhận dạng ứng viên số 1 | giơ tay |
Nhận dạng ứng viên số 2 | Soạn tay |
Nhận dạng ứng viên số 3 | cứng |
Nhận dạng ứng viên số 4 | điện thoại |
Nhận dạng ứng viên số 5 | cầm tay |
Cử chỉ
Các thuật toán phân loại cử chỉ được phân loại nét vẽ thành một trong chín lớp cử chỉ được liệt kê bên dưới.
arch:above arch:below |
![]() |
caret:above caret:below |
![]() |
circle |
![]() |
![]() |
|
scribble |
![]() |
strike |
![]() |
verticalbar |
![]() |
writing |
![]() |
Bản phác thảo biểu tượng cảm xúc
Hình ảnh ở bên trái dưới đây cho thấy những gì người dùng đã vẽ trên màn hình. Hình ảnh ở bên phải là đối tượng Ink
tương ứng. Nó chứa các nét vẽ có dấu chấm màu đỏ
đại diện cho các điểm tiếp xúc trong mỗi nét vẽ.
Đối tượng Ink
chứa 6 nét.
Mực | ||
---|---|---|
Nét vẽ 1 | x
|
269, 266, 262, 255, ... |
y
|
40, 40, 40, 41, ... | |
t
|
0, 36, 56, 75, ... | |
Nét vẽ 2 | x
|
179, 182, 183, 185, ... |
y
|
157, 158, 159, 160, ... | |
t
|
2475, 2522, 2531, 2541, ... | |
... |
Khi gửi Ink
này cho trình nhận dạng biểu tượng cảm xúc, bạn sẽ nhận được một số bản chép lời được sắp xếp theo thứ tự bằng cách giảm độ tin cậy:
Nhận ra kết quả | |
---|---|
Nhận dạng ứng viên số 1 | Ảnh (U+1f62d) |
Nhận dạng ứng viên số 2 | 😅 (U+1f605) |
Nhận dạng ứng viên số 3 | 😹 (U+1f639) |
Nhận dạng ứng viên số 4 | 😄 (U+1f604) |
Nhận dạng ứng viên số 5 | 😆 (U+1f606) |