Cảm biến đa dạng trong trí tuệ nhân tạo vật lý (PAI), đôi khi được gọi là trí tuệ nhân tạo nhân cách hóa, là khả năng của AI tích hợp các đầu vào cảm giác đa dạng như thị giác, thính giác, xúc giác, lidar, văn bản, v.v. từ môi trường xung quanh để tạo ra nhận thức tình huống hoàn chỉnh và sống động hơn.
Một ứng dụng của nguyên tắc cảm biến đa định dạng cho PAI là Trí tuệ nhân tạo không gian (SAI), cho phép các máy móc như robot tự hành hiểu và điều hướng trong môi trường 3D động theo thời gian thực, trái ngược với nhận dạng và phân loại hình ảnh thông thường, vốn bị giới hạn ở các ứng dụng 2D.
Trí tuệ nhân tạo đa phương thức cho phép robot hoặc phương tiện tự hành tương tác tự nhiên với môi trường bằng cách diễn giải đồng thời các tín hiệu phức tạp như dữ liệu hình ảnh và lệnh thoại. Khả năng thích ứng với các điều kiện thay đổi trong thời gian thực giúp tăng cường khả năng phục hồi, độ tin cậy và an toàn.
Mục tiêu của SAI là mô phỏng sát sao nhận thức và sự hiểu biết của con người, mở đường cho sự tương tác giữa người và máy một cách trực quan và tự nhiên hơn. Kiến trúc AI đa phương thức cần thiết để hỗ trợ SAI thường bao gồm ba khối chức năng: mô-đun đầu vào, mô-đun hợp nhất và mô-đun đầu ra ( Hình 1 ).

Việc sử dụng cảm biến đa phương thức cho phép hệ thống thực hiện các nhiệm vụ phức tạp mà không thể thực hiện được với một loại cảm biến duy nhất. Quá trình bắt đầu với một mô-đun đầu vào, thường chứa một mạng nơ-ron đơn phương thức cho mỗi cảm biến. Ví dụ, LIDAR và camera có thể cung cấp thông tin bổ sung.
Các kỹ thuật trí tuệ nhân tạo (AI) dành cho LIDAR tập trung vào xử lý đám mây điểm 3D không cấu trúc để hiểu chính xác về không gian, hình học và độ sâu. Thông thường, AI cho đầu vào camera sử dụng mạng nơ-ron 2D (CNN) để trích xuất thông tin bề mặt, màu sắc và ngữ nghĩa từ hình ảnh có mật độ điểm ảnh cao, tập trung vào phân loại điểm ảnh thông minh.
Việc kết hợp các cảm biến có thể rất phức tạp.
Quá trình thu nhận dữ liệu từ từng cảm biến riêng lẻ bao gồm việc hợp nhất các dữ liệu đầu vào đó thành một mô hình duy nhất được tạo thành từ nhiều định dạng khác nhau. Việc này không đơn giản chỉ là kết hợp tất cả các dữ liệu đầu vào khác nhau; mấu chốt là chỉ hợp nhất những dữ liệu đầu vào có liên quan từ các định dạng khác nhau và kết hợp chúng theo cách tối ưu nhất.
Điều này cho phép tận dụng thế mạnh của từng dạng và tối đa hóa kết quả của quá trình hợp nhất. Quá trình này có thể bao gồm các công cụ đơn giản như ghép nối hoặc các kỹ thuật tiên tiến như mô hình AI biến áp. Các kỹ thuật hợp nhất khác nhau phù hợp với các ứng dụng PAI cụ thể:
- Nhận thức tình huống thường đòi hỏi các kỹ thuật như mạng Bayes để xử lý sự không chắc chắn, trong khi các bộ lọc học sâu quản lý việc nhận dạng đối tượng từ sự kết hợp của LIDAR, radar và camera.
- Các ứng dụng định vị thường sử dụng bộ lọc Kalman để kết hợp dữ liệu từ các đơn vị đo quán tính (IMU) và bộ mã hóa bánh xe nhằm đạt được độ chính xác trong việc dịch chuyển và lập bản đồ, hỗ trợ hoạt động trong môi trường phức tạp.
- Bộ kẹp robot có thể sử dụng mạng nơ-ron hàm cơ sở xuyên tâm (RBF), cung cấp các phép xấp xỉ hàm phi tuyến nhanh, chính xác và mạnh mẽ, để tích hợp dữ liệu từ nhiều cảm biến, chẳng hạn như cảm biến lực/mô-men xoắn (cảm biến biến dạng), cảm biến cảm ứng/quang điện để phát hiện vật thể và cảm biến xúc giác để phát hiện bề mặt và độ trượt.
Sau khi các tín hiệu đầu vào từ nhiều cảm biến được kết hợp với nhau theo cách phù hợp với các ứng dụng cụ thể, mô-đun đầu ra sẽ tạo ra dự đoán cuối cùng ở định dạng được tối ưu hóa cho nhiệm vụ đó. Điều này có thể bao gồm việc kiểm soát tốc độ và hướng chuyển động, lực tác dụng, độ sáng hoặc tần số của xung laser và các thông số vật lý khác.
Tìm hiểu sâu hơn.

Việc triển khai hệ thống PAI sử dụng kết hợp cảm biến có thể gặp nhiều thách thức và liên quan đến việc trao đổi nhiều cảm biến, bộ điều khiển và bộ chuyển đổi nguồn ( Hình 2 ).
Một số yếu tố cần xem xét kỹ hơn bao gồm:
- Việc kết hợp dữ liệu có thể diễn ra ở cấp độ dữ liệu hoặc cấp độ quyết định của hệ thống. Kết hợp dữ liệu ở cấp độ dữ liệu kết hợp dữ liệu thô từ nhiều cảm biến khác nhau, tạo ra dữ liệu đầu vào chi tiết hơn, trong khi kết hợp dữ liệu ở cấp độ quyết định kết hợp dữ liệu đã được lọc từ từng cảm biến riêng lẻ, tạo ra dữ liệu đầu vào hiệu quả hơn nhưng ít chi tiết hơn.
- Cân bằng giữa phát hiện bổ sung và phát hiện dự phòng: Việc sử dụng các cảm biến bổ sung như radar, LIDAR và camera có thể tạo ra kết quả đầy đủ hơn, trong khi việc sử dụng các cảm biến dự phòng hỗ trợ độ tin cậy cao hơn của hệ thống.
- Giảm thiểu nhiễu môi trường thường là một yếu tố quan trọng cần xem xét. Dữ liệu cảm biến thực tế có thể bị ảnh hưởng bởi môi trường, và có thể cần các thuật toán riêng biệt để lọc nhiễu, cho phép hệ thống xác định tín hiệu thực. Hơn nữa, có thể cần phải trọng số hóa dữ liệu từ mỗi cảm biến riêng lẻ để tính đến những bất định phát sinh từ môi trường.
- Việc định vị chính xác là cần thiết, bằng cách sử dụng hiệu chuẩn không gian và thời gian, để đảm bảo rằng dữ liệu từ các cảm biến khác nhau, thường có độ trễ khác nhau và nằm ở các vị trí khác nhau trên nền tảng PAI, hiển thị chính xác cùng một điểm trong không gian và thời gian.
Tóm tắt
Cảm biến đa phương thức có thể được sử dụng để hỗ trợ khả năng hiểu biết giống con người cần thiết cho hoạt động PAI trong xe tự hành, robot và các ứng dụng thực tế khác. Nó cũng hỗ trợ SAI, cung cấp nhận thức tình huống. Việc sử dụng cảm biến đa phương thức trong hệ thống PAI liên quan đến sự đánh đổi về hiệu suất cảm biến và sức mạnh xử lý, cũng như việc sử dụng nhiều bộ điều khiển và bộ chuyển đổi nguồn.
