Con người, xe đạp, ô tô hoặc đường, bầu trời, cỏ: Những pixel nào của hình ảnh đại diện cho những người hoặc đối tượng tiền cảnh khác biệt trước xe tự lái và pixel nào đại diện cho các lớp nền? Nhiệm vụ này, được gọi là phân đoạn panoptic, là một vấn đề cơ bản có ứng dụng trong nhiều lĩnh vực như xe tự lái, robot, thực tế tăng cường và thậm chí trong phân tích hình ảnh y sinh. Tại Khoa Khoa học Máy tính tại Đại học Freiburg, Tiến sĩ Abhinav Valada, Trợ lý Giáo sư về Robot học và là thành viên của BrainLinks-BrainTools tập trung vào câu hỏi nghiên cứu này. Valada và nhóm của ông đã phát triển mô hình trí tuệ nhân tạo tiên tiến (AI) “EfficientPS” cho phép nhận dạng mạch lạc các cảnh thị giác nhanh chóng và hiệu quả hơn.
Nhiệm vụ này chủ yếu được giải quyết bằng cách sử dụng một kỹ thuật máy học được gọi là học sâu – deep learning trong đó các mạng lưới thần kinh nhân tạo được lấy cảm hứng từ bộ não con người, học từ một lượng lớn dữ liệu, nhà nghiên cứu Freiburg giải thích. Các điểm chuẩn công cộng như Cityscapes đóng vai trò quan trọng trong việc đo lường sự tiến bộ trong các kỹ thuật này. “Trong nhiều năm, các nhóm nghiên cứu, ví dụ từ Google hoặc Uber, cạnh tranh vị trí hàng đầu trong các điểm chuẩn này”, Rohit Mohan, một thành viên trong nhóm của Valada nói. Phương pháp của các nhà khoa học máy tính từ Freiburg, được phát triển để hiểu cảnh thành phố, đã được xếp hạng đầu tiên trong Cityscapes, bảng xếp hạng có ảnh hưởng nhất đối với nghiên cứu hiểu cảnh trong lái xe tự hành. EfficientPS cũng liên tục thiết lập trạng thái mới trên các bộ dữ liệu điểm chuẩn tiêu chuẩn khác như KITTI, Mapillary Vistas và IDD.
Trên trang web của dự án, Valada cho thấy các ví dụ về cách nhóm đã đào tạo các mô hình AI khác nhau trên các bộ dữ liệu khác nhau. Các kết quả được đặt chồng lên hình ảnh đầu vào tương ứng, trong đó màu sắc hiển thị lớp đối tượng mà mô hình gán pixel cho. Ví dụ, ô tô được đánh dấu màu xanh lam, người màu đỏ, cây xanh và tòa nhà màu xám. Ngoài ra, mô hình AI cũng vẽ một đường viền xung quanh mỗi đối tượng mà nó coi là một thực thể riêng biệt. Các nhà nghiên cứu của Freiburg đã thành công trong việc đào tạo mô hình để chuyển thông tin đã học về cảnh đô thị từ Stuttgart sang thành phố New York. Mặc dù mô hình AI không biết một thành phố ở Hoa Kỳ có thể trông như thế nào, nhưng nó có thể nhận ra chính xác cảnh của Thành phố New York.
Hầu hết các phương pháp trước đây giải quyết vấn đề này đều có kích thước mô hình lớn và đắt tiền về mặt tính toán để sử dụng trong các ứng dụng trong thế giới thực như robot bị hạn chế tài nguyên cao, Valada giải thích: “EfficientPS của chúng tôi không chỉ đạt được hiệu suất hiện đại, nó cũng là phương pháp nhanh nhất và hiệu quả nhất về mặt tính toán. Điều này tiếp tục mở rộng các ứng dụng có thể sử dụng EfficientPS. “