Giới thiệu chung
- LLM (Large Language Models – Mô hình ngôn ngữ lớn) là các mạng nơ-ron được huấn luyện trên tập dữ liệu văn bản khổng lồ nhằm hiểu và sinh ngôn ngữ.
- VLM (Vision-Language Models – Mô hình thị giác–ngôn ngữ) tích hợp thêm bộ mã hóa hình ảnh, cho phép mô hình xử lý đồng thời cả hình ảnh và văn bản.
- Hệ thống kết hợp VLM + LLM thường được gọi là mô hình đa phương thức (multimodal model)
Các mô hình này có thể rất lớn — từ hàng trăm triệu đến hàng tỷ tham số — ảnh hưởng trực tiếp đến độ chính xác, mức sử dụng bộ nhớ và tốc độ chạy. Chúng ta sẽ thường thấy các mô hình này chạy trên các máy chủ lớn với card màn hình giá trị cao, nhiều khi đầu tư cả hệ thống lên tới hàng chục triệu thậm chí hàng trăm triệu. Trên các thiết bị edge như Orange Pi sử dụng RK3588, tài nguyên RAM và khả năng tính toán bị giới hạn, và ngay cả NPU cũng có các ràng buộc nghiêm ngặt về các phép toán được hỗ trợ. Vì vậy, mô hình thường cần được lượng tử hóa hoặc tinh giản để có thể chạy được.
Mô hình SmolVLM2 này là một ví dụ của việc lượng tử hóa hoặc tinh giản tối đa để chạy trên các thiết bị edge device. Sau khi chuyển đổi sang định dạng RKNN, một phần mô hình có thể chạy trên NPU, giúp tăng tốc đáng kể. Sau khi loại bỏ các giới hạn này, những mô hình như SmolVLM2-2.2B vẫn chạy tốt trên RK3588 nhờ NPU tăng tốc hiệu quả các phép toán nặng và bộ mã hóa thị giác có thể được tối ưu. Điều này giúp AI đa phương thức tiên tiến có thể triển khai trên các thiết bị nhỏ gọn, tiết kiệm điện năng.
SmolVLM2 – Mô hình đa phương thức nhỏ gọn cho thị giác và video, do Hugging Face phát triển
- SmolVLM2 là một Vision-Language Model (VLM) hiệu quả, hỗ trợ cả hình ảnh và video, được thiết kế để chạy trên mọi thiết bị — từ điện thoại đến máy chủ.
- Được phát hành với ba kích cỡ:
- 2.2B tham số (phiên bản mạnh nhất, phù hợp cho nhiều tác vụ thị giác/phim)
- 500M tham số (gần bằng hiệu năng 2.2B nhưng nhỏ gọn hơn nhiều)
- 256M tham số (phiên bản thử nghiệm, nhỏ nhất từng được phát hành cho tác vụ video)
- Đây là những mô hình ngôn ngữ thị giác xử lý video nhỏ nhất từng được công bố, và vượt trội về hiệu năng trên mỗi MB bộ nhớ so với các mô hình cùng kích cỡ.
- Hiệu năng được đánh giá trên Video-MME — một benchmark video toàn diện (900 video, 254 giờ, đa dạng độ dài và modal), và SmolVLM2 dẫn đầu trong nhóm mô hình dưới 2B tham số.
- Tính năng nổi bật:
- Hiểu văn bản trong ảnh, biểu đồ, câu hỏi khoa học có hình
- Giải toán có minh họa
- Tóm tắt video dài (1+ giờ), tạo highlight
- Hỗ trợ đầy đủ từ ngày đầu trên:
- Transformers (Python)
- MLX (cho Apple Silicon – cả Python và Swift)
- Ứng dụng thực tế đã được Hugging Face xây dựng:
- Ứng dụng iPhone chạy SmolVLM2-500M hoàn toàn offline
- Tích hợp với VLC media player để tìm kiếm video theo ngữ nghĩa
- Video Highlight Generator trên Hugging Face Spaces
Bắt đầu triển khai SmolVLM2 trên Orange Pi 5 Plus 4GB
Tại sao lại lựa chọn Orange Pi 5 Plus 4G?
Orange Pi 5 Plus là một thiết bị gần như mạnh nhất trong dòng RK3588 của Orange Pi, thiết bị có 2 cổng LAN, 1 cổng M2 E key và 1 cổng M2 M key cho phép dùng cả SSD lẫn các thiết bị giao tiếp PCIe khác. Tuy nhiên chi phí cho các sản phẩm Orange Pi 5 Plus các phiên bản 8G hay 16G hay thậm chí 32G vẫn đang là quá cao, nếu bạn chỉ cần chạy một mô hình trên đó, mà không tích hợp nhiều mô hình chạy đồng thời.
Vì thế chúng tôi giới thiệu Orange Pi 5 Plus phiên bản 4G, không khác gì Orange Pi 5 Plus khác mà chỉ có RAM ít hơn phục vụ các model có tham số ít, hoặc đã gói gọn và lượng tử quá tối đa như mô hình SmolVLM2-2.2B này.
Hướng dẫn cài đặt
Các bạn cần cài đặt hệ điều hành phiên bản mới nhất Armbian với RKNPU driver 0.9.8 để có hiệu quả tối đa, yêu cầu tối thiểu là RKNPU driver > 0.9.6, có trong các phiên bản Ubuntu 22 và Ubuntu 24 của hãng.
Để lưu và tối ưu hóa tốc độ mô hình, các bạn sử dụng eMMC Module từ 64G trở lên hoặc ổ cứng M2 NVME 128-265G
Về nguồn điện, có thể sử dụng Nguồn Type C 5v 3A là đủ
Sau khi cài xong hệ điều hành, các bạn cập nhật hệ thống bằng câu lệnh quen thuộc
sudo apt update && sudo apt upgrade -y
Rồi làm theo hướng dẫn trong github này hoặc video ben dưới
Github: https://github.com/thanhtantran/SmolVLM2-2B-NPU
Video hướng dẫn


