🧠 Giới thiệu về `llama.cpp`

llama.cpp là một phần mềm mã nguồn mở được viết bằng C/C++, cho phép chạy các mô hình ngôn ngữ lớn như LLaMA 1/2, Mistral, Falcon… hoàn toàn offline, không cần GPU, và tối ưu để chạy trên CPU – kể cả trên các thiết bị nhỏ như SBC (Single Board Computer), đặc biệt là Orange Pi như Orange Pi RV2 (RISC-V 64-bit)

Điểm mạnh của llama.cpp:

Hỗ trợ nhiều định dạng mô hình .gguf hiệu quả
Hỗ trợ OpenBLAS, SIMD, AVX, NEON
Có thể chạy tốt trên các thiết bị ARM, x86, RISC-V với bộ nhớ giới hạn
Hữu ích cho các dự án AI edge/offline không cần đám mây.

Các bước cài đặt

🛠️ Bước 1: Cài đặt compiler RISC-V

llama.cpp yêu cầu compile C phiên bản 14, nếu bạn cài HDH Ubuntu 24.04 sẵn của hãng, bạn chỉ có bản version 12, do đó phải cài bản 14 cho phù hợp

📥 Bước 2: Tải mã nguồn llama.cpp

⚙️ Bước 3: Cấu hình `cmake` để compile cho RISC-V

Nếu gặp lỗi, hãy cấu hình lại GCC mặc định:

sudo update-alternatives --install \ /usr/bin/riscv64-linux-gnu-gcc riscv64-linux-gnu-gcc /usr/bin/riscv64-linux-gnu-gcc-14 100
sudo update-alternatives --install \ /usr/bin/riscv64-linux-gnu-g++ riscv64-linux-gnu-g++ /usr/bin/riscv64-linux-gnu-g++-14 100
sudo update-alternatives --config riscv64-linux-gnu-gcc

🧱 Bước 4: Cài thư viện OpenBLAS và build

🧠 Bước 5: Chọn mô hình phù hợp

Thiết bị	RAM	Mô hình đề xuất	Ghi chú
Orange Pi RV2 (4GB RAM)	4GB	✅ TinyLlama 1.1B, Phi-2 Q4	Nhẹ, tốc độ nhanh, đủ cho tác vụ đơn giản
Orange Pi RV2 (8GB RAM)	8GB	✅ LLaMA-2 7B Chat Q4_K_M, Mistral Q4_K_M	Cần tối ưu zram/swap để không bị thiếu bộ nhớ

📦 Bước 6: Tải mô hình `.gguf`

👉 Dành cho Orange Pi RV2 4GB:

👉 Dành cho Orange Pi RV2 8GB:

🧪 Bước 7: Chạy thử mô hình

Hoặc với LLaMA 2 7B:

📊 Bước 8: Benchmark hiệu năng

Hoặc:

-t: số luồng CPU (nên = số lõi thực), -n: số lượng token

🧩 Bước 9: Tối ưu bộ nhớ bằng zram hoặc swap (khuyến nghị cho 8GB)

Các mô hình như LLaMA-2 7B yêu cầu nhiều RAM, nên nếu bị lỗi killed khi chạy, bạn nên kích hoạt zram hoặc swap để tránh quá tải bộ nhớ.

✅ Cài zram (ưu tiên)

Sau đó chỉnh file cấu hình (nếu có):

Đảm bảo dòng sau có:

Khởi động lại dịch vụ:

Kiểm tra:

✅ Hoặc tạo swap thủ công

Thêm vào /etc/fstab để tự động bật mỗi lần khởi động:

✅ Kết luận

Với llama.cpp, bạn hoàn toàn có thể triển khai AI offline ngay trên thiết bị Orange Pi RV2. Dù là 4GB hay 8GB, chỉ cần chọn mô hình phù hợp và tối ưu bộ nhớ tốt, bạn đã có một hệ thống AI mini cho riêng mình.

THÔNG BÁO TĂNG GIÁ

Do nguyên nhân từ giá DDRRAM tăng cao trên thị trường quốc tế và tỷ giá ngoại tệ tăng so với VNĐ, nên các sản phẩm trong dòng Orange Pi 5 series, Orange Pi 3B sẽ tăng giá từ tháng 8

Hướng dẫn