แนวทางการพัฒนา Llama 3.2 รุ่นรับภาพนั้น อาศัยการสร้าง image encoder แปลงข้อมูลเข้าไปให้กับโมเดลภาษาเดิม ระหว่างการฝึกช่วงแรกก็ฝึกเฉพาะ image encoder อย่างเดียว ไม่ปรับแก้ส่วนโมเดลภาษา เพื่อให้แน่ใจว่าความสามารถด้านภาษานั้นยังเท่าเดิมอยู่ จากนั้นฝึกความรู้ที่มีภาพประกอบเพิ่มเข้าไปภายหลัง และจบด้วยการฝึกด้านความปลอดภัยเพิ่มเติม โมเดลรุ่นรองรับภาพนั้นมีสองขนาด คือ 90B และ 11B โดยตัว 90B นั้นความสามารถเทียบเคียงกับ GPT-4o-mini ในหลายชุดทดสอบ
ส่วนโมเดลขนาดเล็กอาศัยเทคนิค pruning คือการย่อโมเดลขนาดใหญ่กว่าให้เล็กลงโดยพยายามรักษาความรู้ให้มากที่สุดเท่าที่เป็นไปได้ โดยตั้งต้นจาก Llama 3.1 8B แล้วตัดย่อโมเดลลงมาเรื่อยๆ ต่อจากนั้นอาศัยเทคนิค distillation ฝึกโมเดลที่ถูกตัดย่อมาแล้วให้มีความสามารถกลับขึ้นมาใกล้เคียงโมเดลขนาดใหญ่
สุดท้ายทาง Meta ปล่อย Llama Stack Distribution
ชุดเครื่องมือสำหรับการพัฒนา ประกอบไปด้วยคำสั่ง Llama CLI
สำหรับการสั่งคอนฟิกและรันโมเดล, โค้ดไคลเอนต์ในภาษาต่างๆ สำหรับนักพัฒนา,
Docker สำหรับเซิร์ฟเวอร์ และ Agent API Provider ผู้ใช้สามารถนำ stack
นี้ไปรันได้หลายที่ ทั้งเครื่องส่วนตัวที่ภายในเป็น Ollama
หรือคลาวด์ที่ผู้ให้บริการต่างๆ จะให้บริการตรงกัน
ไปจนถึงการใช้งานในโทรศัพท์มือถือ