วันอาทิตย์ที่ 29 กันยายน พ.ศ. 2567

Meta เปิดตัว Llama 3.2 เพิ่มรุ่นอ่านภาพได้, มีโมเดลขนาดเล็กเน้นรันในโทรศัพท์ พร้อมชุดพัฒนาซอฟต์แวร์ของตัวเอง

Meta เปิดตัว Llama 3.2 โมเดล LLM เพิ่มรุ่นรองรับอินพุตเป็นภาพ ที่มีความสามารถระดับเดียวกับ GPT-4o-mini พร้อมกับโมเดลรุ่นเล็กขนาด 1B ที่ความสามารถใกล้เคียงโมเดลกลุ่มขนาดเล็กด้วยกัน

แนวทางการพัฒนา Llama 3.2 รุ่นรับภาพนั้น อาศัยการสร้าง image encoder แปลงข้อมูลเข้าไปให้กับโมเดลภาษาเดิม ระหว่างการฝึกช่วงแรกก็ฝึกเฉพาะ image encoder อย่างเดียว ไม่ปรับแก้ส่วนโมเดลภาษา เพื่อให้แน่ใจว่าความสามารถด้านภาษานั้นยังเท่าเดิมอยู่ จากนั้นฝึกความรู้ที่มีภาพประกอบเพิ่มเข้าไปภายหลัง และจบด้วยการฝึกด้านความปลอดภัยเพิ่มเติม โมเดลรุ่นรองรับภาพนั้นมีสองขนาด คือ 90B และ 11B โดยตัว 90B นั้นความสามารถเทียบเคียงกับ GPT-4o-mini ในหลายชุดทดสอบ

ส่วนโมเดลขนาดเล็กอาศัยเทคนิค pruning คือการย่อโมเดลขนาดใหญ่กว่าให้เล็กลงโดยพยายามรักษาความรู้ให้มากที่สุดเท่าที่เป็นไปได้ โดยตั้งต้นจาก Llama 3.1 8B แล้วตัดย่อโมเดลลงมาเรื่อยๆ ต่อจากนั้นอาศัยเทคนิค distillation ฝึกโมเดลที่ถูกตัดย่อมาแล้วให้มีความสามารถกลับขึ้นมาใกล้เคียงโมเดลขนาดใหญ่

สุดท้ายทาง Meta ปล่อย Llama Stack Distribution ชุดเครื่องมือสำหรับการพัฒนา ประกอบไปด้วยคำสั่ง Llama CLI สำหรับการสั่งคอนฟิกและรันโมเดล, โค้ดไคลเอนต์ในภาษาต่างๆ สำหรับนักพัฒนา, Docker สำหรับเซิร์ฟเวอร์ และ Agent API Provider ผู้ใช้สามารถนำ stack นี้ไปรันได้หลายที่ ทั้งเครื่องส่วนตัวที่ภายในเป็น Ollama หรือคลาวด์ที่ผู้ให้บริการต่างๆ จะให้บริการตรงกัน ไปจนถึงการใช้งานในโทรศัพท์มือถือ

ที่มา: Blognone

ไม่มีความคิดเห็น:

แสดงความคิดเห็น