Ce document présente un comparatif des performances de différents modèles de langage (LLM) en fonction du matériel utilisé. Les performances sont exprimées en tokens par seconde (token/s).
| Modèle |
Nombre de paramètres |
Taille |
RTX 2070 |
RTX 3060 |
RTX 3070 |
Core Ultra 7 155H (Arc) |
Core Ultra 7 155H (CPU) |
| LLaMA 3.2:1B |
1.7B |
1.3GB |
112.89 |
- |
131.74 |
33.13 |
24.87 |
| Smollm:135M |
135M |
96MB |
92.53 |
291.73 |
210.1 |
101.03 |
166.71 |
| Mistral |
7B |
4.1GB |
53.13 |
56.75 |
57.57 |
14.65 |
7.82 |
- Les performances varient en fonction du modèle et du matériel utilisé.
- Les cartes RTX offrent un débit de tokens/s plus élevé que les processeurs.
- Le Core Ultra 7 155H avec l'Arc obtient de meilleures performances que le CPU seul, mais reste en retrait par rapport aux GPU dédiés.
- Les résultats peuvent varier selon l'environnement logiciel et les optimisations appliquées.
- Un test avec des pilotes et des bibliothèques optimisés pourrait améliorer les performances sur Intel Arc.