Inferenssi
Prosessi jossa tekoälymalli tuottaa vastauksen syötetiedoista.
Miksi tällä on merkitystä
Inferenssi on kustannusten lähde. Sen ymmärtäminen auttaa optimoimaan.
Käytännössä
Reitimme inferenssiä strategisesti: FAQ-vastaavuus välttää sen kokonaan, Ollama hoitaa yksinkertaiset tehtävät.
Liittyvät termit
LLM (suuri kielimalli)
Suuri kielimalli, kuten Claude, GPT tai Gemini. Agentin "aivot" jotka ymmärtävät ja tuottavat kieltä.
Latenssi
Aika joka kuluu agentin vastaamiseen tai toimintaan.
Kustannusseuranta
Jokaisen tekoälykutsun hinnan seuranta: malli, tokenit, hinta, välimuististatus.
Ollama
Työkalu paikallisten tekoälymallien ajamiseen. Ilmainen, yksityinen, nopea.