Made O'Meter
Discover where a brand or product originates
Boswell Test er en innovativ automatiseret ramme designet til den sammenlignende analyse af store sprogmodeller (LLM'er). Konceptualiseret af Dr. Peter Luh og implementeret som 'botwell' softwareprojektet af den uafhængige udvikler Alan Wilhelm, anvender værktøjet en peer-review metode. I dette system genererer flere AI-modeller essay om specifikke domæner og evaluerer derefter hinandens arbejde for at fastslå relativ præstation, vurderingsbias og en samlet 'Boswell Quotient'.
Som et open-source softwareprojekt finder dens 'fremstilling' eller udvikling primært sted gennem fællesskabsbidrag og individuel vedligeholdelse på platforme som GitHub. Rammen er bygget til at interagere med forskellige AI-udbydere, såsom OpenRouter, for at lette test af et forskelligartet udvalg af modeller, herunder GPT, Claude og Llama. Den fungerer som et multidimensionelt alternativ til traditionelle statiske benchmarks ved at udnytte de analytiske kapaciteter hos AI-modellerne selv.
Report a bug/Feedback
disclaimer
poweredBy