Made O'Meter
Discover where a brand or product originates
Boswell Test er en innovativ automatisk rammeverk designet for komparativ analyse av store språkmodeller (LLM). Konstruert av Dr. Peter Luh og implementert som 'botwell' programvareprosjekt av den uavhengige utvikleren Alan Wilhelm, benytter verktøyet en metode for fagfellevurdering. I dette systemet genererer flere AI-modeller essays om spesifikke domener og evaluerer deretter hverandres arbeider for å bestemme relativ ytelse, vurderingsbias og en samlet 'Boswell Quotient'.
Som et åpen kildekode-programvareprosjekt foregår dets 'produksjon' eller utvikling hovedsakelig gjennom bidrag fra samfunnet og individuell vedlikehold på plattformer som GitHub. Rammeverket er bygget for å interagere med ulike AI-leverandører, som OpenRouter, for å lette testing på tvers av et variert utvalg av modeller, inkludert GPT, Claude og Llama. Det fungerer som et multidimensjonalt alternativ til tradisjonelle statiske benchmarks ved å utnytte de analytiske evnene til AI-modellene selv.
Report a bug/Feedback
disclaimer
poweredBy