WIPE LLMs Translation Leaderboard

Loading leaderboard data...

Benchmark Scale

13 LLMs

×

20 Languages

×

3 Samples

=

780

Total Translations

13 LLM Models

Recent flagships and popular models.

Claude Opus 4.1

Claude Sonnet 4

DeepSeek Chat v3

Gemini 2.5 Flash

Gemini 2.5 Pro

Gemma 3 12B IT

GPT-4o

GPT-5

Grok 4

Grok Code Fast 1

Llama 3.3 70B

Mistral Nemo

Qwen3 30B A3B

20 Languages

Global linguistic diversity spanning major world regions.

Arabic

Chinese

Czech

Dutch

French

German

Greek

Hebrew

Indonesian

Italian

Japanese

Korean

Polish

Portuguese

Russian

Spanish

Swedish

Thai

Turkish

Vietnamese

3 Text Samples

Small Text

Medium Text

Large Text

6 Scoring Criteria

Each translation evaluated by GPT-5 across these dimensions.

Accuracy

Fluency

Style

Completeness

Cultural

Technical