FALSIFYBENCH tests LLM inductive reasoning with rule discovery games

AnalysisAI Models

7 days ago

FALSIFYBENCH tests LLM inductive reasoning with rule discovery games

Benchmark uses rule discovery games to assess LLMs' inductive reasoning for scientific tasks. Aims to evaluate whether LLMs can effectively engage in reasoning relevant to scientific discovery.

FALSIFYBENCH: Evaluating Inductive Reasoning in LLMs with Rule Discovery Games7 days agoLeonardo Bertolazzi, Katya Tentori, Raffaella Bernardi

7 days ago