What Happens When You Debate an AI

The theatre was full. It was a San Francisco crowd, filled with engineers, entrepreneurs, and true believers, convinced that they were watching the future arrive. At the front of the stage stood a black rectangular column, human height, with a single blue oval glowing near the top. I had been told what IBM's Project Debater could do. Hearing it was something else entirely. Its first words on stage were simple. "Welcome to the future."

IBM had a habit of setting itself seemingly impossible challenges. In 1997, Deep Blue beat Garry Kasparov, the reigning world chess champion, at his own game. In 2011, Watson defeated two of the greatest Jeopardy champions of all time. A week after that victory, the company asked its researchers what should come next. Noam Slonim, working out of IBM's lab in Haifa, proposed something that had never been done. Build a machine that could debate. Not answer questions. Not optimise moves. Argue with a human opponent, on a topic it had never seen before. Project Debater was the result. When it spoke, it was fluent, structured, and relentless. It opened with a joke. It cited peer-reviewed research. It anticipated counterarguments. For someone who had spent years making arguments, it was genuinely impressive. And genuinely strange.

But it had a flaw that no amount of data could fix. Debate is not just an exercise in accumulating the strongest evidence. It is an exercise in working out what will persuade the specific people sitting in front of you. Project Debater could identify what was true. It could not read a room. It piled argument upon argument, each one logically sound, none of them calibrated to the audience's doubts. The philosopher Arthur Applbaum, reflecting on the debate, asked if hearing every argument on a topic actually helps us think more clearly about it. It does not. Hearing every conclusion is not the same as being helped to reason. The machine had mistaken comprehensiveness for persuasion. They are not the same thing.

But that was 2019. That was before large language models existed. Back then, AI could only retrieve pre-assembled arguments rather than generate original ones. Building an AI debating system today would produce something categorically different. Claude, for instance, can identify the weakest point in an opposing argument, and do so across any topic, in seconds. It can deploy persuasive rhetoric. Used well, it would make anyone faster, sharper, and capable of arguments they would never have thought of. A modern AI debater would not be perfect. But it is impossible to believe it would not be a far more serious challenge than what I faced that evening.

But can an AI learn what actually persuades people? Chess suggests artificial intelligence has left humanity behind entirely. Magnus Carlsen, the strongest player in the history of the game, has said that he has no chance against his phone. The gap between the best human and the best chess engine is not close; it is not even interesting. But chess has a feature that debate does not. There is an objective measure of who is winning. And the same machine that would humiliate Carlsen cannot reliably pick up the pieces afterwards. A toddler manages it without thinking.

Persuasion looks more like picking up the pieces than playing the game. Knowing the best justified argument is not the same as knowing which argument, delivered how, will shift this person's view. That gap between correctness and persuasiveness is where human debaters have always lived. Whether AI can close it is unclear. And even if it can, would it matter? When I stood in that hall and heard the machine speak, part of what the audience was responding to, I suspect, was me. Not just the argument. The fact that a person had made it. Whether that changes with time, or whether something about knowing the source is a machine keeps us resistant, is a question the technology will eventually force us to answer.

Sala je bila puna. Bila je to San Francisko publika — inženjeri, preduzetnici i pravi vernici, uvereni da gledaju kako budućnost dolazi. Na prednjem delu pozornice stajao je crni pravougaoni stub, ljudske visine, sa plavom ovalnom svetlošću koja je sijala pri vrhu. Rekli su mi šta IBM-ov Project Debater može da uradi. Čuti ga uživo bila je sasvim druga priča. Prve reči na pozornici bile su jednostavne. „Dobrodošli u budućnost."

IBM je imao naviku da sebi postavlja naizgled nemoguće izazove. Godine 1997, Deep Blue je pobedio Garija Kasparova, tada aktuelnog svetskog prvaka u šahu, u njegovoj sopstvenoj igri. Godine 2011, Watson je pobedio dva od najvećih šampiona Jeopardy-ja svih vremena. Nedelju dana nakon te pobede, kompanija je pitala svoje istraživače šta treba da dođe sledeće. Noam Slonim, koji je radio u IBM-ovoj laboratoriji u Haifu, predložio je nešto što nikada nije urađeno. Izgraditi mašinu koja može da debatuje. Ne da odgovara na pitanja. Ne da optimizuje poteze. Da se raspravlja sa ljudskim protivnikom, na temu koju nikada nije videla. Project Debater je bio rezultat. Kada je govorio, bio je tečan, strukturisan i nepokolebljiv. Počeo je šalom. Citirao je recenzirana istraživanja. Anticipirao je kontraargumente. Za nekoga ko je proveo godine izgrađujući argumente, bilo je to istinski impresivno. I istinski čudno.

Ali imao je manu koju nikakva količina podataka nije mogla da ispravi. Debata nije samo vežba u gomilanju najjačih dokaza. To je vežba u pronalaženju onoga što će ubediti konkretne ljude koji sede ispred vas. Project Debater je mogao da identifikuje šta je istinito. Nije mogao da proceni publiku. Gomilao je argument na argument — svaki logički validan, ni jedan kalibrisan prema sumnjama publike. Filozof Artur Aplbaum, razmišljajući o debati, pitao je da li slušanje svakog argumenta o nekoj temi zaista pomaže da jasnije razmišljamo o njoj. Ne pomaže. Čuti svaki zaključak nije isto što i biti pomognut u rasuđivanju. Mašina je zamenila sveobuhvatnost za ubeđivanje. To nije ista stvar.

Ali to je bilo 2019. Pre nego što su postojali veliki jezički modeli. Tada je AI mogao samo da preuzima unapred sastavljene argumente, a ne da generiše originalne. Izgradnja AI sistema za debatovanje danas bi proizvela nešto kategorički drugačije. Claude, na primer, može da identifikuje najslabiju tačku u suprotnom argumentu — i to na bilo koju temu, za sekunde. Može da upotrebi ubedljivu retoriku. Korišćen dobro, učinio bi svakoga bržim, oštrijim i sposobnim za argumente do kojih nikada ne bi sam došao. Moderni AI debater ne bi bio savršen. Ali nemoguće je poverovati da ne bi bio daleko ozbiljniji izazov od onoga sa čime sam se suočio te večeri.

Ali može li AI da nauči šta zaista ubedi ljude? Šah sugeriše da je veštačka inteligencija potpuno ostavila čovečanstvo za sobom. Magnus Karlsen, najjači igrač u istoriji igre, rekao je da nema nikakve šanse protiv svog telefona. Jaz između najboljeg čoveka i najboljeg šahovskog programa nije mali — on nije ni zanimljiv. Ali šah ima jednu karakteristiku koju debata nema. Postoji objektivna mera ko pobeđuje. I ista mašina koja bi ponizila Karlsena ne može pouzdano da pokupi figure posle toga. Mala deca to rade ne razmišljajući.

Ubeđivanje više liči na skupljanje figura nego na igranje igre. Znati koji je argument najbolje opravdan nije isto što i znati koji argument, kako isporučen, će promeniti mišljenje ovog konkretnog čoveka. Taj jaz između ispravnosti i ubedljivosti je mesto gde su ljudski debatanti uvek živeli. Da li AI može da ga zatvori — nije jasno. Čak i ako može, da li bi to bilo važno? Kada sam stajao u toj sali i slušao kako mašina govori, deo onoga na šta je publika reagovala bio je, sumnjam, ja sam. Ne samo argument. Već i činjenica da ga je izrekao čovek. Da li će se to promeniti s vremenom, ili nešto u saznanju da je izvor mašina drži nas otpornima — to je pitanje na koje će nas tehnologija na kraju primorati da odgovorimo.

What Happens When You Debate an AI

Harish Natarajan

Relatedessays.

Why most AI pilots fail at month three — and the four habits that save them.

RAG isn't search: a primer for operators.

The data lake question every CFO should ask first.

Related
essays.