법률 리서치를 위한 AI 벤치마킹 톰슨로이터 모범 사례

톰슨로이터는 고객들이 법률 업무를 더 빠르고 효율적으로 처리할 수 있도록 광범위한 AI 테스트를 진행하고 있습니다. 최근 AI 테스트에 대한 관심과 특히 법률 리서치 분야의 AI 애플리케이션 벤치마킹에 대한 관심이 높아지고 있습니다. 수천 시간의 AI 테스트 경험을 바탕으로, 법률 리서를 위한 AI 테스트나 벤치마킹에 새로운 접근법을 고려하시는 분들께 다음과 같은 모범 사례를 제안합니다. 최근 법률 AI 벤치마크에서 톰슨로이터의 코카운슬(CoCounsel)이 4개 주요 경쟁 도구들을 제치고 1위를 달성하였습니다.

1. 가장 중요한 결과를 위한 테스트를 진행하세요.

당연해 보일 수 있지만, 이에 대한 많은 혼란이 있어 왔습니다. 단 하나의 조언만 할 수 있다면, 바로 이것입니다. 이는 다른 모든 권고사항의 토대가 됩니다.

한 장소에서 다른 장소로 이동하는 시간을 측정하고 싶다면, 고속도로 주행 시간만 재는 것이 아니라 출발지에서 목적지까지의 전체 시간을 재야 합니다. 자동차 유지비에 관심이 있다면, 브레이크 수리와 유지보수 비용과 빈도만 측정하지 않을 것입니다.

법률 리서에 AI를 활용할 때, 100% 정확도를 제공하는 LLM이나 LLM 기반 솔루션은 없습니다. 따라서 대규모 언어 모델이나 LLM 기반 솔루션(RAG를 사용하더라도)에서 생성된 모든 답변은 반드시 독립적으로 검증해야 합니다.

AI 답변에 인용된 출처만 확인하면 검증이 충분하다고 생각하는 경우가 있지만, 이는 잘못된 생각입니다. AI가 생성한 답변이 틀렸는데도 인용된 출처가 단순히 그 잘못된 답변을 뒷받침하는 경우를 많이 봐왔습니다. 제대로 된 검증을 위해서는 인용 도구, 법령 주석 등의 추가 도구를 사용해 답변이 정확한지 확인해야 합니다.

이는 AI 생성 답변을 연구에 활용할 때마다 연구자가 세 단계 과정을 거쳐야 함을 의미합니다: (1) 답변 검토, (2) 답변에서 인용된 자료 검토, (3) 기존 연구 도구를 사용해 답변과 인용된 자료가 정확한지 확인.

연구원들과 이야기해 보면, 그들이 가장 중요하게 생각하는 것은 (a) 관련 법에 대한 정확한 답변이나 이해를 얻는 것과 (b) 그 정확한 답변이나 이해에 도달하는 데 걸리는 시간입니다.

따라서 가장 중요한 두 가지 측정 지표는 다음과 같습니다:

  • 이 세 단계 과정을 통해 사용자가 올바른 답변을 얻을 수 있는 비율
  • 세 단계를 모두 완료하는 데 걸리는 시간

놀랍게도, 1단계에서의 답변 오류 비율은 인용과 주요 법률 링크가 좋고 최신 상태이며 쉽게 검증 가능하다면(오류가 지나치게 많지 않은 한), 세 단계를 모두 거친 연구자의 정확한 답변 비율이나 완료 시간에 큰 영향을 미치지 않습니다. 1단계에만 집중하는 것은 마치 전체 이동 시간을 알고 싶은데 고속도로 속도만 측정하는 것과 같습니다. 별로 유용하지 않죠.

예를 들어, 다음 중 어떤 시스템을 선호하시겠습니까?

  • 초기 AI 답변이 92% 정확하지만, 검증에 평균 18분이 걸리고, 검증 후 정확도가 97%인 시스템
  • 초기 AI 답변이 89% 정확하지만, 검증에 평균 10분이 걸리고, 검증 후 정확도가 99.9%인 시스템

명확한 선택이지만, 종종 과정의 두 번째와 세 번째 단계를 제외하고 첫 번째 단계 측정에만 잘못된 초점이 맞춰집니다. 정말 중요한 것을 측정하세요.

2. 테스트에 현실적이고 대표성 있는 질문을 사용하세요.

당연히 여러분 조직의 일반적인 법률 리서에 맞게 AI를 평가하고 싶을 것입니다. 예를 들어, 조직의 연구 질문이 약 20%는 간단한 질문, 60%는 중간 복잡도, 20%는 매우 복잡하거나 어려운 질문이며, 약 절반은 지식재산법에 관한 질문이고 나머지 절반은 연방 민사소송절차에 관한 질문이라면, 형법에 관한 간단한 질문이 90%를 차지하는 벤치마크 테스트는 별로 도움이 되지 않을 것입니다.

톰슨로이터에서는 매월 고객들로부터 받는 실제 질문을 기반으로 테스트 모델을 구축합니다. 여러분의 테스트에서도 대상 연구자들을 가장 잘 대표하는 질문 유형에 집중하세요.

명확한 답변이 있는 간단한 질문 위주로 테스트하는 것이 가장 쉽지만, 그런 유형의 질문이 사용자들이 주로 하는 질문을 대표하지 않는다면(웨스트로에서의 대부분 AI 사용 사례를 제대로 반영하지 못함), 그 결과는 별로 유용하지 않습니다. 마찬가지로, 지나치게 복잡하고 극도로 어렵고 미묘한 질문이나 함정 질문만 주로 테스트한다면, 이는 시스템의 한계를 시험하는 데는 유용할 수 있지만, 대부분의 실제 의사결정에는 큰 도움이 되지 않습니다.

3. 최대한 많은 질문을 테스트하세요.

우리의 테스트 경험에 따르면, 적은 수의 질문으로 테스트하는 것은 더 큰 세트에서의 실제 성능을 거의 반영하지 못합니다. 대규모 언어 모델은 동일한 입력에도 매번 다른 응답을 생성할 수 있습니다. 또한 응답이 길고 복잡할 경우, 동일한 응답을 평가할 때도 평가자들 간에 의견이 갈릴 수 있습니다. 대략적인 방향을 파악하기 위해서는 100개 정도의 질문 샘플로 테스트해도 괜찮지만, 알고리즘이나 LLM을 서로 비교할 때는 평가하면서 결과를 확인하고 관심 지표가 안정될 때까지 테스트할 것을 강력히 권장합니다. 예를 들어, 두 시스템 중 어느 것이 더 선호되는지 비교한다면, 새로운 질문 배치마다 어느 한 시스템이 다른 시스템보다 선호되는 비율이 크게 변하지 않을 때까지 테스트해야 합니다. 테스트할 질문 수를 결정하는 또 다른 기준은 원하는 신뢰 수준과 구간입니다(다음 섹션 참조).

4. 신뢰 수준과 구간을 계산하고 보고하세요.

상당히 많은 질문 세트를 사용하더라도 정확도 측정은 어느 정도 제한적인 정밀도를 가집니다. 이러한 측정값을 의사결정에 활용할 때는 측정의 정확도 범위나 정도(신뢰 수준 및 신뢰 구간)를 이해하는 것이 중요합니다. 신뢰 구간과 수준은 설문조사의 오차 범위와 비슷하다고 생각하면 됩니다. 측정이 얼마나 신뢰할 수 있고 반복 가능한지 알려줍니다.

예를 들어, 200개 질문을 기반으로 AI 정확도를 테스트할 때, 동일한 질문/답변으로 테스트를 다시 실행하되 다른 평가자를 사용하거나, 동일한 평가자를 사용하되 다른 200개의 무작위 대표 질문 샘플을 사용한다면 정확히 동일한 결과를 얻을 것이라 기대하시나요? 일반적으로 그렇지 않을 것입니다. 결과가 특정 범위 내에 있을 것으로 예상되므로, 의사결정자가 알고리즘/LLM 간의 의미 있는 차이와 그렇지 않은 차이를 이해할 수 있도록 결과와 함께 그 범위를 보고하는 것이 중요합니다. 이를 보고하는 올바른 방법은 신뢰 구간과 수준을 사용하는 것입니다. 표준 가정을 사용할 때, 단 100개 질문 샘플에서 10%의 오류율을 측정하면, 실제 오류율이 4.1%에서 15.9% 사이라는 것을 약 95% 확신할 수 있습니다. 이를 95% 신뢰 수준이라고 하며, “+/- 5.9%”는 오차 범위입니다. 500개 질문 샘플에서 10%의 오류율을 측정한다면, 95% 신뢰 구간은 7.4%에서 12.6% 사이, 즉 10% +/- 2.6%가 될 것입니다.

신뢰 구간을 추정하기 위한 기본 분석은 측정하려는 결과를 완벽하게 감지할 수 있다고 가정합니다. 만약 그 감지에 불확실성이 있다면, 예컨대 두 독립적인 평가자가 결과에 대해 일정 비율로 의견이 불일치한다면, 오차 범위는 증가합니다. 약 5% 정도 신뢰할 수 없는 평가 과정은 위의 100개 질문 예시에서 오차 범위를 5.9%에서 7.3%로 증가시킬 수 있습니다. 표준 오차를 계산하는 다양한 방법이 있으며, 이러한 예시들은 실제 관찰되는 신뢰 구간을 과소평가할 가능성이 있는 단순화된 가정을 한다는 점을 기억하세요.

5. 자동화 평가와 수동 평가를 함께 활용하세요.

복잡한 질문에 대한 긴 답변을 사람이 검토하는 것은 어렵고 시간이 많이 소요됩니다. 이상적으로는 AI가 생성한 답변의 정확성과 품질을 AI가 평가하도록 하는 것이 좋을 것입니다. 이를 흔히 ‘판사로서의 LLM’이라고 합니다. 그러나 AI가 답변을 생성할 때 실수를 하는 것처럼, 사람이 작성한 표준 답변과 비교해 답변의 품질을 평가할 때도 실수를 할 수 있습니다. 우리 경험상 현대 LLM은 답변이 명확하고 비교적 짧을 때는 AI 생성 답변을 표준 답변과 비교해 평가하는 데 꽤 좋은 성능을 보입니다. 그러나 길이와 복잡성이 증가하면 판사로서의 LLM 접근법은 매우 신뢰성이 떨어집니다.

예를 들어, 연구에 따르면 LLM은 전문 지식, 추론, 수학과 같이 전문 지식이 필요한 복잡하고 어려운 질문에 대한 응답을 평가할 때 어려움을 겪는 경향이 있습니다.

대부분의 테스트 세트에는 간단하고 쉽고 명확한 질문과 답변 샘플이 포함되므로, 이러한 질문에 대해서는 AI를 활용한 자동 평가를 사용하고, 나머지는 사람 평가자를 활용하는 것이 합리적입니다. 적어도 AI가 더 많은 부분을 자동화할 수 있을 정도로 발전할 때까지는 말이죠.

6. 평가자 여러 명이 검토하고 의견 불일치는 전문가가 해결하세요.

이런 평가에서 평가자 간 신뢰도는 실제 문제가 될 수 있습니다. 우리 테스트에서 변호사들이 복잡한 법률 리서 질문에 대한 AI 생성 답변을 평가할 때 약 25%의 경우에 답변의 정확성이나 품질에 대해 의견이 갈리는 것을 발견했습니다. 이는 단일 평가자 평가의 신뢰성을 떨어뜨립니다. 신뢰성을 높이기 위해 우리는 두 평가자가 각 답변을 별도로 평가하고, 의견 충돌이 있는 경우 더 경험 많은 세 번째 평가자가 이를 해결하도록 합니다.

7. 표준 답변의 정확성도 검증하세요.

사람들이 답변을 평가할 때 실수하는 것처럼, 테스트용 표준 답변을 만들 때도 실수할 수 있습니다. 우리 경험상 AI 생성 답변이 표준 답변과 비교했을 때 부정확하다고 평가되었지만, 자세히 조사해보니 AI가 맞았고 표준 답변을 작성한 사람이 틀린 경우가 있었습니다. 때로는 AI가 실수하고 때로는 사람이 실수합니다 – 양쪽 모두 확인해야 합니다.

8. 평가 시 출처를 가려 편향을 방지하세요.

우리 평가에서는 평가 시 인간의 편향을 배제하려고 노력합니다. 때로는 평가자가 과거에 특정 제품이나 LLM에 대해 좋거나 나쁜 경험을 했을 수 있으며, 그러한 편향이 현재 평가에 영향을 미칠 수도 있습니다. 따라서 다른 솔루션을 평가할 때는 먼저 솔루션의 출처를 식별할 수 있는 모든 요소를 제거하여 결과가 과거의 긍정적이거나 부정적인 경험에 의해 편향되지 않도록 합니다.

9. 오류 여부와 함께 답변의 실질적 가치도 평가하세요.

답변에서 옳고 그른 것은 긍정적 가치와 부정적 영향 측면에서 엄청난 차이가 있을 수 있습니다. 예를 들어, 다음 답변들을 생각해보세요:

A. 답변이 모든 면에서 정확하지만 짧고 개괄적입니다. 질문과 관련된 법적 문제에 대한 기본적인 설명만 제공하고, 검증을 위한 일차 또는 이차 법률에 대한 참조나 예외 사항에 관한 세부 내용은 제공하지 않습니다.

B. 답변이 길고 세밀하며, 질문의 여러 측면을 다루고 적용될 수 있는 중요한 예외에 대해 논의하며, 검증을 위한 인용과 링크를 제공합니다. 모든 면에서 정확하지만, 인용 중 하나의 날짜가 부정확합니다. 하지만 이는 인용의 링크를 클릭할 때 쉽게 확인하고 수정할 수 있습니다.

C. 답변이 모든 면에서 부정확하고 모든 관련 참조는 단순히 잘못된 답변을 뒷받침하는 법률을 가리킵니다.

평가가 단순히 오류가 포함된 답변의 수에 대한 이진적 관점이라면, 답변 A는 좋아 보이고 답변 B와 C는 똑같이 나빠 보입니다. 실제로는 답변 C가 답변 B보다 훨씬 더 나쁘고 해롭습니다. 그리고 답변 B는 답변 A보다 연구자에게 훨씬 더 가치 있을 것입니다.

우리 평가에서는 답변의 깊이와 참조의 품질과 같이 연구자에게 도움이 되는 답변 특성을 찾으며, 오류를 단순히 이진적으로 평가하지 않습니다. 완전히 잘못된 답변이 그렇지 않은 답변보다 훨씬 더 나쁘다고 봅니다. 또한 오류 진술이 핵심 질문을 다루는지 아니면 부수적인지, 그리고 답변 내에서 모순되는지 또는 링크된 참조를 통해 쉽게 확인할 수 있는지에 따라 달리 평가합니다. 물론 모든 오류를 없애고 싶지만, 일부 오류는 다른 것보다 더 해롭습니다.

10. 표준 답변을 넘어선 오류도 찾아보세요.

LLM은 종종 표준 답변의 범위를 벗어난 정보를 포함한 답변을 생성합니다. 예를 들어, 표준 답변은 “이 질문의 답은 ‘아니오’이며, X, Y, Z로 설명해야 하고, 특히 사례 A와 B, 법령 C를 인용해야 한다”고 말할 수 있습니다.

LLM 생성 답변은 “답은 ‘아니오'”라고 하고 X, Y, Z를 A, B, C에 대한 참조와 함께 설명할 수 있지만, 예외나 관련 이슈, 또는 추가 사례나 법령에 대한 설명을 덧붙일 수도 있습니다. 때로는 다른 모든 것이 정확하더라도 이러한 추가 설명이 부정확할 수 있습니다. 따라서 LLM 판사나 인간 평가자가 AI 생성 답변이 정확한지 확인하기 위해 표준 답변만 살펴본다면, 그 평가는 추가 내용의 오류를 놓칠 수 있습니다. 이는 평가자들이 답변에 오류가 있는지 판단하기 위해 표준 답변 확인 외에도 독립적인 연구를 해야 한다는 의미입니다.

11. 신뢰성 테스트도 고려하세요.

LLM에는 종종 일정 수준의 무작위성이 내재되어 있습니다. 많은 LLM이 이를 최소화하거나 제거하기 위한 온도 설정을 갖추고 있어, 동일한 질문을 여러 번 물을 때 답변을 더 일관되게 만들 수 있습니다.

그러나 일부 LLM은 이에 더 능숙하며, RAG와 같은 다른 기술과 함께 LLM을 활용하는 일부 통합 솔루션은 답변에 더 많은 창의성을 부여하기 위해 온도를 낮게 설정하지 않습니다.

중요한 결정을 내릴 때는 동일한 질문을 20번 실행하고 동일한 질문에 대한 다른 답변들보다 현저히 나쁜 답변이 있는지 확인하여 신뢰성을 테스트하는 것을 고려해보세요.

위의 내용은 지난 30년 동안 AI, 생성형 AI, LLM 분야에서 쌓은 광범위한 전문 지식에서 얻은 인사이트입니다. 톰슨로이터에서는 모든 결정의 중심에 고객을 두고 있으며, 모든 AI 생성 답변은 사용 시점에서 반드시 사람이 확인해야 한다는 점을 투명하게 밝히고 있습니다.

AI 제품을 테스트할 때, 우리 팀은 모든 테스트에서 이 모든 단계를 따르지는 않습니다. 때로는 테스트의 정확성 보다 속도를 우선시하기도 하고 그 반대의 경우도 있지만, 특정 단계를 우선시함으로써 발생하는 트레이드 오프를 명확히 이해하고 이를 팀과 공유합니다. 내리려는 결정이 크고 중요할수록, 더 많은 단계를 따릅니다.

이 글은 톰슨로이터의 웨스트로(Westlaw) 제품 책임자인 마이크 단(Mike Dahn)과 선임 응용 과학자인 다샤 헤르마노바(Dasha Herrmannova)가 작성한 게스트 포스트입니다.

궁금한 사항이 있으시면 문의하기를 남겨주시면 전문가가 빠르게 연락드리겠습니다.

리걸 인사이트를 구독하세요

모범 사례를 살펴보고 최신 업계 트렌드를 반영한 인사이트를 업데이트 받으세요.

구독하기