We have recently come to know an indicator called CPS. It seems to have been using this indicator as a performance indicator for open-domain chatbots since it was first mentioned in a Xiaoice paper published by Microsoft. For bots known as SOTA, this indicator seems to be approximately 24. Xiaoice or Mitsuku seem to be around this, and Alexa Prize's top teams seem to be close.
What about SimSimi? SimSimi has been chatting with 350 million users in 81 languages over the past 17 years, with a maximum of 200 million conversations per day. Because none of our team members have a Ph.D., we can't use any fancy terms or papers, but we used the same calculations as CPS for some time when doing A/B tests on our service. But the median was used mainly after realizing that the average value was severely biased.
Anyway, since we knew that this indicator was used all over the place, we did some calculations after a while. Hmmm... Based on the data from August 12th, SimSimi's CPS is 43. It depends on the language, but it doesn't seem to fall below 30.
We may not be able to explain the technical and scientific achievements of SimSimi, but we need to think about what this number means.
우리는 최근 CPS라는 지표를 알게 되었습니다. MS가 발행한 Xiaoice(중국어 일상대화 챗봇 ) 관련 논문에서 최초로 언급한 이후로 이 지표를 여러 곳에서 일상대화 챗봇(소셜봇)의 성능 지표로 사용하고 있는 것 같네요. SOTA라고 알려진 소셜봇들에서 이 지표는 대략 24인 것 같습니다. Xiaoice나 Mitsuku가 이 쯤 되는 것 같고 Alexa Prize 상위 팀들도 이에 근접하는 것으로 보입니다.
심심이는 어떨까요? 심심이는 지난 17년 간 81개 언어로 3억 5천만 사용자와 채팅을 나눠 왔고 일 최대 대화량 2억 회를 기록한 소셜봇입니다. 예전분터 심심이 서비스에서 A/B Test를 할 때 분석을 위해 CPS와 동일한 계산법을 사용했었습니다. 그러다가 평균값이 bias가 심해서 분석이 무의미한 경우가 있다는 점을 체감한 뒤로는 주로 중앙값을 사용해 왔습니다.
어쨌든, 우리가 이 지표가 여기저기 쓰인다는 걸 알았으니까 간만에 계산을 해 봤습니다. 흠... 8월 12일의 데이터로 계산해 보니 SimSimi의 CPS는 43 이네요. 언어에 따라 차이가 있지만 30 아래로 떨어지지는 않는 것 같습니다.
멋지다고 하는 소셜봇들과 심심이 사이에 이렇게나 큰 차이가 있는 이유가 무엇인지 생각을 좀 해 볼 필요가 있을 것 같습니다.