标签化场景（你写的显性身份+场景） vs 真实用户提问场景完全一致时，AI回答差异到底有多大？