手机三国杀吧 关注:982,357贴子:19,119,959

回复:2025年1月身份局纯单挑排行榜

取消只看楼主收藏回复

1.出现一些“看似很夸张”的比分变化是单挑测试里再正常不过的东西,一有这种事就认定是红利的人对单挑测试的比分没有最基本的概念。用假设检验模型套一下就知道想拿50局数据把胜率定在一个上下界5%的范围之内有多么荒唐。单挑测试天天跟这个打交道,既有便捷的相关计算工具,也有相对统一的集体共识,正常测试者能够理解运气波动对单挑结果的影响,能够客观看待比分反映胜率的准确程度和局限性,但这个论调的提出者从来都对此充耳不闻,坚持认为三五十局的比分就能表示特定时间内的理论胜率。


IP属地:湖北26楼2025-01-06 18:46
回复
    测得次数多了,发生小概率事件的次数自然也会多。要照神郭嘉祢衡这种级别的比分变化就算“红利”的观点看下去,那单挑测试天天都是红利。
    随便举几个测试比分的例子:
    前两天刚打的神孙策袁绍,一组数据29-21,另一组数据10-20,最后加到将近200局定平,这还是理论相对方差小些的双方先手大优局;
    上周群友打的某对局,前12局9-3,后20局2-18;
    文钦沙摩柯,连续四段数据,7-1,1-9,9-1,5-15,最后打到70局文钦显出明显劣势;
    文钦界廖化,第一天一个5-11,第二天一个11-5。
    这些数据都是先后手对等的。而且这几个例子除了神孙策袁绍之外,剩下每组对局打出两组方差极大的数据时连双方操作者都没换。这些还都只是12月一个月里打出来的,要问测单挑这些年里总共有多少类似的经过,我能讲一小时不带重样。
    当然现在的结论里也一定有因为这种运气波动导致的未被发现的疏漏,对绝大多数只打了三五十局的对局来说,运气波动都是可能造成结论偏差的最大潜在原因(远比打法问题影响大)。不展开说如何看待这个问题的事情了,至少连着打20局先打个9-1后打个1-9这种事情,总不能要用黑红利在这期间发生转化了来解释吧。


    IP属地:湖北27楼2025-01-06 18:49
    回复
      2.神郭嘉在这期间的其他测试结果都一切正常,略劣张绣、73李傕、73徐荣,这些都与后来的复测结果吻合,甚至最开始还打出神郭嘉小劣许攸的战绩,而现在我们知道神郭嘉打许攸折腾了几个来回近千局也没分出个高下,真实胜率就在50%附近。如果神郭嘉当时有造成胜率两成偏差的明显“红利”,怎么当时没打出碾压李傕徐荣,大优许攸,平优张绣这类战绩呢?难道神郭嘉的“红利”还分对手吗?


      IP属地:湖北29楼2025-01-06 18:51
      回复
        3.发表这个论调的人其人品的臭不可闻程度比这个论调本身还要更上一层楼,他为了证明他观点正确可以不惜用近乎一切无耻的手段,他造的谣的无耻程度经常能令人得知真相后还惊讶许久,可以说单挑榜图片左下角那一段话就是在写他还有他的那个小圈子。如果觉得我的评价因为我利益相关可能有失偏颇,想质疑我故意抹黑他的,大可去问单挑测试里和他有关的2021年至2022年上半年相关事情的其他亲历者,或者想一想为什么横跨三服纵跨几年的这么多单挑测试者在那之后都在认可他的小圈子里消失了。为了避免偏离主题,其他的破事在这里不详说,在祢衡神郭嘉这件事上,除了他写的比分和对阵双方操作者确实是真的,没有胡编乱造之外,剩下的细节(尤其是那些他没公开发出来,在隔绝了事情亲历者之后再跟人讲述的那些版本)几乎全是杜撰出来的。


        IP属地:湖北31楼2025-01-06 18:53
        回复
          4.最开始的神郭嘉祢衡对局数据,祢衡方由于对对局不够熟练是有一些操作失误的,在神郭嘉视角的视频里也能看得出来一些,可以说这组对局比分可能本不会打出那么悬殊。然而这位暴论提出者很快就与大部分测试者不和,自然也包括当时的祢衡操作者。所以,一有人给他指出祢衡存在失误,他就跟着说祢衡操作者水平不行,祢衡玩得菜,打出的战绩还不如后面对局里他找的路人,把话题从有无“红利”上转移走。到了他想说“红利”的时候,就又闭口不提当时这第一组数据有学费成分,两头堵是给他玩明白了


          IP属地:湖北32楼2025-01-06 18:55
          回复
            5.这个人迷信小样本对于理论的反映程度,从而碰到什么不符合预期的都要怀疑一下,也有过很多失败经历。和测试有关的事情最开始是在无名杀上测试时出现过一个比分反常现象,于是无名杀在当时被他称为“破绽杀”,无名杀的主要开发者苏婆(苏婆玛丽奥)被他称为“苏破绽”,讽刺无名杀暗箱操作代码。然而无名杀一直是开源的,在不盈利的开源代码里搞暗箱操作图什么?我当时去找苏婆问过,得到的结果是显而易见的,但他还是不全信。最后我和另一位懂代码的测试者分别查阅了无名杀点将单挑模式、摸牌接口以及争议武将的相关代码,确定没问题并解释了好多次之后,他才不抓住这个点继续讽刺(平心而论最开始质疑无名杀这件事并不主要是他的锅,但是把话说得如此笃定的只有他一位,能拿着自己捕风捉影来的猜测对人人身攻击的也只有他一位)。


            IP属地:湖北34楼2025-01-06 18:59
            收起回复
              这事说服他之后,很快他就开始180度大掉头转向神郭嘉红利论,从而坚定认为正式服代码都是不对的,许多概率都不正常,要到无名杀测试才对。他在正式服打什么对局出现他认为他运气太差或对手运气太好,甚至是他在打斗地主时出现了某某现象,他就会言之凿凿地认为某武将概率有问题,需要其他人给他测概率,否则就不打这将单挑。其他人也包容他,陆续给他测了涵盖神郭嘉、祢衡、徐荣在内的多个武将技能和摸牌概率以回应质疑,然而他总是能在自信地质疑→强势地要求→被推翻→装没看见→自信地质疑间达成0CD循环,我不知道为什么脸皮能这么厚,总之大伙后面都没耐心哄他玩了。


              IP属地:湖北36楼2025-01-06 19:00
              回复
                但他的猜想最终也没有完全被推翻,至少他自己不认为完全被推翻了。剩余的猜想至少包含以下几个:
                神郭嘉在刚上线时有红利神郭嘉在刚上线时会让对手有黑利,例如会让李傕狼袭神郭嘉时期望伤害降低
                神郭嘉现在(指的是2021年底至2022年上半年内的某段时间)有黑利,统计牌质统计不出来,因为系统检测到关键时候才故意发烂牌,优劣势已定的时候发好牌也没用,却把烂牌统计数据抵消了
                祢衡在之前一段时间里有黑利
                文鸯在刚上线时可能也有红利,但是文鸯本来就强加上不吃摸牌,所以看不出来
                神孙策在刚上线时有红利
                杜预在刚上线时有红利
                ——看吧,要么是在当时可以测的时候不说,两个月之后冒出来一个无法追溯的“先前……”(除了神孙策和杜预,这两个确实是他当时怀疑了,杜预那时候还早,还没有遇到什么问题就要测试的习惯,神孙策则是他怀疑时已经没人愿意响应他给他专门测了),要么就是没根据地提出一个理论,在别人不拿出时间心力统计数据证伪之前,先去大肆宣传博得别人对他的认同和关注。他也没有直接的数据,只会拿出三五十局的测试比分这种间接样本反复滚刀,再讲出一些既不具体又毫无可行性的、看似满足他自己要求实则漏洞百出根本不像过了大脑的所谓试验方案出来,然后指挥别人去测试。别忘了,他迷信小样本的特点一样会应用到他看待这些测试结果的时候,而像“关键时刻发烂牌”这种需要先定义“关键时刻”“烂牌”再在真实对局中寻找样本的测试,要让每个细分测试项都有足够多样本,工作量非常夸张,和他张口就来的一句质疑根本不成正比。
                你问他为什么不自己测,非要让别人给他测?其实他也没一上来就要求别人必须给他测,而是他觉得他看到的内容已经够了,不需要测就一定是对的,导致别人只能通过测试才能驳倒他时,他才说必须去怎么怎么测试。有时他甚至会冲看他说概率有问题就想要测试的其他人发火,觉得要测试的人是针对他捏
                不过有一说一,他应该确实参与了郑玄整经的数据统计,并且根据他汇总的数据,改版之前的郑玄整经可能有过至少两个切水果切出来的牌概率不同的阶段。这个其实有些跑题,因为郑玄在那之后一直是单挑测试禁将了,但是我还是提一下吧,免得有人觉得我在选择性截取事件。要是有人想把整经这种连个详细机制描述都没有的东西和摸牌概率混为一谈的话,那只有顺从他的逻辑能力了。


                IP属地:湖北38楼2025-01-06 19:06
                收起回复
                  可能有人又要问了,说了半天,这不还是没法证伪“关键时刻发烂牌”“给对手黑利”之类的猜想吗?是的,我不反对,我也从来没想要传达“没有操控牌堆的理论可能”的意思,恰恰相反,要是我这么想,我这几年花大量时间统计二十多次图的什么。如果你看到这还觉得这是狗卡阴兵给狗卡的洗地文,那我们真不适合再有任何进一步的交流。
                  类似这种“狗卡高明的平衡术”的说法可能存在很久了,共同点就是先认定牌堆有红利,统计出来牌质正常之后就说是你的统计方法统计不出来的红利,拿之前公开发表过的界沮授斗地主连弩统计那事来说,这种理论仅我见过的表现形式就至少包括以下几种:“碰上强农民发好牌,弱农民稳赢局发烂牌也能赢”“每次连弩都挑最合适的时机来,一波打出大优势后面单挑时牌差点无所谓”“同时摸两个连弩概率低,这些多余的连弩被分配到本来没有连弩的局,造成有连弩的局占比更高”“最开始有红利摸的连弩多,后来狗卡发现每局打完都有回看录像操作猜到可能在统计了所以给黑利防止被发现”……,最终得出结论,虽然统计出的摸连弩概率在正常范围,但是胜率更高了,还是红利。


                  IP属地:湖北39楼2025-01-06 19:08
                  收起回复
                    其实数感比较好的朋友可以试着粗略估计下在这种平衡策略下要想达到体感明显的红利程度可能需要多么畸形的控制才能对冲出来,有项目开发经验的朋友也可以想一下假如自己想让一个武将的大众评价变高达到骗氪的目的会不会做“关键时刻发好牌,不关键时刻发烂牌”“给对手黑利,比如检测身份让对手摸牌质量变差,或者自己被李傕狼袭时受伤期望降低”这种东西,可能说是“舍近求远”都有点美化它了,槽点多到不知道该从哪一条开始吐槽。不过这里我不想从这些角度聊,因为这些东西想解释的话就又要花更多篇幅。
                    比这些更重要的事情是,越是非凡的质疑就越需要有针对性的强有力的证据或理论作为支撑。怀疑应该附带与其观点直接对应的证据,而不是先提个更为特殊的观点反驳别人的观点并要求别人证伪,不然必然会滑入怀疑主义。只要是统计,必然能找出如此的“平衡术”观点来“反驳”统计,而与统计的过程相比,提出质疑观点又不需要花费任何时间成本,所以质疑必然会远多于统计,用怀疑的观点来看,统计就会变得毫无作用。照这种论调发展下去,其实不管测什么样都可以说,xx将一定有红利,你们测出来所有结果都是在特定的号上测的,没有考虑那些充钱多/充钱少/官阶高/官阶低/胜率高/胜率低/打得多/打得少/连胜/连败/熔岩龙/玉龙/没龙……的号的情况,不在这些样本中各取100个号排除干扰,根本没有说服力啊!


                    IP属地:湖北40楼2025-01-06 19:10
                    回复
                      测试仍然是比空谈更有效得多的解决问题的方式。对于那些长期的影响,数据的获取理论上不是有限的,我觉得各位在遇到什么“红利”相关问题时,都不妨设计一个试验自己测一测。一来,自己测试的数据自己肯定更放心,得到的结论也解答了疑问;二来,有更多人愿意时常进行一些较大规模、较完备的测试会不会也让狗卡安排红利的顾虑更多?我不好说,但至少能确定没什么坏处。
                      不过我觉得设计一个好的测试方案还是很重要的,一个测试方案最好是标准统一的、完全客观的、先完成设计并确定统计指标后开始测试的、不依赖玩家技术的(比如统计X局出了X次连弩或平均过X张牌可能不是一个尽善尽美的标准,包括我前面说的正式服无名杀单挑战绩对比如果是作为概率测试的话也不够合适),样本量和由结果到结论的过程也需要足够有说服力。这确实挺难的。我注意到隔壁站有斗地主主播在统计他贴的兵乐天过率,我平时没有看斗地主主播的习惯,但我在横跨几个月的好几天里各看了他不少个小时的直播,专门关注这个兵乐统计。只是看起来他统计时的漏样本现象比较严重,令人感到有些可惜(我非常能理解,也相信不是故意的)。我自己统计过一万牌我也知道花了多少时间,而一万牌的样本量反映到每个具体牌名上仍然有不能满足人们预期的情况(这可能也是直观感受问题,实际上一万牌的样本很难让这么多指标都精确到千分位级别),要想拆出更细的指标反映那些“平衡术”问题可能就需要更大的样本了。不过我感觉社区的力量肯定还是很大,保不齐还有人愿意投入时间做这个事。如果有人看见这段话之后打算这么做,那写这段话就是值得的。


                      IP属地:湖北41楼2025-01-06 19:16
                      收起回复
                        就这样吧,最近会争取把几个新将测完,特别是有一大箩筐麻烦对局的张奋,争取在春节左右在隔壁站再更一期视频


                        IP属地:湖北43楼2025-01-06 19:16
                        回复