2023年7月28日下午,由国内数智中医行业的领军企业南京大经中医药信息技术有限公司研发的“岐黄问道·大模型”在南京江北新区产业技术研创园隆重发布。来自医疗界、技术界、投资界、中医药与大健康产业界以及包括新华社、人民日报在内的新闻界的约100位嘉宾出席了发布会。
发布会开始,播放了大经中医企业宣传片《路》,介绍了大经中医成立7年来在中医数智化领域走过的跋涉之路、求索之路,以及在中医传承模式创新、人才培养模式创新、诊疗模式创新等方面取得的一系列成绩。
南京江北新区产业技术研创园党工委书记、管办主任蒋华荣,南京江北新区科技创新和大数据管理局副局长尚振柏分别致欢迎辞,介绍了江北新区鼓励和支持人工智能技术发展的举措,对大经中医的创新实践给予充分的肯定。
进入大模型发布的正式环节,大经中医创始人、董事长李文友首先就“岐黄问道·大模型”研发的背景、目的以及对中医大模型的思考做了题为《为什么是大模型?为什么是中医?为什么是大经中医?》的演讲,演讲的主要内容如下:
1、大语言模型改变了人与计算机的交互模式,从UI、OS、EMR等转变为自然语言,这种交互模式的改变将带来“流量入口”和“知识获取路径”的革命。
2、大语言模型最大的生命力来自于它在垂直领域乃至具体场景的应用,例如:
1)华为盘古大模型在气象、矿山、药物研发等领域的应用。
2)BloombergGPT在金融领域的应用,等。
3、大语言模型在垂直领域乃至具体场景的应用取决于:
1)高质量行业数据的获取;
2)行业内高水平专家对预训练模型的调整、反馈;
3)具体场景的业务深耕、对具体场景的业务理解(实现大模型与行业的有效结合)。
早在七年前,大经中医就提出“数智化是中医药发展的必由之路”,自大经中医成立以来的实践证明,这一判断是非常正确的。
1、中医临床诊疗数据、中医文献数据,大多是文本数据的形式,擅长自然语言识别、处理的大语言模型对于中医的传承、发展具有重要意义。
2、中医临床诊疗,既具有完善的理论体系,又具有较强的经验属性,这些经验深藏于浩瀚的中医文献、典籍中,深藏于大量的历代医家的医案、医话、医论中,所以学习中医才有“读经典、跟名师”之说,但理解、记忆、应用这些经验是一项艰难的任务,中医大语言模型的出现,将大大改变中医学习和人才培养的模式。
3、中医不仅仅是医学,也是中国人的生活方式,所以中医不仅存在于医院,也存在于家庭,存在于各种与健康相关的空间,在非医院的场景中,自然语言的交互方式,更符合普通人的沟通习惯。因此,中医大语言模型,将推动中医AI在更广泛的场景中落地。
A、数据优势
1、大经中医建立了包含25,000多个词条的中医症状、体征术语规范化词典,这是整个行业唯一的大规模、覆盖全病种的术语规范化词典,可大幅降低措辞差异对模型给出答案的影响。
2、中医的知识既非常个性化,又非常庞杂,同时中医历来有“道不传非人、法不传六耳”的传统,高质量数据非常私密,公开数据的质量又普遍较低,大经中医基于大量真实名老中医的诊疗经验和中医文献中的诊疗知识构建的中医诊疗知识图谱,涵盖内外妇儿等全学科以及经方时方、孟河岭南等全流派,是中医这个垂直领域中最高质量的行业数据。
3、大经中医有400多家等级医院、8,000多家基层医疗机构用户,这些机构的数据是大经中医开展中医AI训练的强大支撑。
B、人才优势
1、大经中医拥有全行业规模最大的中医-AI跨界研发团队,也拥有全行业最大的通过协议方式合作开展中医AI研究的名老中医团队,因此可以开展高质量的“基于人类反馈的强化学习”等工作。
2、大经中医与上海交通大学计算机科学与工程系大语言模型研发团队等国内一流的专家合作,基于双方的技术优势,1+1>2,形成强大的中医大模型研发团队。
C、应用优势
在多场景下的大量客户的应用,有助于:
1、训练高水平的理解行业场景和业务的中医垂直领域大模型;
2、持续迭代这个中医垂直领域大模型。
大经中医广泛且拥有大量用户的中医AI应用场景,有助于大模型的训练和持续迭代,这些场景包括:
1)类似于在上海中医药大学附属龙华医院、广东省中医院这样的等级医疗机构的应用;
2)类似于在南京市江宁区、淄博市高青县这样的区域中医医联体的应用;
3)类似于在山东、吉林等地基层村卫生室的应用;
4)类似于在上海市长宁区“为老服务中心”这样的大健康机构的应用;
5)类似于在“学习强国”APP面向C用户的应用。
1、从名老中医临床诊疗数据+中医文献数据到中医诊疗知识图谱:用知识图谱,来表达和存储名老中医诊疗经验和文献诊疗知识。
2、从中医诊疗知识图谱到中医领域预训练模型:利用千万级的中医知识图谱数据和临床诊疗数据,微调通用的预训练模型,使其更理解中医的思维和知识。
3、从中医领域预训练模型到岐黄问道大模型:基于中医领域预训练模型,由中医专家参与,利用奖励模型—强化学习机制,最终形成“岐黄问道·大模型”。
发挥大语言模型的优势,适配大经中医丰富的应用场景,大经中医“岐黄问道·大模型”包括三个方向的子模型:
1、基于已确诊疾病的临床诊疗大模型:根据用户提供的疾病、症状、体征信息,给出辨证结果和治疗方案(中药处方)。
2、仅仅基于症状、体征的临床诊疗大模型:根据用户提供的主诉症状和伴随症状、体征信息,给出辨证结果和治疗方案(中药处方)。
3、中医养生调理大模型:根据用户提供的症状、体征信息,给出个性化中医健康状态辨识结果,以及食疗、茶饮、推拿、艾灸等多维度养生方案。
另外可以向大家透露的是,基于不同技术路径的中医古籍大模型也在积极训练中,该模型将具备阅读、理解古籍,抽取“有用的”知识,对齐临床需求,形成“病-症-机-法-方-药”知识链的功能。
1、过去七年,大经中医的主力产品中医临床智能辅助诊疗系统建立起从标杆性三甲中医院到社区卫生服务中心和乡镇卫生院,再到诊所、门诊部、卫生室的各级医疗机构的应用生态。
2、今年伊始,集成了中医临床智能辅助诊疗系统和中医智能脉诊仪(中医智指)、中医智能舌面诊仪(中医智目)的大经数智中医一体化诊疗系统,已经走出“严肃医疗”的生态圈,扩展到“中医大健康”的生态圈。
3、随着大经中医“岐黄问道·大模型”的发布,大经“中医大健康”的生态圈将进一步做大、做强,我们欢迎相关领域的合作伙伴时不我待、加入这个前途无量的生态圈,与我们一起开创中医AI的伟大前程——
1)我们拥抱所有开展中医诊疗服务、治未病服务的医疗机构、互联网医疗机构;
2)我们拥抱所有开展中医慢病管理、中医养生保健服务的养老机构、康养机构;
3)我们拥抱所有开展中医养生保健服务的企业健康驿站、社区健康中心、养生馆、美容院;
4)我们拥抱所有的中医类大专院校;
5)我们拥抱所有的中医类文化馆、博物馆;
6)我们拥抱所有将中医融入生活的家庭和个人!
在“岐黄问道·大模型”演示环节,分别进行了两种形式、三种情况的演示:
1、现场实测:由年轻医生现场输入模拟真实患者的“疾病-症状-体征”信息,大模型输出辨证结果、治则治法和中药方剂;
2、录屏演示:未明确诊断为某种疾病,仅输入症状、体征信息,大模型输出辨证结果、治则治法、中药方剂;
3、录屏演示:输入症状、体征信息,大模型输出中医健康状态辨识结果及中药、经络穴位、食疗、茶饮等系列养生调理方案。
其后,大经中医“岐黄问道·大模型”技术总监王祺就该模型的“前世今生”做了题为《岐黄问道·大模型,从数据到产品和服务》的演讲,主要内容如下:
在过去半年的时间里,AI领域诞生了“百模大战”,各类大模型层出不穷,大经中医的“岐黄问道·大模型”,有什么差异化的独特价值呢?我们总结出了核心的三点:
1、数据:大模型的基础是数据,没有过去七年大经中医日复一日高质量数据的积累,就没有“岐黄问道·大模型”;
2、产品:原有的基于知识图谱的产品体系,是支撑“岐黄问道·大模型”的基础,这次是产品的升级;
3、服务:“岐黄问道·大模型”降低了中医行业使用AI产品的门槛。
数据:七年千万级别的中医数据积累,炼成“岐黄问道·大模型”:
1、首先,我们把大模型的能力划分为三阶段:
第二阶段能力:通过大量中医领域高质量数据的训练,以及大量由中医专家参与的调整、反馈工作,让大模型增加对中医知识和中医思维的理解;
第三阶段能力:当“基础能力”叠加了“行业能力”,大模型就具备了中医垂直领域的提炼、分类、模仿、推测、识别等AI能力,与中医行业多种业务场景结合起来,成为可落地、可使用的中医大模型。
回到第二阶段,在中医数据领域,大经中医过去七年积累了极为丰富的中医行业的独有数据,在“岐黄问道·大模型”的训练中,目前我们使用的数据集包含:
1100万条中医知识图谱数据;
1500本中医古籍和文献数据;
10万份真实中医专家医案数据;
10万条脉象、舌象、经络、穴位数据;
200万条真实的中医临床诊疗数据。
千万条的数据量规模,比起当下大模型动辄几兆条的数据量,看似不是那么大。但是从事过AI训练的同学应该了解,1条高质量的经过清洗的数据,比100条互联网泛内容的数据价值要高得多。而大经中医目前用于AI训练的千万条数据,都是属于高质量的经过清洗的数据,为了这些数据,大经中医过去几年投入的费用高达数千万。
经过大规模中医数据的学习,“岐黄问道·大模型”就具备了在中医行业特有的AI推理能力,这些能力应用到了两大核心场景中:
严肃医疗场景,主要面向的是中医辅助诊疗;
大健康养生场景,主要面向的是中医健康养生服务。
产品:“岐黄问道·大模型”是原知识图谱的产品的升级:
1、过去七年,大经中医已经构建了完备的中医知识图谱体系,并应用于中医CDSS系统中,系统根据医生输入的疾病、症状、体征信息,可以非常准确地推理出证型、治法、方药结果。现在,我们将这个知识图谱体系转化为1100万条中医的自然语义数据,作为“养料”训练“岐黄问道·大模型”,这也是“岐黄问道·大模型”能够生长发芽的底层土壤。
2、基于知识图谱的应用,大经中医已经形成了一整套完整的端到端业务流程。而“岐黄问道·大模型”对于自然语言的应用,使得这个业务流程,变的更为高效和便捷。
比如:
1)在问诊环节,过去医生更多地通过规范化症状、体征的点选输入患者信息,现在基于大模型,可以直接通过自然语言描述输入患者信息。如此,过去在问诊中丢失的沟通细节,基于大模型可以全部囊括进来。
2)在AI辨证环节,现在大模型的“智能”不仅局限于知识图谱,还扩展到了那些包含在医案数据、临床诊疗数据等更广泛、更大量数据当中的知识,使得AI辨证论治的深度、广度都有了很大的延伸。
3、至于如何训练“岐黄问道·大模型”,这个话题因为大模型的底层训练方式已经公开,也变得更容易理解。我们采用4层递进的训练方式,分别是预训练监督微调奖励模型强化学习。目前第一、第二阶段的工作已经完成,主要精力放在第三、第四阶段的奖励模型和强化学习上,通过不断迭代和专家评估,提升AI回复的准确性。
4、这是我们后台正在使用的奖励模型和强化学习的系统截图,可以看到还有大量的工作需要中医和AI两方面的专家协作完成。大家可以关注下中医专家评估的ID,目前计数器已经到了 1704605万,非常庞大的数据规模,我们的中医专家非常辛苦。
服务:更低使用门槛,服务更多中医用户场景:
1、刚刚我们从产品角度,分析了“岐黄问道·大模型”的工作流程。而因为这些流程的改变,大经中医今后将具备更广泛的服务能力。
我们对关键参数进行了横向对比,原来对于专业度要求很高的诊疗流程,很难在低年资医生当中进行普及,有了“岐黄问道·大模型”之后,低年资医生借助AI也可以完成一些中等专业度要求的诊疗流程,且整体的时间消耗会更少。
与此同时,大模型的应用,使得问诊环节减少了信息流失,“医患沟通”的所有数据都被保留下来,诊疗过程中沉淀的更通用的数据集将以十倍乃至百倍的规模增加。
而对于大模型回答问题的准确性,虽然目前阶段相较于原有CDSS系统超高的准确性仍有差距,但在过去几个月中,大模型回答问题的准确性已经从30%提升到了60%,进步非常明显,取得了长足的进步,后期利用大模型沉淀的数据集持续训练,加上专家持续的评估和反馈,其准确性还会不断提升。
2、目前的中医CDSS系统,主要应用于中医医疗机构的用户。
我们一直希望中医能够发扬光大,推广到更广泛的场景,在更大范围普及中医知识。但限于技术的复杂度,非专业人员很难有效使用中医CDSS辅助诊疗系统。但基于自然语言交互的“岐黄问道·大模型”解决了这个问题,刚刚也提到,它的使用门槛更低,我们可以将它推向更多中医用户场景,而随着这些场景的推广,我们的“岐黄问道·大模型”,也将变得越来越智能!
发布会最后,播放了来自全国各地的中医医生、中医大学学生、中医爱好者、养老机构志愿者、中医大健康从业者等对于“岐黄问道·大模型”发布的祝贺视频,展现了社会各界对于中医大模型的热切期待。