当前任成了科研大佬后 第16节(2/3)

投票推荐 加入书签

中医药材分类。

    唐念根据提示登进服务器,数据是从74万篇中医古籍中采集出来的6.5万种药材,里面有很多别名、错名、重复等干扰项,需要先删除重复、冗余或噪声数据,再人工标注并对数据进行归类。

    唐念以前做过机器学习方面的比赛,懂得归类问题的基本步骤,一般先是建立词汇表,获取每个词的embedding,然后使用进行特征提取,最后挑选算法做二分类。

    唐念凭借多年工作形成的肌肉记忆,搭建了个算法框架,把6.5万条数据灌进去,结果出来后拿着对照组验证准确度。

    陈知礼从办公桌前走出,走到她身后,只扫一眼得出结论:“过拟合了,重测。”

    “……”

    唐念只好删掉记录,又重新跑了一遍,陈知礼看一眼,仍不满意:“我说的重测是让你换一种算法,不是让你拿着3000万美金的gpu在这磨时间,消耗性能,ok?”

    “……”

    那你一开始说清楚啊!

    “还有,你样本选的有问题,smote得到的增强样本有误差,可能已经偏离了原来的语义,大概是文本embedding后距离向量处于高维空间,需要映射到低维再处理。”

    唐念没听懂,一脸茫然地看着他。

    “看我干什么,数据增强不会做就去查资料,瞪着一双大眼只会喘气吗?”

    他的火气太明显,唐念懂了,他根本就不是让她来干活的,寻个理由拿她撒气罢了,所以无论她做什么都不可能令他满意。

    “你说话就说话,大声吼什么,我怕狗叫!”

    她最近根本没得罪他,上课不迟到,文献也好好翻译完了,都不知道他在这发的什么神经。

    当然,犯病是不需要理由的。

    陈知礼目光忽然移过来,唐念也看着他,四目相对,谁也不服谁。

    唐念是娃娃脸的长相,眼睛圆,皮肤奶白,鼻头微翘,齐刘海盖住细长的眉,五官精致得像漫画里走出的少女。

    此刻她正直勾勾瞪着他,有点奶凶奶凶的。

    陈知礼冷淡地回视一眼,眼神嘲讽:“这不是挺会怼嘛。”

    “……”

    “跟我就能伶牙俐齿,怎么被别人欺负的时候嘴皮子就没这么溜,只会点头哈腰说对不起了。”

    “你跟他道的什么歉,难道就听不出来他是在故意找你麻烦?”

    “你脾气越好他就越是得寸进尺,这个道理都不懂?”

    虽然他这话说的很不中听,但似乎是在为她谋不平,唐念还真不需要:“不用你管。”

    她坐回电脑前继续工作,把几个算法梳理一遍,调参重跑,想早点干完,早点离开是非之地。

    “没人想管你。”

    陈知礼也没心情和她吵,接了个电话。

    随后,把门阖上,下楼去了。

    是韩琦教授团队打来的电话。

    这次合作他们负责数据的采集和入库,以建立大型中医汉语语料库。这些数据不仅来源传统中医知识,还可能来自网页数据、小说数据、各大医院问诊、手写医嘱等,数据的整理和收集就变得非常繁琐且复杂。

    韩琦教授团队毕竟只精通中医,不懂技术,所以陈知礼这边会给予技术支持。

    “陈老师有时间吗?”

    “你说。”

    “我们目前已经把45家中医院校还有400多家中医机构的诊断记录收集起来,目前有个问题是这类资料大多是手写,字迹潦草,我们很难用扫描识别的方式转化为电子版,人工辨别的话则成本太高,您这边有没有好的办法?”

    陈知礼想了想,觉得这事在电话里一时半会说不清楚:“我下周抽空过去看一下。”

    工作人员:“好的,麻烦您了。”

    那头工作人员又叽叽咕咕说了一堆遇到的问题,陈知礼说下周统一解决,对面表达感谢。

    挂断电话,他看了眼手机,想起荀教授那边还有点事,就顺便过去一趟,等处理完回到科研楼已经六点钟了。

    陈知礼摁着太阳穴上楼,推开办公室的门,看见唐念还在。

    夕阳穿透窗玻璃,斜斜落在她身上,落下一道温暖的弧度。

    她趴在电脑桌前,脑袋枕着自己的胳膊,长发散落,像是睡着了。
<

本章未完,点击下一页继续阅读

章节目录