243.数据工厂(1/2)
路舟走后,陆铭回到了实验室内。
他一边走到后排,吩咐助手将新买的显卡拆出来安装。显得要老旧点的是他从住所搬过来的gtx280,而大多则是微讯的员工送过来的英伟达最新型号gtx580。
去年发表的论文堪称震惊世人。论文中采用了gtx280来处理数层的神经网络。而在此之前,神经网络的发展是一直苦于cpu的处理速度限制,而即便是要使用gpu,也得为特定的问题制作特定的算法。
而说来让陆铭觉得巧的是,路舟年前给他提这事还让他颇为头疼。但就仅仅几天前,新发布的论文提供了一种快速、可参数化的卷积神经网络,这可当真是瞌睡了来枕头。
当然,对陆铭来讲麻烦事自然也有,比如数据集的问题、实习生的水平问题、最终实际应用的问题。
而这些都得靠时间一点点解决。
陆铭想了想就笑了起来,他是没多大心态变化,反而是更加期待这接下来的工作。
反正天大的事也不是他陆铭顶着,这背靠着小学弟他也就安心研究便是。
......
两周后,梦谷云低调上线了众包平台。
大多数关注到消息的网民第一反应,“?!”
尽管众包的模式并不算新鲜,但让人感到新鲜的在于众包中的项目。
梦谷众包分了数个栏目:语音转文字、图片转文字、图片标注和分类、脸部照片和视频、脚部照片等。
前头两项按照提交的量计费,而后两项则是一次计费。
有眼尖的互联网从业者这就认出了这梦谷众包模仿的是亚马逊众包。须知,著名的image中就有大量来自亚马逊众包的数据集。
梦谷云这是要搞事情啊?有没这么牛逼?
当然,外头怎么猜怎么想是别人的事情。
一周后。
此时的路舟正在前往郑市的飞机上。说来,这是他第一次去这城市。
路舟身边是坐了梦谷推广广南分公司的经理周凯。身后的周达和王强东倒不是必要来的,不过是和周凯相熟一起合作所以也是跟了过来。
事情的倒也简单,无非还是ai那点事,需要一些下游的公司来处理一些业务。
在陆铭的实验室研究项目开始运转后,路舟先是安排了微讯向海天瑞声购买了一批语音库供陆铭研究使用。
海天瑞声是早在98年开始就做着语音标注的业务。路舟所买下的语音数据库,里头的结构可以看成是一段语音对应一段文字。这样的库被广泛地用于训练ai,做语音识别或者转换等领域。
至于这些库的源头?那自然是人工听取再标注出文字数据。
而有语音标注,自然就也有图片、视频。这些都被称为数据标注。一个神经网络搭建后,需要用到的训练数据便大多是来自于这里头。
梦谷云上线众包或者路舟这次来郑市的目的也在于此,找人,认数据,练ai。
至于裨益,那简直是全方位的。几乎所有梦谷内的产品都能有所获益。
“周凯。”
“老板请讲。”
路舟摆了摆手,“叫我路舟吧还是。说说,你是怎么就这么大胆公司刚上众包一个月,你这就敢拉起工作室来搞的?”
周凯笑道,“那是老板一直赏饭吃。作为公司一员,我可得时刻关注公司的产品状况。这不众包一上,我和他俩一合计觉得可以弄,这就直接安排了搞。
咱这省是华夏人也知道,人多嘿嘿,自然招工成本也是低的。”
路舟点头,“那你们三人执行力也算挺强。”
周凯说道,“其实乡里本就有做这行的,有所见闻我这上手也快。”
随后路舟也不多问,毕竟具体还是要看了才知道状况。
这数据标注的事情,说来是简单,像周凯这样
他一边走到后排,吩咐助手将新买的显卡拆出来安装。显得要老旧点的是他从住所搬过来的gtx280,而大多则是微讯的员工送过来的英伟达最新型号gtx580。
去年发表的论文堪称震惊世人。论文中采用了gtx280来处理数层的神经网络。而在此之前,神经网络的发展是一直苦于cpu的处理速度限制,而即便是要使用gpu,也得为特定的问题制作特定的算法。
而说来让陆铭觉得巧的是,路舟年前给他提这事还让他颇为头疼。但就仅仅几天前,新发布的论文提供了一种快速、可参数化的卷积神经网络,这可当真是瞌睡了来枕头。
当然,对陆铭来讲麻烦事自然也有,比如数据集的问题、实习生的水平问题、最终实际应用的问题。
而这些都得靠时间一点点解决。
陆铭想了想就笑了起来,他是没多大心态变化,反而是更加期待这接下来的工作。
反正天大的事也不是他陆铭顶着,这背靠着小学弟他也就安心研究便是。
......
两周后,梦谷云低调上线了众包平台。
大多数关注到消息的网民第一反应,“?!”
尽管众包的模式并不算新鲜,但让人感到新鲜的在于众包中的项目。
梦谷众包分了数个栏目:语音转文字、图片转文字、图片标注和分类、脸部照片和视频、脚部照片等。
前头两项按照提交的量计费,而后两项则是一次计费。
有眼尖的互联网从业者这就认出了这梦谷众包模仿的是亚马逊众包。须知,著名的image中就有大量来自亚马逊众包的数据集。
梦谷云这是要搞事情啊?有没这么牛逼?
当然,外头怎么猜怎么想是别人的事情。
一周后。
此时的路舟正在前往郑市的飞机上。说来,这是他第一次去这城市。
路舟身边是坐了梦谷推广广南分公司的经理周凯。身后的周达和王强东倒不是必要来的,不过是和周凯相熟一起合作所以也是跟了过来。
事情的倒也简单,无非还是ai那点事,需要一些下游的公司来处理一些业务。
在陆铭的实验室研究项目开始运转后,路舟先是安排了微讯向海天瑞声购买了一批语音库供陆铭研究使用。
海天瑞声是早在98年开始就做着语音标注的业务。路舟所买下的语音数据库,里头的结构可以看成是一段语音对应一段文字。这样的库被广泛地用于训练ai,做语音识别或者转换等领域。
至于这些库的源头?那自然是人工听取再标注出文字数据。
而有语音标注,自然就也有图片、视频。这些都被称为数据标注。一个神经网络搭建后,需要用到的训练数据便大多是来自于这里头。
梦谷云上线众包或者路舟这次来郑市的目的也在于此,找人,认数据,练ai。
至于裨益,那简直是全方位的。几乎所有梦谷内的产品都能有所获益。
“周凯。”
“老板请讲。”
路舟摆了摆手,“叫我路舟吧还是。说说,你是怎么就这么大胆公司刚上众包一个月,你这就敢拉起工作室来搞的?”
周凯笑道,“那是老板一直赏饭吃。作为公司一员,我可得时刻关注公司的产品状况。这不众包一上,我和他俩一合计觉得可以弄,这就直接安排了搞。
咱这省是华夏人也知道,人多嘿嘿,自然招工成本也是低的。”
路舟点头,“那你们三人执行力也算挺强。”
周凯说道,“其实乡里本就有做这行的,有所见闻我这上手也快。”
随后路舟也不多问,毕竟具体还是要看了才知道状况。
这数据标注的事情,说来是简单,像周凯这样
本章未完,点击下一页继续阅读