第96章 老师是变態
第96章 老师是变態
吴辰能猜到她心中所想。
但这也正是他所希望的效果。
不论是姜楠还是閔欣柔,也不论感情如何发展。
和自己工作的时候,她们必须拿出工作时该有的状態。
而閔欣柔也不负他的期待,压下其他心思,开始思考如何解决问题。
过了半晌后,她终於想清楚了。
“老师,如果像我这样標记5000条数据是没有意义的,因为这些內容不是给人看的,是给机器看的,对吗?”
“思路对了,所以研究人工智慧的时候,看似在和文字打交道,实际上最终都会转换为数学问题————那么接下来呢,应该怎么做?”
吴辰夸奖了一句。
能理解人的视角和机器视角的不同,是成为优秀工程师关键的一步。
受到鼓励,閔欣柔也大胆的放开了思路。
“我应该选选择出来5000条高质量的帖子,然后將这些帖子进行分词,然后將这些帖子拆分成最小的字符单位,编写一个脚本统计所有相邻字符对的出现频率,频率最高的组合就合併成一个新的词,循环往復,最后用您说bpe算法,来构建一个至少包含3万个常用token的中文基础词表。”
閔欣柔的意思是这样:
一口气说完,閔欣柔也终於明白了吴辰之前让她標註5000条数据的真正意图。
她感觉自己终於將看过的论文和手头正在做的事情串了起来。
“不错。”
吴辰点点头表示认可。
针对bpe算法的实现,他又提点了一番具体的思路。
特別是如何处理未登录词的边界情况。
接下来,閔欣柔只要按部就班的实现就好了。
帮她理清思路后,吴辰也要开始自己的工作了。
他想了想,拿出了马克送的新鲜苹果电脑,对閔欣柔道:“我要用这台新电脑工作,你等一会儿再做。”
閔欣柔下意识的问道:“那旧的呢?”
“旧的我————先给你用,你写数据处理算法对电脑性能有要求。”
吴辰说。
他目前需要做的工作是阅读文献和设计transformer的顶层架构,以便儘快完成gpt—1的开发,对电脑性能並没有太大要求,用苹果电脑看文档正合適。
而閔欣柔需要处理大规模的数据,正需要启明一號这样四卡並联的算力怪兽。
吴辰开始拷贝数据的时候,閔欣柔划著名电脑椅帮他去泡咖啡。
趁著她不在,吴辰打算先把比较重要的日语学习资料给拷出来。
不过打开文件夹后,他突然发现最近访问目录中,竟然有他存放日语学习资料的打开记录!
难道閔欣柔打开看过?
这就让吴辰很尷尬了。
他有一个朋友喜欢玉足,所以在他的电脑上存放了许多奇怪的视频,標题也很夸张,如果让人以为是吴辰自己喜欢,那太冤枉了。
於是在閔欣柔泡咖啡回来后,吴辰神態隨意的开口。
“电脑硬碟的空间不太够,我打算清理一下,你在上面没放什么数据吧?”
閔欣柔摇了摇头:“除了今晚发研究资料目录下的文档给您,我没有动其他的东西。”
“那就行。”
吴辰咳嗽一声后略微放下了心。
应该是她找文件的时候不小心点错了,毕竟研究资料和学习资料两个文件夹离的很近嘛。
閔欣柔是个乖孩子,肯定不会乱翻东西。
拷贝好自己的资料后,吴辰就將位置让开,坐到旁边开始和閔欣柔一起工作。
虽然已经晚上10点钟,但师徒俩都没有睡觉的打算。
閔欣柔是因为有了新的解决思路,急著进行实践。
而吴辰则是打算先解决苹果的问题。
虽然他跟马克约的是一星期后交出修复方案。
但他开启思维加速看了几个拆解视频,又用工程圣手研究了一番苹果的设计后后,就得出了两套解决方案。
这个问题其实既有英飞凌的基带晶片问题,也有苹果的设计问题。
所以吴辰给出了两套解决方案。
一套是短期的解决方案:
修改基带固件中的迟滯策略,將3g网络向2g切换的信號閾值降低3dbm,並增加500毫秒的判断延迟,防止在信號波动时出现乒兵切换导致的掉线。
另一套是长期的解决方案,需要修改硬体:
优化射频前端的供电电路,在基带晶片和功放之间增加一级稳压电容,防止高功率发射时的电压跌落导致基带復位。
至於怎么选,那就是贾伯斯和马克需要做出的选择了。
问题解决后,吴辰从思维加速的效果中退出来,心情十分愉悦。
他只用了10分钟时间就换来帕罗阿尔托的设计文档。
一个字:值。
这就是那个经典的道理。
怎么拧螺丝不值钱,但知道在哪里拧螺丝才是最值钱的。
愜意的喝了口咖啡,他又进入深度阅读状態,开始研究谷歌tpu的核心架构:
脉动阵列(systolicarray)。
既然amd给了他mpw的拼车资格,那他必须快速利用起来,准备製造自己的第一波tpu晶片。
当然直接做出谷歌2025年的tpu是不可能的。
製造它需要海量的知识,包括但不限於:
半导体物理基础、集成电路设计原理、光刻胶材料特性、数位讯號处理架构、低功耗电路设计技术、晶圆封装测试標准————
所以吴辰第一步的打算,是做出性能和fpga验证版差不多的就行。
它的核心任务只有一个:
疯狂加速矩阵乘法(matmui)运算。
就算这样,在推理的运算上,也能吊打英伟达目前最强的gtx280了。
一小时的时间转瞬即逝。
深度阅读状態结束后,吴辰稍微休息了几分钟,然后看了看閔欣柔的电脑。
她还在全神贯注地调试著统计字频的python脚本。
看她的神態,似乎已经进入了所谓的“心流”状態,完全沉浸在了自己的世界里。
吴辰也没打扰她,轻轻的站起身回臥室睡觉去了。
直到凌晨两点多,閔欣柔才终於完成了脚本的初步调试,简单测试了一下也没什么问题,成功输出了第一批高频词表。
从明天开始,她就可以快速收集高质量的帖子然后跑数据了。
这样算下来,剩下八天的时间完全足够她整理完5000万条数据的清洗工作。
甚至可能还有时间帮吴辰做预训练的准备。
閔欣柔想和吴辰分享喜悦。
但一转头,才发现他已经离开了。
只有吴淑芬察觉到她的动作,从睡梦中抬起头来对她喵了一声。
閔欣柔瞅了一眼主臥紧闭的房门,听到从里面传来了微微的鼾声。
於是她抱起吴淑芬放到自己的腿上,然后慢慢的划著名电脑椅回到了次臥。
艰难的爬上床后,閔欣柔看了看自己红肿的脚腕。
想起吴辰电脑上那些奇怪的视频,她就感觉自己脸上像火烧一样。
“老师是变態!”
她悄声嘀咕了一句。
然后似乎想到了什么,她连忙用被子蒙住头,挡住了窗外的月光和吴淑芬探究的目光。
接下来的几天,两人都相安无事的“同居”著。
没有狗血的剧情,也没有发生什么浴室滑倒之类的暖昧意外。
而且虽然是十一假期,但两人都有巨量的工作要忙。
閔欣柔需要完成基础数据的標註。
吴辰则是一方面要主持改造榛果电子厂的生產线,让它能满足安防摄像头的生產。
另一方面,他还得想办法解决电子厂未来生產显卡的问题。
现在3亩的占地面积实在是太小了。
吴辰能猜到她心中所想。
但这也正是他所希望的效果。
不论是姜楠还是閔欣柔,也不论感情如何发展。
和自己工作的时候,她们必须拿出工作时该有的状態。
而閔欣柔也不负他的期待,压下其他心思,开始思考如何解决问题。
过了半晌后,她终於想清楚了。
“老师,如果像我这样標记5000条数据是没有意义的,因为这些內容不是给人看的,是给机器看的,对吗?”
“思路对了,所以研究人工智慧的时候,看似在和文字打交道,实际上最终都会转换为数学问题————那么接下来呢,应该怎么做?”
吴辰夸奖了一句。
能理解人的视角和机器视角的不同,是成为优秀工程师关键的一步。
受到鼓励,閔欣柔也大胆的放开了思路。
“我应该选选择出来5000条高质量的帖子,然后將这些帖子进行分词,然后將这些帖子拆分成最小的字符单位,编写一个脚本统计所有相邻字符对的出现频率,频率最高的组合就合併成一个新的词,循环往復,最后用您说bpe算法,来构建一个至少包含3万个常用token的中文基础词表。”
閔欣柔的意思是这样:
一口气说完,閔欣柔也终於明白了吴辰之前让她標註5000条数据的真正意图。
她感觉自己终於將看过的论文和手头正在做的事情串了起来。
“不错。”
吴辰点点头表示认可。
针对bpe算法的实现,他又提点了一番具体的思路。
特別是如何处理未登录词的边界情况。
接下来,閔欣柔只要按部就班的实现就好了。
帮她理清思路后,吴辰也要开始自己的工作了。
他想了想,拿出了马克送的新鲜苹果电脑,对閔欣柔道:“我要用这台新电脑工作,你等一会儿再做。”
閔欣柔下意识的问道:“那旧的呢?”
“旧的我————先给你用,你写数据处理算法对电脑性能有要求。”
吴辰说。
他目前需要做的工作是阅读文献和设计transformer的顶层架构,以便儘快完成gpt—1的开发,对电脑性能並没有太大要求,用苹果电脑看文档正合適。
而閔欣柔需要处理大规模的数据,正需要启明一號这样四卡並联的算力怪兽。
吴辰开始拷贝数据的时候,閔欣柔划著名电脑椅帮他去泡咖啡。
趁著她不在,吴辰打算先把比较重要的日语学习资料给拷出来。
不过打开文件夹后,他突然发现最近访问目录中,竟然有他存放日语学习资料的打开记录!
难道閔欣柔打开看过?
这就让吴辰很尷尬了。
他有一个朋友喜欢玉足,所以在他的电脑上存放了许多奇怪的视频,標题也很夸张,如果让人以为是吴辰自己喜欢,那太冤枉了。
於是在閔欣柔泡咖啡回来后,吴辰神態隨意的开口。
“电脑硬碟的空间不太够,我打算清理一下,你在上面没放什么数据吧?”
閔欣柔摇了摇头:“除了今晚发研究资料目录下的文档给您,我没有动其他的东西。”
“那就行。”
吴辰咳嗽一声后略微放下了心。
应该是她找文件的时候不小心点错了,毕竟研究资料和学习资料两个文件夹离的很近嘛。
閔欣柔是个乖孩子,肯定不会乱翻东西。
拷贝好自己的资料后,吴辰就將位置让开,坐到旁边开始和閔欣柔一起工作。
虽然已经晚上10点钟,但师徒俩都没有睡觉的打算。
閔欣柔是因为有了新的解决思路,急著进行实践。
而吴辰则是打算先解决苹果的问题。
虽然他跟马克约的是一星期后交出修复方案。
但他开启思维加速看了几个拆解视频,又用工程圣手研究了一番苹果的设计后后,就得出了两套解决方案。
这个问题其实既有英飞凌的基带晶片问题,也有苹果的设计问题。
所以吴辰给出了两套解决方案。
一套是短期的解决方案:
修改基带固件中的迟滯策略,將3g网络向2g切换的信號閾值降低3dbm,並增加500毫秒的判断延迟,防止在信號波动时出现乒兵切换导致的掉线。
另一套是长期的解决方案,需要修改硬体:
优化射频前端的供电电路,在基带晶片和功放之间增加一级稳压电容,防止高功率发射时的电压跌落导致基带復位。
至於怎么选,那就是贾伯斯和马克需要做出的选择了。
问题解决后,吴辰从思维加速的效果中退出来,心情十分愉悦。
他只用了10分钟时间就换来帕罗阿尔托的设计文档。
一个字:值。
这就是那个经典的道理。
怎么拧螺丝不值钱,但知道在哪里拧螺丝才是最值钱的。
愜意的喝了口咖啡,他又进入深度阅读状態,开始研究谷歌tpu的核心架构:
脉动阵列(systolicarray)。
既然amd给了他mpw的拼车资格,那他必须快速利用起来,准备製造自己的第一波tpu晶片。
当然直接做出谷歌2025年的tpu是不可能的。
製造它需要海量的知识,包括但不限於:
半导体物理基础、集成电路设计原理、光刻胶材料特性、数位讯號处理架构、低功耗电路设计技术、晶圆封装测试標准————
所以吴辰第一步的打算,是做出性能和fpga验证版差不多的就行。
它的核心任务只有一个:
疯狂加速矩阵乘法(matmui)运算。
就算这样,在推理的运算上,也能吊打英伟达目前最强的gtx280了。
一小时的时间转瞬即逝。
深度阅读状態结束后,吴辰稍微休息了几分钟,然后看了看閔欣柔的电脑。
她还在全神贯注地调试著统计字频的python脚本。
看她的神態,似乎已经进入了所谓的“心流”状態,完全沉浸在了自己的世界里。
吴辰也没打扰她,轻轻的站起身回臥室睡觉去了。
直到凌晨两点多,閔欣柔才终於完成了脚本的初步调试,简单测试了一下也没什么问题,成功输出了第一批高频词表。
从明天开始,她就可以快速收集高质量的帖子然后跑数据了。
这样算下来,剩下八天的时间完全足够她整理完5000万条数据的清洗工作。
甚至可能还有时间帮吴辰做预训练的准备。
閔欣柔想和吴辰分享喜悦。
但一转头,才发现他已经离开了。
只有吴淑芬察觉到她的动作,从睡梦中抬起头来对她喵了一声。
閔欣柔瞅了一眼主臥紧闭的房门,听到从里面传来了微微的鼾声。
於是她抱起吴淑芬放到自己的腿上,然后慢慢的划著名电脑椅回到了次臥。
艰难的爬上床后,閔欣柔看了看自己红肿的脚腕。
想起吴辰电脑上那些奇怪的视频,她就感觉自己脸上像火烧一样。
“老师是变態!”
她悄声嘀咕了一句。
然后似乎想到了什么,她连忙用被子蒙住头,挡住了窗外的月光和吴淑芬探究的目光。
接下来的几天,两人都相安无事的“同居”著。
没有狗血的剧情,也没有发生什么浴室滑倒之类的暖昧意外。
而且虽然是十一假期,但两人都有巨量的工作要忙。
閔欣柔需要完成基础数据的標註。
吴辰则是一方面要主持改造榛果电子厂的生產线,让它能满足安防摄像头的生產。
另一方面,他还得想办法解决电子厂未来生產显卡的问题。
现在3亩的占地面积实在是太小了。